Teoreema
Teoreema
Tilastollisten muuttujien välinen suhde
Kaksiulotteissa tilastoissa voidaan havaita erilaisia riippuvuuksia. Näitä riippuvuussuhteita voidaan kuvata tilastollisin menetelmin. Yksi tapa on laskea korrelaatio, joka kuvaa kuinka voimakkaassa riippuvuussuhteessa tutkittavat kaksi muuttujaa on keskenään. Esimerkiksi opiskelijan pituus ja paino, pituus ja kengännumero, säännöllinen opiskelu ja kurssimenestys, jne. Tilastollisten muuttujien välistä suhdetta voidaan tutkia regression avulla. Siis onko mahdollista löytää matemaattinen mallin kahden eri muuttujan välille. Tässä luvussa opetellaan näiden tilastollisten asioiden määrittämistä teknisiä apuvälineitä hyödyntäen. Kolmantena asiana tässä luvussa keskitytään tilastollisten kuvaajien muodostamiseen.
Lineaarinen regressio
Jos kaksi muuttujaa ovat positiivisessa riippuvuussuhteessa keskenään, niin niiden välille voidaan mallintaa yhtälö. Muuttujien hajontakuviota arvioimalla voidaan päätellä onko riippuvuus lineaarista tai jonkin käyrän (eksponentiaalinen, logaritminen, polynomi, jne.) mukaista. Kun riippuvuussuhteelle on määritetty yhtälö, niin satunnaisia havaintoarvoja voidaan määrittää molempiin suuntiin. Yksinkertaisin malli on lineaarinen regressio, jossa muuttuja kasvaessa kasvaa myös muuttuja samassa suhteessa. Tällaisen regressiosuoran yhtälö on muotoa . Se voidaan laskea ihan tilastollisilla menetelmillä, mutta lukiomatematiikassa analysointi on mielekkäintä tehdä taulukkolaskentaohjelman avulla.
Lineaarisen regressiosuoran yhtälö: , missä on kulmakerroin ja on vakio. |
Korrelaatio, r
Korrelaatiokertoimen arvot ovat välillä [-1, 1]. Jos korrelaatio on lähellä arvoa 1, niin se on hyvin voimakasta ja samansuuntaista eli positiivista. Jos korrelaatio on lähellä arvoa -1, niin se on hyvin voimakasta ja erisuuntaista eli negatiivista. Jos korrelaatio on lähellä arvoa nolla, niin muuttujat keskenään ovat heikossa vuorovaikutussuhteessa keskenään. Tämä tarkoittaa sitä, että tarkasteltavien kahden muuttujan välillä ei ole ollenkaan riippuvuussuhdetta, eli toisen muuttujan arvon perusteella ei voi ennustaa toisen muuttujan arvoa.
Esimerkiksi, jos jossakin otannassa pitkät ihmiset olisivat keveitä ja lyhyet ihmiset painavampia, niin pituus ja paino korreloisivat negatiivisesti. Yleensä pitemmät ihmiset painavat oletusarvoisesti enemmän ja lyhyet ihmiset vastaavasti vähemmän ja korrelaatio olisi positiivista. Siis, jos korrelaatio on lähellä arvoa -1, silloin toisen muuttujan arvo on pieni ja toisen suuri ja päinvastoin. Laskimissa ja yleisimmissä tietokoneohjelmissa käytetään yleensä Pearsonin korrelaatiota. Tarvittaessa korrelaatio voidaan laskea Pearsonin korrelaatiokertoimen kaavalla:
Seuraavassa kuvassa esitetään adjektiivien avulla korrelaation tulkintaa:
Taulukkolaskentaohjelmalla on mielekästä tutkia lineaarista regressiota ja korrelaatiota.
Esimerkki 1: Opiskelijoiden pituuksia ja painoja
Erään oppilasryhmän pituudet ja painot jakaantuivat seuraavasti.
Määritä mahdolliset tilastolliset tunnusluvut, regressiosuora ja korrelaatio. Mitä korrelaatio kertoo? Kuinka pitkä mallin mukaisesti on 70 kg painava henkilö?
Voit avata aloitustiedoston tästä (LO).
Ratkaisu:
Alla olevassa kuvassa kuvaajan saa piirrettyä pistediagrammiin (XY-hajonta) valitsemalla (klikataan pistekoordinaatteja, jolloin niiden keskelle tulee vihreät neliöt) pistejoukolle trendiviiva. Samalla voi valita lineaarisen regression ja edelleen valitsemalla näytä funktio.
Voit avata ratkaisutiedoston tästä (LO-RATKAISU).
Alla olevassa kuvassa on TI-Nspirellä ratkaistu yhtälö, kun lineaariseen regressiosuoraan on y:n paikalle sijoitettu arvo 70. Ratkaisuksi on saatu 70 kg painavalle henkilölle pituudeksi noin 172 cm.
Vastaus: Opiskelijoiden pituuksilla ja painoilla on otoksen mukaan voimakas korrelaatio (). 70 kg painava henkilö on regressiosuoran mallinmukaisesti noin 172 cm pitkä.
Tässä vielä videot LibreOfficen calcilla tehtynä:
Malliratkaisu LibreOfficella (
Malliratkaisu LibreOfficella (
Esimerkki 2: Hauen kasvu
Voit avata ratkaisutiedoston tästä (LO-RATKAISU).
Nyt esimerkiksi CASIOLLA: