Tilastollisten muuttujien välinen suhde

Kaksiulotteissa tilastoissa voidaan havaita erilaisia riippuvuuksia. Näitä riippuvuussuhteita voidaan kuvata tilastollisin menetelmin. Yksi tapa on laskea korrelaatio, joka kuvaa kuinka voimakkaassa riippuvuussuhteessa tutkittavat kaksi muuttujaa on keskenään. Esimerkiksi opiskelijan pituus ja paino, pituus ja kengännumero, säännöllinen opiskelu ja kurssimenestys, jne. Tilastollisten muuttujien välistä suhdetta voidaan tutkia regression avulla. Siis onko mahdollista löytää matemaattinen mallin kahden eri muuttujan välille. Tässä luvussa opetellaan näiden tilastollisten asioiden määrittämistä teknisiä apuvälineitä hyödyntäen. Kolmantena asiana tässä luvussa keskitytään tilastollisten kuvaajien muodostamiseen.

Lineaarinen regressio

Jos kaksi muuttujaa ovat positiivisessa riippuvuussuhteessa keskenään, niin niiden välille voidaan mallintaa yhtälö. Muuttujien hajontakuviota arvioimalla voidaan päätellä onko riippuvuus lineaarista tai jonkin käyrän (eksponentiaalinen, logaritminen, polynomi, jne.) mukaista. Kun riippuvuussuhteelle on määritetty yhtälö, niin satunnaisia havaintoarvoja voidaan määrittää molempiin suuntiin. Yksinkertaisin malli on lineaarinen regressio, jossa muuttuja  kasvaessa kasvaa myös muuttuja  samassa suhteessa. Tällaisen regressiosuoran yhtälö on muotoa . Se voidaan laskea ihan tilastollisilla menetelmillä, mutta lukiomatematiikassa analysointi on mielekkäintä tehdä taulukkolaskentaohjelman avulla.

 

Lineaarisen regressiosuoran yhtälö: 

, missä  on kulmakerroin ja  on vakio.

 

Korrelaatio, r

Korrelaatiokertoimen arvot ovat välillä [-1, 1]. Jos korrelaatio on lähellä arvoa 1, niin se on hyvin voimakasta ja samansuuntaista eli positiivista. Jos korrelaatio on lähellä arvoa -1, niin se on hyvin voimakasta ja erisuuntaista eli negatiivista. Jos korrelaatio on lähellä arvoa nolla, niin muuttujat keskenään ovat heikossa vuorovaikutussuhteessa keskenään. Tämä tarkoittaa sitä, että tarkasteltavien kahden muuttujan välillä ei ole ollenkaan riippuvuussuhdetta, eli toisen muuttujan arvon perusteella ei voi ennustaa toisen muuttujan arvoa.

Esimerkiksi, jos jossakin otannassa pitkät ihmiset olisivat keveitä ja lyhyet ihmiset painavampia, niin pituus ja paino korreloisivat negatiivisesti. Yleensä pitemmät ihmiset painavat oletusarvoisesti enemmän ja lyhyet ihmiset vastaavasti vähemmän ja korrelaatio olisi positiivista. Siis, jos korrelaatio on lähellä arvoa -1, silloin toisen muuttujan arvo on pieni ja toisen suuri ja päinvastoin. Laskimissa ja yleisimmissä tietokoneohjelmissa käytetään yleensä Pearsonin korrelaatiota. Tarvittaessa korrelaatio voidaan laskea Pearsonin korrelaatiokertoimen kaavalla:

Seuraavassa kuvassa esitetään adjektiivien avulla korrelaation tulkintaa:

Taulukkolaskentaohjelmalla on mielekästä tutkia lineaarista regressiota ja korrelaatiota.

Esimerkki 1: Opiskelijoiden pituuksia ja painoja

Erään oppilasryhmän pituudet ja painot jakaantuivat seuraavasti.

Määritä mahdolliset tilastolliset tunnusluvut, regressiosuora ja korrelaatio. Mitä korrelaatio kertoo? Kuinka pitkä mallin mukaisesti on 70 kg painava henkilö?

Voit avata aloitustiedoston tästä (LO).

Ratkaisu:

Alla olevassa kuvassa kuvaajan saa piirrettyä pistediagrammiin (XY-hajonta) valitsemalla (klikataan pistekoordinaatteja, jolloin niiden keskelle tulee vihreät neliöt) pistejoukolle trendiviiva. Samalla voi valita lineaarisen regression ja edelleen valitsemalla näytä funktio.

Voit avata ratkaisutiedoston tästä (LO-RATKAISU).

Alla olevassa kuvassa on TI-Nspirellä ratkaistu yhtälö, kun lineaariseen regressiosuoraan on y:n paikalle sijoitettu arvo 70. Ratkaisuksi on saatu 70 kg painavalle henkilölle pituudeksi  noin 172 cm.

Vastaus: Opiskelijoiden pituuksilla ja painoilla on otoksen mukaan voimakas korrelaatio (). 70 kg painava henkilö on regressiosuoran mallinmukaisesti noin 172 cm pitkä.

Tässä vielä videot LibreOfficen calcilla tehtynä:

Malliratkaisu LibreOfficella (

)

Malliratkaisu LibreOfficella (

)

Esimerkki 2: Hauen kasvu

Erään lähteen mukaan hauki voi kasvaa suotuisissa olosuhteissa seuraavasti.
LÄHDE: WWW.SUOMENHAUKISEURA.FI/2014/02/HAUEN-IKA-JA-KASVU/
Syötä tiedot taulukkolaskentaohjelmaan ja tee sille lineaarisen regressiosuoran sovitus.
Voit avata aloitustiedoston myös tästä (LO).
a) Miksi pisteiden kohdalla on pystypalkki?
b) Minkä ikäinen on 145 cm pitkä hauki?
c) Jos hauen iäksi arvioidaan 20 vuotta, mikä on sen pituus?
Ratkaisu:
a) Pystypalkki kuvaa hauen pituuden vaihtelua tietyn ikäisenä.
b) Määritetään taulukkolaskentaohjelmalla regressiosuora hauen kasvulle.

Voit avata ratkaisutiedoston tästä (LO-RATKAISU).

Nyt esimerkiksi CASIOLLA:

Siis 145 cm pitkä hauki on reilut 15 vuotta vanha.
c) Sijoittamalla x:n paikalle arvoksi 20 saadaan hauen pituudeksi noin 184 cm.
Viimeksi muutettu: tiistai 19. marraskuu 2019, 10.21