Tilastotiede, tutkimuksen teon peruskivi

Tilastotieteen hallinta on tärkeää tutkimuksen teossa. Lähtökohtaisesti tutkittavasta asiasta kerätään tutkimusaineistoa, jota analysoimalla saadaan tietoa tutkittavasta asiasta. Tutkittavasta ilmiöstä kerätään joko kvantitatiivista tai kvalitatiivista tietoa. Toisinaan kerätään sekä kvalitatiivista että kvantitatiivista aineistoa. Laadullinen eli kvalitatiivinen data on luonteeltaan alfanumeerista tietoa. Esimerkiksi mielipiteitä voidaan kartoittaa niin kutsutulla Likertin asteikolla: {täysin eri mieltä, jokseenkin eri mieltä, neutraalisti kantaa ottava mielipide, jokseenkin samaa mieltä ja täysin samaa mieltä}. Tällainen tieto voidaan kvantifioida. Edellä oleva voidaan esittää lukuina: {1, 2, 3, 4, 5}. Mitä suurempi on luku niin sitä enemmän vastaaja on samaa mieltä. Dataa kvantifioidessa siis alfanumeerinen tieto saatetaan numeeriseen muotoon. Kvalitatiivista tutkimusta kutsutaankin menetelmäsuuntaukseksi ja sitä käytetään erityisesti ihmistieteissä ja toisinaan kvantitatiivisen tutkimusdatan tukena. Kvantitatiivinen eli määrällinen tutkimus on keskeisessä asemassa analysoitaessa tilastoja. Kvantitatiivisessa tutkimuksessa tieto eli data on numeerista. Esimerkiksi ihmisten pituudet ja painot voidaan tilastoida ja niistä lasketaan tilastollisia lukuja.

Tilastoja voidaan esittää ja kuvata tietokannoilla tai taulukoilla. Tietokannat koostuvat taulukoista tai tauluista. Tietokannassa olevissa taulukoissa ylin rivi kuvaa kerättävää dataa. Tietokannan taulukossa yksi rivi muodostaa tietueen, jossa on siis eri tietokenttiä. Esimerkiksi Henkilötieto-taulussa yksi tietue voi muodostua henkilötunnuksesta, etunimestä, sukunimestä, pituudesta, painosta ja niin edespäin. Tietueen avainkenttä identifioi eli yksilöllistää jokaisen tietueen eli rivin. Henkilötieto-taulussa se voi olla esimerkiksi henkilötunnus, joka on jokaisella ihmisellä yksilöllinen.

Tilastolliset tunnusluvut

Tilastolliset tunnusluvut antavat osviittaa kerätystä tilastollisesta tiedosta. Niiden avulla voidaan päätellä, miten luvut ovat ryhmittäytyneet esimerkiksi keskiarvon ympärille. Tilastollisia tunnuslukuja ovat keskiluvut ja hajontaluvut, Tässä luvussa opetellaan, miten näitä tunnuslukuja lasketaan tilastollisilla kaavoilla,  laskimella tai taulukkolaskentaohjelmalla. Usein tilastotietoa esitetään frekvenssien avulla. Esimerkiksi jossakin otannassa on 20 ihmistä, jotka ovat yli 180 cm pitkiä. 20 on tällaisen tietoluokan frekvenssi. Käsitteellä frekvenssi  siis tarkoittaa johonkin havaintoaineiston luokkaan kuuluvien lukumäärää. Esimerkiksi introtehtävässä kahdessa vadelmalaatikossa oli 30 vadelmaa, siis sen luokan frekvenssi oli 2. Käsiteellä vaihteluväli tarkoitetaan sitä väliä, mitä tietty satunnaismuuttuja saa tilastossa. Esimerkiksi introtehtävän vadelmien lukumäärät olivat vaihteluvälillä [25, 34], eli vaihteluvälin pituus oli 34 - 25 = 9.

Keskiluvut

Lukiomatematiikassa tärkeimmät keskiluvut ovat: aritmeettinen keskiarvo, mediaani ja moodi.

Aritmeettinen keskiarvo, 

Aritmeettinen keskiarvo on havaintoaineiston arvojen summa jaettuna koko havaintoaineiston lukumäärällä eli frekvenssillä. Keskiarvo voidaan tulkita myös odotusarvoksi µ .

Mediaani, 

Mediaanilla on suuruusjärjestykseen luokitellun havaintoaineiston keskimmäisin arvo. Jos havaintoaineiston arvojen lukumäärä on parillinen, niin mediaani on niiden keskiarvo.

Moodi, 

Moodi eli tyyppiarvo on se havaintoaineiston arvo, mitä on frekvenssiltään eniten. Havaintoaineistossa voi olla useampikin arvo, joilla on sama frekvenssi. Tällöin Moodissa on useampi arvo.

Seuraavassa esimerkissä harjoitellaan, miten annetusta tilastollisesta datasta saadaan määritettyä keskilukuja ja vaihteluvälin pituus.

 

Esimerkki 1: Luumutomaatit

Seuraavassa kaaviossa on esitetty luumutomaattien lukumääriä valmiissa myyntipakkauksissa.

Mikä on rasioissa olevan luumutomaattien määrän

a) Tyyppiarvo   b) Mediaani   c) Keskiarvo   d) Vaihteluvälin pituus?

Ratkaisu:

a) Tyyppiarvo

Selvästi tässä tilastossa on eniten eli 10 rasiaa luumutomaatteja, joissa on 8 luumutomaattia rasiassa. Joten 

b) Rasioita on yhteensä 27 kappaletta. Keskimmäisin rasiankoko luokitellussa tilastossa on siis:

c) 

d) Vaihteluvälin pituus on 

Hajontaluvut

Tilastollisten hajontalukujen avulla voidaan päätellä, miten tilastollinen aineisto on ryhmittäytynyt tilastollisten keskilukujen ympärille. Tilastollinen hajontaluku keskihajonta, jolle käytetään merkintää s tai σ on hyvin havaintoaineistoa kuvaava tunnusluku. Tilastollinen tunnusluku varianssi s2 tai σ2 on keskihajonnan neliö. Keskihajonnan suuruus ilmaisee, miten laajalle välille satunnaisesti valittu havaintoaineiston arvo todennäköisesti sijoittuu. Sanotaan, että noin 50% havaintoaineiston arvoista on yhden keskihajonnan mitan päässä keskiarvosta. Kun satunnaisesti valittu havaintoaineiston arvo poikkeaa yli kaksi keskihajonnan mittaa keskiarvosta, niin sanotaan, että poikkeama on huomattava. Usein keskipoikkeama sotketaan keskihajonnaksi. Keskipoikkeama ilmaisee keskimääräisen poikkeaman keskiarvosta, kun keskihajonta ilmaisee mitallistetun poikkeaman keskiarvosta. Seuraavissa teorialaatikoissa esitellään kaavat keskihajonnan, otoskeskihajonnan ja varianssin laskemiselle.

Keskihajonta, 

Otoskeskihajonta, 

 

Varianssi  on keskihajonnan neliö.

Keskihajonnan ja otoskeskihajonnan ero

Keskihajontaa käytetään, jos lasketaan koko aineiston keskihajonta. Jos kyseessä on otanta, niin käytetään otoskeskihajontaa. Aina kannattaa lukea tehtävänanto tarkasti. Jos tehtävänannossa mainitaan, että lasketaan keskihajonta otokselle tai otannalle, niin silloin käytetään otoskeskihajontaa. Silloin n:n sijaan kaavassa käytetään n-1:stä, koska otannan avulla pyritään selvittämään koko tutkittavan asian keskihajontaa. Tällöin kaavassa nimittäjä on pienempi ja siten saadaan keskihajonta suuremmaksi ja saatu otoskeskihajonta paremmin kuvaa tutkittavaa asiaa. Tavan keskihajonnassa käytetään nimittäjässä koko n:ää. Esimerkit 2 ja 3 selventävät keskihajonnan ja otoskeskihajonnan käytön eron.

Esimerkki 2: Pirkon jaksotuloste

Pirkko sai kolmannessa jaksossa arvosanat: . Määritä Pirkon arvosanojen keskiluvut ja keskihajonta kolmannessa jaksossa.

Ratkaisu:

Suuruusjärjestykseen luokiteltu aineisto on , Joten .

Tyyppiarvo on selvästi .Aritmeettinen keskiarvo on: 

Keskihajonta on

 

Esimerkki 3: Paavon jaksotuloste

Paavo sai kolmannessa jaksossa arvosanat: . Määritä annettujen arvosanojen perusteella Paavon arvosanojen keskiluvut ja koko jaksotulosteen keskihajonta kolmannessa jaksossa.

Ratkaisu:

Suuruusjärjestykseen luokiteltu aineisto on , Joten .

Tyyppiarvo on selvästi .

Aritmeettinen keskiarvo on: 

Keskihajonta on 

 

 

Esimerkki 4: Elmerin jaksotuloste

Elmeri sai koko lukioajalta seuraavat arvosanat:

Yhteenveto Elmerin jaksotulosteesta
Arvosana 4 5 6 7 8 9 10 yhteensä
Frekvenssi 0 1 2 10 11 32 20 76

Määritä taulukkolaskentaohjelma LibreOffice Calcilla annettujen arvosanojen perusteella Elmerin arvosanojen keskiluvut ja koko jaksotulosteen keskihajonta. Avaa tästä (aloitustiedosto).

Ratkaisu:

(Ratkaisutiedosto)

Tässä ratkaisussa frekvenssein esitetty havaintoaineisto on kirjoitettu auki kaikkien havaintoaineistojen arvolla.

Esimerkin 4 voi ratkaista myös CAS-laskimella tai GeoGebralla. Katso tarvittaessa Video: Miten opettaja käyttää GeoGebraa taulukkolaskennan ja tilastojen opetuksessa? Se on teoria osassa.

GEOGEBRA-polku:

Alla olevassa kuvassa valitaan yhden muuttujan analyysi, joka on analyysi-komentopainikkeen valikossa. Se on kuvassa ympyröity punaisella. Kun painetaan Näytä tilastot komentopainiketta, joka on ympyröity kuvassa sinisellä, saadaan tilastot, jossa on laskettu n, keskiarvo, keskihajonta, otoskeskihajonta,... Geogebrassa s tarkoittaa otoskeskihajontaa ja σ tarkoittaa koko keskihajontaa.

CASIO-polku:

Laskimen tilastotilassa valitaan yhden muuttujan tilasto. Se on kuvassa One-Variable ja valitaan frekvenssit listalta 2, jos listalle 1 on syötetty muuttujien arvot.

Last modified: Thursday, 16 January 2020, 10:27 AM