Luokiteltu aineisto

Usein annettua tilastollista dataa on järkevää luokitella ja lajitella havaintoaineisto eri luokkiin. Jos esimerkiksi introtehtävässä olisi annettu kaikkien osterivinokkaiden pituudet ilman luokittelua, niin olisi ollut hankalampi hahmottaa sen jakaumaa. Isossa otannassa luokiteltu aineisto on informatiivisempi. Parilla silmäyksellä voidaan todeta esimerkiksi frekvenssiltään suurin luokka. Esimerkiksi tämän luvun introtehtävässä osterivinokkaiden pituudet luokiteltiin 2 senttimetrin pituisiin luokkiin. Se on siinä mielessä informatiivinen, että eri kokoluokkien frekvenssi on suoraan äärellään. Sen sijaan, että koko tilastollinen data olisi omilla rivillään. Kyseisessä esimerkissä data supistettiin 100:sta rivistä 4:n riviin.

Tilastollisen aineiston luokittelussa tilastolliset tunnusluvut lasketaan käyttämällä luokkakeskuksia ja absoluuttinen frekvenssejä (f) . Luokkakeskus on luokan ylä- ja alarajan keskiarvo. Luokkavälillä tarkoitetaan kahden peräkkäisen luokan alarajojen erotusta. Suhteellinen luokkafrekvenssi (sf) ilmaisee tietyn havaintoaineiston luokan prosenttiosuuden. Se saadaan laskettua luokan frekvenssi jaettuna kaikkien havaintojen määrällä. Toisinaan jakaumalle määritetään summafrekvenssit ja suhteelliset summafrekvenssit. Ne saadaan laskettua kun summataan alempien luokkien summat aina yhteen. Seuraavassa esimerkissä määritetään luokkakeskukset, summafrekvenssi ja suhteellinen summafrekvenssi luokitellusta 30 varusmiehen pituuksien otannasta.

Esimerkki 1: Varusmiesten pituuksien luokittelu

Seuraavassa taulukossa on esitetty 30 varusmiehen pituuksien luokittelu. Määritetään luokkakeskukset, mediaani, moodi, luokkaväli ja suhteellinen luokkafrekvenssi.

30:n varusmiehen pituuksien luokittelu
Pituus [cm] Luokkafrekvenssi 
12
13
5
  n=30

 Ratkaisu:

Varusmiesten pituus aineistossa on luokkaväli kahden peräkkäisen alavälin erotus eli 

Tyyppiarvo ja mediaani on 

Tilastolliset tunnusluvut ja hajontaluvut luokitellussa aineistossa

Luokitellussa aineistossa keskiarvot ja keskihajonnat lasketaan luokkakeskusten avulla

Esimerkki 2: Varusmiesten pituuksien analysointia luokitellussa aineistossa

Seuraavassa taulukossa on esitetty 30 varusmiehen pituuksien luokittelu. Määritetään keskiarvo, keskihajonta ja summafrekvenssi sekä suhteellinen summafrekvenssi. Piirretään myös kuvaaja (pylväsdiagrammi) suhteellisesta summafrekvenssistä.

30:n varusmiehen pituuksien luokittelu
Pituus [cm] Luokkafrekvenssi 
12
13
5
  n=30

 Ratkaisu:

Aritmeettinen keskiarvo lasketaan luokitellun miesten pituusaineiston luokkakeskusten ja luokkafrekvenssien tulojen summa jaettuna havaintojen lukumäärällä.

 

Keskihajonta lasketaan seuraavasti:

 

 

Fraktiilit

Toisinaan tilastoista halutaan ottaa esille jokin tietty osa. Tähän tarkoitukseen käytetään fraktiileja eli tilastollisen muuttujan jakauman kohtia, joiden alapuolelle jokin tiety osa havainnoista jää. Desiilit, persentiilit, kvartiilit ja kvintiilit ovat tapa ilmaista tilastotieteilijän huomio johonkin tiettyyn osaan tilastoja. Desiilien avulla tilasto voidaan jakaa kymmeneen yhtä suureen osaan. Ensimmäinen desiili tilastollisessa luokitellussa jakaumassa tarkoittaa tilaston alkupäästä :n osalta jne. Esimerkiksi 2. desiilin alle jää  jakauman arvoista jne. Persentiili on kymmenyksen tarkempi mitta ja tarkoittaa yhden prosentin osuutta. Esimerkiksi  persentiili tarkoittaa samaa osuutta tilastossa kuin . desiili, jonka alapuolelle jää  jakauman havainnoista. Alakvartiili tarkoittaa puolestaan ensimmäistä :n osuutta tilastoissa ja yläkvartiili on puolestaan ylin :n osuus luokitellussa tilastoissa. Kvintiileissä koko tilaston :n osuus on jaettu :n osuuksiin. Fraktiilit ovat hyvin kuvaavia, kun verrataan esimerkiksi kansantaloustieteessä ylintä ja alinta desiiliä tai kvartiilia keskenään.

Viimeksi muutettu: keskiviikko 8. huhtikuu 2020, 12.11