Teoreema
Teoreema
Luokiteltu aineisto
Usein annettua tilastollista dataa on järkevää luokitella ja lajitella havaintoaineisto eri luokkiin. Jos esimerkiksi introtehtävässä olisi annettu kaikkien osterivinokkaiden pituudet ilman luokittelua, niin olisi ollut hankalampi hahmottaa sen jakaumaa. Isossa otannassa luokiteltu aineisto on informatiivisempi. Parilla silmäyksellä voidaan todeta esimerkiksi frekvenssiltään suurin luokka. Esimerkiksi tämän luvun introtehtävässä osterivinokkaiden pituudet luokiteltiin 2 senttimetrin pituisiin luokkiin. Se on siinä mielessä informatiivinen, että eri kokoluokkien frekvenssi on suoraan äärellään. Sen sijaan, että koko tilastollinen data olisi omilla rivillään. Kyseisessä esimerkissä data supistettiin 100:sta rivistä 4:n riviin.
Tilastollisen aineiston luokittelussa tilastolliset tunnusluvut lasketaan käyttämällä luokkakeskuksia ja absoluuttinen frekvenssejä (f) . Luokkakeskus on luokan ylä- ja alarajan keskiarvo. Luokkavälillä tarkoitetaan kahden peräkkäisen luokan alarajojen erotusta. Suhteellinen luokkafrekvenssi (sf) ilmaisee tietyn havaintoaineiston luokan prosenttiosuuden. Se saadaan laskettua luokan frekvenssi jaettuna kaikkien havaintojen määrällä. Toisinaan jakaumalle määritetään summafrekvenssit ja suhteelliset summafrekvenssit. Ne saadaan laskettua kun summataan alempien luokkien summat aina yhteen. Seuraavassa esimerkissä määritetään luokkakeskukset, summafrekvenssi ja suhteellinen summafrekvenssi luokitellusta 30 varusmiehen pituuksien otannasta.
Esimerkki 1: Varusmiesten pituuksien luokittelu
Seuraavassa taulukossa on esitetty 30 varusmiehen pituuksien luokittelu. Määritetään luokkakeskukset, mediaani, moodi, luokkaväli ja suhteellinen luokkafrekvenssi.
Pituus [cm] | Luokkafrekvenssi |
12 | |
13 | |
5 | |
n=30 |
Ratkaisu:
Varusmiesten pituus aineistossa on luokkaväli kahden peräkkäisen alavälin erotus eli
Tyyppiarvo ja mediaani on
Tilastolliset tunnusluvut ja hajontaluvut luokitellussa aineistossa
Luokitellussa aineistossa keskiarvot ja keskihajonnat lasketaan luokkakeskusten avulla
Esimerkki 2: Varusmiesten pituuksien analysointia luokitellussa aineistossa
Seuraavassa taulukossa on esitetty 30 varusmiehen pituuksien luokittelu. Määritetään keskiarvo, keskihajonta ja summafrekvenssi sekä suhteellinen summafrekvenssi. Piirretään myös kuvaaja (pylväsdiagrammi) suhteellisesta summafrekvenssistä.
Pituus [cm] | Luokkafrekvenssi |
12 | |
13 | |
5 | |
n=30 |
Ratkaisu:
Aritmeettinen keskiarvo lasketaan luokitellun miesten pituusaineiston luokkakeskusten ja luokkafrekvenssien tulojen summa jaettuna havaintojen lukumäärällä.
Keskihajonta lasketaan seuraavasti:
Fraktiilit
Toisinaan tilastoista halutaan ottaa esille jokin tietty osa. Tähän tarkoitukseen käytetään fraktiileja eli tilastollisen muuttujan jakauman kohtia, joiden alapuolelle jokin tiety osa havainnoista jää. Desiilit, persentiilit, kvartiilit ja kvintiilit ovat tapa ilmaista tilastotieteilijän huomio johonkin tiettyyn osaan tilastoja. Desiilien avulla tilasto voidaan jakaa kymmeneen yhtä suureen osaan. Ensimmäinen desiili tilastollisessa luokitellussa jakaumassa tarkoittaa tilaston alkupäästä :n osalta jne. Esimerkiksi 2. desiilin alle jää jakauman arvoista jne. Persentiili on kymmenyksen tarkempi mitta ja tarkoittaa yhden prosentin osuutta. Esimerkiksi persentiili tarkoittaa samaa osuutta tilastossa kuin . desiili, jonka alapuolelle jää jakauman havainnoista. Alakvartiili tarkoittaa puolestaan ensimmäistä :n osuutta tilastoissa ja yläkvartiili on puolestaan ylin :n osuus luokitellussa tilastoissa. Kvintiileissä koko tilaston :n osuus on jaettu :n osuuksiin. Fraktiilit ovat hyvin kuvaavia, kun verrataan esimerkiksi kansantaloustieteessä ylintä ja alinta desiiliä tai kvartiilia keskenään.