Spreiingsmål
Sentralmål kan vere problematiske. Dei gir eit ufullstendig bilete av eit talmateriale. Dei seier kvar tyngdepunktet er, men ikkje noko om spreiinga av tala. Du kan lese eit døme på det i artikkelen "Problemet med gjennomsnittet", sjå nedst på sida.
Spreiingsmål er, som sentralmål, verdiar som fortel oss noko om resultatet for ei gruppe samla sett. Mens sentralmåla seier noko om kvar "tyngdepunktet" av observasjonar ligg, fortel spreiingsmåla noko om kor stor spreiing det er på observasjonsverdiane, altså tala i datamaterialet. Vanlege spreiingsmål er variasjonsbreidde, kvartilbreidde og standardavvik.
Vi bruker dei 30 karakterane frå matematikkprøven i klassen til Mary Ann som datamateriale:
4 2 5 3 3 2 5 4 1 3 2 2 5 3 1 4 2 5 3 2 4 3 6 2 5 3 2 5 5 4
Variasjonsbreidde er skilnaden mellom den høgaste og lågaste observasjonsverdien.
Kva er variasjonsbreidda i resultata frå matematikkprøven?
Variasjonsbreidda er eit mål for spreiing i eit datamateriale, men ver merksam på at ein enkelt observasjonsverdi her kan gi stort utslag.
Kvartilar
Når vi skal finne medianen i eit talmateriale, sorterer vi først tala i stigande rekkjefølgje. Når talet på verdiar er eit partal slik som i prøveresultatet, deler medianen verdiane i to delar med like mange verdiar i kvar.
Vi ser no på halvdelen til venstre for medianen, altså den halvdelen med dei minste tala. Nedre kvartil er definert som den midtarste verdien i denne halvdelen, og vi finn den midtarste verdien på den same måten som når vi finn medianen i eit talmateriale. Vi kan òg seie at den verdien som er slik at omtrent 25 prosent av tala er mindre enn eller like verdien, er nedre kvartil.
Vi har òg noko som heiter øvre kvartil. Dette talet er definert på tilsvarande måte som nedre kvartil.
Ta utgangspunkt i avsnittet om nedre kvartil og skriv eit tilsvarande avsnitt som gjeld for øvre kvartil. Kor mange ord er ulike i dei to avsnitta?
Kvartilbreidde
Kvartilbreidda er skilnaden mellom øvre og nedre kvartil i eit talmateriale.
Finn kvartilbreidda i resultatet for matematikkprøven.
No tenkjer vi oss at vi tek bort seksaren i talmaterialet. Finn kvartilbreidda i dette tilfellet.
Når vi har funne medianen og kvartilane, har vi delt datamaterialet vårt i fire tilnærma like delar. Derfor kan vi seie at kvartilbreidda fortel oss kor stor spreiing det er i den halvdelen av datamaterialet som ligg nærast medianen.
Vi kallar nedre kvartil for
Teikning av boksplott
Eit boksplott gir eit grafisk bilete av nokre av dei statistiske storleikane i eit datamateriale. Dersom vi teiknar eit boksplott over prøveresultata i klassen til Mary Ann, kan det sjå ut som på biletet.
Kva trur du boksen som går frå karakterane 2 til 5, symboliserer?
Kva trur du dei to ytste, loddrette strekane på 1 og 6 symboliserer?
Kva trur du den loddrette streken ved karakteren 3 symboliserer?
Boksplott med GeoGebra
I staden for å teikne boksplottet manuelt, kan vi bruke GeoGebra til å teikne det for oss. Då treng vi anten ei liste med dei ulike karakterverdiane og ei liste med frekvensane eller ei liste med alle dei 30 enkeltkarakterane.
Dersom vi har ei liste "karakterverdiar" med dei ulike karakterverdiane og ei liste "frekvensar" med frekvensane, blir kommandoen for å lage boksplottet som vist nedanfor.
Boksplott(2,1,karakterverdiar,frekvensar,false)
Det første talet gir den loddrette plasseringa av boksplottet mens det andre talet er halvparten av (den loddrette) breidda av boksplottet.
Dersom vi i staden for frekvensane hadde hatt ei liste "enkeltkarakterar" med dei 30 enkeltkarakterane, ville kommandoen som gir boksplottet, ha vore
Boksplott(2,1,enkeltkarakterar,false)
Standardavvik er eit mykje brukt mål for spreiing i eit datamateriale. Standardavviket seier noko om kor langt dei enkelte verdiane i gjennomsnitt ligg frå gjennomsnittsverdien (gjennomsnittet). Dersom det er veldig mange tal i datamaterialet, vil omtrent
For eit datamateriale med få tal slik som prøveresultata i klassen til Mary Ann, vil dette ofte ikkje stemme så godt. Likevel blir standardavvik òg brukt i slike tilfelle.
Døme 1
Dersom gjennomsnittsverdien i eit datamateriale er 7 og standardavviket er 2, vil omtrent
Døme 2
Dersom gjennomsnittsverdien i eit datamateriale er 7 og standardavviket er 3, vil omtrent
Utrekning av standardavvik
I dette kurset vil vi berre rekne ut standardavviket i eit talmateriale ved å bruke eit digitalt verktøy som eit rekneark eller GeoGebra, sjå sida "Statistikk med GeoGebra", eller med programmering, sjå sida "Behandling av store datamengder i Python" (lenkjer nedst på sida). Vi vil likevel vise korleis vi finn standardavviket manuelt, sidan det kan vere ei god hjelp til å forstå kva standardavvik er.
Når vi skal rekne ut standardavviket manuelt, bereknar vi først noko vi kallar varians. Variansen er det vi får når vi bereknar den gjennomsnittlege kvadrerte avstanden frå kvar måling (kvar karakter i dømet vårt) til gjennomsnittet.
Vi reknar ut avstanden frå karakteren 1 til gjennomsnittskarakteren 3,3. Svaret blir opphøgd i andre potens
Karakter | Frekvens |
|
|
---|---|---|---|
| | | |
1 | 2 | 2 | |
2 | 8 | 16 | |
3 | 7 | 21 | |
4 | 5 | 20 | |
5 | 7 | 35 | |
6 | 1 | 6 | |
Sum | 30 | 100 | 54,69 |
|
|
|
|
Gjennomsnitt | |
|
|
Varians | |
|
|
Standardavvik | |
|
|
Vi summerer alle kvadratavvika og får summen 54,69. Variansen får vi så ved å dele summen av kvadratavvika (54,69) på talet på karakterar.
Sidan variansen er eit mål på det gjennomsnittlege kvadratavviket, blir standardavviket rekna ut ved å ta kvadratrota av variansen.
Lag tabellen over ved hjelp av eit rekneark. I reknearket skal du òg rekne ut gjennomsnittet, variansen og standardavviket.
To typar standardavvik
Måten vi har rekna ut standardavviket på over, gjeld berre dersom vi har alle tala i eit talmateriale. I dømet med prøvekarakterar kjenner vi alle resultata. Dei som lagar meiningsmålingar av ulik art, kan som regel ikkje intervjue "alle". Dei tek eit såkalla representativt utval av gruppa. Då blir uvissa i standardavviket større, og vi reknar det ut på ein annan måte som vi ikkje kjem inn på her. Vi får då det vi kallar empirisk standardavvik eller utvalsstandardavvik.
Dersom det representative utvalet (talet på observasjonar) er stort, vil skilnaden på dei to standardavvika vere liten.
Reknearkprogram som Excel og Google Regneark har innebygde funksjonar (kommandoar) som reknar ut både sentralmål og spreiingsmål for oss. Det same gjeld programmeringsspråk som Python. Vi vil likevel i dette faget ha størst fokus på korleis vi bruker GeoGebra for å finne desse statistiske storleikane.
Relatert innhald
Vi ser på korleis vi kan rekne ut statistikk på bruken av Snapchat.
Her ser vi korleis vi kan bruke GeoGebra til å finne ulike statistiske storleikar i eit talmateriale ved bruk av såkalla lister.