Spredningsmål
Sentralmål kan være problematiske. De gir et ufullstendig bilde av et tallmateriale. De sier hvor tyngdepunktet er, men ikke noe om spredningen av tallene. Du kan lese et eksempel på det i artikkelen "Problemet med gjennomsnittet", se nederst på sida.
Spredningsmål er, som sentralmål, verdier som forteller oss noe om resultatet for ei gruppe som helhet. Mens sentralmålene sier noe om hvor "tyngdepunktet" av observasjoner ligger, forteller spredningsmålene noe om hvor stor spredning det er på observasjonsverdiene, altså tallene i datamaterialet. Vanlige spredningsmål er variasjonsbredde, kvartilbredde og standardavvik.
Vi bruker de 30 karakterene fra matematikkprøven i klassen til Mary Ann som datamateriale:
4 2 5 3 3 2 5 4 1 3 2 2 5 3 1 4 2 5 3 2 4 3 6 2 5 3 2 5 5 4
Variasjonsbredde er forskjellen mellom høyeste og laveste observasjonsverdi.
Hva er variasjonsbredden i resultatene fra matematikkprøven?
Variasjonsbredden er et mål for spredning i et datamateriale, men vær oppmerksom på at en enkelt observasjonsverdi her kan gi stort utslag.
Kvartiler
Når vi skal finne medianen i et tallmateriale, sorterer vi først tallene i stigende rekkefølge. Når antall verdier er et partall slik som i prøveresultatet, deler medianen verdiene i to deler med like mange verdier i hver.
Vi ser nå på halvdelen til venstre for medianen, altså den halvdelen med de minste tallene. Nedre kvartil er definert som den midterste verdien i denne halvdelen, og vi finner den midterste verdien på den samme måten som når vi finner medianen i et tallmateriale. Vi kan også si at den verdien som er slik at omtrent 25 prosent av tallene er mindre enn eller lik verdien, er nedre kvartil.
Vi har også noe som heter øvre kvartil. Dette tallet er definert på tilsvarende måte som nedre kvartil.
Ta utgangspunkt i avsnittet om nedre kvartil og skriv et tilsvarende avsnitt som gjelder for øvre kvartil. Hvor mange ord er forskjellige i de to avsnittene?
Kvartilbredde
Kvartilbredden er forskjellen mellom øvre og nedre kvartil i et tallmateriale.
Finn kvartilbredden i resultatet for matematikkprøven.
Nå tenker vi oss at vi tar bort sekseren i tallmaterialet. Finn kvartilbredden i dette tilfellet.
Når vi har funnet medianen og kvartilene, har vi delt datamaterialet vårt i fire tilnærmet like deler. Derfor kan vi si at kvartilbredden forteller oss hvor stor spredning det er i den halvdelen av datamaterialet som ligger nærmest medianen.
Vi kaller nedre kvartil for
Tegning av boksplott
Et boksplott gir et grafisk bilde av noen av de statistiske størrelsene i et datamateriale. Hvis vi tegner et boksplott over prøveresultatene i klassen til Mary Ann, kan det se ut som på bildet.
Hva tror du boksen som går fra karakterene 2 til 5, symboliserer?
Hva tror du de to ytterste, loddrette strekene på 1 og 6 symboliserer?
Hva tror du den loddrette streken ved karakteren 3 symboliserer?
Boksplott med GeoGebra
I stedet for å tegne boksplottet manuelt, kan vi bruke GeoGebra til å tegne det for oss. Da trenger vi enten ei liste med de ulike karakterverdiene og ei liste med frekvensene eller ei liste med alle de 30 enkeltkarakterene.
Dersom vi har ei liste "karakterverdier" med de ulike karakterverdiene og en liste "frekvenser" med frekvensene, blir kommandoen for å lage boksplottet som vist nedenfor.
BoksPlott(2,1,karakterverdier,frekvenser,false)
Det første tallet angir den loddrette plasseringen av boksplottet mens det andre tallet er halvparten av (den loddrette) bredden av boksplottet.
Hvis vi i stedet for frekvensene hadde hatt ei liste "enkeltkarakterer" med de 30 enkeltkarakterene, ville kommandoen som gir boksplottet, ha vært
BoksPlott(2,1,enkeltkarakterer,false)
Standardavvik er et mye brukt mål for spredning i et datamateriale. Standardavviket sier noe om hvor langt de enkelte verdiene i gjennomsnitt ligger fra gjennomsnittsverdien (gjennomsnittet). Dersom det er veldig mange tall i datamaterialet, vil omtrent
For et datamateriale med få tall slik som prøveresultatene i klassen til Mary Ann, vil dette ofte ikke stemme så godt. Likevel brukes standardavvik også i slike tilfeller.
Eksempel 1
Dersom gjennomsnittsverdien i et datamateriale er 7 og standardavviket er 2, vil omtrent
Eksempel 2
Dersom gjennomsnittsverdien i et datamateriale er 7 og standardavviket er 3, vil omtrent
Utregning av standardavvik
I dette kurset vil vi bare regne ut standardavviket i et tallmateriale ved å bruke et digitalt verktøy som et regneark eller GeoGebra, se sida "Statistikk med GeoGebra", eller med programmering, se sida "Behandling av store datamengder i Python" (lenker nederst på sida). Vi vil likevel vise hvordan vi finner standardavviket manuelt, siden det kan være en god hjelp til å forstå hva standardavvik er.
Når vi skal regne ut standardavviket manuelt, beregner vi først noe vi kaller varians. Variansen er det vi får når vi beregner den gjennomsnittlige kvadrerte avstanden fra hver måling (hver karakter i eksempelet vårt) til gjennomsnittet.
Vi regner ut avstanden fra karakteren 1 til gjennomsnittskarakteren 3,3. Svaret opphøyes i andre potens
Karakter | Frekvens |
|
|
---|---|---|---|
| | | |
1 | 2 | 2 | |
2 | 8 | 16 | |
3 | 7 | 21 | |
4 | 5 | 20 | |
5 | 7 | 35 | |
6 | 1 | 6 | |
Sum | 30 | 100 | 54,69 |
|
|
|
|
Gjennomsnitt | |
|
|
Varians | |
|
|
Standardavvik | |
|
|
Vi summerer alle kvadratavvikene og får summen 54,69. Variansen får vi så ved å dele summen av kvadratavvikene (54,69) på antallet karakterer.
Siden variansen er et mål på det gjennomsnittlige kvadratavviket, regnes standardavviket ut ved å ta kvadratrota av variansen.
Lag tabellen over ved hjelp av et regneark. I regnearket skal du også regne ut gjennomsnittet, variansen og standardavviket.
To typer standardavvik
Måten vi har regnet ut standardavviket på over, gjelder bare dersom vi har alle tallene i et tallmateriale. I eksempelet med prøvekarakterer kjenner vi alle resultatene. De som lager meningsmålinger av ulik art, kan som regel ikke intervjue "alle". De tar et såkalt representativt utvalg av gruppa. Da blir usikkerheten i standardavviket større, og vi regner det ut på en annen måte som vi ikke kommer inn på her. Vi får da det vi kaller empirisk standardavvik eller utvalgsstandardavvik.
Dersom det representative utvalget (antall observasjoner) er stort, vil forskjellen på de to standardavvikene være liten.
Regnearkprogram som Excel og Google Regneark har innebygde funksjoner (kommandoer) som regner ut både sentralmål og spredningsmål for oss. Det samme gjelder programmeringsspråk som Python. Vi vil likevel i dette faget ha størst fokus på hvordan vi bruker GeoGebra for å finne disse statistiske størrelsene.
Relatert innhold
Vi ser på hvordan vi kan regne ut statistikk på bruken av Snapchat.
Her ser vi hvordan vi kan bruke GeoGebra til å finne ulike statistiske størrelser i et tallmateriale ved bruk av såkalte lister.