Hopp til innhold
Fagartikkel

Spredningsmål

Sentralmål som gjennomsnitt og median sier ikke noe om spredningen i et datamateriale. Derfor bruker vi også spredningsmål.

Sentralmål kan være problematiske. De gir et ufullstendig bilde av et tallmateriale. De sier hvor tyngdepunktet er, men ikke noe om spredningen av tallene. Du kan lese et eksempel på det i artikkelen "Problemet med gjennomsnittet", se nederst på sida.

Spredningsmål

Spredningsmål er, som sentralmål, verdier som forteller oss noe om resultatet for ei gruppe som helhet. Mens sentralmålene sier noe om hvor "tyngdepunktet" av observasjoner ligger, forteller spredningsmålene noe om hvor stor spredning det er på observasjonsverdiene, altså tallene i datamaterialet. Vanlige spredningsmål er variasjonsbredde, kvartilbredde og standardavvik.

Vi bruker de 30 karakterene fra matematikkprøven i klassen til Mary Ann som datamateriale:

4 2 5 3 3 2 5 4 1 3 2 2 5 3 1 4 2 5 3 2 4 3 6 2 5 3 2 5 5 4

Variasjonsbredde

Variasjonsbredde er forskjellen mellom høyeste og laveste observasjonsverdi.

Hva er variasjonsbredden i resultatene fra matematikkprøven?

Løsning og kommentarer

Variasjonsbredden blant karakterdataene er 6-1=5, siden det høyeste karakterresultatet var 6 og det laveste var 1. Det skiller altså 5 karakterer mellom høyeste og laveste karakter.

Variasjonsbredden er et mål for spredning i et datamateriale, men vær oppmerksom på at en enkelt observasjonsverdi her kan gi stort utslag.

Kvartiler og kvartilbredde

Kvartiler

Når vi skal finne medianen i et tallmateriale, sorterer vi først tallene i stigende rekkefølge. Når antall verdier er et partall slik som i prøveresultatet, deler medianen verdiene i to deler med like mange verdier i hver.

Vi ser nå på halvdelen til venstre for medianen, altså den halvdelen med de minste tallene. Nedre kvartil er definert som den midterste verdien i denne halvdelen, og vi finner den midterste verdien på den samme måten som når vi finner medianen i et tallmateriale. Vi kan også si at den verdien som er slik at omtrent 25 prosent av tallene er mindre enn eller lik verdien, er nedre kvartil.

Vi har også noe som heter øvre kvartil. Dette tallet er definert på tilsvarende måte som nedre kvartil.

Ta utgangspunkt i avsnittet om nedre kvartil og skriv et tilsvarende avsnitt som gjelder for øvre kvartil. Hvor mange ord er forskjellige i de to avsnittene?

Løsning og definisjon på øvre kvartil

Nedenfor er det som er ulikt i avsnittene, uthevet.

"Vi ser nå på halvdelen til høyre for medianen, altså den halvdelen med de største tallene. Øvre kvartil er definert som den midterste verdien i denne halvdelen, og vi finner den midterste verdien på den samme måten som når vi finner medianen i et tallmateriale. Vi kan også si at den verdien som er slik at omtrent 75 prosent av tallene er mindre enn eller lik verdien, er øvre kvartil"

Det er altså fem endringer i forhold til avsnittet om nedre kvartil.

Kvartilbredde

Kvartilbredden er forskjellen mellom øvre og nedre kvartil i et tallmateriale.

Finn kvartilbredden i resultatet for matematikkprøven.

Løsning

Vi sorterer dataene og deler dem i to like deler. Så må vi finne midten i hver halvdel. Nedre kvartil vil være tall nummer 8, som er en toer. Øvre kvartil vil være tall nummer 23, som er en femmer. Se nedenfor, der vi har kalt nedre kvartil Q1 og øvre kvartil Q3.

Kar. nr.123456789101112131415Karakter112222222233333Q1Kar. nr.161718192021222324252627282930Karakter334444455555556Q3

Kvartilbredden er forskjellen mellom øvre og nedre kvartil:

Q3-Q1=5-2=3

Nå tenker vi oss at vi tar bort sekseren i tallmaterialet. Finn kvartilbredden i dette tilfellet.

Løsning

Nå har vi 29 tall, altså et oddetall antall karakterer. For å kunne dele tallene i to like deler når vi skal finne kvartilene, er regelen at vi fjerner tallet i midten, altså medianen. Hver halvdel vil nå inneholde 14 tall. Derfor vil midtpunktene være gjennomsnittet av de to midterste verdiene i hvert intervall.

Nedre kvartil vil derfor være gjennomsnittet av tall nummer 7 og tall nummer 8, som begge er toere. Øvre kvartil vil være gjennomsnittet av tall nummer 22, som er en firer og tall nummer 23, som er en femmer. Se nedenfor.

Kar. nr.1234567   891011121314Karakter1122222   2223333Q1Kar. nr.16171819202122 23242526272829Karakter3344444   5555555Q3

Vi får at nedre kvartil  Q1=2.

Øvre kvartil er  Q3=4+52=92=4,5.

Kvartilbredden er forskjellen mellom øvre og nedre kvartil, altså 4,5-2=2,5.

Når vi har funnet medianen og kvartilene, har vi delt datamaterialet vårt i fire tilnærmet like deler. Derfor kan vi si at kvartilbredden forteller oss hvor stor spredning det er i den halvdelen av datamaterialet som ligger nærmest medianen.

Vi kaller nedre kvartil for Q1 og øvre kvartil for Q3. Hva er Q2?

Forklaring

Q2 er det samme som medianen, men navnet Q2 brukes ikke.

Merk at kvartilene og medianen deler tallene i datamaterialet inn i fire like store deler.

Boksplott – grafisk framstilling av spredningen i datamaterialet

Tegning av boksplott

Et boksplott gir et grafisk bilde av noen av de statistiske størrelsene i et datamateriale. Hvis vi tegner et boksplott over prøveresultatene i klassen til Mary Ann, kan det se ut som på bildet.

Hva tror du boksen som går fra karakterene 2 til 5, symboliserer?

Løsning

Denne boksen symboliserer kvartilbredden, siden endene har den samme verdien som kvartilene.

Hva tror du de to ytterste, loddrette strekene på 1 og 6 symboliserer?

Løsning

De to ytterste strekene representerer den største og minste verdien i datamaterialet. Avstanden mellom dem tilsvarer derfor variasjonsbredden i datamaterialet.

Hva tror du den loddrette streken ved karakteren 3 symboliserer?

Løsning

Den loddrette streken gjennom boksen viser hva medianen i datamaterialet er.

Boksplott med GeoGebra

I stedet for å tegne boksplottet manuelt, kan vi bruke GeoGebra til å tegne det for oss. Da trenger vi enten ei liste med de ulike karakterverdiene og ei liste med frekvensene eller ei liste med alle de 30 enkeltkarakterene.

Dersom vi har ei liste "karakterverdier" med de ulike karakterverdiene og en liste "frekvenser" med frekvensene, blir kommandoen for å lage boksplottet som vist nedenfor.

BoksPlott(2,1,karakterverdier,frekvenser,false)

Det første tallet angir den loddrette plasseringen av boksplottet mens det andre tallet er halvparten av (den loddrette) bredden av boksplottet.

Hvis vi i stedet for frekvensene hadde hatt ei liste "enkeltkarakterer" med de 30 enkeltkarakterene, ville kommandoen som gir boksplottet, ha vært

BoksPlott(2,1,enkeltkarakterer,false)

Standardavvik

Standardavvik er et mye brukt mål for spredning i et datamateriale. Standardavviket sier noe om hvor langt de enkelte verdiene i gjennomsnitt ligger fra gjennomsnittsverdien (gjennomsnittet). Dersom det er veldig mange tall i datamaterialet, vil omtrent 23 (67 prosent) av tallene ligge nærmere gjennomsnittsverdien enn pluss-minus ett standardavvik.

For et datamateriale med få tall slik som prøveresultatene i klassen til Mary Ann, vil dette ofte ikke stemme så godt. Likevel brukes standardavvik også i slike tilfeller.

Eksempel 1

Dersom gjennomsnittsverdien i et datamateriale er 7 og standardavviket er 2, vil omtrent 23 av tallene i datamaterialet være fra 5 til 9.

Eksempel 2

Dersom gjennomsnittsverdien i et datamateriale er 7 og standardavviket er 3, vil omtrent 23 av tallene i datamaterialet være fra 4 til 10. Her må vi altså ta med verdiene fra og med 4 til og med 10 for å kunne finne 23 av tallene (tilnærmet). I eksempel 1 holder det å ta med verdiene fra og med 5 til og med 9. Da er det mindre spredning på dataene i eksempel 1 enn i eksempel 2.

Utregning av standardavvik

I dette kurset vil vi bare regne ut standardavviket i et tallmateriale ved å bruke et digitalt verktøy som et regneark eller GeoGebra, se sida "Statistikk med GeoGebra", eller med programmering, se sida "Behandling av store datamengder i Python" (lenker nederst på sida). Vi vil likevel vise hvordan vi finner standardavviket manuelt, siden det kan være en god hjelp til å forstå hva standardavvik er.

Når vi skal regne ut standardavviket manuelt, beregner vi først noe vi kaller varians. Variansen er det vi får når vi beregner den gjennomsnittlige kvadrerte avstanden fra hver måling (hver karakter i eksempelet vårt) til gjennomsnittet.

Vi regner ut avstanden fra karakteren 1 til gjennomsnittskarakteren 3,3. Svaret opphøyes i andre potens  1-3,32=5,29. Dette er kvadratavviket for karakteren 1. Siden karakteren 1 forekommer to ganger og vi skal summere alle kvadratavvikene, multipliserer vi 5,29 med 2 og får 10,89. Deretter gjør vi det samme med de andre tallkarakterene. Se tabellen nedenfor.

Karakter

Frekvens

x

f

x·f

(x-x¯)2·f

1

2

2

(1-3,33)2·210,89

2

8

16

(2-3,33)2·814,15

3

7

21

(3-3,33)2·70,76

4

5

20

(4-3,33)2·52,24

5

7

35

(5-3,33)2·719,52

6

1

6

(6-3,33)2·17,13

Sum

30

100

54,69

Gjennomsnitt

x¯=100303,33

Varians

54,69301,82

Standardavvik

1,821,35

Vi summerer alle kvadratavvikene og får summen 54,69. Variansen får vi så ved å dele summen av kvadratavvikene (54,69) på antallet karakterer.

Varians=54,6930=1,82

Siden variansen er et mål på det gjennomsnittlige kvadratavviket, regnes standardavviket ut ved å ta kvadratrota av variansen.

Standardavvik = Varians= 1,82= 1,35

Lag tabellen over ved hjelp av et regneark. I regnearket skal du også regne ut gjennomsnittet, variansen og standardavviket.

Løsning

Nedenfor kan du laste ned et regneark som viser hvordan det kan gjøres.

Filer

To typer standardavvik

Måten vi har regnet ut standardavviket på over, gjelder bare dersom vi har alle tallene i et tallmateriale. I eksempelet med prøvekarakterer kjenner vi alle resultatene. De som lager meningsmålinger av ulik art, kan som regel ikke intervjue "alle". De tar et såkalt representativt utvalg av gruppa. Da blir usikkerheten i standardavviket større, og vi regner det ut på en annen måte som vi ikke kommer inn på her. Vi får da det vi kaller empirisk standardavvik eller utvalgsstandardavvik.

Dersom det representative utvalget (antall observasjoner) er stort, vil forskjellen på de to standardavvikene være liten.

Digitale hjelpemidler

Regnearkprogram som Excel og Google Regneark har innebygde funksjoner (kommandoer) som regner ut både sentralmål og spredningsmål for oss. Det samme gjelder programmeringsspråk som Python. Vi vil likevel i dette faget ha størst fokus på hvordan vi bruker GeoGebra for å finne disse statistiske størrelsene.

Relatert innhold

CC BY-SA 4.0Skrevet av Olav Kristensen, Stein Aanensen og Bjarne Skurdal.
Sist faglig oppdatert 28.02.2022