Fagartikkel

Spreiingsmål

Sentralmål som gjennomsnitt og median seier ikkje noko om spreiinga i eit datamateriale. Derfor bruker vi òg spreiingsmål.

Flasker i ulik storleik er stilte opp på ei hylle. Foto. — Bilete: Andy Hay / CC BY 4.0

Sentralmål kan vere problematiske. Dei gir eit ufullstendig bilete av eit talmateriale. Dei seier kvar tyngdepunktet er, men ikkje noko om spreiinga av tala. Du kan lese eit døme på det i artikkelen "Problemet med gjennomsnittet", sjå nedst på sida.

Spreiingsmål

Spreiingsmål er, som sentralmål, verdiar som fortel oss noko om resultatet for ei gruppe samla sett. Mens sentralmåla seier noko om kvar "tyngdepunktet" av observasjonar ligg, fortel spreiingsmåla noko om kor stor spreiing det er på observasjonsverdiane, altså tala i datamaterialet. Vanlege spreiingsmål er variasjonsbreidde, kvartilbreidde og standardavvik.

Vi bruker dei 30 karakterane frå matematikkprøven i klassen til Mary Ann som datamateriale:

4 2 5 3 3 2 5 4 1 3 2 2 5 3 1 4 2 5 3 2 4 3 6 2 5 3 2 5 5 4

Variasjonsbreidde

Variasjonsbreidde er skilnaden mellom den høgaste og lågaste observasjonsverdien.

Kva er variasjonsbreidda i resultata frå matematikkprøven?

Løysing og kommentarar

Variasjonsbreidda mellom karakterdataa er $6 - 1 = 5$ , sidan det høgaste karakterresultatet var 6 og det lågaste var 1. Det skil altså 5 karakterar mellom den høgaste og den lågaste karakteren.

Variasjonsbreidda er eit mål for spreiing i eit datamateriale, men ver merksam på at ein enkelt observasjonsverdi her kan gi stort utslag.

Kvartilar og kvartilbreidde

Kvartilar

Når vi skal finne medianen i eit talmateriale, sorterer vi først tala i stigande rekkjefølgje. Når talet på verdiar er eit partal slik som i prøveresultatet, deler medianen verdiane i to delar med like mange verdiar i kvar.

Vi ser no på halvdelen til venstre for medianen, altså den halvdelen med dei minste tala. Nedre kvartil er definert som den midtarste verdien i denne halvdelen, og vi finn den midtarste verdien på den same måten som når vi finn medianen i eit talmateriale. Vi kan òg seie at den verdien som er slik at omtrent 25 prosent av tala er mindre enn eller like verdien, er nedre kvartil.

Vi har òg noko som heiter øvre kvartil. Dette talet er definert på tilsvarande måte som nedre kvartil.

Ta utgangspunkt i avsnittet om nedre kvartil og skriv eit tilsvarande avsnitt som gjeld for øvre kvartil. Kor mange ord er ulike i dei to avsnitta?

Løysing og definisjon på øvre kvartil

Nedanfor er det som er ulikt i avsnitta, utheva.

"Vi ser no på halvdelen til høgre for medianen, altså den halvdelen med dei største tala. Øvre kvartil er definert som den midtarste verdien i denne halvdelen, og vi finn den midtarste verdien på den same måten som når vi finn medianen i eit talmateriale. Vi kan òg seie at den verdien som er slik at omtrent 75 prosent av tala er mindre enn eller lik verdien, er øvre kvartil"

Det er altså fem endringar i forhold til avsnittet om nedre kvartil.

Kvartilbreidde

Kvartilbreidda er skilnaden mellom øvre og nedre kvartil i eit talmateriale.

Finn kvartilbreidda i resultatet for matematikkprøven.

Løysing

Vi sorterer dataa og deler dei i to like delar. Så må vi finne midten i kvar halvdel. Nedre kvartil vil vere tal nummer 8, som er ein toar. Øvre kvartil vil vere tal nummer 23, som er ein femmar. Sjå nedanfor, der vi har kalla nedre kvartil $Q_{1}$ og øvre kvartil $Q_{3}$ .

$\begin{matrix} Kar . nr . & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & 11 & 12 & 13 & 14 & 15 \\ Karakter & 1 & 1 & 2 & 2 & 2 & 2 & 2 & 2 & 2 & 2 & 3 & 3 & 3 & 3 & 3 \\ Q_{1} \\ Kar . nr . & 16 & 17 & 18 & 19 & 20 & 21 & 22 & 23 & 24 & 25 & 26 & 27 & 28 & 29 & 30 \\ Karakter & 3 & 3 & 4 & 4 & 4 & 4 & 4 & 5 & 5 & 5 & 5 & 5 & 5 & 5 & 6 \\ Q_{3} \end{matrix}$

Kvartilbreidda er skilnaden mellom øvre og nedre kvartil:

$Q_{3} - Q_{1} = 5 - 2 = 3$

No tenkjer vi oss at vi tek bort seksaren i talmaterialet. Finn kvartilbreidda i dette tilfellet.

Løysing

No har vi 29 tal, altså eit oddetal tal på karakterar. For å kunne dele tala i to like delar når vi skal finne kvartilane, er regelen at vi fjernar talet i midten, altså medianen. Kvar halvdel vil no innehalde 14 tal. Derfor vil midtpunkta vere gjennomsnittet av dei to midtarste verdiane i kvart intervall.

Nedre kvartil vil derfor vere gjennomsnittet av tal nummer 7 og tal nummer 8, som begge er toarar. Øvre kvartil vil vere gjennomsnittet av tal nummer 22, som er ein firar og tal nummer 23, som er ein femmar. Sjå nedanfor.

$\begin{matrix} Kar . nr . & 1 & 2 & 3 & 4 & 5 & 6 & 7 8 & 9 & 10 & 11 & 12 & 13 & 14 \\ Karakter & 1 & 1 & 2 & 2 & 2 & 2 & 2 2 & 2 & 2 & 3 & 3 & 3 & 3 \\ Q_{1} \\ Kar . nr . & 16 & 17 & 18 & 19 & 20 & 21 & 22 23 & 24 & 25 & 26 & 27 & 28 & 29 \\ Karakter & 3 & 3 & 4 & 4 & 4 & 4 & 4 5 & 5 & 5 & 5 & 5 & 5 & 5 \\ Q_{3} \end{matrix}$

Vi får at nedre kvartil $Q_{1} = 2$ .

Øvre kvartil er $Q_{3} = \frac{4 + 5}{2} = \frac{9}{2} = 4, 5$ .

Kvartilbreidda er skilnaden mellom øvre og nedre kvartil, altså $4, 5 - 2 = 2, 5$ .

Når vi har funne medianen og kvartilane, har vi delt datamaterialet vårt i fire tilnærma like delar. Derfor kan vi seie at kvartilbreidda fortel oss kor stor spreiing det er i den halvdelen av datamaterialet som ligg nærast medianen.

Vi kallar nedre kvartil for $Q_{1}$ og øvre kvartil for $Q_{3}$ . Kva er $Q_{2}$ ?

Forklaring

$Q_{2}$ er det same som medianen, men namnet $Q_{2}$ blir ikkje brukt.

Merk at kvartilane og medianen deler tala i datamaterialet inn i fire like store delar.

Boksplott – grafisk framstilling av spreiinga i datamaterialet

Teikning av boksplott

Eit boksplott gir eit grafisk bilete av nokre av dei statistiske storleikane i eit datamateriale. Dersom vi teiknar eit boksplott over prøveresultata i klassen til Mary Ann, kan det sjå ut som på biletet.

Dersom du ikkje kan sjå biletet, treng du hjelp til å tolke diagrammet. Illustrasjon. — Boksplott over karakterane i klassen til Mary Ann. Bilete: Bjarne Skurdal / CC BY-SA 4.0

Kva trur du boksen som går frå karakterane 2 til 5, symboliserer?

Løysing

Denne boksen symboliserer kvartilbreidda, sidan endane har den same verdien som kvartilane.

Kva trur du dei to ytste, loddrette strekane på 1 og 6 symboliserer?

Løysing

Dei to ytste strekane representerer den største og minste verdien i datamaterialet. Avstanden mellom dei svarer derfor til variasjonsbreidda i datamaterialet.

Kva trur du den loddrette streken ved karakteren 3 symboliserer?

Løysing

Den loddrette streken gjennom boksen viser kva medianen i datamaterialet er.

Boksplott med GeoGebra

I staden for å teikne boksplottet manuelt, kan vi bruke GeoGebra til å teikne det for oss. Då treng vi anten ei liste med dei ulike karakterverdiane og ei liste med frekvensane eller ei liste med alle dei 30 enkeltkarakterane.

Dersom vi har ei liste "karakterverdiar" med dei ulike karakterverdiane og ei liste "frekvensar" med frekvensane, blir kommandoen for å lage boksplottet som vist nedanfor.

Boksplott(2,1,karakterverdiar,frekvensar,false)

Det første talet gir den loddrette plasseringa av boksplottet mens det andre talet er halvparten av (den loddrette) breidda av boksplottet.

Dersom vi i staden for frekvensane hadde hatt ei liste "enkeltkarakterar" med dei 30 enkeltkarakterane, ville kommandoen som gir boksplottet, ha vore

Boksplott(2,1,enkeltkarakterar,false)

Standardavvik

Standardavvik er eit mykje brukt mål for spreiing i eit datamateriale. Standardavviket seier noko om kor langt dei enkelte verdiane i gjennomsnitt ligg frå gjennomsnittsverdien (gjennomsnittet). Dersom det er veldig mange tal i datamaterialet, vil omtrent $\frac{2}{3}$ (67 prosent) av tala liggje nærare gjennomsnittsverdien enn pluss-minus eitt standardavvik.

For eit datamateriale med få tal slik som prøveresultata i klassen til Mary Ann, vil dette ofte ikkje stemme så godt. Likevel blir standardavvik òg brukt i slike tilfelle.

Døme 1

Dersom gjennomsnittsverdien i eit datamateriale er 7 og standardavviket er 2, vil omtrent $\frac{2}{3}$ av tala i datamaterialet vere frå 5 til 9.

Døme 2

Dersom gjennomsnittsverdien i eit datamateriale er 7 og standardavviket er 3, vil omtrent $\frac{2}{3}$ av tala i datamaterialet vere frå 4 til 10. Her må vi altså ta med verdiane frå og med 4 til og med 10 for å kunne finne $\frac{2}{3}$ av tala (tilnærma). I døme 1 held det å ta med verdiane frå og med 5 til og med 9. Då er det mindre spreiing på dataa i døme 1 enn i døme 2.

Utrekning av standardavvik

I dette kurset vil vi berre rekne ut standardavviket i eit talmateriale ved å bruke eit digitalt verktøy som eit rekneark eller GeoGebra, sjå sida "Statistikk med GeoGebra", eller med programmering, sjå sida "Behandling av store datamengder i Python" (lenkjer nedst på sida). Vi vil likevel vise korleis vi finn standardavviket manuelt, sidan det kan vere ei god hjelp til å forstå kva standardavvik er.

Når vi skal rekne ut standardavviket manuelt, bereknar vi først noko vi kallar varians. Variansen er det vi får når vi bereknar den gjennomsnittlege kvadrerte avstanden frå kvar måling (kvar karakter i dømet vårt) til gjennomsnittet.

Vi reknar ut avstanden frå karakteren 1 til gjennomsnittskarakteren 3,3. Svaret blir opphøgd i andre potens ${(1 - 3, 3)}^{2} = 5, 29$ . Dette er kvadratavviket for karakteren 1. Sidan karakteren 1 finst to gonger og vi skal summere alle kvadratavvika, multipliserer vi 5,29 med 2 og får 10,89. Deretter gjer vi det same med dei andre talkarakterane. Sjå tabellen nedanfor.

Karakter	Frekvens
$x$	$f$	$x \cdot f$	$(x - \bar{x})^{2} \cdot f$
1	2	2	$(1 - 3, 33)^{2} \cdot 2 \approx 10, 89$
2	8	16	$(2 - 3, 33)^{2} \cdot 8 \approx 14, 15$
3	7	21	$(3 - 3, 33)^{2} \cdot 7 \approx 0, 76$
4	5	20	$(4 - 3, 33)^{2} \cdot 5 \approx 2, 24$
5	7	35	$(5 - 3, 33)^{2} \cdot 7 \approx 19, 52$
6	1	6	$(6 - 3, 33)^{2} \cdot 1 \approx 7, 13$
Sum	30	100	54,69

Gjennomsnitt	$\bar{x} = \frac{100}{30} \approx 3, 33$
Varians	$\frac{54, 69}{30} \approx 1, 82$
Standardavvik	$\sqrt{1, 82} \approx 1, 35$

Vi summerer alle kvadratavvika og får summen 54,69. Variansen får vi så ved å dele summen av kvadratavvika (54,69) på talet på karakterar.

$Varians = \frac{54, 69}{30} = 1, 82$

Sidan variansen er eit mål på det gjennomsnittlege kvadratavviket, blir standardavviket rekna ut ved å ta kvadratrota av variansen.

$\begin{array}{rcl} Standardavvik & = & \sqrt{Varians} \\ = & \sqrt{1, 82} \\ = & 1, 35 \end{array}$

Lag tabellen over ved hjelp av eit rekneark. I reknearket skal du òg rekne ut gjennomsnittet, variansen og standardavviket.

Løysing

Nedanfor kan du laste ned eit rekneark som viser korleis det kan gjerast.

Filer

Standardavvik(XLSX)

To typar standardavvik

Måten vi har rekna ut standardavviket på over, gjeld berre dersom vi har alle tala i eit talmateriale. I dømet med prøvekarakterar kjenner vi alle resultata. Dei som lagar meiningsmålingar av ulik art, kan som regel ikkje intervjue "alle". Dei tek eit såkalla representativt utval av gruppa. Då blir uvissa i standardavviket større, og vi reknar det ut på ein annan måte som vi ikkje kjem inn på her. Vi får då det vi kallar empirisk standardavvik eller utvalsstandardavvik.

Dersom det representative utvalet (talet på observasjonar) er stort, vil skilnaden på dei to standardavvika vere liten.

Digitale hjelpemiddel

Reknearkprogram som Excel og Google Regneark har innebygde funksjonar (kommandoar) som reknar ut både sentralmål og spreiingsmål for oss. Det same gjeld programmeringsspråk som Python. Vi vil likevel i dette faget ha størst fokus på korleis vi bruker GeoGebra for å finne desse statistiske storleikane.

Relatert innhald

Fagstoff

Problemet med gjennomsnittet

Vi ser på korleis vi kan rekne ut statistikk på bruken av Snapchat.

Fagstoff

Sentralmål og spreiingsmål med GeoGebra

Her ser vi korleis vi kan bruke GeoGebra til å finne ulike statistiske storleikar i eit talmateriale ved bruk av såkalla lister.

Spreiingsmål

Variasjonsbreidde

Kvartilar og kvartilbreidde

Kvartilar

Kvartilbreidde

Boksplott – grafisk framstilling av spreiinga i datamaterialet

Teikning av boksplott

Boksplott med GeoGebra

Standardavvik

Døme 1

Døme 2

Utrekning av standardavvik

Filer

To typar standardavvik

Digitale hjelpemiddel

Relatert innhald

Reglar for bruk av teksten "Spreiingsmål"