Article

Varians og standardavvik

Vi jobber med begrepene varians og standardavvik.

Spredningsmål

Gjennomsnitt og forventningsverdi sier noe om sentrum i et tallmateriale og kalles sentralmål. Ulike datasett kan ha lik forventningsverdi, samtidig som fordelingen av de enkelte observasjonene er veldig ulike. Vi har tidligere sett på sannsynlighetsfordelingen og forventningsverdien til kast med én terning, med $p = \frac{1}{6}$ og $μ = 3, 5$ .

La oss sammenlikne med karakterfordelingen på skriftlig eksamen i matematikk R1 skoleåret 2014/2015. Her fordeler karakterene seg slik (tall fra Utdanningsdirektoratets karakterstatistikk):

Karakterfordeling
$X =$	Karakteren 1	Karakteren 2	Karakteren 3	Karakteren 4	Karakteren 5	Karakteren 6
Andel	0,045	0,201	0,260	0,250	0,212	0,032

Vi regner ut forventningsverdien (her står $X$ for eksamenskarakteren til en tilfeldig valg elev):

$\begin{array}{rcl} E (X) & = & \sum_{i = 1}^{n} x_{i} \cdot P (X = x_{i}) \\ = & 1 \cdot 0, 045 + 2 \cdot 0, 201 + 3 \cdot 0, 260 + 4 \cdot 0, 250 + 5 \cdot 0, 212 + 6 \cdot 0, 032 \\ \approx & 3, 5 \end{array}$

Dette er samme forventningsverdi som ved kast med én terning. Men vi ser at fordelingen av de enkelte dataene er forskjellig. Vi trenger noe å beskrive dette med, uten at man må vise fram hele tabellen. Vi trenger et spredningsmål. Det finnes flere ulike spredningsmål, men i matematikk S2 skal vi konsentrere oss om varians og standardavvik. Les gjerne mer i fagartikkelen om ulike spredningsmål.

Varians i et datamateriale

Varians er det vi kan kalle for gjennomsnittlig kvadratavvik. Vi viser først hvordan man finner variansen i observerte data, med utgangspunkt i eksemplene over.

Vi har kjørt en simulering (du finner programmet i den klikkbare boksen under tabellen) hvor vi har kastet en terning 10 000 ganger og fått følgende tabell (som gir gjennomsnitt = 3,50):

Resultater fra simuleringen
Antall øyne ( $Y$ )	1	2	3	4	5	6
Antall kast	1 678	1 661	1 671	1 621	1 670	1 699

Vi finner variansen for kastene ved å finne avviket fra gjennomsnittet for hver enkelt observasjon, kvadrere det og finne gjennomsnittet av disse avvikene:

$\begin{array}{l} V a r (Y) = \\ \frac{{(1 - 3, 5)}^{2} \cdot 1678 + {(2 - 3, 5)}^{2} \cdot 1661 + {(3 - 3, 5)}^{2} \cdot 1671 + {(4 - 3, 5)}^{2} \cdot 1621 + {(5 - 3, 5)}^{2} \cdot 1670 + {(6 - 3, 5)}^{2} \cdot 1699}{10000} = \\ \frac{6, 25 \cdot 1678 + 2, 25 \cdot 1661 + 0, 25 \cdot 1671 + 0, 25 \cdot 1621 + 2, 25 \cdot 1670 + 6, 25 \cdot 1699}{10000} = \\ \frac{29424}{10000} = 2, 942 \approx 2, 94 \end{array}$

Kode til simulering

Dersom feltet over er tomt, kan du se koden nedenfor.

python

1from numpy.random import default_rng         # importerer default_rng
2rng = default_rng()                          # lager en rng (random number generator)
3
4N = 10000                                    # velger antall forsøk
5tabell = [0,0,0,0,0,0]                       # lager ei liste for antall av hvert resultat
6
7for i in range(N):
8    terning = (rng.integers(1,7))              # kaster terningen tilfeldig
9    tabell[terning-1] = tabell[terning-1] + 1  # legger terningkastet inn i tabellen
10
11gjennomsnitt = (tabell[0]*1+tabell[1]*2+tabell[2]*3+tabell[3]*4+tabell[4]*5+tabell[5]*6)/N
12print(f"Gjennomsnittet er {gjennomsnitt:.2f}.")
13print(tabell)

Vi finner tilsvarende varians i karakterfordelingen over. Her er antall observasjoner (karakterer) oppgitt i andeler, derfor deler vi på 1. Vi kunne selvsagt ha latt være å dele på 1, men vi gjør det for å vise at det er den samme utregningen som over:

$\begin{array}{l} V a r (X) = \\ \frac{{(1 - 3, 5)}^{2} \cdot 0, 045 + {(2 - 3, 5)}^{2} \cdot 0, 201 + {(3 - 3, 5)}^{2} \cdot 0, 260 + {(4 - 3, 5)}^{2} \cdot 0, 250 + {(5 - 3, 5)}^{2} \cdot 0, 212 + {(6 - 3, 5)}^{2} \cdot 0, 032}{1} = \\ 6, 25 \cdot 0, 045 + 2, 25 \cdot 0, 201 + 0, 25 \cdot 0, 260 + \\ 0, 25 \cdot 0, 250 + 2, 25 \cdot 0, 212 + 6, 25 \cdot 0, 032 = \\ = 1, 538 \approx 1, 54 \end{array}$
Her kan vi legge merke til at variansen i karakterfordelingen er ganske mye mindre enn variansen i terningkastforsøket. Dette betyr, som vi også kan lese ut av tabellen, at mens utfallene i terningkastforsøket er tilnærmet jevnt fordelt, er karakterene på R1-eksamen mer konsentrert i nærheten av gjennomsnittskarakteren.

Varians i sannsynlighetsfordelinger

Når vi regner med varians i sannsynlighetsfordelinger, tar vi utgangspunkt i sannsynligheten i stedet for antallet forekomster. Da får vi en utregning som likner på den vi fikk da vi fant variansen i karakterfordelingen. Vi tar utgangspunkt i sannsynlighetsfordelingen for kast med én terning i stedet for simuleringen:

Sannsynlighetsfordeling for kast med én terning
	Terningkast 1	Terningkast 2	Terningkast 3	Terningkast 4	Terningkast 5	Terningkast 6
andel	$\frac{1}{6}$	$\frac{1}{6}$	$\frac{1}{6}$	$\frac{1}{6}$	$\frac{1}{6}$	$\frac{1}{6}$

$\begin{array}{ccl} V a r (X) & = & \sum_{i = 1}^{n} {(x_{i} - μ)}^{2} \cdot P (X = x_{i}) \\ = & {(1 - 3, 5)}^{2} \cdot \frac{1}{6} + {(2 - 3, 5)}^{2} \cdot \frac{1}{6} + {(3 - 3, 5)}^{2} \cdot \frac{1}{6} \\ + {(4 - 3, 5)}^{2} \cdot \frac{1}{6} + {(5 - 3, 5)}^{2} \cdot \frac{1}{6} + {(6 - 3, 5)}^{2} \cdot \frac{1}{6} \\ = & \frac{1}{6} (6, 25 + 2, 25 + 0, 25 + 0, 25 + 2, 25 + 6, 25) \\ = & \frac{1}{6} \cdot 17, 5 = 2, 917 \approx 2, 92 \end{array}$

Vi ser at variansen i sannsynlighetsfordelingen er nokså nær den variansen vi fikk i simuleringen.

Standardavvik

Det aller vanligste spredningsmålet er standardavvik. Standardavviket har, som forventningsverdien, fått tildelt sin egen greske bokstav. Vi kaller standardavviket (forkortet $S D$ ) for $σ$ , sigma, og får følgende utregning:

$S D = σ = \sqrt{V a r (X)}$

Dette gir følgende standardavvik for situasjonene over:

Forsøket med kast med én terning:

$σ = \sqrt{2, 94} \approx 1, 71$

Karakterfordelingen på eksamen i R1:

$σ = \sqrt{1, 54} \approx 1, 24$

Sannsynlighetsfordelingen for kast med én terning:

$σ = \sqrt{2, 92} \approx 1, 70$

I oppgavene skal du i tillegg til å regne for hånd også få lage programmer som kan finne varians og standardavvik.

Formel for varians

$\begin{array}{ccl} V a r (X) & = & \sum_{i = 1}^{n} {(x_{i} - μ)}^{2} \cdot P (X = x_{i}) \end{array}$

Formel for standardavvik

$σ = S D (X) = \sqrt{V a r (X)}$