Hopp til innhald
Fagartikkel

Varians og standardavvik

Vi jobbar med omgrepa varians og standardavvik.

Spreiingsmål

Gjennomsnitt og forventningsverdi seier noko om sentrum i eit talmateriale og blir kalla sentralmål. Ulike datasett kan ha lik forventningsverdi, samtidig som fordelinga av dei enkelte observasjonane er veldig ulike. Vi har tidlegare sett på sannsynsfordelinga og forventningsverdien til kast med éin terning, med p=16 og μ=3,5.

La oss samanlikne med karakterfordelinga på skriftleg eksamen i matematikk R1 skuleåret 2014/2015. Her fordeler karakterane seg slik (tal frå Utdanningsdirektoratets karakterstatistikk):

karakterfordeling

X=

Karakteren 1

Karakteren 2

Karakteren 3

Karakteren 4

Karakteren 5

Karakteren 6

Andel

0,0450,2010,2600,2500,2120,032

Vi reknar ut forventningsverdien (her står X for eksamenskarakteren til ein tilfeldig vald elev):

E(X) = i=1nxi·P(X=xi)= 1·0,045+2·0,201+3·0,260+4·0,250+5·0,212+6·0,032 3,5

Dette er den same forventningsverdien som ved kast med éin terning. Men vi ser at fordelinga av dei enkelte dataa er forskjellig. Vi treng noko å beskrive dette med, utan at ein må vise fram heile tabellen. Vi treng eit spreiingsmål. Det finst fleire ulike spreiingsmål, men i matematikk S2 skal vi konsentrere oss om varians og standardavvik. Les gjerne meir i fagartikkelen om ulike spreiingsmål.

Varians i eit datamateriale

Varians er det vi kan kalle for gjennomsnittleg kvadratavvik. Vi viser først korleis ein finn variansen i observerte data, med utgangspunkt i døma over.

Vi har køyrt ei simulering (du finn programmet i den klikkbare boksen under tabellen) der vi har kasta ein terning 10 000 gonger og fått følgande tabell (som gir gjennomsnitt = 3,50):

Resultat frå simuleringa

Tal på auge (Y)

1

2

3

4

5

6

Tal på kast

1 6781 6611 6711 6211 6701 699

Vi finn variansen for kasta ved å finne avviket frå gjennomsnittet for kvar enkelt observasjon, kvadrere det og finne gjennomsnittet av desse avvika:

Var(Y)=(1-3,5)2·1678+(2-3,5)2·1661+(3-3,5)2·1671+(4-3,5)2·1621+(5-3,5)2·1670+(6-3,5)2·169910000=6,25·1678+2,25·1661+0,25·1671+0,25·1621+2,25·1670+6,25·169910000=2942410000=2,9422,94


Kode til simulering

Dersom feltet over er tomt, kan du sjå koden nedanfor.

python
1from numpy.random import default_rng         # importerer default_rng
2rng = default_rng()                          # lagar ein rng (random number generator)
3
4N = 10000                                    # vel talet på forsøk
5tabell = [0,0,0,0,0,0]                       # lagar ei liste for talet av kvart resultat
6
7for i in range(N):
8    terning = (rng.integers(1,7))               # kastar terningen tilfeldig
9    tabell[terning-1] = tabell[terning-1] + 1   # legg terningkastet inn i tabellen
10
11gjennomsnitt = (tabell[0]*1+tabell[1]*2+tabell[2]*3+tabell[3]*4+tabell[4]*5+tabell[5]*6)/N
12print(f"Gjennomsnittet er {gjennomsnitt:.2f}.")
13print(tabell)

Vi finn tilsvarande varians i karakterfordelinga over. Her er talet på observasjonar (karakterar) gitt i andelar, derfor deler vi på 1. Vi kunne sjølvsagt ha latt være å dele på 1, men vi gjer det for å vise at det er den same utrekninga som over:

Var(X)=(1-3,5)2·0,045+(2-3,5)2·0,201+(3-3,5)2·0,260+(4-3,5)2·0,250+(5-3,5)2·0,212+(6-3,5)2·0,0321=6,25·0,045+2,25·0,201+0,25·0,260+                           0,25·0,250+2,25·0,212+6,25·0,032==1,5381,54
Her kan vi legge merke til at variansen i karakterfordelinga er ganske mye mindre enn variansen i terningkastforsøket. Dette betyr, som vi òg kan lese ut av tabellen, at mens utfalla i terningkastforsøket er tilnærma jamt fordelt, er karakterane på R1-eksamen meir konsentrerte i nærleiken av gjennomsnittskarakteren.

Varians i sannsynsfordelingar

Når vi reknar med varians i sannsynsfordelingar, tek vi utgangspunkt i sannsynet i staden for talet på førekomstar. Då får vi ei utrekning som liknar på det vi fekk då vi fann variansen i karakterfordelinga. Vi tek utgangspunkt i sannsynsfordelinga for kast med éin terning i staden for simuleringa:

Sannsynsfordeling for kast med éin terning

Terningkast 1

Terningkast 2

Terningkast 3

Terningkast 4

Terningkast 5

Terningkast 6

Andel

161616161616

Var(X)=i=1n(xi-μ)2·P(X=xi)=(1-3,5)2·16+(2-3,5)2·16+(3-3,5)2·16                +(4-3,5)2·16+(5-3,5)2·16+(6-3,5)2·16=16(6,25+2,25+0,25+0,25+2,25+6,25)=16·17,5=2,9172,92

Vi ser at variansen i sannsynsfordelinga er nokså nær den variansen vi fekk i simuleringa.

Standardavvik

Det aller vanlegaste spreiingsmålet er standardavvik. Standardavviket har, som forventningsverdien, fått tildelt sin eigen greske bokstav. Vi kallar standardavviket (forkorta SD) for σ, sigma, og får følgande utrekning:

SD = σ=Var(X)

Dette gir følgande standardavvik for situasjonane over:

Forsøket med kast med éin terning:

σ=2,941,71

Karakterfordelinga på eksamen i R1:

σ=1,541,24

Sannsynsfordelinga for kast med éin terning:

σ=2,921,70

I oppgåvene skal du i tillegg til å rekne for hand òg få lage program som kan finne varians og standardavvik.

Formel for varians

Var(X)=i=1n(xi-μ)2·P(X=xi)

Formel for standardavvik

σ=SDX=Var(X)





Relatert innhald

Fagstoff
Spreiingsmål

Her definerer vi kva vi meiner med spreiing i eit datamateriale, og vi ser på spreiingsmåla variasjonsbreidde, kvartilbreidde og standardavvik.