Fagartikkel

Normalfordelingen

Normalfordelingen er et eksempel på sannsynlighetsfordelingen til en kontinuerlig stokastisk variabel. Denne fordelingen er symmetrisk om forventningsverdien og er slik at cirka 68 prosent av observasjonene ligger innenfor pluss/minus ett standardavvik fra denne verdien.

Kontinuerlige stokastiske variabler

De stokastiske variablene vi har jobbet med til nå, både i S1 og i S2, er det vi kaller for diskrete stokastiske variabler.

Sannsynlighetsfordelingen til en diskret stokastisk variabel $X$ er ei liste med alle verdiene $X$ kan ha, og sannsynlighetene for hver av disse verdiene. Summen av sannsynlighetene skal være lik 1. Du kan lese mer om det i artikkelen om stokastiske variabler i S1.

En kontinuerlig stokastisk variabel er en variabel der observasjonene fordeler seg på en kontinuerlig skala. Et eksempel er hvor lang reisevei et utvalg mennesker har til jobben. Avhengig av nøyaktighet i målingene vil det være like mange svar som det er individer i undersøkelsen. Slike sannsynlighetsfordelinger er beskrevet med det vi kaller en tetthetsfunksjon i stedet for en tabell. Integralet av en slik tetthetsfunksjon skal bli 1, i likhet med summen av sannsynlighetene i den diskrete varianten.

Den fordelingen som opptrer oftest, er normalfordelingen. I oppgavene skal du også få jobbe med andre sannsynlighetsfordelinger og deres tetthetsfunksjoner.

Normalfordelingen

Hvis man undersøker den statistiske fordelingen til ulike stokastiske variabler, vil man se at veldig mange av dem er det vi kaller normalfordelt. Vi skal se på et eksempel der vi har målt høyden på 500 menn som spiller håndball på høyt nivå. Den kontinuerlige stokastiske variabelen $Y$ er høyden til en vilkårlig håndballspiller.

For å få oversikt har vi ordnet høydene i klasser med klassebredde 5 cm. Tabellen nedenfor viser resultatene. Vi har samlet alle som var lavere enn 170 cm, i klassen $[165, 170 ⟩$ og alle som var 200 cm eller høyere, i klassen $[200, 205 ⟩$ .

HØyde, HÅNDBALLSPILLERE
Høyde i cm	Antall
$[165, 170 ⟩$	13
$[170, 175 ⟩$	26
$[175, 180 ⟩$	76
$[180, 185 ⟩$	101
$[185, 190 ⟩$	125
$[190, 195 ⟩$	93
$[195, 200 ⟩$	43
$[200, 205 ⟩$	23
SUM	500

Vi framstiller nå oversikten over høyden til håndballspillerne i et histogram, der arealet av søylene til sammen er 1. Arealet av en av søylene blir derfor sannsynligheten for at en vilkårlig håndballspiller i utvalget vårt hører hjemme i akkurat denne klassen. Dette arealet kan vi finne ved å multiplisere klassebredden (5) med høyden på histogramsøylen:

Et histogram som viser høyder basert på dataene i tabellen høyde, håndballspillere. Illustrasjon. — Bilde: Tove Annette Holter / CC BY-SA 4.0

På denne måten har vi gjort om den kontinuerlige stokastiske variabelen til en diskret stokastisk variabel, der vi har gitt alle håndballspillerne i én klasse den samme høyden, nemlig klassemidtpunktet. Hvis vi regner ut gjennomsnitt og standardavvik i dette materialet, får vi at $μ = 186$ og $σ = 8$ .

Det viser seg at høyden til disse håndballspillerne fordeler seg nokså symmetrisk rundt gjennomsnittshøyden. Vi kan tegne en jevn kurve over høydene til håndballspillerne, altså den kontinuerlige stokastiske variabelen $Y$ , og legge den oppå histogrammet fra tabellen:

Et histogram med en blå normalfordelingskurve liggende over. Skjermutklipp. — Bilde: Tove Annette Holter / CC BY-SA 4.0

Arealet under denne kurven vil bli lik 1. Siden kurven er symmetrisk, vil arealet under den delen av kurven som ligger til venstre for toppunktet, bli lik $\frac{1}{2}$ . Det tilsvarer at halvparten av håndballspillerne i undersøkelsen er 186 cm eller lavere. Tilsvarende kan vi finne arealet under grafen i et intervall for å finne ut sannsynligheten for at en tilfeldig valgt spillers høyde er i dette intervallet. I eksempelet under finner vi sannsynligheten for at en tilfeldig håndballspiller er mellom 172 cm og 182 cm høy:

En normalfordelingskurve der arealet mellom 172 og 182 er markert og oppgitt til 0,268. Skjermutklipp. — Bilde: Tove Annette Holter / CC BY-SA 4.0

Siden arealet som er avgrenset av grafen og linjene $x = 172$ og $x = 182$ er lik 0,268, har vi at $P (172 \leq Y \leq 182) = 0, 268$ .

🤔 Tenk over: Legg merke til at vi bruker tegnet for mindre enn eller lik her. Vil det ha betydning om vi heller hadde skrevet $P (172 < Y < 182)$ ?

Forklaring

Nei, siden vi har med en kontinuerlig variabel å gjøre, vil det ikke ha noe å si om vi skriver mindre enn eller lik, eller ekte mindre enn. Det er vanlig å bruke $\leq$ når vi jobber med kontinuerlige sannsynlighetsfordelinger.

Kurven har en klokke- eller bjelleform og kalles bellkurve eller gausskurve, etter matematikeren Carl Friedrich Gauss. Veldig mange ting i naturen og i samfunnet er fordelt på denne måten. Den er faktisk så vanlig at vi kaller den for normalfordelingen. Vi sier at høyden til håndballspillerne er normalfordelt med forventningsverdi ( $μ$ ) lik 186 og standardavvik ( $σ$ ) lik 8.

Funksjonsuttrykket til normalfordelingen

Til nå har du bare sett grafen til normalfordelingsfunksjonen. Funksjonsuttrykket bruker vi ikke så ofte, det er et nokså komplisert uttrykk som er innebygd i de fleste digitale verktøyene du bruker. Det er kun $σ$ og $μ$ som varierer, og det er også disse to verdiene man vanligvis skriver inn når man bruker disse verktøyene. Vi ser likevel kort på hvordan uttrykket ser ut:

$f (x) = \frac{1}{σ \sqrt{2 π}} \cdot e^{- \frac{{(x - μ)}^{2}}{2 σ^{2}}}$

Vi finner alltid sannsynligheten for at en tilfeldig valgt observasjon er mindre enn eller lik en gitt verdi ved å finne integralet av $f (x)$ fram til den gitte verdien. I en oppgave skal du få vise at integralet til $f (x)$ er 1 uavhengig av variablene $σ$ og $μ$ .

Normalfordeling i GeoGebra

Hvis vi kjenner forventningsverdien og standardavviket, kan vi lett lese ut de ulike sannsynlighetene fra sannsynlighetskalkulatoren i GeoGebra. Vi bruker eksempelet vårt og finner sannsynligheten for at en tilfeldig valgt håndballspiller er mellom 178 cm og 192 cm:

Utklipp som viser sannsynlighetskalkulatoren i GeoGebra. En normalfordeling med forventingsverdi 186 og standardavvik 8. Vi har funnet sannsynligheten for at X ligger mellom 178 og 194, svaret er 0,6827. Skjermutklipp. — Bilde: Tove Annette Holter / CC BY-SA 4.0

Sannsynligheten for at en tilfeldig valgt håndballspiller er mellom 178 cm og 194 cm, er 0,6827.

🤔 Tenk over: Hvor stor er avstanden fra forventningsverdien til ytterpunktene i intervallet over? Og hvor stor andel av observasjonene ligger i dette intervallet?

Forklaring

Vi har at $186 - 178 = 8$ og at $192 - 186 = 8$ . Altså ligger ytterpunktene i intervallet ett standardavvik fra forventningsverdien. 68,27 prosent av observasjonene ligger i dette intervallet. Det gjelder generelt for alle normalfordelte variabler at cirka 68 prosent ligger innenfor ett standardavvik fra forventningsverdien.

Normalfordeling i Python

Vi kan også bruke programmering for å jobbe med normalfordeling. Vi bruker kommandoen norm fra biblioteket scipy.stats, her finner vi sannsynligheten for at en tilfeldig valgt håndballspiller er mindre enn 186 cm:

Python

1from scipy.stats import norm
2
3def f(x):
4    return norm.cdf(x,my,sigma)
5                               
6my = 186
7sigma = 8
8
9print(f"P(Y ≤ 186) = {f(186):.3f}")

🤔 Tenk over: Hva tror du utskriften av dette programmet gir oss?

Forklaring

Her vil utskriften bli P(Y<=186)=0,500. Siden en normalfordelt variabel $X$ med forventningsverdi $μ$ er symmetrisk om forventningsverdien, vil det alltid være slik at $P (X \leq μ) = 0, 5$ . Dette medfører at vi også alltid får $P (X \geq μ) = 0, 5$ .

Simulering

Vi kan bruke Python til å simulere forsøk med normalfordelte variabler. For eksempel ble datasettet vi startet med, generert ved å kjøre et program i Python som fordelte 500 observasjoner i klasser ut fra standardavviket og forventningsverdien. Vi viser med et litt enklere eksempel.

Eksempel

Vi har en kontinuerlig stokastisk variabel $X$ som er normalfordelt med $μ = 7, 5$ og $σ = 2$ . Vi ønsker å generere et datasett på 1 000 elementer med følgende klasseinndeling:

klasseinndeling
Verdier	Antall
$⟨ \leftarrow, 3]$
$[3, 6]$
$[6, 9]$
$[9, 12]$
$[12, \to 〉$

Vi generer datasettet og fordeler i kategorier ved hjelp av numpy-kommandoen "histogram", som fordeler datasettet i kategorier:

Python

1import numpy as np
2
3N = 1000
4kategorier = ["0-3","3-6","6-9","9-12","12+"]
5#lager en rng for å generere hele datasettet
6rng = np.random.default_rng()
7M = rng.normal(7.5,2,N)
8
9#lager array for grensene
10grenser = [M.min(),3,6,9,12,M.max()]
11
12#sorterer i kategorier med np.histogram:
13antall, nedregrenser = np.histogram(M,grenser)
14
15#skriver ut tabellen
16for i in range (len(kategorier)):
17     print(kategorier[i],":",antall[i])

Prøv selv!

Kopier programmet over i den editoren du bruker, og kjør det mange ganger. Kanskje kan du også regne ut gjennomsnittet og standardavviket i de datasettene du får? Dette skal du også få prøve ut i oppgavene.

Forventningsverdi i kontinuerlige stokastiske variabler

Vi har at forventningsverdien for en diskret stokastisk variabel er lik

$\begin{array}{rcl} μ & = & E (X) = \sum_{i = 1}^{n} x_{i} \cdot P (X = x_{i}) \end{array}$ .

Tilsvarende kan vi finne forventningsverdien til en kontinuerlig stokastisk variabel ved å integrere tetthetsfunksjonen.

$μ = E (X) = \int_{- \infty}^{\infty} x \cdot f (x) d x$ .

I oppgave 4.2.4 på oppgavesiden om normalfordelingen skal du få utforske denne sammenhengen med utgangspunkt i håndballspillerne vi har blitt kjent med i denne artikkelen.

Oppsummering

Generelt om kontinuerlige stokastiske variabler

Sannsynlighetsfordelingen for en kontinuerlig stokastisk variabel $X$ er gitt med en tetthetsfunksjon $f (x)$ der

$\int_{- \infty}^{\infty} f (x) d x = 1$

Da har vi at

$P (a \leq X \leq b) = \int_{a}^{b} f (x) d x$

Videre har vi at

$μ = E (X) = \int_{- \infty}^{\infty} x \cdot f (x) d x$

Normalfordelingen

En kontinuerlig stokastisk variabel $X$ med forventningsverdi $μ$ og standardavvik $σ$ er normalfordelt dersom sannsynlighetsfordelingen følger funksjonen

$f (x) = \frac{1}{σ \sqrt{2 π}} \cdot e^{- \frac{{(x - μ)}^{2}}{2 σ^{2}}}$

Vi har at

$P (μ - σ \leq X \leq μ + σ) \approx 0, 682$

$P (X \leq μ) = P (X \geq μ) = 0, 5$

Kontinuerlige stokastiske variabler

Normalfordelingen

Funksjonsuttrykket til normalfordelingen

Normalfordeling i GeoGebra

Normalfordeling i Python

Simulering

Eksempel

Prøv selv!

Forventningsverdi i kontinuerlige stokastiske variabler

Oppsummering

Generelt om kontinuerlige stokastiske variabler

Normalfordelingen

Regler for bruk av teksten "Normalfordelingen"