Fagstoff

Sentralgrensesetningen

Ikke alle variabler er normalfordelt, men hvis vi gjennomfører mange nok forsøk, vil vi se at normalfordelingen i de fleste tilfeller kan brukes til å regne ut en tilnærmet sannsynlighet for at noe skal skje. Dette skal vi se nærmere på i denne artikkelen.

Hva er sentralgrensesetningen?

Sentralgrensesetningen forteller oss at selv om en variabel $X$ ikke er normalfordelt i utgangspunktet, kan vi likevel bruke normalfordeling til å tilnærme sannsynlighetsfordelingen til $X$ . Vi anbefaler at du gjør oppgave 4.2.21 på oppgavesiden om sentralgrensesetningen før du leser videre, fordi det er en oppgave der du får utforske denne sammenhengen.

Sentralgrensesetningen sier at dersom vi gjør tilstrekkelig mange forsøk, vil sannsynlighetsfordelingen til alle stokastiske variabler kunne tilnærmes med en normalfordeling.

Matematisk kan vi formulere det slik:

Vi har en stokastisk variabel $X$ med forventningsverdi $μ$ og standardavvik $σ$ . La $\sum_{n} X$ være summen av $n$ uavhengige forsøk med $X$ . For store verdier av $n$ er $\sum_{n} X$ tilnærmet normalfordelt.

Forventningsverdien til $\sum_{n} X$ er $n \cdot μ$ og standardavviket er $\sqrt{n} \cdot σ$ .

Vi illustrerer med et eksempel:

Vi ser på den stokastiske variabelen $X$ som antall øyne ved kast av én terning. I tabellen nedenfor har vi regnet ut forventningsverdien og variansen til $X$ .

kast med Én terning
$x$	1	2	3	4	5	6	Sum
$P (X = x)$	0,167	0,167	0,167	0,167	0,167	0,167	1,000
$x \cdot P (X = x)$	0,167	0,333	0,500	0,667	0,833	1,000	3,500
$(x - μ)^{2} \cdot P (X = x)$	1,042	0,375	0,042	0,042	0,375	1,042	2,917

Vi ser at vi har $μ = 3, 5$ og $σ = \sqrt{2, 917}$ . La $S$ være summen av antall øyne ved kast av hundre terninger.

$S = X_{1} + X_{2} + . . . + X_{100}$

Da kan vi bruke sentralgrensesetningen. Sentralgrensesetningen sier at $S$ da er normalfordelt med forventningsverdi og standardavvik

$\begin{array}{l} μ = 100 \cdot 3, 5 = 350 \\ σ = \sqrt{100} \cdot \sqrt{2, 917} = \sqrt{291, 7} \approx 17 \end{array}$

I oppgavene skal du få simulere dette forsøket og sjekke om du får praksis til å stemme med teorien.

Gjennomsnittet i en normalfordeling

I artikkelen om normalfordelingen undersøkte vi høyden til 500 håndballspillere. Vi lot den stokastiske variabelen $Y$ være høyden til en tilfeldig valgt håndballspiller.

🤔 Tenk over: Hva skjer om vi måler høyden til bare noen av disse håndballspillerne? Hva vil skje med forventningsverdien og standardavviket i dette utvalget?

Forklaring

Forventningsverdien til gjennomsnittet vil være den samme som i hovedutvalget, uansett størrelse på utvalget. Men siden vi bare vil ha et utvalg, vil standardavviket bli mindre i de fleste mulige utvalgene. Vi kan trekke mange forskjellige kombinasjoner, og noen ganger vil gjennomsnittet og standardavviket være langt unna de opprinnelige verdiene.

Vi vil ikke gå i dybden på disse sammenhengene her, men vi vil oppgi formlene.

Vi kan formulere denne sammenhengen slik:

La $X$ være en normalfordelt variabel med forventningsverdi $μ$ og standardavvik $σ$ .

Hvis vi trekker ut et utvalg av størrelse $n$ fra denne fordelingen, vil gjennomsnittet, $\bar{X}$ , selv være en normalfordelt variabel. Denne variabelen vil ha

$E (\bar{X}) = μ$

$S D (\bar{X}) = \frac{σ}{\sqrt{n}}$

🤔 Tenk over: Hvordan henger formelen for standardavviket til gjennomsnittet sammen med standardavviket til et multiplum av stokastiske variabler?

Forklaring

Hvis vi i stedet for å tenke på gjennomsnittet ser på summen, $S = X_{1} + X_{2} + . . . + X_{n}$ , av utvalget vi trekker ut, har vi sammenhengen $S D (S) = \sqrt{n} \cdot σ$ . Hvis vi så dividerer dette standardavviket på $n$ , får vi

$S D (\bar{X}) = \frac{S D (S)}{n} = \frac{\sqrt{n} \cdot σ}{n} = \frac{σ}{\sqrt{n}}$

Tilnærming av binomiske forsøk med normalfordeling

I oppgave 4.2.21 så du at hvis vi gjorde flere og flere forsøk i en binomisk fordeling, ville fordelingen nærme seg normalfordelt. I teksten over har vi skrevet: "For store verdier av $n$ er $\sum_{n} X$ tilnærmet normalfordelt". Men hvor stor må $n$ være for at vi skal kunne bruke normalfordelingen som tilnærming? Det er dessverre ikke noe fast svar på det i alle tilfeller, men når det gjelder binomiske forsøk, har man kommet fram til følgende sammenheng:

La $X$ være antall suksesser i ei binomisk forsøksrekke med uavhengige delforsøk, hvert med sannsynlighet p for "suksess".

Da er $X$ tilnærmet normalfordelt hvis

$n p > 10 og n \cdot (1 - p) > 10$

Denne normalfordelingen vil da ha samme forventningsverdi og standardavvik som den tilsvarende binomiske sannsynlighetsfordelingen, det vil si:

$μ = n p og σ = \sqrt{n p (1 - p)}$

Dette blir vist i oppgave 4.2.21 i).

Oppsummering

La $X$ være en stokastisk variabel med $E (X) = μ$ og $S D (X) = σ$ .

$S = \underset{n}{\sum X}$

Hvis $n$ er tilstrekkelig stor, sier sentralgrensesetningen at $S$ er tilnærmet normalfordelt, med

$\begin{array}{rcl} E (S) & = & n \cdot μ \\ S D (S) & = & \sqrt{n} \cdot σ \end{array}$

I tillegg har vi at gjennomsnittet, $\bar{X}$ , av et utvalg av størrelse $n$ selv er en tilnærmet normalfordelt variabel, med

$\begin{array}{rcl} E (\bar{X}) & = & μ \\ S D (\bar{X}) & = & \frac{σ}{\sqrt{n}} \end{array}$