Sentralgrensesetninga fortel oss at sjølv om ein variabel ikkje er normalfordelt i utgangspunktet, kan vi likevel bruke normalfordeling til å tilnærme sannsynsfordelinga til X. Vi tilrår at du gjer oppgåve 4.2.21 på oppgåvesida om sentralgrensesetninga før du les vidare, fordi det er ei oppgåve der du får utforske denne samanhengen.
Sentralgrensesetninga seier at dersom vi gjer tilstrekkeleg mange forsøk, vil sannsynsfordelinga til alle stokastiske variablar kunne tilnærmast med ei normalfordeling.
Matematisk kan vi formulere det slik:
Vi har ein stokastisk variabel X med forventningsverdi μ og standardavvik σ. La ∑nX vere summen av n uavhengige forsøk med X. For store verdiar av n er ∑nX tilnærma normalfordelt.
Forventningsverdien til ∑nX er n·μ og standardavviket er n·σ.
Vi illustrerer med eit døme:
Vi ser på den stokastiske variabelen X som talet på auge ved kast av éin terning. I tabellen nedanfor har vi rekna ut forventningsverdien og variansen til X.
kast med Éin terningx | 1 | 2 | 3 | 4 | 5 | 6 | Sum |
---|
P(X=x) | 0,167 | 0,167 | 0,167 | 0,167 | 0,167 | 0,167 | 1,000 |
---|
x·P(X=x) | 0,167 | 0,333 | 0,500 | 0,667 | 0,833 | 1,000 | 3,500 |
---|
(x−μ)2·P(X=x) | 1,042 | 0,375 | 0,042
| 0,042
| 0,375
| 1,042
| 2,917
|
---|
Vi ser at vi har μ=3,5 og σ=2,917. La S vere summen av talet på auge ved kast av hundre terningar.
S=X1+X2+ ... +X100
Då kan vi bruke sentralgrensesetninga. Sentralgrensesetninga seier at S då er normalfordelt med forventningsverdi og standardavvik
μ=100·3,5=350σ=100·2,917=291,7≈17
I oppgåvene skal du få simulere dette forsøket og sjekke om du får praksis til å stemme med teorien.
Gjennomsnittet i ei normalfordeling
I artikkelen om normalfordelinga undersøkte vi høgda til 500 handballspelarar. Vi let den stokastiske variabelen Y vere høgda til ein tilfeldig vald handballspelar.
🤔 Tenk over: Kva skjer om vi måler høgda til berre nokre av desse handballspelarane? Kva vil skje med forventningsverdien og standardavviket i dette utvalet?
Forklaring
Forventningsverdien til gjennomsnittet vil vere den same som i hovudutvalet, uansett kva storleiken på utvalet er. Men sidan vi berre vil ha eit utval, vil standardavviket bli mindre i dei fleste moglege utvala. Vi kan trekke mange forskjellige kombinasjonar, og nokre gonger vil gjennomsnittet og standardavviket vere langt unna dei opphavlege verdiane.
Vi vil ikkje gå i djupna på desse samanhengane her, men vi vil gi deg formlane.
Vi kan formulere denne samanhengen slik:
La X vere ein normalfordelt variabel med forventningsverdi μ og standardavvik σ.
Dersom vi trekker ut eit utval av storleik n frå denne fordelinga, vil gjennomsnittet, X¯, sjølv vere ein normalfordelt variabel. Denne variabelen vil ha
EX¯=μ
SDX¯=σn
🤔 Tenk over: Korleis heng formelen for standardavviket til gjennomsnittet saman med standardavviket til eit multiplum av stokastiske variablar?
Forklaring
Dersom vi i staden for å tenke på gjennomsnittet ser på summen, S=X1+X2+ ... +Xn, av utvalet vi trekker ut, har vi samanhengen SDS=n·σ. Dersom vi så dividerer dette standardavviket på n, får vi
SDX¯=SDSn=n·σn=σn
I oppgåve 4.2.21 såg du at dersom vi gjorde fleire og fleire forsøk i ei binomisk fordeling, ville fordelinga nærme seg normalfordelt. I teksten over har vi skrive: "For store verdiar av n er ∑nX tilnærma normalfordelt". Men kor stor må n vere for at vi skal kunne bruke normalfordelinga som tilnærming? Det er dessverre ikkje noko fast svar på det i alle tilfelle, men når det gjeld binomiske forsøk, har ein komme fram til denne samanhengen:
La X vere talet på suksessar i ei binomisk forsøksrekke med uavhengige delforsøk, kvart med sannsyn p for "suksess".
Då er X tilnærma normalfordelt dersom
np >10 og n·1-p>10
Denne normalfordelinga vil då ha same forventningsverdi og standardavvik som den tilsvarande binomiske sannsynsfordelinga, det vil seie:
μ=np og σ=np1-p
Dette blir vist i oppgåve 4.2.21 i).
Oppsummering
La X vere ein stokastisk variabel med E(X)=μ og SD(X)=σ.
La
S=∑Xn
Dersom n er tilstrekkeleg stor, seier sentralgrensesetninga at S er tilnærma normalfordelt, med
E(S) = n·μSD(S) = n·σ
I tillegg har vi at gjennomsnittet, X¯, av eit utval av storleik n sjølv er ein tilnærma normalfordelt variabel, med
E(X¯) = μSD(X¯) = σn