Hopp til innhald
Fagartikkel

Normalfordelinga

Normalfordelinga er eit døme på sannsynsfordelinga til ein kontinuerleg stokastisk variabel. Denne fordelinga er symmetrisk om forventningsverdien og er slik at cirka 68 prosent av observasjonane ligg innanfor pluss/minus eitt standardavvik frå denne verdien.

Kontinuerlege stokastiske variablar

Dei stokastiske variablane vi har jobba med til no, både i S1 og i S2, er det vi kallar for diskrete stokastiske variablar.

Sannsynsfordelinga til ein diskret stokastisk variabel X er ei liste med alle verdiane X kan ha, og sannsyna for kvar av desse verdiane. Summen av sannsyna skal vere lik 1. Du kan lese meir om det i artikkelen om stokastiske variablar i S1.

Ein kontinuerleg stokastisk variabel er ein variabel der observasjonane fordeler seg på ein kontinuerleg skala. Eit døme er kor lang reiseveg eit utval menneske har til jobben. Avhengig av nøyaktigheit i målingane vil det vere like mange svar som det er individ i undersøkinga. Slike sannsynsfordelingar er beskrivne med det vi kallar ein tettleiksfunksjon i staden for ein tabell. Integralet av ein slik tettleiksfunksjon skal bli 1, i likskap med summen av sannsyna i den diskrete varianten.

Den fordelinga som opptrer oftast, er normalfordelinga. I oppgåvene skal du òg få jobbe med andre sannsynsfordelingar og tettleiksfunksjonane deira.

Normalfordelinga

Dersom ein undersøker den statistiske fordelinga til ulike stokastiske variablar, vil ein sjå at veldig mange av dei er det vi kallar normalfordelte. Vi skal sjå på eit døme der vi har målt høgda på 500 menn som speler handball på høgt nivå. Den kontinuerlege stokastiske variabelen Y er høgda til ein vilkårleg handballspelar.

For å få oversikt har vi ordna høgdene i klasser med klassebreidde 5 cm. Tabellen nedanfor viser resultata. Vi har samla alle som var lågare enn 170 cm, i klassen [165,170 og alle som var 200 cm eller høgare, i klassen [200, 205.

HØgde, HaNDBALLSPelarar

Høgde i cm

Antal

[165, 170

13

[170, 175

26

[175, 180

76

[180, 185

101

[185, 190

125

[190, 195

93

[195, 200

43

[200, 205

23

SUM

500

Vi framstiller no oversikta over høgda til handballspelarane i eit histogram, der arealet av søylene til saman er 1. Arealet av ei av søylene blir derfor sannsynet for at ein vilkårleg handballspelar i utvalet vårt høyrer heime i akkurat denne klassen. Dette arealet kan vi finne ved å multiplisere klassebreidda (5) med høgda på histogramsøyla:

På denne måten har vi gjort om den kontinuerlege stokastiske variabelen til ein diskret stokastisk variabel, der vi har gitt alle handballspelarane i éin klasse den same høgda, nemleg klassemidtpunktet. Dersom vi reknar ut gjennomsnitt og standardavvik i dette materialet, får vi at μ=186 og σ=8.

Det viser seg at høgda til desse handballspelarane fordeler seg nokså symmetrisk rundt gjennomsnittshøgda. Vi kan teikne ei jamn kurve over høgdene til handballspelarane, altså den kontinuerlege stokastiske variabelen Y, og legge ho oppå histogrammet frå tabellen:

Arealet under denne kurva vil bli lik 1. Sidan kurva er symmetrisk, vil arealet under den delen av kurva som ligg til venstre for toppunktet, bli lik 12. Det tilsvarer at halvparten av handballspelarane i undersøkinga er 186 cm eller lågare. Tilsvarande kan vi finne arealet under grafen i eit intervall for å finne ut sannsynet for at høgda til ein tilfeldig vald spelar er i dette intervallet. I dømet under finn vi sannsynet for at ein tilfeldig handballspelar er mellom 172 cm og 182 cm høg:

Sidan arealet som er avgrensa av grafen og linjene x=172 og x=182 er lik 0,268, har vi at P(172Y182)=0,268.

🤔 Tenk over: Legg merke til at vi bruker teiknet for mindre enn eller lik her. Vil det ha betydning om vi heller hadde skrive P(172<Y<182)?

Forklaring

Nei, sidan vi har med ein kontinuerleg variabel å gjere, vil det ikkje ha noko å seie om vi skriv mindre enn eller lik, eller ekte mindre enn. Det er vanleg å bruke når vi jobbar med kontinuerlege sannsynsfordelingar.

Kurva har ei klokke- eller bjølleform og blir kalla bellkurve eller gausskurve, etter matematikaren Carl Friedrich Gauss. Veldig mange ting i naturen og i samfunnet er fordelte på denne måten. Den er faktisk så vanleg at vi kallar dette for normalfordelinga. Vi seier at høgda til handballspelarane er normalfordelt med forventningsverdi (μ) lik 186 og standardavvik (σ) lik 8.

Funksjonsuttrykket til normalfordelinga

Til no har du berre sett grafen til normalfordelingsfunksjonen. Funksjonsuttrykket bruker vi ikkje så ofte, det er eit nokså komplisert uttrykk som er innebygt i dei fleste digitale verktøya du bruker. Det er berre σ og μ som varierer, og det er òg desse to verdiane ein vanlegvis skriv inn når ein bruker desse verktøya. Vi ser likevel kort på korleis uttrykket ser ut:

fx=1σ2π·e-x-μ22σ2

Vi finn alltid sannsynet for at ein tilfeldig vald observasjon er mindre enn eller lik ein gitt verdi ved å finne integralet av fx fram til den gitte verdien. I ei oppgåve skal du få vise at integralet til f(x) er 1 uavhengig av variablane σ og μ.

Normalfordeling i GeoGebra

Dersom vi kjenner forventningsverdien og standardavviket, kan vi lett lese ut dei ulike sannsyna frå sannsynskalkulatoren i GeoGebra. Vi bruker dømet vårt og finn sannsynet for at ein tilfeldig vald handballspelar er mellom 178 cm og 192 cm:

Sannsynet for at ein tilfeldig vald handballspelar er mellom 178 cm og 194 cm, er 0,6827.

🤔 Tenk over: Kor stor er avstanden frå forventningsverdien til ytterpunkta i intervallet over? Og kor stor andel av observasjonane ligg i dette intervallet?

Forklaring

Vi har at 186-178=8 og at 192-186=8. Altså ligg ytterpunkta i intervallet eitt standardavvik frå forventningsverdien. 68,27 prosent av observasjonane ligg i dette intervallet. Det gjeld generelt for alle normalfordelte variablar at cirka 68 prosent ligg innanfor eitt standardavvik frå forventningsverdien.

Normalfordeling i Python

Vi kan òg bruke programmering for å jobbe med normalfordeling. Vi bruker kommandoen norm frå biblioteket scipy.stats, her finn vi sannsynet for at ein tilfeldig vald handballspelar er mindre enn 186 cm:

Python
1from scipy.stats import norm
2
3def f(x):
4    return norm.cdf(x,my,sigma)
5                               
6my = 186
7sigma = 8
8
9print(f"P(Y ≤ 186) = {f(186):.3f}")

🤔 Tenk over: Kva trur du utskrifta av dette programmet gir oss?

Forklaring

Her vil utskrifta bli P(Y<=186)=0,500. Sidan ein normalfordelt variabel X med forventningsverdi μ er symmetrisk om forventningsverdien, vil det alltid vere slik at PXμ=0,5. Dette medfører at vi alltid får PXμ=0,5 òg.

Simulering

Vi kan bruke Python til å simulere forsøk med normalfordelte variablar. Til dømes vart datasettet vi starta med, generert ved å køyre eit program i Python som fordelte 500 observasjonar i klassar ut frå standardavviket og forventningsverdien. Vi viser med eit litt enklare døme.

Døme

Vi har ein kontinuerleg stokastisk variabel X som er normalfordelt med μ=7,5 og σ=2. Vi ønsker å generere eit datasett på 1 000 element med følgande klasseinndeling:

klasseinndeling

Verdiar

Antal

,3]

3,6

6,9

9,12

[12,

Vi generer datasettet og fordeler i kategoriar ved hjelp av numpy-kommandoen "histogram", som fordeler datasettet i kategoriar:

Python
1import numpy as np
2
3N = 1000
4kategoriar = ["0-3","3-6","6-9","9-12","12+"]
5#lagar ein rng for å generere heile datasettet
6rng = np.random.default_rng()
7M = rng.normal(7.5,2,N)
8
9#lagar array for grensene
10grenser = [M.min(),3,6,9,12,M.max()]
11
12#sorterer i kategoriar med np.histogram:
13antal, nedregrenser = np.histogram(M,grenser)
14
15#skriv ut tabellen
16for i in range (len(kategoriar)):
17     print(kategoriar[i],":",antal[i])

Prøv sjølv!

Kopier programmet over i den editoren du bruker, og køyr det mange gonger. Kanskje kan du òg rekne ut gjennomsnittet og standardavviket i dei datasetta du får? Dette skal du òg få prøve ut i oppgåvene.

Forventningsverdi i kontinuerlege stokastiske variablar

Vi har at forventningsverdien for ein diskret stokastisk variabel er lik

μ = E(X) = i=1nxi·P(X=xi).

Tilsvarande kan vi finne forventningsverdien til ein kontinuerleg stokastisk variabel ved å integrere tettleiksfunksjonen.

μ=EX=-x·fxdx.

I oppgåve 4.2.4 på oppgåvesida om normalfordelinga skal du få utforske denne samanhengen med utgangspunkt i handballspelarane vi har blitt kjende med i denne artikkelen.

Oppsummering

Generelt om kontinuerlege stokastiske variablar

Sannsynsfordelinga for ein kontinuerleg stokastisk variabel X er gitt med ein tettleiksfunksjon fx der

-fxdx =1

Då har vi at

PaXb=abfxdx

Vidare har vi at

μ=EX=-x·fxdx

Normalfordelinga

Ein kontinuerleg stokastisk variabel X med forventningsverdi μ og standardavvik σ er normalfordelt dersom sannsynsfordelinga følger funksjonen

fx=1σ2π·e-x-μ22σ2

Vi har at

Pμ-σXμ+σ0,682

og

PXμ=PXμ=0,5

CC BY-SA 4.0Skrive av Tove Annette Holter.
Sist fagleg oppdatert 16.06.2023