Normalfordelingen
Kontinuerlige stokastiske variabler
De stokastiske variablene vi har jobbet med til nå, både i S1 og i S2, er det vi kaller for diskrete stokastiske variabler.
Sannsynlighetsfordelingen til en diskret stokastisk variabel er ei liste med alle verdiene
En kontinuerlig stokastisk variabel er en variabel der observasjonene fordeler seg på en kontinuerlig skala. Et eksempel er hvor lang reisevei et utvalg mennesker har til jobben. Avhengig av nøyaktighet i målingene vil det være like mange svar som det er individer i undersøkelsen. Slike sannsynlighetsfordelinger er beskrevet med det vi kaller en tetthetsfunksjon i stedet for en tabell. Integralet av en slik tetthetsfunksjon skal bli 1, i likhet med summen av sannsynlighetene i den diskrete varianten.
Den fordelingen som opptrer oftest, er normalfordelingen. I oppgavene skal du også få jobbe med andre sannsynlighetsfordelinger og deres tetthetsfunksjoner.
Normalfordelingen
Hvis man undersøker den statistiske fordelingen til ulike stokastiske variabler, vil man se at veldig mange av dem er det vi kaller normalfordelt. Vi skal se på et eksempel der vi har målt høyden på 500 menn som spiller håndball på høyt nivå. Den kontinuerlige stokastiske variabelen
For å få oversikt har vi ordnet høydene i klasser med klassebredde 5 cm. Tabellen nedenfor viser resultatene. Vi har samlet alle som var lavere enn 170 cm, i klassen
Høyde i cm | Antall |
---|---|
13 | |
26 | |
76 | |
101 | |
125 | |
93 | |
43 | |
23 | |
SUM | 500 |
Vi framstiller nå oversikten over høyden til håndballspillerne i et histogram, der arealet av søylene til sammen er 1. Arealet av en av søylene blir derfor sannsynligheten for at en vilkårlig håndballspiller i utvalget vårt hører hjemme i akkurat denne klassen. Dette arealet kan vi finne ved å multiplisere klassebredden (5) med høyden på histogramsøylen:
På denne måten har vi gjort om den kontinuerlige stokastiske variabelen til en diskret stokastisk variabel, der vi har gitt alle håndballspillerne i én klasse den samme høyden, nemlig klassemidtpunktet. Hvis vi regner ut gjennomsnitt og standardavvik i dette materialet, får vi at
Det viser seg at høyden til disse håndballspillerne fordeler seg nokså symmetrisk rundt gjennomsnittshøyden. Vi kan tegne en jevn kurve over høydene til håndballspillerne, altså den kontinuerlige stokastiske variabelen
Arealet under denne kurven vil bli lik 1. Siden kurven er symmetrisk, vil arealet under den delen av kurven som ligger til venstre for toppunktet, bli lik
Siden arealet som er avgrenset av grafen og linjene
🤔 Tenk over: Legg merke til at vi bruker tegnet for mindre enn eller lik her. Vil det ha betydning om vi heller hadde skrevet
Forklaring
Nei, siden vi har med en kontinuerlig variabel å gjøre, vil det ikke ha noe å si om vi skriver mindre enn eller lik, eller ekte mindre enn. Det er vanlig å bruke
Kurven har en klokke- eller bjelleform og kalles bellkurve eller gausskurve, etter matematikeren Carl Friedrich Gauss. Veldig mange ting i naturen og i samfunnet er fordelt på denne måten. Den er faktisk så vanlig at vi kaller den for normalfordelingen. Vi sier at høyden til håndballspillerne er normalfordelt med forventningsverdi (
Funksjonsuttrykket til normalfordelingen
Til nå har du bare sett grafen til normalfordelingsfunksjonen. Funksjonsuttrykket bruker vi ikke så ofte, det er et nokså komplisert uttrykk som er innebygd i de fleste digitale verktøyene du bruker. Det er kun
Vi finner alltid sannsynligheten for at en tilfeldig valgt observasjon er mindre enn eller lik en gitt verdi ved å finne integralet av
Normalfordeling i GeoGebra
Hvis vi kjenner forventningsverdien og standardavviket, kan vi lett lese ut de ulike sannsynlighetene fra sannsynlighetskalkulatoren i GeoGebra. Vi bruker eksempelet vårt og finner sannsynligheten for at en tilfeldig valgt håndballspiller er mellom 178 cm og 192 cm:
Sannsynligheten for at en tilfeldig valgt håndballspiller er mellom 178 cm og 194 cm, er 0,6827.
🤔 Tenk over: Hvor stor er avstanden fra forventningsverdien til ytterpunktene i intervallet over? Og hvor stor andel av observasjonene ligger i dette intervallet?
Forklaring
Vi har at
Normalfordeling i Python
Vi kan også bruke programmering for å jobbe med normalfordeling. Vi bruker kommandoen norm
fra biblioteket scipy.stats
, her finner vi sannsynligheten for at en tilfeldig valgt håndballspiller er mindre enn 186 cm:
🤔 Tenk over: Hva tror du utskriften av dette programmet gir oss?
Forklaring
Her vil utskriften bli P(Y<=186)=0,500
. Siden en normalfordelt variabel
Simulering
Vi kan bruke Python til å simulere forsøk med normalfordelte variabler. For eksempel ble datasettet vi startet med, generert ved å kjøre et program i Python som fordelte 500 observasjoner i klasser ut fra standardavviket og forventningsverdien. Vi viser med et litt enklere eksempel.
Eksempel
Vi har en kontinuerlig stokastisk variabel
Verdier | Antall |
---|---|
Vi generer datasettet og fordeler i kategorier ved hjelp av numpy-kommandoen "histogram", som fordeler datasettet i kategorier:
Prøv selv!
Kopier programmet over i den editoren du bruker, og kjør det mange ganger. Kanskje kan du også regne ut gjennomsnittet og standardavviket i de datasettene du får? Dette skal du også få prøve ut i oppgavene.
Forventningsverdi i kontinuerlige stokastiske variabler
Vi har at forventningsverdien for en diskret stokastisk variabel er lik
Tilsvarende kan vi finne forventningsverdien til en kontinuerlig stokastisk variabel ved å integrere tetthetsfunksjonen.
I oppgave 4.2.4 på oppgavesiden om normalfordelingen skal du få utforske denne sammenhengen med utgangspunkt i håndballspillerne vi har blitt kjent med i denne artikkelen.
Oppsummering
Generelt om kontinuerlige stokastiske variabler
Sannsynlighetsfordelingen for en kontinuerlig stokastisk variabel
Da har vi at
Videre har vi at
Normalfordelingen
En kontinuerlig stokastisk variabel
Vi har at
og