Normalfordelinga
Dei stokastiske variablane vi har jobba med til no, både i S1 og i S2, er det vi kallar for diskrete stokastiske variablar.
Sannsynsfordelinga til ein diskret stokastisk variabel er ei liste med alle verdiane
Ein kontinuerleg stokastisk variabel er ein variabel der observasjonane fordeler seg på ein kontinuerleg skala. Eit døme er kor lang reiseveg eit utval menneske har til jobben. Avhengig av nøyaktigheit i målingane vil det vere like mange svar som det er individ i undersøkinga. Slike sannsynsfordelingar er beskrivne med det vi kallar ein tettleiksfunksjon i staden for ein tabell. Integralet av ein slik tettleiksfunksjon skal bli 1, i likskap med summen av sannsyna i den diskrete varianten.
Den fordelinga som opptrer oftast, er normalfordelinga. I oppgåvene skal du òg få jobbe med andre sannsynsfordelingar og tettleiksfunksjonane deira.
Dersom ein undersøker den statistiske fordelinga til ulike stokastiske variablar, vil ein sjå at veldig mange av dei er det vi kallar normalfordelte. Vi skal sjå på eit døme der vi har målt høgda på 500 menn som speler handball på høgt nivå. Den kontinuerlege stokastiske variabelen
For å få oversikt har vi ordna høgdene i klasser med klassebreidde 5 cm. Tabellen nedanfor viser resultata. Vi har samla alle som var lågare enn 170 cm, i klassen
Høgde i cm | Antal |
---|---|
13 | |
26 | |
76 | |
101 | |
125 | |
93 | |
43 | |
23 | |
SUM | 500 |
Vi framstiller no oversikta over høgda til handballspelarane i eit histogram, der arealet av søylene til saman er 1. Arealet av ei av søylene blir derfor sannsynet for at ein vilkårleg handballspelar i utvalet vårt høyrer heime i akkurat denne klassen. Dette arealet kan vi finne ved å multiplisere klassebreidda (5) med høgda på histogramsøyla:
På denne måten har vi gjort om den kontinuerlege stokastiske variabelen til ein diskret stokastisk variabel, der vi har gitt alle handballspelarane i éin klasse den same høgda, nemleg klassemidtpunktet. Dersom vi reknar ut gjennomsnitt og standardavvik i dette materialet, får vi at
Det viser seg at høgda til desse handballspelarane fordeler seg nokså symmetrisk rundt gjennomsnittshøgda. Vi kan teikne ei jamn kurve over høgdene til handballspelarane, altså den kontinuerlege stokastiske variabelen
Arealet under denne kurva vil bli lik 1. Sidan kurva er symmetrisk, vil arealet under den delen av kurva som ligg til venstre for toppunktet, bli lik
Sidan arealet som er avgrensa av grafen og linjene
🤔 Tenk over: Legg merke til at vi bruker teiknet for mindre enn eller lik her. Vil det ha betydning om vi heller hadde skrive
Kurva har ei klokke- eller bjølleform og blir kalla bellkurve eller gausskurve, etter matematikaren Carl Friedrich Gauss. Veldig mange ting i naturen og i samfunnet er fordelte på denne måten. Den er faktisk så vanleg at vi kallar dette for normalfordelinga. Vi seier at høgda til handballspelarane er normalfordelt med forventningsverdi (
Funksjonsuttrykket til normalfordelinga
Til no har du berre sett grafen til normalfordelingsfunksjonen. Funksjonsuttrykket bruker vi ikkje så ofte, det er eit nokså komplisert uttrykk som er innebygt i dei fleste digitale verktøya du bruker. Det er berre
Vi finn alltid sannsynet for at ein tilfeldig vald observasjon er mindre enn eller lik ein gitt verdi ved å finne integralet av
Dersom vi kjenner forventningsverdien og standardavviket, kan vi lett lese ut dei ulike sannsyna frå sannsynskalkulatoren i GeoGebra. Vi bruker dømet vårt og finn sannsynet for at ein tilfeldig vald handballspelar er mellom 178 cm og 192 cm:
Sannsynet for at ein tilfeldig vald handballspelar er mellom 178 cm og 194 cm, er 0,6827.
🤔 Tenk over: Kor stor er avstanden frå forventningsverdien til ytterpunkta i intervallet over? Og kor stor andel av observasjonane ligg i dette intervallet?
Vi kan òg bruke programmering for å jobbe med normalfordeling. Vi bruker kommandoen norm
frå biblioteket scipy.stats
, her finn vi sannsynet for at ein tilfeldig vald handballspelar er mindre enn 186 cm:
🤔 Tenk over: Kva trur du utskrifta av dette programmet gir oss?
Simulering
Vi kan bruke Python til å simulere forsøk med normalfordelte variablar. Til dømes vart datasettet vi starta med, generert ved å køyre eit program i Python som fordelte 500 observasjonar i klassar ut frå standardavviket og forventningsverdien. Vi viser med eit litt enklare døme.
Døme
Vi har ein kontinuerleg stokastisk variabel
Verdiar | Antal |
---|---|
Vi generer datasettet og fordeler i kategoriar ved hjelp av numpy-kommandoen "histogram", som fordeler datasettet i kategoriar:
Prøv sjølv!
Kopier programmet over i den editoren du bruker, og køyr det mange gonger. Kanskje kan du òg rekne ut gjennomsnittet og standardavviket i dei datasetta du får? Dette skal du òg få prøve ut i oppgåvene.
Vi har at forventningsverdien for ein diskret stokastisk variabel er lik
Tilsvarande kan vi finne forventningsverdien til ein kontinuerleg stokastisk variabel ved å integrere tettleiksfunksjonen.
I oppgåve 4.2.4 på oppgåvesida om normalfordelinga skal du få utforske denne samanhengen med utgangspunkt i handballspelarane vi har blitt kjende med i denne artikkelen.
Oppsummering
Generelt om kontinuerlege stokastiske variablar
Sannsynsfordelinga for ein kontinuerleg stokastisk variabel
Då har vi at
Vidare har vi at
Normalfordelinga
Ein kontinuerleg stokastisk variabel
Vi har at
og