Normalfordelingen
4.2.1
Hvilke(n) av grafene nedenfor beskriver en normalfordelt variabel med og
Graf 1
Graf 2
Graf 3
Graf 4
Løsning
Vi sjekker først for
Vi finner at graf 1 og graf 2 har toppunkt der
Så sjekker vi for
Hvis vi fargelegger området mellom
Det vil si at graf 1 svarer til sannsynlighetsfunksjonen for en normalfordelt variabel med
4.2.2
Tegn ei skisse (for hånd!) i samme koordinatsystem av grafene til sannsynlighetene til
den normalfordelte variabelen
derX ogμ = 3 σ = 7 den normalfordelte variabelen
derY ogμ = 7 σ = 7 den normalfordelte variabelen
derP ogμ = 7 σ = 3 den normalfordelte variabelen
derQ ogμ = 3 σ = 3
Kommenter likheter og forskjeller i grafene, og bruk dette til å si noe generelt om hvordan forventningsverdi og standardavvik påvirker formen på grafen.
Løsning
To og to av grafene har lik form, men de er forskjøvet i forhold til hverandre. Det gjelder de grafene som har likt standardavvik. Vi legger også merke til at to og to grafer har toppunkt i samme
Vi kan generelt si at dersom standardavviket er lite, vil grafene bli høye og smale, og hvis standardavviket er stort, vil grafene bli bredere og lavere.
4.2.3
I en normalfordeling har vi at cirka 68,2 % av observasjonene vil ligge innenfor ett standardavviks avstand fra forventningsverdien.
a) Hvor stor andel av observasjonene vil ligge innenfor
to standardavviks avstand fra forventningsverdien
tre standardavviks avstand fra forventningsverdien
Tips til oppgaven
Bruk eksempelet med håndballspillerne teorisiden "Normalfordelingen" og undersøk ved hjelp av GeoGebra!
Løsning
1)
Vi legger inn
Cirka 95,5 % ligger innenfor to standardavviks avstand fra forventningsverdien.
2)
Vi legger inn n
Cirka 99,7 % ligger innenfor tre standardavviks avstand fra forventningsverdien.
b) Vis ved hjelp av CAS at integralet av tetthetsfunksjonen til eksempelet fra teorisiden "Normalfordelingen" vil bli 1.
Løsning
Vi har at den generelle funksjonen for grafen til en normalfordelt variabel er
Vi setter inn
Svaret blir 1.
4.2.4
Vi fortsetter med håndballspillerne våre. Vi minner om fordelingen i tabellen:
Høyde i cm | Antall |
---|---|
13 | |
26 | |
76 | |
101 | |
125 | |
93 | |
43 | |
23 | |
SUM | 500 |
a) Vis at forventningsverdien (gjennomsnittet) i dette datasettet blir 186, og at standardavviket blir 8.
Løsning
Vi bruker klassemidtpunktet som felles høyde for alle i hver klasse og løser i GeoGebra. Vi skriver inn følgende tabell i regnearket i GeoGebra og lager lister av de to kolonnene. Vi kaller listene for "Klassemidtpunkt" og "Frekvens".
Klassemidtpunkt | Frekvens |
---|---|
13 | |
26 | |
76 | |
101 | |
125 | |
93 | |
43 | |
23 |
Vi får følgende resultat i GeoGebra:
Vi får
b) Bruk CAS til å regne ut forventningsverdien i normalfordelingen med
Løsning
Vi bruker at
Vi får, som forventet, at forventningsverdien er 186.
c) Forklar sammenhengen mellom formelen for forventningsverdi i en diskret fordeling og formelen for forventningsverdi i en kontinuerlig fordeling.
Løsning
I formelen for forventningsverdi i en diskret variabel har vi summen av produktene
Vi kan se for oss at vi deler opp arealet under grafen til tetthetsfunksjonen i mange små loddrette rektangler med bredde
Bidraget til forventningsverdien fra dette rektangelet vil være
Et tilnærmet uttrykk for forventningsverdien til
Så tenker vi oss at vi lar
Kort sagt kommer vi fram til formelen for en kontinuerlig stokastisk variabel ved å ta utgangspunkt i en diskret fordeling.
d) Ta utgangspunkt i den generelle formelen og vis at integralet til en normalfordelingsfunksjon alltid vil bli 1.
Løsning
Vi regner i CAS:
Vi får 1 siden et standardavvik alltid vil være positivt.
e) Vis ved hjelp av CAS at
Løsning
Vi bruker samme strategi som i d) og regner i CAS:
Vi får at integralet blir lik
4.2.5
På en fødeavdeling var gjennomsnittsvekten på de nyfødte et år 3 478 gram. Standardavviket var på 627 gram. Vi antar at vekten er normalfordelt.
a) Hva betyr "Vi antar at vekten er normalfordelt"?
Løsning
Det betyr at fordelingen til de nyfødtes vekt faller sammen med grafen til en normalfordeling med
b) Hva er sannsynligheten for at en tilfeldig valgt nyfødt på denne avdelingen veier mer enn 4 000 gram? Finn løsningen både ved hjelp av GeoGebra og Python.
Løsning
Vi løser først med sannsynlighetskalkulatoren i GeoGebra:
Det er 20,26 % sjanse for at en tilfeldig valgt nyfødt veier over 4 000 gram.
Forslag til løsning i Python:
Når vi kjører programmet, får vi svarsetningen Sannsynligheten for at en nyfødt veier mer enn 4 000 g, er 0.203
.
c) Hvor stor andel av de nyfødte veier mellom 3 000 gram og 3 500 gram?
Løsning
Vi løser i både GeoGebra og Python:
I GeoGebra finner vi
Vi får at sannsynligheten for at en nyfødt veier mellom 3 000 og 3 500 gram, er 0,291 1.
For å finne den rette sannsynligheten må vi i Python finne
Når vi kjører programmet, får vi svarsetningen Sannsynligheten for at en nyfødt veier mellom 3 000 g og 3 500 g, er 0.291.
. Det betyr at andelen nyfødte som veier mellom 3 000 g og 3 500 g, er 0,291.
4.2.6
Ved en skole løper elevene ei skogsløype i kroppsøvingen. Vi lar den stokastiske variabelen
a) Finn ut hvor stor andelen av guttene som klarer å løpe løypa på mindre enn 15 minutter, er.
Løsning
Vi velger løsning i Python.
Vi regner om tidene til sekunder og får at
Forslag til kode:
Vi får svarsetningen Andelen som løper under 15 minutter, er 0.841.
.
b) Kunne du ha svart på oppgave a) uten å gjøre noen beregninger?
Løsning
15 minutter er nøyaktig ett standardavvik unna forventningsverdien. Vi vet at 50 % av observasjonene er lavere enn forventningsverdien, og at cirka 34,1 % av observasjonene er innenfor intervallet
c) For å få karakteren 6 på denne øvelsen må en gutt klare løypa på mindre enn 10 minutter. Hvor stor andel av guttene forventes å klare dette?
Løsning
Vi modifiserer programmet fra a):
Å kjøre koden gir oss Andelen som løper under 10 minutter, er 0.023.
.
d) Hvilken tid må en gutt ha på løypa for å være blant de 20 % beste?
Løsning
Vi modifiserer koden fra a). Vi bruker ei while-løkke. Til slutt skriver vi om tida i sekunder til minutter og sekunder:
Når vi kjører programmet, får vi ut For å være blant de 20 % beste må du løpe under 11 minutter og 55 sekunder.
.
Det finnes også en metode i Python som finner svaret direkte ved å sette inn sannsynligheten. Denne motsatte funksjonen til "norm.cdf" heter "norm.ppf". Denne gir oss
4.2.7
(Fra eksempelsett REA3062 matematikk S2, mai 23)
Levetida
der tetthetsfunksjonen er gitt ved
a) Vis at
Løsning
Vi har at det samlede integralet til tetthetsfunksjonen må være lik 1. Vi vet at
b) Hva er sannsynligheten for at lyspæras levetid er mer enn 400 timer?
Løsning
Vi bruker at
Det er 13,5 % sjanse for at lyspæras levetid er mer enn 400 timer.
c) Bestem forventningsverdien til
Løsning
Vi finner forventningsverdien ved å regne ut
Den forventede levetida til lyspæra er 200 timer.
4.2.8
På en skole har alle elevene en bostedsadresse som ligger mellom 100 m og 4 km fra skolen. Gjennomsnittsavstanden fra skolen er 2,5 km, og cirka 68,2 % av elevene har mellom 1,8 km og 3,2 km til skolen.
a) Vi antar at avstanden til skolen er normalfordelt. Forklar at standardavviket må være 0,7 km.
Løsning
I en normalfordeling har vi at cirka 68,2 % av observasjonene ligger innenfor ett standardavviks avstand i hver retning. Siden 2,5 ligger midt mellom 1,8 og 3,2, har vi at
b) Lag et program som du kan bruke til å simulere sannsynligheten for at en tilfeldig valgt elev har mer enn 3 km skolevei.
Løsning
Her skal vi ikke regne ut sannsynligheten for at en elev har mer enn 3 km skolevei direkte gjennom å bruke normalfordelingen, men vi skal simulere ved hjelp av å trekke tilfeldig en elev mange ganger for så å regne ut sannsynligheten.
Vi kan lage følgende program:
c) Elevene i en kommune skal svare på en undersøkelse om blant annet lengden på skoleveien. Ett av spørsmålene ser slik ut:
Hvor lang skolevei har du? Ring rundt det svaret som passer best:
Mindre enn 400 m | Mellom 400 m og 1 km | Mellom 1 km og 1,6 km | Mellom 1,6 km og 2,2 km | Mellom 2,2 km og 2,8 km | Mellom 2,8 km og 3,4 km | Mer enn 3,4 km |
Lag et program som simuler resultatet på dette spørsmålet hvis det er 750 elever som svarer på undersøkelsen. Skriv ut tabellen.
Løsning
Merknad: Noen ganger vil dette programmet feile fordi den minste verdien vi genererer, er høyere enn 400 (som er den neste nedre grensa). Dette vil skje veldig sjelden i større datasett, men i et såpass lite datasett som dette vil det skje at det ikke havner noen i den laveste kategorien. Vi velger likevel å bruke M.min()
så vi ikke risikerer å miste noen genererte verdier. Selv om vi i praksis ikke kan ha negative skolevei-lengder, trenger vi likevel å telle opp disse når vi simulerer.
d) Modifiser programmet slik at du får generert 20 slike simuleringer. Programmet skal skrive ut gjennomsnitt og standardavvik for de 20 simuleringene (du trenger ikke å skrive ut de 20 tabellene). Sammenlikn resultatene du får med forventningsverdien og standardavviket i normalfordelingen som er utgangspunktet for simuleringen.
Løsning
Vi bruker numpy-kommandoene "mean()" og "std()" for å finne gjennomsnitt og standardavvik:
Når vi kjører koden, vil vi se at gjennomsnittet varierer mye. Ved en kjøring fant vi at gjennomsnittet varierte fra 2 449 til 2 533, mens standardavviket varierte fra 664 til 728. Denne variasjonen kan forklares med at utvalget er lite.
e) Prøv å kjøre programmet på nytt, men denne gangen med 7 500 elever. Hva skjer med variasjonen?
Løsning
Variasjonen blir mindre, for vi har et større utvalg.