Her får du jobbe med oppgaver om normalfordelingen og andre kontinuerlige stokastiske variabler.
4.2.1
Hvilke(n) av grafene nedenfor beskriver en normalfordelt variabel med og σ=5? Husk å begrunne for hver graf hva som passer, og hva som ikke passer.
Graf 1
Graf 2
Graf 3
Graf 4
Løsning
Vi sjekker først for μ:
Vi finner at graf 1 og graf 2 har toppunkt der x=35, mens graf 3 har toppunkt i x=5 og graf 4 i x=45. Dermed må det være enten graf 1 eller graf 2.
Så sjekker vi for σ:
Hvis vi fargelegger området mellom x=30 og x=40 i graf 1 og graf 2, ser vi at dette området dekker cirka 15 % i graf 1, mens det i graf 2 ser ut som det kan være omtrent 68 % prosent, slik det skal være i en normalfordeling.
Det vil si at graf 1 svarer til sannsynlighetsfunksjonen for en normalfordelt variabel med μ=25 og σ=5.
4.2.2
Tegn ei skisse (for hånd!) i samme koordinatsystem av grafene til sannsynlighetene til
den normalfordelte variabelen X der μ=3 og σ=7
den normalfordelte variabelen Y der μ=7 og σ=7
den normalfordelte variabelen P der μ=7 og σ=3
den normalfordelte variabelen Q der μ=3 og σ=3
Kommenter likheter og forskjeller i grafene, og bruk dette til å si noe generelt om hvordan forventningsverdi og standardavvik påvirker formen på grafen.
Løsning
To og to av grafene har lik form, men de er forskjøvet i forhold til hverandre. Det gjelder de grafene som har likt standardavvik. Vi legger også merke til at to og to grafer har toppunkt i samme x-verdi, dette gjelder de grafene som har samme forventningsverdi.
Vi kan generelt si at dersom standardavviket er lite, vil grafene bli høye og smale, og hvis standardavviket er stort, vil grafene bli bredere og lavere.
4.2.3
I en normalfordeling har vi at cirka 68,2 % av observasjonene vil ligge innenfor ett standardavviks avstand fra forventningsverdien.
a) Hvor stor andel av observasjonene vil ligge innenfor
to standardavviks avstand fra forventningsverdien
tre standardavviks avstand fra forventningsverdien
1) Vi legger inn P186-16≤X≤186+16 i sannsynlighetskalkulatoren:
Cirka 95,5 % ligger innenfor to standardavviks avstand fra forventningsverdien.
2) Vi legger inn n P186-24≤X≤186+24 i sannsynlighetskalkulatoren:
Cirka 99,7 % ligger innenfor tre standardavviks avstand fra forventningsverdien.
b) Vis ved hjelp av CAS at integralet av tetthetsfunksjonen til eksempelet fra teorisiden "Normalfordelingen" vil bli 1.
Løsning
Vi har at den generelle funksjonen for grafen til en normalfordelt variabel er fx=1σ2π·e-x-μ22σ2.
Vi setter inn μ=186 og σ=8 og finner integralet i intervallet 〈-∞,∞〉:
Svaret blir 1.
4.2.4
Vi fortsetter med håndballspillerne våre. Vi minner om fordelingen i tabellen:
HØyde, HÅNDBALLSPILLERE
Høyde i cm
Antall
[165,170⟩
13
[170,175⟩
26
[175,180⟩
76
[180,185⟩
101
[185,190⟩
125
[190,195⟩
93
[195,200⟩
43
[200,205⟩
23
SUM
500
a) Vis at forventningsverdien (gjennomsnittet) i dette datasettet blir 186, og at standardavviket blir 8.
Løsning
Vi bruker klassemidtpunktet som felles høyde for alle i hver klasse og løser i GeoGebra. Vi skriver inn følgende tabell i regnearket i GeoGebra og lager lister av de to kolonnene. Vi kaller listene for "Klassemidtpunkt" og "Frekvens".
KLAssemidtpunkt og frekvens
Klassemidtpunkt (x)
Frekvens (antall)
167,5
13
172,5
26
177,5
76
182,5
101
187,5
125
192,5
93
197,5
43
202,5
23
Vi får følgende resultat i GeoGebra:
Vi får μ=186 og σ=8, slik vi skulle vise.
b) Bruk CAS til å regne ut forventningsverdien i normalfordelingen med μ=186 og σ=8.
Løsning
Vi bruker at
μ=EX=∫-∞∞x·fxdx:
Vi får, som forventet, at forventningsverdien er 186.
c) Forklar sammenhengen mellom formelen for forventningsverdi i en diskret fordeling og formelen for forventningsverdi i en kontinuerlig fordeling.
Løsning
I formelen for forventningsverdi i en diskret variabel har vi summen av produktene xi·PX=xi der PX=xi finnes i sannsynlighetsfordelingen i form av en tabell. Når vi har en kontinuerlig stokastisk variabel, har vi kun en tetthetsfunksjon å ta utgangspunkt i. Vi kan bare spørre etter sannsynligheten for at X ligger i et bestemt intervall, vi kan ikke spørre etter når X har en bestemt verdi. Sannsynligheten for at X ligger i et bestemt intervaller arealet under grafen til tetthetsfunksjonen i det aktuelle intervallet.
Vi kan se for oss at vi deler opp arealet under grafen til tetthetsfunksjonen i mange små loddrette rektangler med bredde ∆x. Vi tilnærmer videre og sier at den stokastiske variabelen X bare kan ha verdien xi i rektangel nummer i der xi er en x-verdi i intervallet som utgjør bredden av rektangelet. Da lager vi en diskret sannsynlighetsfordeling for X, og sannsynligheten for at X=xi vil være tilnærmet lik arealet av rektangel nummer i:
PX=xi≈fxi·∆x
Bidraget til forventningsverdien fra dette rektangelet vil være
xi·fxi·∆x
Et tilnærmet uttrykk for forventningsverdien til X vil være summen av dette uttrykket for alle rektanglene, og vi får
EX≈∑ixi·fxi·∆x
Så tenker vi oss at vi lar ∆x→0, det vil si at vi får uendelig mange tynne rektangler. Da vil hvert rektangel gi en bedre tilnærming til sitt bidrag til forventningsverdien. Ut ifra definisjonen til et bestemt integral får vi derfor
EX=lim∆x→0∑ixi·fxi·∆x=∫-∞∞x·fxdx
Kort sagt kommer vi fram til formelen for en kontinuerlig stokastisk variabel ved å ta utgangspunkt i en diskret fordeling.
d) Ta utgangspunkt i den generelle formelen og vis at integralet til en normalfordelingsfunksjon alltid vil bli 1.
Løsning
Vi regner i CAS:
Vi får 1 siden et standardavvik alltid vil være positivt.
e) Vis ved hjelp av CAS at ∫-∞∞x·1σ2π·e-x-μ22σ2dx=μ.
Løsning
Vi bruker samme strategi som i d) og regner i CAS:
Vi får at integralet blir lik μ, som var det vi skulle vise.
4.2.5
På en fødeavdeling var gjennomsnittsvekten på de nyfødte et år 3 478 gram. Standardavviket var på 627 gram. Vi antar at vekten er normalfordelt.
a) Hva betyr "Vi antar at vekten er normalfordelt"?
Løsning
Det betyr at fordelingen til de nyfødtes vekt faller sammen med grafen til en normalfordeling med μ=3478 og σ=627.
b) Hva er sannsynligheten for at en tilfeldig valgt nyfødt på denne avdelingen veier mer enn 4 000 gram? Finn løsningen både ved hjelp av GeoGebra og Python.
Løsning
Vi løser først med sannsynlighetskalkulatoren i GeoGebra:
Det er 20,26 % sjanse for at en tilfeldig valgt nyfødt veier over 4 000 gram.
Forslag til løsning i Python:
Når vi kjører programmet, får vi svarsetningen Sannsynligheten for at en nyfødt veier mer enn 4 000 g, er 0.203.
c) Hvor stor andel av de nyfødte veier mellom 3 000 gram og 3 500 gram?
Løsning
Vi løser i både GeoGebra og Python:
I GeoGebra finner vi P3000≤X≤3500:
Vi får at sannsynligheten for at en nyfødt veier mellom 3 000 og 3 500 gram, er 0,291 1.
For å finne den rette sannsynligheten må vi i Python finne PX≤3500-PX≤3000.
Når vi kjører programmet, får vi svarsetningen Sannsynligheten for at en nyfødt veier mellom 3 000 g og 3 500 g, er 0.291.. Det betyr at andelen nyfødte som veier mellom 3 000 g og 3 500 g, er 0,291.
4.2.6
Ved en skole løper elevene ei skogsløype i kroppsøvingen. Vi lar den stokastiske variabelen X være tida en gutt ved skolen bruker på løypa. Det viser seg at X er normalfordelt med forventningsverdi lik 13 minutter og 20 sekunder og et standardavvik på 1 minutt og 40 sekunder.
a) Finn ut hvor stor andelen av guttene som klarer å løpe løypa på mindre enn 15 minutter, er.
Løsning
Vi velger løsning i Python.
Vi regner om tidene til sekunder og får at μ=800 og σ=100. 15 minutter er 900 sekunder, så vi leter etter PX≤900.
Forslag til kode:
Vi får svarsetningen Andelen som løper under 15 minutter, er 0.841..
b) Kunne du ha svart på oppgave a) uten å gjøre noen beregninger?
Løsning
15 minutter er nøyaktig ett standardavvik unna forventningsverdien. Vi vet at 50 % av observasjonene er lavere enn forventningsverdien, og at cirka 34,1 % av observasjonene er innenfor intervallet μ+σ. Dermed vet vi at 84,1 % av guttene vil løpe fortere enn 15 minutter.
c) For å få karakteren 6 på denne øvelsen må en gutt klare løypa på mindre enn 10 minutter. Hvor stor andel av guttene forventes å klare dette?
Løsning
Vi modifiserer programmet fra a):
Å kjøre koden gir oss Andelen som løper under 10 minutter, er 0.023..
d) Hvilken tid må en gutt ha på løypa for å være blant de 20 % beste?
Løsning
Vi modifiserer koden fra a). Vi bruker ei while-løkke. Til slutt skriver vi om tida i sekunder til minutter og sekunder:
Når vi kjører programmet, får vi ut For å være blant de 20 % beste må du løpe under 11 minutter og 55 sekunder..
Det finnes også en metode i Python som finner svaret direkte ved å sette inn sannsynligheten. Denne motsatte funksjonen til "norm.cdf" heter "norm.ppf". Denne gir oss x der PX≤x=p med oppgitt sannsynlighet p. Da kan programmet se slik ut:
4.2.7
(Fra eksempelsett REA3062 matematikk S2, mai 23)
Levetida T (i timer) til ei tilfeldig lyspære av en bestemt type er en stokastisk variabel. Det viser seg at
PT≤t=∫-∞tfxdx
der tetthetsfunksjonen er gitt ved
ft=k·e-0,005t,t>00,t≤0
a) Vis at k=0,005.
Løsning
Vi har at det samlede integralet til tetthetsfunksjonen må være lik 1. Vi vet at f(t)=0 for t≤0, så vi får:
b) Hva er sannsynligheten for at lyspæras levetid er mer enn 400 timer?
Løsning
Vi bruker at PT>400=1-PT≤400:
Det er 13,5 % sjanse for at lyspæras levetid er mer enn 400 timer.
c) Bestem forventningsverdien til t.
Løsning
Vi finner forventningsverdien ved å regne ut ∫-∞∞t·f(t)dt:
Den forventede levetida til lyspæra er 200 timer.
4.2.8
På en skole har alle elevene en bostedsadresse som ligger mellom 100 m og 4 km fra skolen. Gjennomsnittsavstanden fra skolen er 2,5 km, og cirka 68,2 % av elevene har mellom 1,8 km og 3,2 km til skolen.
a) Vi antar at avstanden til skolen er normalfordelt. Forklar at standardavviket må være 0,7 km.
Løsning
I en normalfordeling har vi at cirka 68,2 % av observasjonene ligger innenfor ett standardavviks avstand i hver retning. Siden 2,5 ligger midt mellom 1,8 og 3,2, har vi at σ=3,2-2,5=2,5-1,8=0,7.
b) Lag et program som du kan bruke til å simulere sannsynligheten for at en tilfeldig valgt elev har mer enn 3 km skolevei.
Løsning
Her skal vi ikke regne ut sannsynligheten for at en elev har mer enn 3 km skolevei direkte gjennom å bruke normalfordelingen, men vi skal simulere ved hjelp av å trekke tilfeldig en elev mange ganger for så å regne ut sannsynligheten.
Vi kan lage følgende program:
c) Elevene i en kommune skal svare på en undersøkelse om blant annet lengden på skoleveien. Ett av spørsmålene ser slik ut:
Hvor lang skolevei har du? Ring rundt det svaret som passer best:
Lengder på skolevei
Mindre enn 400 m
Mellom 400 m og 1 km
Mellom 1 km og 1,6 km
Mellom 1,6 km og 2,2 km
Mellom 2,2 km og 2,8 km
Mellom 2,8 km og 3,4 km
Mer enn 3,4 km
Lag et program som simuler resultatet på dette spørsmålet hvis det er 750 elever som svarer på undersøkelsen. Skriv ut tabellen.
Løsning
Merknad: Noen ganger vil dette programmet feile fordi den minste verdien vi genererer, er høyere enn 400 (som er den neste nedre grensa). Dette vil skje veldig sjelden i større datasett, men i et såpass lite datasett som dette vil det skje at det ikke havner noen i den laveste kategorien. Vi velger likevel å bruke M.min() så vi ikke risikerer å miste noen genererte verdier. Selv om vi i praksis ikke kan ha negative skolevei-lengder, trenger vi likevel å telle opp disse når vi simulerer.
d) Modifiser programmet slik at du får generert 20 slike simuleringer. Programmet skal skrive ut gjennomsnitt og standardavvik for de 20 simuleringene (du trenger ikke å skrive ut de 20 tabellene). Sammenlikn resultatene du får med forventningsverdien og standardavviket i normalfordelingen som er utgangspunktet for simuleringen.
Løsning
Vi bruker numpy-kommandoene "mean()" og "std()" for å finne gjennomsnitt og standardavvik:
Når vi kjører koden, vil vi se at gjennomsnittet varierer mye. Ved en kjøring fant vi at gjennomsnittet varierte fra 2 449 til 2 533, mens standardavviket varierte fra 664 til 728. Denne variasjonen kan forklares med at utvalget er lite.
e) Prøv å kjøre programmet på nytt, men denne gangen med 7 500 elever. Hva skjer med variasjonen?
Løsning
Variasjonen blir mindre, for vi har et større utvalg.