Her får du jobbe med oppgåver om normalfordelinga og andre kontinuerlege stokastiske variablar.
4.2.1
Kva for ein eller kva for nokre av grafane nedanfor beskriv ein normalfordelt variabel med og σ=5? Hugs å grunngi for kvar graf kva som passar, og kva som ikkje passar.
Graf 1
Graf 2
Graf 3
Graf 4
Løysing
Vi sjekkar først for μ:
Vi finn at graf 1 og graf 2 har toppunkt der x=35, mens graf 3 har toppunkt i x=5 og graf 4 i x=45. Dermed må det vere anten graf 1 eller graf 2.
Så sjekkar vi for σ:
Dersom vi fargelegg området mellom x=30 og x=40 i graf 1 og graf 2, ser vi at dette området dekker cirka 15 % i graf 1, mens det i graf 2 ser ut som det kan vere omtrent 68 % prosent, slik det skal vere i ei normalfordeling.
Det vil seie at graf 1 svarer til sannsynsfunksjonen for ein normalfordelt variabel med μ=25 og σ=5.
4.2.2
Teikn ei skisse (for hand!) i same koordinatsystem av grafane til sannsyna til
den normalfordelte variabelen X der μ=3 og σ=7
den normalfordelte variabelen Y der μ=7 og σ=7
den normalfordelte variabelen P der μ=7 og σ=3
den normalfordelte variabelen Q der μ=3 og σ=3
Kommenter likskapar og forskjellar i grafane, og bruk dette til å seie noko generelt om korleis forventningsverdi og standardavvik påverkar forma på grafen.
Løysing
To og to av grafane har lik form, men dei er forskyvde i forhold til kvarandre. Det gjeld dei grafane som har likt standardavvik. Vi legg òg merke til at to og to grafar har toppunkt i den same x-verdien, dette gjeld dei grafane som har den same forventningsverdien.
Vi kan generelt seie at dersom standardavviket er lite, vil grafane bli høge og smale, og dersom standardavviket er stort, vil grafane bli breiare og lågare.
4.2.3
I ei normalfordeling har vi at cirka 68,2 % av observasjonane vil ligge innanfor ein avstand på eitt standardavvik frå forventningsverdien.
a) Kor stor del av observasjonane vil ligge innanfor
ein avstand på to standardavvik frå forventningsverdien
ein avstand på tre standardavvik frå forventningsverdien
1) Vi legg inn P186-16≤X≤186+16 i sannsynskalkulatoren:
Cirka 95,5 % ligg innanfor ein avstand på to standardavvik frå forventningsverdien.
2) Vi legg inn n P186-24≤X≤186+24 i sannsynskalkulatoren:
Cirka 99,7 % ligg innanfor ein avstand på tre standardavvik frå forventningsverdien.
b) Vis ved hjelp av CAS at integralet av tettleiksfunksjonen til dømet frå teorisida "Normalfordelinga" vil bli 1.
Løysing
Vi har at den generelle funksjonen for grafen til ein normalfordelt variabel er fx=1σ2π·e-x-μ22σ2.
Vi set inn μ=186 og σ=8 og finn integralet i intervallet 〈-∞,∞〉:
Svaret blir 1.
4.2.4
Vi held fram med handballspelarane våre. Vi minner om fordelinga i tabellen:
HØgde, HaNDBALLpelarar
Høgde i cm
Antal
[165,170⟩
13
[170,175⟩
26
[175,180⟩
76
[180,185⟩
101
[185,190⟩
125
[190,195⟩
93
[195,200⟩
43
[200,205⟩
23
SUM
500
a) Vis at forventningsverdien (gjennomsnittet) i dette datasettet blir 186, og at standardavviket blir 8.
Løysing
Vi bruker klassemidtpunktet som felles høgde for alle i kvar klasse og løyser i GeoGebra. Vi skriv inn følgande tabell i reknearket i GeoGebra og lagar lister av dei to kolonnane. Vi kallar listene for "Klassemidtpunkt" og "Frekvens".
KLAssemidtpunkt og frekvens
Klassemidtpunkt (x)
Frekvens (antal)
167,5
13
172,5
26
177,5
76
182,5
101
187,5
125
192,5
93
197,5
43
202,5
23
Vi får dette resultatet i GeoGebra:
Vi får μ=186 og σ=8, slik vi skulle vise.
b) Bruk CAS til å rekne ut forventningsverdien i normalfordelinga med μ=186 og σ=8.
Løysing
Vi bruker at
μ=EX=∫-∞∞x·fxdx:
Vi får, som venta, at forventningsverdien er 186.
c) Forklar samanhengen mellom formelen for forventningsverdi i ei diskret fordeling og formelen for forventningsverdi i ei kontinuerleg fordeling.
Løysing
I formelen for forventningsverdi i ein diskret variabel har vi summen av produkta xi·PX=xi der PX=xi finst i sannsynsfordelinga i form av ein tabell. Når vi har ein kontinuerleg stokastisk variabel, har vi berre ein tettleiksfunksjon å ta utgangspunkt i. Vi kan berre spørje etter sannsynet for at X ligg i eit bestemt intervall, vi kan ikkje spørje etter når X har ein bestemd verdi. Sannsynet for at X ligg i eit bestemt intervaller arealet under grafen til tettleiksfunksjonen i det aktuelle intervallet.
Vi kan sjå for oss at vi deler opp arealet under grafen til tettleiksfunksjonen i mange små loddrette rektangel med bredde ∆x. Vi tilnærmar vidare og seier at den stokastiske variabelen X berre kan ha verdien xi i rektangel nummer i der xi er ein x-verdi i intervallet som utgjer breidda av rektangelet. Då lagar vi ei diskret sannsynsfordeling for X, og sannsynet for at X=xi vil vere tilnærma lik arealet av rektangel nummer i:
PX=xi≈fxi·∆x
Bidraget til forventningsverdien frå dette rektangelet vil vere
xi·fxi·∆x
Eit tilnærma uttrykk for forventningsverdien til X vil vere summen av dette uttrykket for alle rektangla, og vi får
EX≈∑ixi·fxi·∆x
Så tenker vi oss at vi lar ∆x→0, det vil seie at vi får uendeleg mange tynne rektangel. Då vil kvart rektangel gi ei betre tilnærming til sitt bidrag til forventningsverdien. Ut ifrå definisjonen til eit bestemt integral får vi derfor
EX=lim∆x→0∑ixi·fxi·∆x=∫-∞∞x·fxdx
Kort sagt kjem vi fram til formelen for ein kontinuerleg stokastisk variabel ved å ta utgangspunkt i ei diskret fordeling.
d) Ta utgangspunkt i den generelle formelen og vis at integralet til ein normalfordelingsfunksjon alltid vil bli 1.
Løysing
Vi reknar i CAS:
Vi får 1 sidan eit standardavvik alltid vil vere positivt.
e) Vis ved hjelp av CAS at ∫-∞∞x·1σ2π·e-x-μ22σ2dx=μ.
Løysing
Vi bruker den same strategien som i d) og reknar i CAS:
Vi får at integralet blir lik μ, som var det vi skulle vise.
4.2.5
På ei fødeavdeling var gjennomsnittsvekta på dei nyfødde eit år 3 478 gram. Standardavviket var på 627 gram. Vi går ut frå at vekta er normalfordelt.
a) Kva betyr "Vi går ut frå at vekta er normalfordelt"?
Løysing
Det betyr at fordelinga til vekta til dei nyfødde fell saman med grafen til ei normalfordeling med μ=3478 og σ=627.
b) Kva er sannsynet for at ein tilfeldig vald nyfødd unge på denne avdelinga veg meir enn 4 000 gram? Finn løysinga både ved hjelp av GeoGebra og Python.
Løysing
Vi løyser først med sannsynskalkulatoren i GeoGebra:
Det er 20,26 % sjanse for at ein tilfeldig vald nyfødd unge veg over 4 000 gram.
Forslag til løysing i Python:
Når vi køyrer programmet, får vi svarsetninga Sannsynet for at ein nyfødd unge veg meir enn 4 000 g, er 0.203.
c) Kor stor andel av dei nyfødde veg mellom 3 000 gram og 3 500 gram?
Løysing
Vi løyser i både GeoGebra og Python:
I GeoGebra finn vi P3000≤X≤3500:
Vi får at sannsynet for at ein nyfødd unge veg mellom 3 000 og 3 500 gram, er 0,291 1.
For å finne det rette sannsynet må vi i Python finne PX≤3500-PX≤3000.
Når vi køyrer programmet, får vi svarsetninga Sannsynet for at ein nyfødd unge veg mellom 3 000 g og 3 500 g, er 0.291.. Det betyr at andelen nyfødde ungar som veg mellom 3 000 g og 3 500 g, er 0,291.
4.2.6
Ved ein skule spring elevane ei skogsløype i kroppsøvinga. Vi lar den stokastiske variabelen X vere tida ein gut ved skulen bruker på løypa. Det viser seg at X er normalfordelt med forventningsverdi lik 13 minutt og 20 sekund og eit standardavvik på 1 minutt og 40 sekund.
a) Finn ut kor stor andelen av gutane som klarer å springe løypa på mindre enn 15 minutt, er.
Løysing
Vi vel løysing i Python.
Vi reknar om tidene til sekund og får at μ=800 og σ=100. 15 minutt er 900 sekund, så vi leiter etter PX≤900.
Forslag til kode:
Vi får svarsetninga Andelen som spring under 15 minutt, er 0.841..
b) Kunne du ha svart på oppgåve a) utan å gjere nokon utrekningar?
Løysing
15 minutt er nøyaktig eitt standardavvik unna forventningsverdien. Vi veit at 50 % av observasjonane er lågare enn forventningsverdien, og at cirka 34,1 % av observasjonane er innanfor intervallet μ+σ. Dermed veit vi at 84,1 % av gutane vil springe fortare enn 15 minutt.
c) For å få karakteren 6 på denne øvinga må ein gut klare løypa på mindre enn 10 minutt. Kor stor andel av gutane er venta å klare dette?
Løysing
Vi modifiserer programmet frå a):
Å køyre koden gir oss Andelen som spring under 10 minutt, er 0.023..
d) Kva tid må ein gut ha på løypa for å vere blant dei 20 % beste?
Løysing
Vi modifiserer koden frå a). Vi bruker ei while-lykkje. Til slutt skriv vi om tida i sekund til minutt og sekund:
Når vi køyrer programmet, får vi ut For å vere blant dei 20 % beste må du springe under 11 minutt og 55 sekund..
Det finst òg ein metode i Python som finn svaret direkte ved å setje inn sannsynet. Denne motsette funksjonen til "norm.cdf" heiter "norm.ppf". Denne gir oss x der PX≤x=p med gitt sannsyn p. Då kan programmet sjå slik ut:
4.2.7
(Frå eksempelsett REA3062 matematikk S2, mai 23)
Levetida T (i timar) til ei tilfeldig lyspære av ein bestemd type er ein stokastisk variabel. Det viser seg at
PT≤t=∫-∞tfxdx
der tettleiksfunksjonen er gitt ved
ft=k·e-0,005t,t>00,t≤0
a) Vis at k=0,005.
Løysing
Vi har at det samla integralet til tettleiksfunksjonen må vere lik 1. Vi veit at f(t)=0 for t≤0, så vi får:
b) Kva er sannsynet for at levetida til lyspæra er meir enn 400 timar?
Løysing
Vi bruker at PT>400=1-PT≤400:
Det er 13,5 % sjanse for at levetida til lyspæra er meir enn 400 timar.
c) Bestem forventningsverdien til t.
Løysing
Vi finn forventningsverdien ved å rekne ut ∫-∞∞t·f(t)dt:
Den forventa levetida til lyspæra er 200 timar.
4.2.8
På ein skule har alle elevane ei bustadadresse som ligg mellom 100 m og 4 km frå skulen. Gjennomsnittsavstanden frå skulen er 2,5 km, og cirka 68,2 % av elevane har mellom 1,8 km og 3,2 km til skulen.
a) Vi går ut frå at avstanden til skulen er normalfordelt. Forklar at standardavviket må vere 0,7 km.
Løysing
I ei normalfordeling har vi at cirka 68,2 % av observasjonane ligg innanfor ein avstand på eitt standardavvik i kvar retning. Sidan 2,5 ligg midt mellom 1,8 og 3,2, har vi at σ=3,2-2,5=2,5-1,8=0,7.
b) Lag eit program som du kan bruke til å simulere sannsynet for at ein tilfeldig vald elev har meir enn 3 km skuleveg.
Løysing
Her skal vi ikkje rekne ut sannsynet for at ein elev har meir enn 3 km skuleveg direkte gjennom å bruke normalfordelinga, men vi skal simulere ved hjelp av å trekke tilfeldig ein elev mange gonger for så å rekne ut sannsynet.
Vi kan lage følgande program:
c) Elevane i ein kommune skal svare på ei undersøking om mellom anna lengda på skulevegen. Eitt av spørsmåla ser slik ut:
Kor lang skuleveg har du? Ring rundt det svaret som passar best:
Lengde på skuleveg
Mindre enn 400 m
Mellom 400 m og 1 km
Mellom 1 km og 1,6 km
Mellom 1,6 km og 2,2 km
Mellom 2,2 km og 2,8 km
Mellom 2,8 km og 3,4 km
Meir enn 3,4 km
Lag eit program som simuler resultatet på dette spørsmålet dersom det er 750 elevar som svarer på undersøkinga. Skriv ut tabellen.
Løysing
Merknad: Nokre gonger vil dette programmet feile fordi den minste verdien vi genererer, er høgare enn 400 (som er den neste nedre grensa). Dette vil skje veldig sjeldan i større datasett, men i eit såpass lite datasett som dette vil det skje at det ikkje hamnar nokon i den lågaste kategorien. Vi vel likevel å bruke M.min() så vi ikkje risikerer å miste nokon genererte verdiar. Sjølv om vi i praksis ikkje kan ha negative skuleveg-lengder, treng vi likevel å telje opp desse når vi simulerer.
d) Modifiser programmet slik at du får generert 20 slike simuleringar. Programmet skal skrive ut gjennomsnitt og standardavvik for dei 20 simuleringane (du treng ikkje å skrive ut dei 20 tabellane). Samanlikn resultata du får med forventningsverdien og standardavviket i normalfordelinga som er utgangspunktet for simuleringa.
Løysing
Vi bruker numpy-kommandoane "mean()" og "std()" for å finne gjennomsnitt og standardavvik:
Når vi køyrer koden, vil vi sjå at gjennomsnittet varierer mykje. Ved ei køyring fann vi at gjennomsnittet varierte frå 2 449 til 2 533, mens standardavviket varierte frå 664 til 728. Denne variasjonen kan forklarast med at utvalet er lite.
e) Prøv å køyre programmet på nytt, men denne gongen med 7 500 elevar. Kva skjer med variasjonen?
Løysing
Variasjonen blir mindre, for vi har eit større utval.