Hopp til innhald
Oppgåve

Normalfordelinga

Her får du jobbe med oppgåver om normalfordelinga og andre kontinuerlege stokastiske variablar.

4.2.1

Kva for ein eller kva for nokre av grafane nedanfor beskriv ein normalfordelt variabel med μ=35 og σ=5? Hugs å grunngi for kvar graf kva som passar, og kva som ikkje passar.

Graf 1

Graf 2

Graf 3

Graf 4

Løysing

Vi sjekkar først for μ:

Vi finn at graf 1 og graf 2 har toppunkt der x=35, mens graf 3 har toppunkt i x=5 og graf 4 i x=45. Dermed må det vere anten graf 1 eller graf 2.

Så sjekkar vi for σ:

Dersom vi fargelegg området mellom x=30 og x=40 i graf 1 og graf 2, ser vi at dette området dekker cirka 15 % i graf 1, mens det i graf 2 ser ut som det kan vere omtrent 68 % prosent, slik det skal vere i ei normalfordeling.

Det vil seie at graf 1 svarer til sannsynsfunksjonen for ein normalfordelt variabel med μ=25 og σ=5.

4.2.2

Teikn ei skisse (for hand!) i same koordinatsystem av grafane til sannsyna til

  1. den normalfordelte variabelen X der μ=3 og σ=7

  2. den normalfordelte variabelen Y der μ=7 og σ=7

  3. den normalfordelte variabelen P der μ=7 og σ=3

  4. den normalfordelte variabelen Q der μ=3 og σ=3

Kommenter likskapar og forskjellar i grafane, og bruk dette til å seie noko generelt om korleis forventningsverdi og standardavvik påverkar forma på grafen.

Løysing

To og to av grafane har lik form, men dei er forskyvde i forhold til kvarandre. Det gjeld dei grafane som har likt standardavvik. Vi legg òg merke til at to og to grafar har toppunkt i den same x-verdien, dette gjeld dei grafane som har den same forventningsverdien.

Vi kan generelt seie at dersom standardavviket er lite, vil grafane bli høge og smale, og dersom standardavviket er stort, vil grafane bli breiare og lågare.

4.2.3

I ei normalfordeling har vi at cirka 68,2 % av observasjonane vil ligge innanfor ein avstand på eitt standardavvik frå forventningsverdien.

a) Kor stor del av observasjonane vil ligge innanfor

  1. ein avstand på to standardavvik frå forventningsverdien

  2. ein avstand på tre standardavvik frå forventningsverdien

Tips til oppgåva

Bruk dømet med handballspelarane på teorisida "Normalfordelinga" og undersøk ved hjelp av GeoGebra!

Løysing

1)
Vi legg inn P186-16X186+16 i sannsynskalkulatoren:

Cirka 95,5 % ligg innanfor ein avstand på to standardavvik frå forventningsverdien.

2)
Vi legg inn n P186-24X186+24 i sannsynskalkulatoren:

Cirka 99,7 % ligg innanfor ein avstand på tre standardavvik frå forventningsverdien.

b) Vis ved hjelp av CAS at integralet av tettleiksfunksjonen til dømet frå teorisida "Normalfordelinga" vil bli 1.

Løysing

Vi har at den generelle funksjonen for grafen til ein normalfordelt variabel er fx=1σ2π·e-x-μ22σ2.

Vi set inn μ=186 og σ=8 og finn integralet i intervallet -,:

Svaret blir 1.

4.2.4

Vi held fram med handballspelarane våre. Vi minner om fordelinga i tabellen:

HØgde, HaNDBALLpelarar

Høgde i cm

Antal

[165, 170

13

[170, 175

26

[175, 180

76

[180, 185

101

[185, 190

125

[190, 195

93

[195, 200

43

[200, 205

23

SUM

500

a) Vis at forventningsverdien (gjennomsnittet) i dette datasettet blir 186, og at standardavviket blir 8.

Løysing

Vi bruker klassemidtpunktet som felles høgde for alle i kvar klasse og løyser i GeoGebra. Vi skriv inn følgande tabell i reknearket i GeoGebra og lagar lister av dei to kolonnane. Vi kallar listene for "Klassemidtpunkt" og "Frekvens".

KLAssemidtpunkt og frekvens

Klassemidtpunkt
(x)

Frekvens
(antal)

167,5

13

172,5

26

177,5

76

182,5

101

187,5

125

192,5

93

197,5

43

202,5

23

Vi får dette resultatet i GeoGebra:

Vi får μ=186 og σ=8, slik vi skulle vise.

b) Bruk CAS til å rekne ut forventningsverdien i normalfordelinga med μ=186 og σ=8.

Løysing

Vi bruker at

μ=EX=-x·fxdx:

Vi får, som venta, at forventningsverdien er 186.

c) Forklar samanhengen mellom formelen for forventningsverdi i ei diskret fordeling og formelen for forventningsverdi i ei kontinuerleg fordeling.

Løysing

I formelen for forventningsverdi i ein diskret variabel har vi summen av produkta xi·PX=xi der PX=xi finst i sannsynsfordelinga i form av ein tabell. Når vi har ein kontinuerleg stokastisk variabel, har vi berre ein tettleiksfunksjon å ta utgangspunkt i. Vi kan berre spørje etter sannsynet for at X ligg i eit bestemt intervall, vi kan ikkje spørje etter når X har ein bestemd verdi. Sannsynet for at X ligg i eit bestemt intervall er arealet under grafen til tettleiksfunksjonen i det aktuelle intervallet.

Vi kan sjå for oss at vi deler opp arealet under grafen til tettleiksfunksjonen i mange små loddrette rektangel med bredde x. Vi tilnærmar vidare og seier at den stokastiske variabelen X berre kan ha verdien xi i rektangel nummer i der xi er ein x-verdi i intervallet som utgjer breidda av rektangelet. Då lagar vi ei diskret sannsynsfordeling for X, og sannsynet for at X=xi vil vere tilnærma lik arealet av rektangel nummer i:

PX=xifxi·x

Bidraget til forventningsverdien frå dette rektangelet vil vere

xi·fxi·x

Eit tilnærma uttrykk for forventningsverdien til X vil vere summen av dette uttrykket for alle rektangla, og vi får

EXixi·fxi·x

Så tenker vi oss at vi lar x0, det vil seie at vi får uendeleg mange tynne rektangel. Då vil kvart rektangel gi ei betre tilnærming til sitt bidrag til forventningsverdien. Ut ifrå definisjonen til eit bestemt integral får vi derfor

EX=limx0ixi·fxi·x=-x·fxdx

Kort sagt kjem vi fram til formelen for ein kontinuerleg stokastisk variabel ved å ta utgangspunkt i ei diskret fordeling.

d) Ta utgangspunkt i den generelle formelen og vis at integralet til ein normalfordelingsfunksjon alltid vil bli 1.

Løysing

Vi reknar i CAS:

Vi får 1 sidan eit standardavvik alltid vil vere positivt.

e) Vis ved hjelp av CAS at -x·1σ2π·e-x-μ22σ2dx=μ.

Løysing

Vi bruker den same strategien som i d) og reknar i CAS:

Vi får at integralet blir lik μ, som var det vi skulle vise.

4.2.5

På ei fødeavdeling var gjennomsnittsvekta på dei nyfødde eit år 3 478 gram. Standardavviket var på 627 gram. Vi går ut frå at vekta er normalfordelt.

a) Kva betyr "Vi går ut frå at vekta er normalfordelt"?

Løysing

Det betyr at fordelinga til vekta til dei nyfødde fell saman med grafen til ei normalfordeling med μ=3 478 og σ=627.

b) Kva er sannsynet for at ein tilfeldig vald nyfødd unge på denne avdelinga veg meir enn 4 000 gram? Finn løysinga både ved hjelp av GeoGebra og Python.

Løysing

Vi løyser først med sannsynskalkulatoren i GeoGebra:

Det er 20,26 % sjanse for at ein tilfeldig vald nyfødd unge veg over 4 000 gram.

Forslag til løysing i Python:

python
1from scipy.stats import norm
2
3                               
4my = 3478
5sigma = 627
6
7s = norm.cdf(4000, my, sigma)
8
9print(f"Sannsynet for at ein nyfødd unge veg meir enn 4 000 g, er {1-s:.3f}.")

Når vi køyrer programmet, får vi svarsetninga Sannsynet for at ein nyfødd unge veg meir enn 4 000 g, er 0.203.

c) Kor stor andel av dei nyfødde veg mellom 3 000 gram og 3 500 gram?

Løysing

Vi løyser i både GeoGebra og Python:

I GeoGebra finn vi P3 000X3 500:

Vi får at sannsynet for at ein nyfødd unge veg mellom 3 000 og 3 500 gram, er 0,291 1.

For å finne det rette sannsynet må vi i Python finne PX3 500-PX3 000.

python
1from scipy.stats import norm
2
3                              
4my = 3478
5sigma = 627
6
7s1 = norm.cdf(3000,my,sigma)
8s2 = norm.cdf(3500,my,sigma)
9
10print(f"Sannsynet for at ein nyfødd unge veg mellom 3 000 g og 3 500 g, er {s2-s1:.3f}.")

Når vi køyrer programmet, får vi svarsetninga Sannsynet for at ein nyfødd unge veg mellom 3 000 g og 3 500 g, er 0.291.. Det betyr at andelen nyfødde ungar som veg mellom 3 000 g og 3 500 g, er 0,291.

4.2.6

Ved ein skule spring elevane ei skogsløype i kroppsøvinga. Vi lar den stokastiske variabelen X vere tida ein gut ved skulen bruker på løypa. Det viser seg at X er normalfordelt med forventningsverdi lik 13 minutt og 20 sekund og eit standardavvik på 1 minutt og 40 sekund.

a) Finn ut kor stor andelen av gutane som klarer å springe løypa på mindre enn 15 minutt, er.

Løysing

Vi vel løysing i Python.

Vi reknar om tidene til sekund og får at μ=800 og σ=100. 15 minutt er 900 sekund, så vi leiter etter PX900.

Forslag til kode:

python
1from scipy.stats import norm
2
3                               
4my = 800
5sigma = 100
6
7s = norm.cdf(900,my,sigma)
8
9print(f"Andelen som spring under 15 minutt, er {s:.3f}.")

Vi får svarsetninga Andelen som spring under 15 minutt, er 0.841..

b) Kunne du ha svart på oppgåve a) utan å gjere nokon utrekningar?

Løysing

15 minutt er nøyaktig eitt standardavvik unna forventningsverdien. Vi veit at 50 % av observasjonane er lågare enn forventningsverdien, og at cirka 34,1 % av observasjonane er innanfor intervallet μ+σ. Dermed veit vi at 84,1 % av gutane vil springe fortare enn 15 minutt.

c) For å få karakteren 6 på denne øvinga må ein gut klare løypa på mindre enn 10 minutt. Kor stor andel av gutane er venta å klare dette?

Løysing

Vi modifiserer programmet frå a):

python
1from scipy.stats import norm
2
3                               
4my = 800
5sigma = 100
6
7s = norm.cdf(600,my,sigma)
8
9print(f"Andelen som spring under 10 minutt, er {s:.3f}.")

Å køyre koden gir oss Andelen som spring under 10 minutt, er 0.023..

d) Kva tid må ein gut ha på løypa for å vere blant dei 20 % beste?

Løysing

Vi modifiserer koden frå a). Vi bruker ei while-lykkje. Til slutt skriv vi om tida i sekund til minutt og sekund:

python
1from scipy.stats import norm
2
3                               
4my = 800
5sigma = 100
6
7x = 900
8
9while norm.cdf(x,my,sigma) > 0.200:
10    x=x-1
11    
12tid = x
13minutt = int(tid/60)
14sekund = (tid-minutt*60)
15
16print(f"For å vere blant dei 20 % beste må du springe under {minutt} minutt og {sekund} sekund.")

Når vi køyrer programmet, får vi ut For å vere blant dei 20 % beste må du springe under 11 minutt og 55 sekund..

Det finst òg ein metode i Python som finn svaret direkte ved å setje inn sannsynet. Denne motsette funksjonen til "norm.cdf" heiter "norm.ppf". Denne gir oss x der PXx=p med gitt sannsyn p. Då kan programmet sjå slik ut:

python
1from scipy.stats import norm
2
3                               
4my = 800
5sigma = 100
6p = 0.200
7   
8tid = norm.ppf(p,my,sigma)
9minutt = int(tid/60)
10sekund = int(tid-minutt*60)
11
12print(f"For å vere blant dei 20 % beste må du springe under {minutt} minutt og {sekund} sekund.")

4.2.7

(Frå eksempelsett REA3062 matematikk S2, mai 23)

Levetida T (i timar) til ei tilfeldig lyspære av ein bestemd type er ein stokastisk variabel. Det viser seg at

PTt=-tfxdx

der tettleiksfunksjonen er gitt ved

ft=k·e-0,005t,t>00                ,t0

a) Vis at k=0,005.

Løysing

Vi har at det samla integralet til tettleiksfunksjonen må vere lik 1. Vi veit at f(t)=0 for t0, så vi får:

0k·e-0,005tdt = 1k-0,005 [e-0,005t]0=1k-0,005·(0-1)=1k0,005=1k= 0,005

b) Kva er sannsynet for at levetida til lyspæra er meir enn 400 timar?

Løysing

Vi bruker at PT>400=1-PT400:

Det er 13,5 % sjanse for at levetida til lyspæra er meir enn 400 timar.

c) Bestem forventningsverdien til t.

Løysing

Vi finn forventningsverdien ved å rekne ut -t·f(t) dt:

Den forventa levetida til lyspæra er 200 timar.

4.2.8

På ein skule har alle elevane ei bustadadresse som ligg mellom 100 m og 4 km frå skulen. Gjennomsnittsavstanden frå skulen er 2,5 km, og cirka 68,2 % av elevane har mellom 1,8 km og 3,2 km til skulen.

a) Vi går ut frå at avstanden til skulen er normalfordelt. Forklar at standardavviket må vere 0,7 km.

Løysing

I ei normalfordeling har vi at cirka 68,2 % av observasjonane ligg innanfor ein avstand på eitt standardavvik i kvar retning. Sidan 2,5 ligg midt mellom 1,8 og 3,2, har vi at σ=3,2-2,5=2,5-1,8=0,7.

b) Lag eit program som du kan bruke til å simulere sannsynet for at ein tilfeldig vald elev har meir enn 3 km skuleveg.

Løysing

Her skal vi ikkje rekne ut sannsynet for at ein elev har meir enn 3 km skuleveg direkte gjennom å bruke normalfordelinga, men vi skal simulere ved hjelp av å trekke tilfeldig ein elev mange gonger for så å rekne ut sannsynet.

Vi kan lage følgande program:

python
1import numpy as np
2
3#lagar ein generator
4rng = np.random.default_rng()
5N = 10000
6
7#generer ein array for lengdene på skulevegen
8skuleveg = rng.normal(2500,700,N)
9
10#tel opp talet på skulevegar som er lengre enn 3 km
11gunstige = sum(skuleveg > 3000)
12
13print(f'Sannsynet for at ein elev har meir enn 3 km skuleveg, er {gunstige/N}.')

c) Elevane i ein kommune skal svare på ei undersøking om mellom anna lengda på skulevegen. Eitt av spørsmåla ser slik ut:

Kor lang skuleveg har du? Ring rundt det svaret som passar best:

Lengde på skuleveg
Mindre enn 400 mMellom 400 m og 1 kmMellom 1 km og 1,6 kmMellom 1,6 km og 2,2 kmMellom 2,2 km og 2,8 kmMellom 2,8 km og 3,4 kmMeir enn 3,4 km

Lag eit program som simuler resultatet på dette spørsmålet dersom det er 750 elevar som svarer på undersøkinga. Skriv ut tabellen.

Løysing
python
1import numpy as np
2
3#lagar arrays for grensene og antal i kvar kategori 
4grenser = ["0 - 400","400 - 1 000","1 000 - 1 600","1 600 - 2 200","2 200 - 2 800","2 800 - 3 400","3 400 - 4 000"]
5N = 750
6
7#lagar ein rng for å generere heile datasettet
8rng = np.random.default_rng()
9M = rng.normal(2500,700,N)
10
11histogramgrenser = [M.min(),400,1000,1600,2200,2800,3400,M.max()]
12
13antal,nedregrenser = np.histogram(M,histogramgrenser)
14
15#skriv ut tabellen
16print("Lengde på skuleveg ","Antal elevar")
17for i in range (len(grenser)):
18     print(f"{grenser[i]:<20}{int(antal[i])}")

Merknad: Nokre gonger vil dette programmet feile fordi den minste verdien vi genererer, er høgare enn 400 (som er den neste nedre grensa). Dette vil skje veldig sjeldan i større datasett, men i eit såpass lite datasett som dette vil det skje at det ikkje hamnar nokon i den lågaste kategorien. Vi vel likevel å bruke M.min() så vi ikkje risikerer å miste nokon genererte verdiar. Sjølv om vi i praksis ikkje kan ha negative skuleveg-lengder, treng vi likevel å telje opp desse når vi simulerer.

d) Modifiser programmet slik at du får generert 20 slike simuleringar. Programmet skal skrive ut gjennomsnitt og standardavvik for dei 20 simuleringane (du treng ikkje å skrive ut dei 20 tabellane). Samanlikn resultata du får med forventningsverdien og standardavviket i normalfordelinga som er utgangspunktet for simuleringa.

Løysing

Vi bruker numpy-kommandoane "mean()" og "std()" for å finne gjennomsnitt og standardavvik:

python
1import numpy as np
2
3
4#lagar ein rng for å generere heile datasettet
5rng = np.random.default_rng()
6
7N = 750
8
9for i in range(20):
10  M = rng.normal(2500,700,N)
11  print(f'gjennomsnitt = {np.mean(M): < 25} standardavvik = {np.std(M)}')

Når vi køyrer koden, vil vi sjå at gjennomsnittet varierer mykje. Ved ei køyring fann vi at gjennomsnittet varierte frå 2 449 til 2 533, mens standardavviket varierte frå 664 til 728. Denne variasjonen kan forklarast med at utvalet er lite.

e) Prøv å køyre programmet på nytt, men denne gongen med 7 500 elevar. Kva skjer med variasjonen?

Løysing

Variasjonen blir mindre, for vi har eit større utval.


CC BY-SA 4.0Skrive av Tove Annette Holter, Olav Kristensen og Stein Aanensen.
Sist fagleg oppdatert 23.06.2023