Hopp til innhold
Oppgave

Normalfordelingen

Her får du jobbe med oppgaver om normalfordelingen og andre kontinuerlige stokastiske variabler.

4.2.1

Hvilke(n) av grafene nedenfor beskriver en normalfordelt variabel med μ=35 og σ=5? Husk å begrunne for hver graf hva som passer, og hva som ikke passer.

Graf 1

Graf 2

Graf 3

Graf 4

Løsning

Vi sjekker først for μ:

Vi finner at graf 1 og graf 2 har toppunkt der x=35, mens graf 3 har toppunkt i x=5 og graf 4 i x=45. Dermed må det være enten graf 1 eller graf 2.

Så sjekker vi for σ:

Hvis vi fargelegger området mellom x=30 og x=40 i graf 1 og graf 2, ser vi at dette området dekker cirka 15 % i graf 1, mens det i graf 2 ser ut som det kan være omtrent 68 % prosent, slik det skal være i en normalfordeling.

Det vil si at graf 1 svarer til sannsynlighetsfunksjonen for en normalfordelt variabel med μ=25 og σ=5.

4.2.2

Tegn ei skisse (for hånd!) i samme koordinatsystem av grafene til sannsynlighetene til

  1. den normalfordelte variabelen X der μ=3 og σ=7

  2. den normalfordelte variabelen Y der μ=7 og σ=7

  3. den normalfordelte variabelen P der μ=7 og σ=3

  4. den normalfordelte variabelen Q der μ=3 og σ=3

Kommenter likheter og forskjeller i grafene, og bruk dette til å si noe generelt om hvordan forventningsverdi og standardavvik påvirker formen på grafen.

Løsning

To og to av grafene har lik form, men de er forskjøvet i forhold til hverandre. Det gjelder de grafene som har likt standardavvik. Vi legger også merke til at to og to grafer har toppunkt i samme x-verdi, dette gjelder de grafene som har samme forventningsverdi.

Vi kan generelt si at dersom standardavviket er lite, vil grafene bli høye og smale, og hvis standardavviket er stort, vil grafene bli bredere og lavere.

4.2.3

I en normalfordeling har vi at cirka 68,2 % av observasjonene vil ligge innenfor ett standardavviks avstand fra forventningsverdien.

a) Hvor stor andel av observasjonene vil ligge innenfor

  1. to standardavviks avstand fra forventningsverdien

  2. tre standardavviks avstand fra forventningsverdien

Tips til oppgaven

Bruk eksempelet med håndballspillerne teorisiden "Normalfordelingen" og undersøk ved hjelp av GeoGebra!

Løsning

1)
Vi legger inn P186-16X186+16 i sannsynlighetskalkulatoren:

Cirka 95,5 % ligger innenfor to standardavviks avstand fra forventningsverdien.

2)
Vi legger inn n P186-24X186+24 i sannsynlighetskalkulatoren:

Cirka 99,7 % ligger innenfor tre standardavviks avstand fra forventningsverdien.

b) Vis ved hjelp av CAS at integralet av tetthetsfunksjonen til eksempelet fra teorisiden "Normalfordelingen" vil bli 1.

Løsning

Vi har at den generelle funksjonen for grafen til en normalfordelt variabel er fx=1σ2π·e-x-μ22σ2.

Vi setter inn μ=186 og σ=8 og finner integralet i intervallet -,:

Svaret blir 1.

4.2.4

Vi fortsetter med håndballspillerne våre. Vi minner om fordelingen i tabellen:

HØyde, HÅNDBALLSPILLERE

Høyde i cm

Antall

[165, 170

13

[170, 175

26

[175, 180

76

[180, 185

101

[185, 190

125

[190, 195

93

[195, 200

43

[200, 205

23

SUM

500

a) Vis at forventningsverdien (gjennomsnittet) i dette datasettet blir 186, og at standardavviket blir 8.

Løsning

Vi bruker klassemidtpunktet som felles høyde for alle i hver klasse og løser i GeoGebra. Vi skriver inn følgende tabell i regnearket i GeoGebra og lager lister av de to kolonnene. Vi kaller listene for "Klassemidtpunkt" og "Frekvens".

KLAssemidtpunkt og frekvens

Klassemidtpunkt
(x)

Frekvens
(antall)

167,5

13

172,5

26

177,5

76

182,5

101

187,5

125

192,5

93

197,5

43

202,5

23

Vi får følgende resultat i GeoGebra:

Vi får μ=186 og σ=8, slik vi skulle vise.

b) Bruk CAS til å regne ut forventningsverdien i normalfordelingen med μ=186 og σ=8.

Løsning

Vi bruker at

μ=EX=-x·fxdx:

Vi får, som forventet, at forventningsverdien er 186.

c) Forklar sammenhengen mellom formelen for forventningsverdi i en diskret fordeling og formelen for forventningsverdi i en kontinuerlig fordeling.

Løsning

I formelen for forventningsverdi i en diskret variabel har vi summen av produktene xi·PX=xi der PX=xi finnes i sannsynlighetsfordelingen i form av en tabell. Når vi har en kontinuerlig stokastisk variabel, har vi kun en tetthetsfunksjon å ta utgangspunkt i. Vi kan bare spørre etter sannsynligheten for at X ligger i et bestemt intervall, vi kan ikke spørre etter når X har en bestemt verdi. Sannsynligheten for at X ligger i et bestemt intervall er arealet under grafen til tetthetsfunksjonen i det aktuelle intervallet.

Vi kan se for oss at vi deler opp arealet under grafen til tetthetsfunksjonen i mange små loddrette rektangler med bredde x. Vi tilnærmer videre og sier at den stokastiske variabelen X bare kan ha verdien xi i rektangel nummer i der xi er en x-verdi i intervallet som utgjør bredden av rektangelet. Da lager vi en diskret sannsynlighetsfordeling for X, og sannsynligheten for at X=xi vil være tilnærmet lik arealet av rektangel nummer i:

PX=xifxi·x

Bidraget til forventningsverdien fra dette rektangelet vil være

xi·fxi·x

Et tilnærmet uttrykk for forventningsverdien til X vil være summen av dette uttrykket for alle rektanglene, og vi får

EXixi·fxi·x

Så tenker vi oss at vi lar x0, det vil si at vi får uendelig mange tynne rektangler. Da vil hvert rektangel gi en bedre tilnærming til sitt bidrag til forventningsverdien. Ut ifra definisjonen til et bestemt integral får vi derfor

EX=limx0ixi·fxi·x=-x·fxdx

Kort sagt kommer vi fram til formelen for en kontinuerlig stokastisk variabel ved å ta utgangspunkt i en diskret fordeling.

d) Ta utgangspunkt i den generelle formelen og vis at integralet til en normalfordelingsfunksjon alltid vil bli 1.

Løsning

Vi regner i CAS:

Vi får 1 siden et standardavvik alltid vil være positivt.

e) Vis ved hjelp av CAS at -x·1σ2π·e-x-μ22σ2dx=μ.

Løsning

Vi bruker samme strategi som i d) og regner i CAS:

Vi får at integralet blir lik μ, som var det vi skulle vise.

4.2.5

På en fødeavdeling var gjennomsnittsvekten på de nyfødte et år 3 478 gram. Standardavviket var på 627 gram. Vi antar at vekten er normalfordelt.

a) Hva betyr "Vi antar at vekten er normalfordelt"?

Løsning

Det betyr at fordelingen til de nyfødtes vekt faller sammen med grafen til en normalfordeling med μ=3 478 og σ=627.

b) Hva er sannsynligheten for at en tilfeldig valgt nyfødt på denne avdelingen veier mer enn 4 000 gram? Finn løsningen både ved hjelp av GeoGebra og Python.

Løsning

Vi løser først med sannsynlighetskalkulatoren i GeoGebra:

Det er 20,26 % sjanse for at en tilfeldig valgt nyfødt veier over 4 000 gram.

Forslag til løsning i Python:

python
1from scipy.stats import norm
2
3                               
4my = 3478
5sigma = 627
6
7s = norm.cdf(4000, my, sigma)
8
9print(f"Sannsynligheten for at en nyfødt veier mer enn 4 000 g, er {1-s:.3f}.")

Når vi kjører programmet, får vi svarsetningen Sannsynligheten for at en nyfødt veier mer enn 4 000 g, er 0.203.

c) Hvor stor andel av de nyfødte veier mellom 3 000 gram og 3 500 gram?

Løsning

Vi løser i både GeoGebra og Python:

I GeoGebra finner vi P3 000X3 500:

Vi får at sannsynligheten for at en nyfødt veier mellom 3 000 og 3 500 gram, er 0,291 1.

For å finne den rette sannsynligheten må vi i Python finne PX3 500-PX3 000.

python
1from scipy.stats import norm
2
3                              
4my = 3478
5sigma = 627
6
7s1 = norm.cdf(3000,my,sigma)
8s2 = norm.cdf(3500,my,sigma)
9
10print(f"Sannsynligheten for at en nyfødt veier mellom 3 000 g og 3 500 g, er {s2-s1:.3f}.")

Når vi kjører programmet, får vi svarsetningen Sannsynligheten for at en nyfødt veier mellom 3 000 g og 3 500 g, er 0.291.. Det betyr at andelen nyfødte som veier mellom 3 000 g og 3 500 g, er 0,291.

4.2.6

Ved en skole løper elevene ei skogsløype i kroppsøvingen. Vi lar den stokastiske variabelen X være tida en gutt ved skolen bruker på løypa. Det viser seg at X er normalfordelt med forventningsverdi lik 13 minutter og 20 sekunder og et standardavvik på 1 minutt og 40 sekunder.

a) Finn ut hvor stor andelen av guttene som klarer å løpe løypa på mindre enn 15 minutter, er.

Løsning

Vi velger løsning i Python.

Vi regner om tidene til sekunder og får at μ=800 og σ=100. 15 minutter er 900 sekunder, så vi leter etter PX900.

Forslag til kode:

python
1from scipy.stats import norm
2
3                               
4my = 800
5sigma = 100
6
7s = norm.cdf(900,my,sigma)
8
9print(f"Andelen som løper under 15 minutter, er {s:.3f}.")

Vi får svarsetningen Andelen som løper under 15 minutter, er 0.841..

b) Kunne du ha svart på oppgave a) uten å gjøre noen beregninger?

Løsning

15 minutter er nøyaktig ett standardavvik unna forventningsverdien. Vi vet at 50 % av observasjonene er lavere enn forventningsverdien, og at cirka 34,1 % av observasjonene er innenfor intervallet μ+σ. Dermed vet vi at 84,1 % av guttene vil løpe fortere enn 15 minutter.

c) For å få karakteren 6 på denne øvelsen må en gutt klare løypa på mindre enn 10 minutter. Hvor stor andel av guttene forventes å klare dette?

Løsning

Vi modifiserer programmet fra a):

python
1from scipy.stats import norm
2
3                               
4my = 800
5sigma = 100
6
7s = norm.cdf(600,my,sigma)
8
9print(f"Andelen som løper under 10 minutter, er {s:.3f}.")

Å kjøre koden gir oss Andelen som løper under 10 minutter, er 0.023..

d) Hvilken tid må en gutt ha på løypa for å være blant de 20 % beste?

Løsning

Vi modifiserer koden fra a). Vi bruker ei while-løkke. Til slutt skriver vi om tida i sekunder til minutter og sekunder:

python
1from scipy.stats import norm
2
3                               
4my = 800
5sigma = 100
6
7x = 900
8
9while norm.cdf(x,my,sigma) > 0.200:
10    x=x-1
11    
12tid = x
13minutter = int(tid/60)
14sekunder = (tid-minutter*60)
15
16print(f"For å være blant de 20 % beste må du løpe under {minutter} minutter og {sekunder} sekunder.")

Når vi kjører programmet, får vi ut For å være blant de 20 % beste må du løpe under 11 minutter og 55 sekunder..

Det finnes også en metode i Python som finner svaret direkte ved å sette inn sannsynligheten. Denne motsatte funksjonen til "norm.cdf" heter "norm.ppf". Denne gir oss x der PXx=p med oppgitt sannsynlighet p. Da kan programmet se slik ut:

python
1from scipy.stats import norm
2
3                               
4my = 800
5sigma = 100
6p = 0.200
7   
8tid = norm.ppf(p,my,sigma)
9minutter = int(tid/60)
10sekunder = int(tid-minutter*60)
11
12print(f"For å være blant de 20 % beste må du løpe under {minutter} minutter og {sekunder} sekunder.")

4.2.7

(Fra eksempelsett REA3062 matematikk S2, mai 23)

Levetida T (i timer) til ei tilfeldig lyspære av en bestemt type er en stokastisk variabel. Det viser seg at

PTt=-tfxdx

der tetthetsfunksjonen er gitt ved

ft=k·e-0,005t,t>00                ,t0

a) Vis at k=0,005.

Løsning

Vi har at det samlede integralet til tetthetsfunksjonen må være lik 1. Vi vet at f(t)=0 for t0, så vi får:

0k·e-0,005tdt = 1k-0,005 [e-0,005t]0=1k-0,005·(0-1)=1k0,005=1k= 0,005

b) Hva er sannsynligheten for at lyspæras levetid er mer enn 400 timer?

Løsning

Vi bruker at PT>400=1-PT400:

Det er 13,5 % sjanse for at lyspæras levetid er mer enn 400 timer.

c) Bestem forventningsverdien til t.

Løsning

Vi finner forventningsverdien ved å regne ut -t·f(t) dt:

Den forventede levetida til lyspæra er 200 timer.

4.2.8

På en skole har alle elevene en bostedsadresse som ligger mellom 100 m og 4 km fra skolen. Gjennomsnittsavstanden fra skolen er 2,5 km, og cirka 68,2 % av elevene har mellom 1,8 km og 3,2 km til skolen.

a) Vi antar at avstanden til skolen er normalfordelt. Forklar at standardavviket må være 0,7 km.

Løsning

I en normalfordeling har vi at cirka 68,2 % av observasjonene ligger innenfor ett standardavviks avstand i hver retning. Siden 2,5 ligger midt mellom 1,8 og 3,2, har vi at σ=3,2-2,5=2,5-1,8=0,7.

b) Lag et program som du kan bruke til å simulere sannsynligheten for at en tilfeldig valgt elev har mer enn 3 km skolevei.

Løsning

Her skal vi ikke regne ut sannsynligheten for at en elev har mer enn 3 km skolevei direkte gjennom å bruke normalfordelingen, men vi skal simulere ved hjelp av å trekke tilfeldig en elev mange ganger for så å regne ut sannsynligheten.

Vi kan lage følgende program:

python
1import numpy as np
2
3#lager en generator
4rng = np.random.default_rng()
5N = 10000
6
7#generer en array for lengdene på skoleveien
8skolevei = rng.normal(2500,700,N)
9
10#teller opp antall skoleveier som er lengre enn 3 km
11gunstige = sum(skolevei > 3000)
12
13print(f'Sannsynligheten for at en elev har mer enn 3 km skolevei, er {gunstige/N}.')

c) Elevene i en kommune skal svare på en undersøkelse om blant annet lengden på skoleveien. Ett av spørsmålene ser slik ut:

Hvor lang skolevei har du? Ring rundt det svaret som passer best:

Lengder på skolevei
Mindre enn 400 mMellom 400 m og 1 kmMellom 1 km og 1,6 kmMellom 1,6 km og 2,2 kmMellom 2,2 km og 2,8 kmMellom 2,8 km og 3,4 kmMer enn 3,4 km

Lag et program som simuler resultatet på dette spørsmålet hvis det er 750 elever som svarer på undersøkelsen. Skriv ut tabellen.

Løsning
python
1import numpy as np
2
3#lager arrays for grensene og antall i hver kategori 
4grenser = ["0 - 400","400 - 1 000","1 000 - 1 600","1 600 - 2 200","2 200 - 2 800","2 800 - 3 400","3 400 - 4 000"]
5N = 750
6
7#lager en rng for å generere hele datasettet
8rng = np.random.default_rng()
9M = rng.normal(2500,700,N)
10
11histogramgrenser = [M.min(),400,1000,1600,2200,2800,3400,M.max()]
12
13antall,nedregrenser = np.histogram(M,histogramgrenser)
14
15#skriver ut tabellen
16print("Lengde på skolevei ","Antall elever")
17for i in range (len(grenser)):
18     print(f"{grenser[i]:<20}{int(antall[i])}")

Merknad: Noen ganger vil dette programmet feile fordi den minste verdien vi genererer, er høyere enn 400 (som er den neste nedre grensa). Dette vil skje veldig sjelden i større datasett, men i et såpass lite datasett som dette vil det skje at det ikke havner noen i den laveste kategorien. Vi velger likevel å bruke M.min() så vi ikke risikerer å miste noen genererte verdier. Selv om vi i praksis ikke kan ha negative skolevei-lengder, trenger vi likevel å telle opp disse når vi simulerer.

d) Modifiser programmet slik at du får generert 20 slike simuleringer. Programmet skal skrive ut gjennomsnitt og standardavvik for de 20 simuleringene (du trenger ikke å skrive ut de 20 tabellene). Sammenlikn resultatene du får med forventningsverdien og standardavviket i normalfordelingen som er utgangspunktet for simuleringen.

Løsning

Vi bruker numpy-kommandoene "mean()" og "std()" for å finne gjennomsnitt og standardavvik:

python
1import numpy as np
2
3
4#lager en rng for å generere hele datasettet
5rng = np.random.default_rng()
6
7N = 750
8
9for i in range(20):
10  M = rng.normal(2500,700,N)
11  print(f'gjennomsnitt = {np.mean(M): < 25} standardavvik = {np.std(M)}')

Når vi kjører koden, vil vi se at gjennomsnittet varierer mye. Ved en kjøring fant vi at gjennomsnittet varierte fra 2 449 til 2 533, mens standardavviket varierte fra 664 til 728. Denne variasjonen kan forklares med at utvalget er lite.

e) Prøv å kjøre programmet på nytt, men denne gangen med 7 500 elever. Hva skjer med variasjonen?

Løsning

Variasjonen blir mindre, for vi har et større utvalg.


CC BY-SA 4.0Skrevet av Tove Annette Holter, Olav Kristensen og Stein Aanensen.
Sist faglig oppdatert 23.06.2023