Oppgave

Normalfordelingen

Her får du jobbe med oppgaver om normalfordelingen og andre kontinuerlige stokastiske variabler.

4.2.1

Hvilke(n) av grafene nedenfor beskriver en normalfordelt variabel med $μ = 35$ og $σ = 5$ ? Husk å begrunne for hver graf hva som passer, og hva som ikke passer.

Graf 1

I et koordinatsystem er grafen til en ukjent normalfordelingsfunksjon tegnet. Grafen har toppunkt for x er lik 35. Grafen synker til halvparten av verdien i toppunktet for x tilnærmet lik 4 og x tilnærmet lik 66. Skjermutklipp.

Graf 2

Graf 3

I et koordinatsystem er grafen til en ukjent normalfordelingsfunksjon tegnet. Grafen har toppunkt for x er lik 5. Grafen synker til halvparten av verdien i toppunktet for x tilnærmet lik minus 40 og x tilnærmet lik 50. Skjermutklipp.

Graf 4

I et koordinatsystem er grafen til en ukjent normalfordelingsfunksjon tegnet. Grafen har toppunkt for x er lik 45. Grafen synker til halvparten av verdien i toppunktet for x tilnærmet lik 39 og x tilnærmet lik 51. Skjermutklipp.

Løsning

Vi sjekker først for $μ$ :

Vi finner at graf 1 og graf 2 har toppunkt der $x = 35$ , mens graf 3 har toppunkt i $x = 5$ og graf 4 i $x = 45$ . Dermed må det være enten graf 1 eller graf 2.

Så sjekker vi for $σ$ :

Hvis vi fargelegger området mellom $x = 30$ og $x = 40$ i graf 1 og graf 2, ser vi at dette området dekker cirka 15 % i graf 1, mens det i graf 2 ser ut som det kan være omtrent 68 % prosent, slik det skal være i en normalfordeling.

Det vil si at graf 1 svarer til sannsynlighetsfunksjonen for en normalfordelt variabel med $μ = 25$ og $σ = 5$ .

4.2.2

Tegn ei skisse (for hånd!) i samme koordinatsystem av grafene til sannsynlighetene til

den normalfordelte variabelen $X$ der $μ = 3$ og $σ = 7$
den normalfordelte variabelen $Y$ der $μ = 7$ og $σ = 7$
den normalfordelte variabelen $P$ der $μ = 7$ og $σ = 3$
den normalfordelte variabelen $Q$ der $μ = 3$ og $σ = 3$

Kommenter likheter og forskjeller i grafene, og bruk dette til å si noe generelt om hvordan forventningsverdi og standardavvik påvirker formen på grafen.

Løsning

Koordinatsystem der det er tegnet 4 grafer. Alle grafene har ett toppunkt og er symmetriske på hver side av toppunktet. Den røde grafen med betegnelsen my er lik 3, sigma er lik 3 har toppunkt med koordinatene 3 og 0,132. Den grønne grafen med betegnelsen my er lik 7, sigma er lik 3 har toppunkt med koordinatene 7 og 0,132. Den svarte grafen med betegnelsen my er lik 3, sigma er lik 7 har toppunkt med koordinatene 3 og 0,056. Den blå grafen med betegnelsen my er lik 7, sigma er lik 7 har toppunkt med koordinatene 7 og 0,056. Illustrasjon.

To og to av grafene har lik form, men de er forskjøvet i forhold til hverandre. Det gjelder de grafene som har likt standardavvik. Vi legger også merke til at to og to grafer har toppunkt i samme $x$ -verdi, dette gjelder de grafene som har samme forventningsverdi.

Vi kan generelt si at dersom standardavviket er lite, vil grafene bli høye og smale, og hvis standardavviket er stort, vil grafene bli bredere og lavere.

4.2.3

I en normalfordeling har vi at cirka 68,2 % av observasjonene vil ligge innenfor ett standardavviks avstand fra forventningsverdien.

a) Hvor stor andel av observasjonene vil ligge innenfor

to standardavviks avstand fra forventningsverdien
tre standardavviks avstand fra forventningsverdien

Tips til oppgaven

Bruk eksempelet med håndballspillerne teorisiden "Normalfordelingen" og undersøk ved hjelp av GeoGebra!

Løsning

1)
Vi legger inn $P (186 - 16 \leq X \leq 186 + 16)$ i sannsynlighetskalkulatoren:

Sannsynlighetskalkulatoren i GeoGebra. Normalfordeling med forventningsverdi lik 186 og standardavvik lik 8. Utregningen er P av 170 mindre enn eller lik X mindre enn eller lik 202 er lik 0,9545. Skjermutklipp.

Cirka 95,5 % ligger innenfor to standardavviks avstand fra forventningsverdien.

2)
Vi legger inn n $P (186 - 24 \leq X \leq 186 + 24)$ i sannsynlighetskalkulatoren:

Sannsynlighetskalkulatoren i GeoGebra. Normalfordeling med forventningsverdi lik 186 og standardavvik lik 8. Utregning er P av 162 mindre enn eller lik X mindre enn eller lik 210 er lik 0,9973. Skjermutklipp.

Cirka 99,7 % ligger innenfor tre standardavviks avstand fra forventningsverdien.

b) Vis ved hjelp av CAS at integralet av tetthetsfunksjonen til eksempelet fra teorisiden "Normalfordelingen" vil bli 1.

Løsning

Vi har at den generelle funksjonen for grafen til en normalfordelt variabel er $f (x) = \frac{1}{σ \sqrt{2 π}} \cdot e^{- \frac{{(x - μ)}^{2}}{2 σ^{2}}}$ .

Vi setter inn $μ = 186$ og $σ = 8$ og finner integralet i intervallet $〈 - \infty, \infty 〉$ :

Skjermutklipp fra CAS-vinduet i GeoGebra. På linje 1 er f definert som normalfordelingsfunksjonen med my lik 186 og sigma lik 8. På linje 2 er integralet fra minus uendelig til uendelig av f regnet ut til 1. Skjermutklipp.

Svaret blir 1.

4.2.4

Vi fortsetter med håndballspillerne våre. Vi minner om fordelingen i tabellen:

HØyde, HÅNDBALLSPILLERE
Høyde i cm	Antall
$[165, 170 ⟩$	13
$[170, 175 ⟩$	26
$[175, 180 ⟩$	76
$[180, 185 ⟩$	101
$[185, 190 ⟩$	125
$[190, 195 ⟩$	93
$[195, 200 ⟩$	43
$[200, 205 ⟩$	23
SUM	500

a) Vis at forventningsverdien (gjennomsnittet) i dette datasettet blir 186, og at standardavviket blir 8.

Løsning

Vi bruker klassemidtpunktet som felles høyde for alle i hver klasse og løser i GeoGebra. Vi skriver inn følgende tabell i regnearket i GeoGebra og lager lister av de to kolonnene. Vi kaller listene for "Klassemidtpunkt" og "Frekvens".

KLAssemidtpunkt og frekvens
Klassemidtpunkt $(x)$	Frekvens (antall)
$167, 5$	13
$172, 5$	26
$177, 5$	76
$182, 5$	101
$187, 5$	125
$192, 5$	93
$197, 5$	43
$202, 5$	23

Vi får følgende resultat i GeoGebra:

Utklipp av algebrafeltet i GeoGebra. I øverste linje har vi a er lik gsnitt parentes klassemidtpunkt komma frekvens parentes slutt er lik 186,15. I andre linje har vi b er lik stavvp parentes klassemidtpunkt komma frekvens parentes slutt er lik 8,01. Skjermutklipp.

Vi får $μ = 186$ og $σ = 8$ , slik vi skulle vise.

b) Bruk CAS til å regne ut forventningsverdien i normalfordelingen med $μ = 186$ og $σ = 8$ .

Løsning

Vi bruker at

$μ = E (X) = \int_{- \infty}^{\infty} x \cdot f (x) d x$ :

Utklipp av CAS i GeoGebra. I linje 1 er det definert en normalfordelingsfunksjon f av x med my lik 186 og sigma lik 8. I linje 2 er det regnet ut integralet av x multiplisert med f av x fra minus uendelig til uendelig. Svaret er 186. Skjermutklipp.

Vi får, som forventet, at forventningsverdien er 186.

c) Forklar sammenhengen mellom formelen for forventningsverdi i en diskret fordeling og formelen for forventningsverdi i en kontinuerlig fordeling.

Løsning

I formelen for forventningsverdi i en diskret variabel har vi summen av produktene $x_{i} \cdot P (X = x_{i})$ der $P (X = x_{i})$ finnes i sannsynlighetsfordelingen i form av en tabell. Når vi har en kontinuerlig stokastisk variabel, har vi kun en tetthetsfunksjon å ta utgangspunkt i. Vi kan bare spørre etter sannsynligheten for at $X$ ligger i et bestemt intervall, vi kan ikke spørre etter når $X$ har en bestemt verdi. Sannsynligheten for at $X$ ligger i et bestemt intervall er arealet under grafen til tetthetsfunksjonen i det aktuelle intervallet.

Vi kan se for oss at vi deler opp arealet under grafen til tetthetsfunksjonen i mange små loddrette rektangler med bredde $∆ x$ . Vi tilnærmer videre og sier at den stokastiske variabelen $X$ bare kan ha verdien $x_{i}$ i rektangel nummer $i$ der $x_{i}$ er en $x$ -verdi i intervallet som utgjør bredden av rektangelet. Da lager vi en diskret sannsynlighetsfordeling for $X$ , og sannsynligheten for at $X = x_{i}$ vil være tilnærmet lik arealet av rektangel nummer $i$ :

$P (X = x_{i}) \approx f (x_{i}) \cdot ∆ x$

Bidraget til forventningsverdien fra dette rektangelet vil være

$x_{i} \cdot f (x_{i}) \cdot ∆ x$

Et tilnærmet uttrykk for forventningsverdien til $X$ vil være summen av dette uttrykket for alle rektanglene, og vi får

$E (X) \approx \sum_{i} x_{i} \cdot f (x_{i}) \cdot ∆ x$

Så tenker vi oss at vi lar $∆ x \to 0$ , det vil si at vi får uendelig mange tynne rektangler. Da vil hvert rektangel gi en bedre tilnærming til sitt bidrag til forventningsverdien. Ut ifra definisjonen til et bestemt integral får vi derfor

$E (X) = \lim_{∆ x \to 0} \sum_{i} x_{i} \cdot f (x_{i}) \cdot ∆ x = \int_{- \infty}^{\infty} x \cdot f (x) d x$

Kort sagt kommer vi fram til formelen for en kontinuerlig stokastisk variabel ved å ta utgangspunkt i en diskret fordeling.

d) Ta utgangspunkt i den generelle formelen og vis at integralet til en normalfordelingsfunksjon alltid vil bli 1.

Løsning

Vi regner i CAS:

Skjermutklipp fra CAS i GeoGebra. På linje 1 er f definert som en normalfordelingsfunksjon med forventningsverdi lik my og standardavvik lik sigma. På linje 2 er kommandoen Integral med argumentene f, minus uendelig og uendelig regnet ut til sigma delt på absoluttverdien til sigma. Skjermutklipp.

Vi får 1 siden et standardavvik alltid vil være positivt.

e) Vis ved hjelp av CAS at $\int_{- \infty}^{\infty} x \cdot (\frac{1}{σ \sqrt{2 π}} \cdot e^{- \frac{{(x - μ)}^{2}}{2 σ^{2}}}) d x = μ$ .

Løsning

Vi bruker samme strategi som i d) og regner i CAS:

Vi får at integralet blir lik $μ$ , som var det vi skulle vise.

4.2.5

På en fødeavdeling var gjennomsnittsvekten på de nyfødte et år 3 478 gram. Standardavviket var på 627 gram. Vi antar at vekten er normalfordelt.

a) Hva betyr "Vi antar at vekten er normalfordelt"?

Løsning

Det betyr at fordelingen til de nyfødtes vekt faller sammen med grafen til en normalfordeling med $μ = 3 478$ og $σ = 627$ .

b) Hva er sannsynligheten for at en tilfeldig valgt nyfødt på denne avdelingen veier mer enn 4 000 gram? Finn løsningen både ved hjelp av GeoGebra og Python.

Løsning

Vi løser først med sannsynlighetskalkulatoren i GeoGebra:

Utklipp av sannsynlighetskalkulatoren i GeoGebra. Normalfordeling med forventningsverdi 3478 og standardavvik 627 er valgt. Svaret er gitt som P av 4000 mindre enn eller lik X er lik 0,2026. Skjermutklipp.

Det er 20,26 % sjanse for at en tilfeldig valgt nyfødt veier over 4 000 gram.

Forslag til løsning i Python:

python

1from scipy.stats import norm
2
3                               
4my = 3478
5sigma = 627
6
7s = norm.cdf(4000, my, sigma)
8
9print(f"Sannsynligheten for at en nyfødt veier mer enn 4 000 g, er {1-s:.3f}.")

Når vi kjører programmet, får vi svarsetningen Sannsynligheten for at en nyfødt veier mer enn 4 000 g, er 0.203.

c) Hvor stor andel av de nyfødte veier mellom 3 000 gram og 3 500 gram?

Løsning

Vi løser i både GeoGebra og Python:

I GeoGebra finner vi $P (3 000 \leq X \leq 3 500)$ :

Vi får at sannsynligheten for at en nyfødt veier mellom 3 000 og 3 500 gram, er 0,291 1.

For å finne den rette sannsynligheten må vi i Python finne $P (X \leq 3 500) - P (X \leq 3 000)$ .

python

1from scipy.stats import norm
2
3                              
4my = 3478
5sigma = 627
6
7s1 = norm.cdf(3000,my,sigma)
8s2 = norm.cdf(3500,my,sigma)
9
10print(f"Sannsynligheten for at en nyfødt veier mellom 3 000 g og 3 500 g, er {s2-s1:.3f}.")

Når vi kjører programmet, får vi svarsetningen Sannsynligheten for at en nyfødt veier mellom 3 000 g og 3 500 g, er 0.291.. Det betyr at andelen nyfødte som veier mellom 3 000 g og 3 500 g, er 0,291.

4.2.6

Ved en skole løper elevene ei skogsløype i kroppsøvingen. Vi lar den stokastiske variabelen $X$ være tida en gutt ved skolen bruker på løypa. Det viser seg at $X$ er normalfordelt med forventningsverdi lik 13 minutter og 20 sekunder og et standardavvik på 1 minutt og 40 sekunder.

a) Finn ut hvor stor andelen av guttene som klarer å løpe løypa på mindre enn 15 minutter, er.

Løsning

Vi velger løsning i Python.

Vi regner om tidene til sekunder og får at $μ = 800$ og $σ = 100$ . 15 minutter er 900 sekunder, så vi leter etter $P (X \leq 900)$ .

Forslag til kode:

python

1from scipy.stats import norm
2
3                               
4my = 800
5sigma = 100
6
7s = norm.cdf(900,my,sigma)
8
9print(f"Andelen som løper under 15 minutter, er {s:.3f}.")

Vi får svarsetningen Andelen som løper under 15 minutter, er 0.841..

b) Kunne du ha svart på oppgave a) uten å gjøre noen beregninger?

Løsning

15 minutter er nøyaktig ett standardavvik unna forventningsverdien. Vi vet at 50 % av observasjonene er lavere enn forventningsverdien, og at cirka 34,1 % av observasjonene er innenfor intervallet $μ + σ$ . Dermed vet vi at 84,1 % av guttene vil løpe fortere enn 15 minutter.

c) For å få karakteren 6 på denne øvelsen må en gutt klare løypa på mindre enn 10 minutter. Hvor stor andel av guttene forventes å klare dette?

Løsning

Vi modifiserer programmet fra a):

python

1from scipy.stats import norm
2
3                               
4my = 800
5sigma = 100
6
7s = norm.cdf(600,my,sigma)
8
9print(f"Andelen som løper under 10 minutter, er {s:.3f}.")

Å kjøre koden gir oss Andelen som løper under 10 minutter, er 0.023..

d) Hvilken tid må en gutt ha på løypa for å være blant de 20 % beste?

Løsning

Vi modifiserer koden fra a). Vi bruker ei while-løkke. Til slutt skriver vi om tida i sekunder til minutter og sekunder:

python

1from scipy.stats import norm
2
3                               
4my = 800
5sigma = 100
6
7x = 900
8
9while norm.cdf(x,my,sigma) > 0.200:
10    x=x-1
11    
12tid = x
13minutter = int(tid/60)
14sekunder = (tid-minutter*60)
15
16print(f"For å være blant de 20 % beste må du løpe under {minutter} minutter og {sekunder} sekunder.")

Når vi kjører programmet, får vi ut For å være blant de 20 % beste må du løpe under 11 minutter og 55 sekunder..

Det finnes også en metode i Python som finner svaret direkte ved å sette inn sannsynligheten. Denne motsatte funksjonen til "norm.cdf" heter "norm.ppf". Denne gir oss $x$ der $P (X \leq x) = p$ med oppgitt sannsynlighet $p$ . Da kan programmet se slik ut:

python

1from scipy.stats import norm
2
3                               
4my = 800
5sigma = 100
6p = 0.200
7   
8tid = norm.ppf(p,my,sigma)
9minutter = int(tid/60)
10sekunder = int(tid-minutter*60)
11
12print(f"For å være blant de 20 % beste må du løpe under {minutter} minutter og {sekunder} sekunder.")

4.2.7

(Fra eksempelsett REA3062 matematikk S2, mai 23)

Levetida $T$ (i timer) til ei tilfeldig lyspære av en bestemt type er en stokastisk variabel. Det viser seg at

$P (T \leq t) = \int_{- \infty}^{t} f (x) d x$

der tetthetsfunksjonen er gitt ved

$f (t) = \{\begin{cases} k \cdot e^{- 0, 005 t}, t > 0 \\ 0, t \leq 0 \end{cases}$

a) Vis at $k = 0, 005$ .

Løsning

Vi har at det samlede integralet til tetthetsfunksjonen må være lik 1. Vi vet at $f (t) = 0$ for $t \leq 0$ , så vi får:

$\begin{array}{rcl} \int_{0}^{\infty} k \cdot e^{- 0, 005 t} d t & = & 1 \\ \frac{k}{- 0, 005} {[e^{- 0, 005 t}]}_{0}^{\infty} & = & 1 \\ \frac{k}{- 0, 005} \cdot (0 - 1) & = & 1 \\ \frac{k}{0, 005} & = & 1 \\ k & = & 0, 005 \end{array}$

b) Hva er sannsynligheten for at lyspæras levetid er mer enn 400 timer?

Løsning

Vi bruker at $P (T > 400) = 1 - P (T \leq 400)$ :

Utklipp av CAS-vinduet i GeoGebra. På linje 1 er f av t definert som kommandoen Dersom med argumentene t mindre eller lik 0, 0, 0,005 e opphøyd i minus 0,005 t. På linje 2 er P parentes T større enn 400 parentes slutt satt lik 1 minus integralet fra minus uendelig til 400 av f d x. Svaret med tilnærming er P parentes T større enn 400 parentes slutt er lik 0,135. Skjermutklipp.

Det er 13,5 % sjanse for at lyspæras levetid er mer enn 400 timer.

c) Bestem forventningsverdien til $t$ .

Løsning

Vi finner forventningsverdien ved å regne ut $\int_{- \infty}^{\infty} t \cdot f (t) d t$ :

Utklipp av CAS i GeoGebra. På linje 3 er my satt lik integralet fra minus uendelig til uendelig av t f d t. Svaret er my er lik 200. Skjermutklipp.

Den forventede levetida til lyspæra er 200 timer.

4.2.8

På en skole har alle elevene en bostedsadresse som ligger mellom 100 m og 4 km fra skolen. Gjennomsnittsavstanden fra skolen er 2,5 km, og cirka 68,2 % av elevene har mellom 1,8 km og 3,2 km til skolen.

a) Vi antar at avstanden til skolen er normalfordelt. Forklar at standardavviket må være 0,7 km.

Løsning

I en normalfordeling har vi at cirka 68,2 % av observasjonene ligger innenfor ett standardavviks avstand i hver retning. Siden 2,5 ligger midt mellom 1,8 og 3,2, har vi at $σ = 3, 2 - 2, 5 = 2, 5 - 1, 8 = 0, 7$ .

b) Lag et program som du kan bruke til å simulere sannsynligheten for at en tilfeldig valgt elev har mer enn 3 km skolevei.

Løsning

Her skal vi ikke regne ut sannsynligheten for at en elev har mer enn 3 km skolevei direkte gjennom å bruke normalfordelingen, men vi skal simulere ved hjelp av å trekke tilfeldig en elev mange ganger for så å regne ut sannsynligheten.

Vi kan lage følgende program:

python

1import numpy as np
2
3#lager en generator
4rng = np.random.default_rng()
5N = 10000
6
7#generer en array for lengdene på skoleveien
8skolevei = rng.normal(2500,700,N)
9
10#teller opp antall skoleveier som er lengre enn 3 km
11gunstige = sum(skolevei > 3000)
12
13print(f'Sannsynligheten for at en elev har mer enn 3 km skolevei, er {gunstige/N}.')

c) Elevene i en kommune skal svare på en undersøkelse om blant annet lengden på skoleveien. Ett av spørsmålene ser slik ut:

Hvor lang skolevei har du? Ring rundt det svaret som passer best:

Lengder på skolevei
Mindre enn 400 m	Mellom 400 m og 1 km	Mellom 1 km og 1,6 km	Mellom 1,6 km og 2,2 km	Mellom 2,2 km og 2,8 km	Mellom 2,8 km og 3,4 km	Mer enn 3,4 km

Lag et program som simuler resultatet på dette spørsmålet hvis det er 750 elever som svarer på undersøkelsen. Skriv ut tabellen.

Løsning

python

1import numpy as np
2
3#lager arrays for grensene og antall i hver kategori 
4grenser = ["0 - 400","400 - 1 000","1 000 - 1 600","1 600 - 2 200","2 200 - 2 800","2 800 - 3 400","3 400 - 4 000"]
5N = 750
6
7#lager en rng for å generere hele datasettet
8rng = np.random.default_rng()
9M = rng.normal(2500,700,N)
10
11histogramgrenser = [M.min(),400,1000,1600,2200,2800,3400,M.max()]
12
13antall,nedregrenser = np.histogram(M,histogramgrenser)
14
15#skriver ut tabellen
16print("Lengde på skolevei ","Antall elever")
17for i in range (len(grenser)):
18     print(f"{grenser[i]:<20}{int(antall[i])}")

Merknad: Noen ganger vil dette programmet feile fordi den minste verdien vi genererer, er høyere enn 400 (som er den neste nedre grensa). Dette vil skje veldig sjelden i større datasett, men i et såpass lite datasett som dette vil det skje at det ikke havner noen i den laveste kategorien. Vi velger likevel å bruke M.min() så vi ikke risikerer å miste noen genererte verdier. Selv om vi i praksis ikke kan ha negative skolevei-lengder, trenger vi likevel å telle opp disse når vi simulerer.

d) Modifiser programmet slik at du får generert 20 slike simuleringer. Programmet skal skrive ut gjennomsnitt og standardavvik for de 20 simuleringene (du trenger ikke å skrive ut de 20 tabellene). Sammenlikn resultatene du får med forventningsverdien og standardavviket i normalfordelingen som er utgangspunktet for simuleringen.

Løsning

Vi bruker numpy-kommandoene "mean()" og "std()" for å finne gjennomsnitt og standardavvik:

python

1import numpy as np
2
3
4#lager en rng for å generere hele datasettet
5rng = np.random.default_rng()
6
7N = 750
8
9for i in range(20):
10  M = rng.normal(2500,700,N)
11  print(f'gjennomsnitt = {np.mean(M): < 25} standardavvik = {np.std(M)}')

Når vi kjører koden, vil vi se at gjennomsnittet varierer mye. Ved en kjøring fant vi at gjennomsnittet varierte fra 2 449 til 2 533, mens standardavviket varierte fra 664 til 728. Denne variasjonen kan forklares med at utvalget er lite.

e) Prøv å kjøre programmet på nytt, men denne gangen med 7 500 elever. Hva skjer med variasjonen?

Løsning

Variasjonen blir mindre, for vi har et større utvalg.

4.2.1

Graf 1

Graf 2

Graf 3

Graf 4

4.2.2

4.2.3

4.2.4

4.2.5

4.2.6

4.2.7

4.2.8

Regler for bruk av teksten "Normalfordelingen"