Hypotesetesting
4.3.1
I denne oppgaven går vi gjennom en hypotesetest trinn for trinn, slik som på teorisiden.
En skole har 500 elever. Fraværet på skolen har ligget på 8 % i lengre tid. Rektor på skolen har observert at fraværet har vært større den siste tida. Ei uke var fraværet plutselig på 10 %. Rektor ønsker å gjøre beregninger for å finne ut om det er grunn til å si at det økte fraværet denne uka er et tegn på at fraværet vil komme til å øke framover, eller om det bare er en tilfeldig topp denne uka.
a) Sett opp en nullhypotese som rektor kan bruke i testen.
Løsning
Hypotesen
Fraværet
Det gir
b) Sett opp en alternativ hypotese
Løsning
Den alternative hypotesen
c) Hva er det som er testdata i denne oppgaven?
Løsning
Testdata her er fraværet på 10 % i den ene uka.
d) Hva menes med testens
Løsning
Testens
e) Forklar at rektor kan velge en binomisk sannsynlighetsmodell i denne testen.
Løsning
Det er tre krav til en binomisk sannsynlighetsmodell:
To mulige utfall: Her er en elev enten til stede eller borte.
Lik sannsynlighet hele tida: Siden sannsynligheten er regnet ut fra andelen elever som er borte, kan vi anta at denne sannsynligheten gjelder for hele skolen.
Uavhengige forsøk: Her antar vi at elevenes fravær er uavhengig av hverandre, noe som kanskje kan være litt usannsynlig med tanke på smitte og liknende. Men siden det er såpass mange elever på skolen, kan vi velge å likevel anta at hver elevs fravær er uavhengig av de andres.
f) Hva er naturlig å bruke som stokastisk variabel
Løsning
Her lar rektor
g) Hjelp rektor med å regne ut testens
Løsning
Fra oppgave d) har vi at vi må regne ut sannsynligheten for at fraværet er på minst 10 %, eller minst 50 elever. Matematisk skriver vi at vi ønsker å finne
Testens
h) Rektor bruker et signifikansnivå på 0,05. Hva betyr det for utfallet av hypotesetesten?
Løsning
Det betyr at hvis testens
Sagt med andre ord: Det er 6,22 % sjanse for at fraværet på skolen er 10 % eller større. Det er for stor sannsynlighet for at dette skal skje når fraværet normalt er på 8 % ut ifra at signifikansnivået skal være på 5 %, til at vi kan forkaste nullhypotesen. Rektor konkluderer med at den originale sannsynligheten er gjeldende.
4.3.2
a)
Løsning
Siden
b)
Løsning
Siden
4.3.3
Maren har 5 vanlige terninger som hun bruker til ulike spill. Over lengre tid har hun hatt en mistanke om at én eller flere av terningene gir sekser for ofte. Hun vil undersøke dette nærmere ved å bruke hypotesetesting med et signifikansnivå på 5 %.
a) Sett opp en nullhypotese
Løsning
Nullhypotesen er at terningen er i orden. Dette gir følgende:
Hver av terningene blir kastet 1 200 ganger. La
Terning nr. | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
Antall seksere | 208 | 195 | 225 | 185 | 220 |
b) Vurder om hun kan karakterisere én eller flere av terningene som "jukseterning". Bruk binomisk sannsynlighetsfordeling. Løs oppgaven ved hjelp av GeoGebra.
Løsning
Dette er fem binomiske situasjoner der alle har
Vi bruker sannsynlighetskalkulatoren i GeoGebra. Terning 1:
Testens
Ved å gjøre likedan med de andre terningene får vi følgende resultat:
Terning nr. | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
0,279 | 0,662 | 0,030 | 0,886 | 0,067 |
Det er bare for terning nummer 3 vi får en
c) Hvor mange seksere må et slikt forsøk med 1 200 terningkast gi for å ligge akkurat på grensa til at vi kan forkaste nullhypotesen?
Løsning
Vi skriver inn 0,05 på høyre side i kalkulatoren.
Dersom resultatet med en terning er 221 seksere, er vi akkurat på grensa til at vi kan forkaste nullhypotesen for denne terningen.
d) Er det greit å løse oppgave b) ved å anta at den stokastiske variabelen
Løsning
Vi sjekker om normaltilnærming kan brukes, det vil si at både forventningsverdien,
Det betyr at kravene er innfridd. For å bruke sannsynlighetskalkulatoren i GeoGebra med normalfordeling må vi regne ut standardavviket
Standardavvik:
Vi setter inn resultatet for terning nummer 1.
Sannsynligheten for å få 208 eller flere seksere er 0,268, testens
Ved å gjøre det samme for de andre terningene får vi dette resultatet:
Terning nr. | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
0,268 | 0,651 | 0,026 | 0,877 | 0,061 |
Alle
e) Hvor mange seksere må et slikt forsøk med 1 200 terningkast gi for å ligge akkurat på grensa til at vi kan forkaste nullhypotesen når vi bruker normalfordeling?
Løsning
Vi skriver inn 0,05 på høyre side i kalkulatoren.
Dette betyr at dersom resultatet med en terning er 222 seksere, må vi forkaste nullhypotesen for denne terningen. Dette er ett kast mer enn resultatet vi fikk ved å bruke binomisk fordeling, så det er ikke avgjørende hvilken av de to fordelingene vi bruker.
En slik hypotesetest vil uansett inneholde en viss usikkerhet, og
f) Løs oppgave b) og c) ved å bruke programmering.
Løsning
Vi bruker funksjonen "pmf()" fra modulen "binom" i biblioteket "scipy.stats". Funksjonen gir sannsynlighetsfordelingen innenfor det området vi spesifiserer.
Programmet skriver ut:
"Sannsynligheten er 0.279 for å få 208 seksere med en rettferdig terning.
Sannsynligheten er 0.662 for å få 195 seksere med en rettferdig terning.
Sannsynligheten er 0.030 for å få 225 seksere med en rettferdig terning.
Vi kan forkaste nullhypotesen for terning nummer 3.
Sannsynligheten er 0.886 for å få 185 seksere med en rettferdig terning.
Sannsynligheten er 0.067 for å få 220 seksere med en rettferdig terning.
Grensa for å forkaste nullhypotesen er når resultatet er 221 seksere."
Alternativ løsning: Vi kan bruke funksjonen "cdf()", som gir den kumulative binomiske sannsynligheten. Da må vi huske at vi er interessert i den motsatte sannsynligheten av den kumulative.
Programmet gir samme utskrift som det første.
4.3.4
(Oppgave 5 del 2 eksamen S2 våren 2012)
PISA er en internasjonal undersøkelse som blir gjennomført hvert tredje år blant skoleelever i en rekke land. Ved undersøkelsen i 2009 var det med 4 700 elever fra Norge. I naturfag skåret de norske elevene 500 poeng i gjennomsnitt. Det var nøyaktig likt det internasjonale gjennomsnittet. Standardavviket for norske elever var 90 poeng.
Vi trekker tilfeldig ut en elev blant de norske deltakerne. I oppgavene a) og b) kan du regne med at poengsummen til eleven er normalfordelt med forventningsverdi på 500 poeng og standardavvik lik 90 poeng.
a) Bestem sannsynligheten for at eleven skåret minst 650 poeng.
Løsning
Vi bruker sannsynlighetskalkulatoren i GeoGebra og velger normalfordeling. Vi setter forventningsverdien
Sannsynligheten for at eleven skåret minst 650 poeng, er 4,78 %.
Vi kan også løse med Python:
Utskriften blir:
"Sannsynligheten for at eleven skåret minst 650 poeng, er 0,0478."
b) Bestem sannsynligheten for at eleven skåret mellom 475 og 535 poeng.
Løsning
Vi velger nå intervall i sannsynlighetskalkulatoren og setter inn nedre og øvre grense i poengintervallet.
Sannsynligheten for at eleven skåret mellom 475 og 535 poeng, er 26,1 %.
Alternativ med Python:
I virkeligheten kjenner vi ikke forventet poengsum for norske elever. Vi vet bare at gjennomsnittet var 500 poeng for de 4 700 elevene som var med i undersøkelsen.
c) Er det grunnlag for å si at norske elever var bedre enn elever fra land som skåret 495 poeng? Velg signifikansnivå selv.
Løsning
Vi må sette opp hypoteser.
Nullhypotese: Norske elever var like gode som elever fra land som skåret 495 poeng.
Alternativ hypotese: Norske elever var bedre enn elever fra land som skåret 495 poeng.
Matematisk skriver vi slik:
Vi velger et signifikansnivå på 0,1 %. Vi bør være rimelig sikre før vi konkluderer med at vi er bedre. Vi antar altså at poengsummen til elevene er normalfordelt med forventningsverdi lik 495 poeng og med standardavvik på 90 poeng. Ifølge sentralgrensesetningen er gjennomsnittet for et utvalg av 4 700 elever normalfordelt med
Vi finner så sannsynligheten for å få et gjennomsnitt på 500 i et slikt utvalg:
Utskriften gir: P(X > 500) = 0.0001
4.3.5
(Basert på oppgave 4 del 2 eksamen S2 våren 2010)
En grossist som selger jordbær, har over tid registrert at 10 % av jordbærkassene inneholder bær som er ødelagt. En dag mottar grossisten 50 kasser. Vi antar at 10 % av kassene inneholder bær som er ødelagt.
a) Hva er sannsynligheten for at akkurat 5 av kassene har ødelagte bær?
Løsning
Vi lar
Sannsynligheten for at akkurat 5 av 50 kasser har ødelagte bær, blir som følger:
Det er 18,5 % sannsynlighet for at akkurat 5 av de 50 kassene med jordbær inneholder ødelagte bær.
b) Finn sannsynligheten for at minst 5 kasser inneholder ødelagte bær.
Løsning
Sannsynligheten for at minst 5 kasser inneholder ødelagte bær, er 0,57.
Grossisten får mistanke om at mer enn 10 % av kassene inneholder ødelagte bær. For å undersøke forholdet nærmere kontrollerer han 90 kasser. Ved denne kontrollen viser det seg at 15 av de 90 kassene inneholder bær som er ødelagt.
Vi lar
c) Sett opp en nullhypotese og en alternativ hypotese som passer til denne problemstillingen. Forklar hvordan du har tenkt.
Løsning
Kontrollen grossisten foretar, viser at
Vi setter opp en nullhypotese
d) Undersøk om resultatet av kontrollen gir grunnlag for å si at kvaliteten på jordbærene har blitt dårligere. Velg et signifikansnivå på 5 %.
Løsning
Et signifikansnivå på 5 % sier at dersom vi forkaster nullhypotesen, er det 5 % sjanse for at vi gjør det på feil grunnlag.
Vi bruker binomisk fordeling i GeoGebra og finner sannsynligheten for at minst 15 av de 90 kassene inneholder ødelagte bær når
Testens
e) Hvor mange kasser med ødelagte bær må det minst være for at vi skal forkaste nullhypotesen?
Løsning
Vi må finne ut hvilken verdi den stokastiske variabelen
Resultatet er at når signifikansnivået er 0,05, må minst 14 kasser inneholde ødelagte bær for at vi skal forkaste nullhypotesen, det vil si for at vi skal kunne si at jordbærene har blitt dårligere.
4.3.6
(Basert på oppgave 6 del 2 eksamen S2 våren 2009)
a) Ledelsen i et fylke ønsker å øke andelen seksere til eksamen. Tidligere har i gjennomsnitt 4,3 % av eksamenskarakterene vært seksere. Etter en omlegging av undervisningsmetodene viste en stikkprøve at 29 av 500 eksamenskarakterer var seksere. Fylkesledelsen og elevorganisasjonen var uenige i om det gode resultatet skyldtes omleggingen av undervisningsmetodene eller om det var en tilfeldighet.
Bruk kunnskapene dine i statistikk og sannsynlighetsregning, og undersøk spørsmålet nærmere. Gjør rede for hvilke metoder du bruker, og hvilke forutsetninger du legger til grunn.
Løsning
Vi vil sjekke om det gode eksamensresultatet skyldes ren tilfeldighet, eller om det kan skyldes en omlegging av undervisningsmetodene. Vi setter opp en nullhypotese
Vi lar
I stikkprøven ovenfor var 29 av 500 eksamenskarakterer seksere, det vil si 5,8 %. Vi skal finne ut om dette resultatet gir grunnlag til å forkaste nullhypotesen. 5,8 % er høyere enn 4,3 %, som tidligere har vært prosentandelen med seksere. Er dette tilfeldig, eller kan vi med rimelig sikkerhet si at de nye undervisningsmetodene har gitt uttelling? Vi velger et signifikansnivå på 5 % og bruker binomisk fordeling i GeoGebra.
Vi finner at det er 6,6 % sannsynlighet for at 29 eksamenskarakterer eller flere i en stikkprøve på 500 eksamenskarakterer vil være seksere, selv om den virkelige prosentandelen seksere ikke hadde økt.
Vi satte et signifikansnivå på 5 %. Det betyr at vi ikke forkaster nullhypotesen.
b) I et annet fylke var 31 av 500 eksamenskarakterer seksere. Dette var akkurat på grensa til å forkaste en nullhypotese om at andelen seksere er uforandret når signifikansnivået er 0,05.
Hvor mange elever er det vanligvis som får sekser på eksamen i dette fylket?
Tips til oppgaven
Bruk programmering til å løse oppgaven. La programmet regne ut
Løsning
Vi setter
Forslag til kode:
Programmet gir denne utskriften:
"Antall elever som vanligvis får sekser på eksamen, er 23."
Dersom vi setter