Hypotesetesting
Dei aller fleste oppgåvene du har jobba med i sannsyn til no, tek utgangspunkt i sannsynsmodellar. I S2 har vi i stor grad laga desse modellane ut frå datasett, men vi har ikkje sett så mykje på kor sannsynleg det er at desse modellane er gyldige. Vi skal no sjå på ein metode for å sjekke om ein sannsynsmodell faktisk passar med verkelegheita. Denne metoden kallar vi for hypotesetesting.
Vi vil illustrere med eit døme der vi gjer ein hypotesetest i ei normalfordeling. Den første oppgåva i oppgåveartikkelen, 4.3.1, vil òg ta deg gjennom prosedyren steg for steg, men her i ei binomisk fordeling. Ein kan gjere hypotesetest i alle slags sannsynsfordelingar, men her skal vi halde oss til desse to. Prosedyren er uansett den same.
Det er vanleg å bruke litt tid på bli komfortabel med hypotesetesting. Hugs òg at den versjonen vi viser fram i S2, er ein litt forenkla versjon. Dersom du vel å studere statistikk vidare, vil du kunne lære endå mykje meir!
Kvart år oppgir alle nordmenn mellom 17 og 18 år høgda si på eit eigenerklæringsskjema i samband med innkalling til sesjon. Desse dataa gir eit godt bilete av kor høge nordmenn er, sidan nesten alle i kvar generasjon leverer dette skjemaet. I 2021 var gjennomsnittshøgda til norske menn på sesjon 180,6 cm. Vi går ut frå at standardavviket er 6 cm.
Marius speler volleyball. På laget hans, Frisk og freidig, er det 12 medlemmer. Dei morer seg med å rekne ut gjennomsnittshøgda på laget og kjem fram til at ho er 184 cm. Nokre av spelarane meiner at det er naturleg at gjennomsnittshøgda er større på eit volleyballag enn elles i befolkninga, men Marius er ikkje overtydd. Han meiner at sidan dei berre er ein kompisgjeng som har spelt i lag sidan dei var små, er det berre tilfeldig. Sidan Marius tek S2, har han lært å gjere hypotesetest, og dermed vil han prøve å bevise for medspelarane sine at dei tek feil.
Trinn 1: Setje opp hypotesar
Marius set opp to hypotesar som skal testast mot kvarandre. Den eine kallar han for ein nullhypotese, . Denne hypotesen seier at høgda til volleyballspelarane ikkje er ulik resten av befolkninga, at det berre er tilfeldig at dei 12 volleyballspelarane er høgare i gjennomsnitt. Dette betyr at vi går ut frå at
Den andre hypotesen er den alternative hypotesen,
Matematisk skriv vi det slik:
Trinn 2: Utføre ein test
I denne hypotesetesten er det å rekne ut gjennomsnittshøgda til spelarane i Frisk og freidig som er testen. Gjennomsnittet her var 184 cm.
Trinn 3: Rekne ut testen sin P-verdi
Vi må no rekne ut kor sannsynleg det er at vi finn ei gjennomsnittshøgde på 184 cm i eit tilfeldig utval på 12 norske menn. Dette sannsynet kallar vi testen sin P-verdi.
Ifølge sentralgrensesetninga er gjennomsnittet,
Vi reknar ut ved hjelp av Python. (Vi kunne òg ha valt å bruke GeoGebra. Dette får du sjå døme på i oppgåveartikkelen.)
Når vi køyrer dette programmet, får vi utskrifta "P(X>184)=0,025". Det betyr at testen sin
Trinn 4: Konkludere
No må Marius bestemme seg for om den
Marius vel å setje signifikansnivået til 1 %, eller 0,01. Dette inneber at dersom sannsynet for at 12 tilfeldig valde norske menn har ei gjennomsnittshøgde på meir enn 184 cm, er lågare enn 0,01, må nullhypotesen forkastast, og Marius må innrømme at han har teke feil.
🤔 Tenk over: Finst det nokon manglar ved måten Marius gjennomførte denne hypotesetesten på?