Fagartikkel

Hypotesetesting

Nokre gonger gjer eit resultat av eit forsøk oss usikre på om det opphavlege sannsynet vi trudde på, er det rette, eller om det er noko i forsøket som har endra på det. Det kan vi sjekke ved hjelp av hypotesetesting.

Kva er hypotesetesting?

Dei aller fleste oppgåvene du har jobba med i sannsyn til no, tek utgangspunkt i sannsynsmodellar. I S2 har vi i stor grad laga desse modellane ut frå datasett, men vi har ikkje sett så mykje på kor sannsynleg det er at desse modellane er gyldige. Vi skal no sjå på ein metode for å sjekke om ein sannsynsmodell faktisk passar med verkelegheita. Denne metoden kallar vi for hypotesetesting.

Vi vil illustrere med eit døme der vi gjer ein hypotesetest i ei normalfordeling. Den første oppgåva i oppgåveartikkelen, 4.3.1, vil òg ta deg gjennom prosedyren steg for steg, men her i ei binomisk fordeling. Ein kan gjere hypotesetest i alle slags sannsynsfordelingar, men her skal vi halde oss til desse to. Prosedyren er uansett den same.

Det er vanleg å bruke litt tid på bli komfortabel med hypotesetesting. Hugs òg at den versjonen vi viser fram i S2, er ein litt forenkla versjon. Dersom du vel å studere statistikk vidare, vil du kunne lære endå mykje meir!

Hypotesetesting steg for steg

Beina til soldatar i uniform og svarte støvlar. Foto.

Kvart år oppgir alle nordmenn mellom 17 og 18 år høgda si på eit eigenerklæringsskjema i samband med innkalling til sesjon. Desse dataa gir eit godt bilete av kor høge nordmenn er, sidan nesten alle i kvar generasjon leverer dette skjemaet. I 2021 var gjennomsnittshøgda til norske menn på sesjon 180,6 cm. Vi går ut frå at standardavviket er 6 cm.

Marius speler volleyball. På laget hans, Frisk og freidig, er det 12 medlemmer. Dei morer seg med å rekne ut gjennomsnittshøgda på laget og kjem fram til at ho er 184 cm. Nokre av spelarane meiner at det er naturleg at gjennomsnittshøgda er større på eit volleyballag enn elles i befolkninga, men Marius er ikkje overtydd. Han meiner at sidan dei berre er ein kompisgjeng som har spelt i lag sidan dei var små, er det berre tilfeldig. Sidan Marius tek S2, har han lært å gjere hypotesetest, og dermed vil han prøve å bevise for medspelarane sine at dei tek feil.

Trinn 1: Setje opp hypotesar

Marius set opp to hypotesar som skal testast mot kvarandre. Den eine kallar han for ein nullhypotese, $H_{0}$ . Denne hypotesen seier at høgda til volleyballspelarane ikkje er ulik resten av befolkninga, at det berre er tilfeldig at dei 12 volleyballspelarane er høgare i gjennomsnitt. Dette betyr at vi går ut frå at $μ = 180, 6$ . Det er dette han ønsker å bevise.

Den andre hypotesen er den alternative hypotesen, $H_{1}$ . Denne hypotesen seier at volleyballspelarane faktisk er høgare enn resten av befolkninga. Dette betyr at vi går ut frå at $μ > 180, 6$ . Det er lagkameratane hans sin hypotese.

Matematisk skriv vi det slik:

$\begin{matrix} H_{0} : μ = 180, 6 \\ H_{1} : μ > 180, 6 \end{matrix}$

Trinn 2: Utføre ein test

I denne hypotesetesten er det å rekne ut gjennomsnittshøgda til spelarane i Frisk og freidig som er testen. Gjennomsnittet her var 184 cm.

Trinn 3: Rekne ut testen sin P-verdi

Vi må no rekne ut kor sannsynleg det er at vi finn ei gjennomsnittshøgde på 184 cm i eit tilfeldig utval på 12 norske menn. Dette sannsynet kallar vi testen sin P-verdi.

Ifølge sentralgrensesetninga er gjennomsnittet, $\bar{X}$ , av eit utval frå ein normalfordelt variabel $X$ med forventningsverdi $μ$ og standardavvik $σ$ sjølv normalfordelt, med forventningsverdi lik $μ$ og standardavvik lik $\frac{σ}{\sqrt{n}}$ . Det vil seie at vi skal rekne ut $P (\bar{X} \geq 184)$ der $E (\bar{X}) = μ$ og $S D (\bar{X}) = \frac{6}{\sqrt{12}}$ .

Vi reknar ut ved hjelp av Python. (Vi kunne òg ha valt å bruke GeoGebra. Dette får du sjå døme på i oppgåveartikkelen.)

python

1from scipy.stats import norm  #importerer normalfordelingsfunksjonen
2import numpy as np
3                               
4my = 180.6
5sigma = 6/(np.sqrt(12))
6snitt = 184
7
8print(f"P(X > {snitt}) = {1-norm.cdf(snitt, my, sigma):.3f}")
9  # norm.cdf gir oss sannsynet for at variabelen er mindre enn den gitte verdien.
10  # Vi finn sannsynet for at X er større enn 184, ved å rekne ut 1 - P(X<184).

Når vi køyrer dette programmet, får vi utskrifta "P(X>184)=0,025". Det betyr at testen sin $P$ -verdi er 0,025.

Trinn 4: Konkludere

No må Marius bestemme seg for om den $P$ -verdien han har rekna ut, er låg nok til at han må forkaste hypotesen sin og gi lagkameratane rett. Då må han setje ei grense for når det går over frå å vere reint tilfeldig at gjennomsnittshøgda er større på laget. Dette er å velje signifikansnivå. Det er ikkje nokon fasit på kor stort dette signifikansnivået skal vere, men det er vanleg å velje eit tal som er 5 %, altså 0,05, eller mindre. Kva for eit signifikansnivå ein vel, vil variere ut frå situasjonen. Dersom det er viktig at nullhypotesen ikkje blir forkasta på feil grunnlag, set ein eit lågt signifikansnivå. Dersom det er viktigare å ikkje behalde ein nullhypotese på sviktande grunnlag, set vi signifikansnivået høgare.

Marius vel å setje signifikansnivået til 1 %, eller 0,01. Dette inneber at dersom sannsynet for at 12 tilfeldig valde norske menn har ei gjennomsnittshøgde på meir enn 184 cm, er lågare enn 0,01, må nullhypotesen forkastast, og Marius må innrømme at han har teke feil.

$P$ -verdien han rekna ut, er 0,025, noko som er større enn 0,01. Dermed kan Marius seie til medspelarane sine at det er såpass sannsynleg at eit tilfeldig utval på 12 menn har ei gjennomsnittshøgde på meir enn 184 cm at nullhypotesen ikkje kan forkastast. Marius meiner altså framleis at det er heilt tilfeldig at gjennomsnittshøgda på laget er høgare enn den generelle gjennomsnittshøgda blant norske menn. Medspelarane hans valde R2, så dei har ikkje lært om hypotesetesting. Dei godtek dermed Marius sin konklusjon.

🤔 Tenk over: Finst det nokon manglar ved måten Marius gjennomførte denne hypotesetesten på?

Forklaring

Marius rekna ut $P$ -verdien før han sette signifikansnivået. Det gjorde at han kunne setje signifikansnivået så lågt at han var sikker på at han vann. Dersom medspelarane hans òg hadde teke S2, ville dei nok ha kravd at han sette signifikansnivået først. Dei ville nok òg synest at signifikansnivået var nokså lite. I ein slik hypotesetest ville det ha vore naturleg å setje signifikansnivået litt høgare.

Kjelde

Statistisk sentralbyrå. (2023, 20. januar). Helseforhold, levekårsundersøkelsen. Henta 16. februar 2024 frå https://www.ssb.no/helse/helseforhold-og-levevaner/statistikk/helseforhold-levekarsundersokelsen