Article

Hypotesetesting

Noen ganger gjør et resultat av et forsøk oss usikre på om den opprinnelige sannsynligheten vi trodde på, er den riktige, eller om det er noe i forsøket som har endret på den. Det kan vi sjekke ved hjelp av hypotesetesting.

Hva er hypotesetesting?

De aller fleste oppgavene du har jobbet med i sannsynlighet til nå, tar utgangspunkt i sannsynlighetsmodeller. I S2 har vi i stor grad laget disse modellene ut fra datasett, men vi har ikke sett så mye på hvor sannsynlig det er at disse modellene er gyldige. Vi skal nå se på en metode for å sjekke om en sannsynlighetsmodell faktisk passer med virkeligheten. Denne metoden kaller vi for hypotesetesting.

Vi vil illustrere med et eksempel der vi gjør en hypotesetest i en normalfordeling. Den første oppgaven i oppgaveartikkelen, 4.3.1, vil også ta deg gjennom prosedyren trinn for trinn, men her i en binomisk fordeling. Man kan gjøre hypotesetest i alle slags sannsynlighetsfordelinger, men her skal vi holde oss til disse to. Prosedyren er uansett den samme.

Det er vanlig å bruke litt tid på bli komfortabel med hypotesetesting. Husk også at den versjonen vi viser fram i S2, er en litt forenklet versjon. Dersom du velger å studere statistikk videre, vil du kunne lære enda mye mer!

Hypotesetesting trinn for trinn

Beina til soldater i uniform og svarte støvler. Foto. — Image: Terje Pedersen / CC BY-NC 4.0

Hvert år oppgir alle nordmenn mellom 17 og 18 år høyden sin på et egenerklæringsskjema i forbindelse med innkalling til sesjon. Disse dataene gir et godt bilde av hvor høye nordmenn er, siden nesten alle i hver generasjon leverer dette skjemaet. I 2021 var gjennomsnittshøyden til norske menn på sesjon 180,6 cm. Vi antar at standardavviket er 6 cm.

Marius spiller volleyball. På laget hans, Frisk og freidig, er det 12 medlemmer. De morer seg med å regne ut gjennomsnittshøyden på laget og kommer fram til at den er 184 cm. Noen av spillerne mener at det er naturlig at gjennomsnittshøyden er større på et volleyballag enn ellers i befolkningen, men Marius er ikke overbevist. Han mener at siden de bare er en kompisgjeng som har spilt sammen siden de var små, er det bare tilfeldig. Siden Marius tar S2, har han lært å gjøre hypotesetest, og dermed vil han prøve å bevise for medspillerne sine at de tar feil.

Trinn 1: Sette opp hypoteser

Marius setter opp to hypoteser som skal testes mot hverandre. Den ene kaller han for en nullhypotese, $H_{0}$ . Denne hypotesen sier at høyden til volleyballspillerne ikke er ulik resten av befolkningen, at det bare er tilfeldig at de 12 volleyballspillerne er høyere i gjennomsnitt. Dette betyr at vi antar at $μ = 180, 6$ . Det er dette han ønsker å bevise.

Den andre hypotesen er den alternative hypotesen, $H_{1}$ . Denne hypotesen sier at volleyballspillere faktisk er høyere enn resten av befolkningen. Dette betyr at vi antar at $μ > 180, 6$ . Det er lagkameratene hans sin hypotese.

Matematisk skriver vi det slik:

$\begin{matrix} H_{0} : μ = 180, 6 \\ H_{1} : μ > 180, 6 \end{matrix}$

Trinn 2: Utføre en test

I denne hypotesetesten er det å regne ut gjennomsnittshøyden til spillerne i Frisk og freidig som er testen. Gjennomsnittet her var 184 cm.

Trinn 3: Regne ut testens P-verdi

Vi må nå regne ut hvor sannsynlig det er at vi finner en gjennomsnittshøyde på 184 cm i et tilfeldig utvalg på 12 norske menn. Denne sannsynligheten kaller vi testens P-verdi.

Ifølge sentralgrensesetningen er gjennomsnittet, $\bar{X}$ , av et utvalg fra en normalfordelt variabel $X$ med forventningsverdi $μ$ og standardavvik $σ$ selv normalfordelt, med forventningsverdi lik $μ$ og standardavvik lik $\frac{σ}{\sqrt{n}}$ . Det vil si at vi skal regne ut $P (\bar{X} \geq 184)$ der $E (\bar{X}) = μ$ og $S D (\bar{X}) = \frac{6}{\sqrt{12}}$ .

Vi regner ut ved hjelp av Python. (Vi kunne også ha valgt å bruke GeoGebra. Dette får du se eksempler på i oppgaveartikkelen.)

python

1from scipy.stats import norm  #importerer normalfordelingsfunksjonen
2import numpy as np
3                               
4my = 180.6
5sigma = 6/(np.sqrt(12))
6snitt = 184
7
8print(f"P(X > {snitt}) = {1-norm.cdf(snitt, my, sigma):.3f}")
9  # norm.cdf gir oss sannsynligheten for at variabelen er mindre enn den gitte verdien.
10  # Vi finner sannsynligheten for at X er større enn 184, ved å regne ut 1 - P(X<184).

Når vi kjører dette programmet, får vi utskriften "P(X>184)=0,025". Det betyr at testens $P$ -verdi er 0,025.

Trinn 4: Konkludere

Nå må Marius bestemme seg for om den $P$ -verdien han har regnet ut, er lav nok til at han må forkaste hypotesen sin og gi lagkameratene rett. Da må han sette ei grense for når det går over fra å være rent tilfeldig at gjennomsnittshøyden er større på laget. Dette er å velge signifikansnivå. Det er ikke noen fasit på hvor stort dette signifikansnivået skal være, men det er vanlig å velge et tall som er 5 %, altså 0,05, eller mindre. Hvilket signifikansnivå man velger, vil variere ut fra situasjonen. Dersom det er viktig at nullhypotesen ikke forkastes på feil grunnlag, setter man et lavt signifikansnivå. Dersom det er viktigere å ikke beholde en nullhypotese på sviktende grunnlag, setter vi signifikansnivået høyere.

Marius velger å sette signifikansnivået til 1 %, eller 0,01. Dette innebærer at dersom sannsynligheten for at 12 tilfeldig valgte norske menn har en gjennomsnittshøyde på mer enn 184 cm, er lavere enn 0,01, må nullhypotesen forkastes, og Marius må innrømme at han har tatt feil.

$P$ -verdien han regnet ut, er 0,025, noe som er større enn 0,01. Dermed kan Marius si til medspillerne sine at det er såpass sannsynlig at et tilfeldig utvalg på 12 menn har en gjennomsnittshøyde på mer enn 184 cm at nullhypotesen ikke kan forkastes. Marius mener altså fortsatt at det er helt tilfeldig at gjennomsnittshøyden på laget er høyere enn den generelle gjennomsnittshøyden blant norske menn. Medspillerne hans valgte R2, så de har ikke lært om hypotesetesting. De godtar dermed Marius sin konklusjon.

🤔 Tenk over: Finnes det noen svakheter ved måten Marius gjennomførte denne hypotesetesten på?

Forklaring

Marius regnet ut $P$ -verdien før han satte signifikansnivået. Det gjorde at han kunne sette signifikansnivået så lavt at han var sikker på at han vant. Dersom medspillerne hans også hadde tatt S2, ville de nok ha krevd at han satte signifikansnivået først. De ville nok også synes at signifikansnivået var nokså lite. I en slik hypotesetest ville det ha vært naturlig å sette signifikansnivået litt høyere.

Kilde

Statistisk sentralbyrå. (2023, 20. januar). Helseforhold, levekårsundersøkelsen. Hentet 16. februar 2024 fra https://www.ssb.no/helse/helseforhold-og-levevaner/statistikk/helseforhold-levekarsundersokelsen