Hopp til innhold
Fagartikkel

Hypergeometrisk sannsynlighetsmodell

Når vi skal trekke et utvalg fra en mengde hvor elementene kan deles inn i grupper etter visse kriterier, får vi en sannsynlighetsfordeling som vi kaller hypergeometrisk.

Kuler av to farger

Det ligger ni kuler i en boks. Tre av kulene er blå. Resten er røde. Vi skal trekke fem kuler fra boksen tilfeldig.

Hva er sannsynligheten for at vi trekker to blå og tre røde kuler?

Manuell utregning

Vi må her regne med at utvalget fra boksen er uordnet (rekkefølgen betyr ikke noe), og at vi ikke har tilbakelegging. Antallet mulige måter å trekke 5 kuler fra boksen på er 9C5, som gir

95=9!5!·9-5!=93·82·7·63·5·4!1·2·3·4·5·4!=3·2·7·3=63·2=126

Hvor mange gunstige måter finnes det?

Vi skal trekke to blå kuler av i alt tre blå kuler.

Dette kan gjøres på 32=3·21·2=3 forskjellige måter.

Vi skal trekke tre røde kuler av i alt seks røde kuler.

Dette kan gjøres på 6C3=63=6·5·41·2·3=2·2·5=20 forskjellige måter.

Etter produktregelen for kombinasjoner er det da 3·20=60 forskjellige gunstige måter å trekke ut tre røde og to blå kuler på.

Vi definerer hendelsen A:

A: Av de fem uttrukne kulene er to blå og tre røde.

Sannsynligheten for A blir

PA=32·6395=3·201260,476

Formel for hypergeometrisk sannsynlighetsfordeling

Framgangsmåten over kan brukes generelt når vi skal trekke ut et tilfeldig utvalg fra en mengde med elementer av to ulike typer. Mange situasjoner fra virkeligheten vil tilsvare situasjonen med kulene, for eksempel en gruppe med 3 gutter og 6 jenter, en skål med 3 ødelagte nøtter og 6 gode nøtter og så videre.

Felles for disse er at vi har en mengde med n elementer (9 kuler i en boks). m av disse elementene er av én type (3 av kulene er blå, 3 gutter, 3 ødelagte nøtter), og n-m av elementene er av en annen type (9-3=6 kuler er røde, 6 jenter, 6 gode nøtter).

Vi skal trekke r elementer tilfeldig. (Vi trekker 5 kuler/barn/nøtter tilfeldig.)

La X være den stokastiske variabelen som gir hvor mange av de uttrukne kulene som skal være blå. Vi skal ha 2 blå kuler (eller gutter / dårlige nøtter), som betyr at k=2. Vi kan da finne sannsynligheten for at X=2, slik:

PX=2=mk·n-mr-knr=32·9-35-295=32·6395=0,476

Vi får en generell formel, som vi kan bruke til å regne ut sannsynligheten i de tilfellene der vi har to ulike mengder vi skal trekke fra:

Hypergeometrisk fordeling

PX=k=mkn-mr-knr

At vi satte den stokastiske variabelen X til å betegne antall blå kuler, er tilfeldig. Vi kunne latt antall røde kuler stå først i formelen. Tenk gjennom hvordan formelen i så fall ville ha sett ut!

Tips

Da ville vi fått at den stokastiske variabelen X betegnet antall røde kuler som ble trukket ut. n og r ville fortsatt ha vært henholdsvis 9 og 5, men de andre tallene i formelen ville ha «byttet plass». Det vil si at m ville ha blitt 6, og n-m ville ha blitt 3. k ville nå ha blitt 3, og formelen ville sett slik ut:

PX=3=mk·n-mr-knr=63·9-65-395=63·3295=0,476

Vi ser at den brøken vi ender med til sist, er den samme som over, bare at rekkefølgen på faktorene i telleren har endret seg.

Hypergeometrisk fordeling i GeoGebra

Du kan bruke sannsynlighetskalkulatoren i GeoGebra til å regne ut hypergeometrisk sannsynlighet. Da velger du «Hypergeometrisk fordeling» og fyller inn som forklart og vist nedenfor.

Her kaller vi det samlede antallet elementer for «populasjon». Det svarer til n i formelen, det vil si 9 kuler i vårt eksempel.

Antall elementer av «en spesiell type» kalles i sannsynlighetskalkulatoren for n. obs! Det svarer til m i formelen, altså de 3 blå kulene.

Antall elementer som trekkes ut, kalles for «utvalg». Det svarer til r i formelen, altså de 5 kulene vi skal trekke ut.

Den stokastiske variabelen X betegner også her antallet elementer i utvalget som er av «en spesiell type».

Hypergeometrisk fordeling i Python

På samme måte som med binomisk fordeling kan vi importere hypergeom fra scipy.stats. Også her bruker vi metoden .pmf(). I hypergeometrisk fordeling har vi fire argumenter. Først har vi en liste for de verdiene av den stokastiske variabelen vi vil finne sannsynligheten for, tilsvarende k i vår formel. Det andre argumentet er n, altså antall elementer totalt. Tredje argument er m, altså antallet elementer av en spesiell type. Til slutt har vi r, som er antallet vi skal trekke ut til sammen. Vi bruker Python og ser på sannsynlighetsfordelingen der vi skal trekke ut 5 kuler av 9, der 3 er blå:

Python
1from scipy.stats import hypergeom
2
3X = [] #en liste for verdiene av X
4n = 9
5m = 3
6r = 5
7
8for i in range(m+1):                
9    X.append(i)                  #lager en liste for de mulige verdiene X kan ha
10    
11kuler = hypergeom.pmf(X,n,m,r)  #finner sannsynlighetene
12
13for i in (kuler):
14    print(i)                    #skriver sannsynlighetene i en kolonne. 

Ønsker vi å regne ut sannsynligheten for å trekke 2 blå kuler direkte uten å skrive ut hele fordelingen, kan vi gjøre slik:

Python
1from scipy.stats import hypergeom
2
3toblaa = hypergeom.pmf(2,9,3,5)
4
5print(toblaa)

Kjør programmene i editoren din!

Eksempel med flere enn to elementer

Vi kan også bruke hypergeometrisk fordeling hvis vi har flere enn to ulike elementer i en mengde.

Elevrådet ved en skole består av åtte elever fra Vg1, seks elever fra Vg2 og to elever fra Vg3. Seks elever fra elevrådet skal være med på å arrangere OD-dagen. De seks elevene velges ut tilfeldig.

Finn sannsynligheten for at to elever fra hvert klassetrinn blir valgt ut.

Antall uordnede utvalg uten tilbakelegging på 2 av de 8 fra Vg1: 82

Antall uordnede utvalg uten tilbakelegging på 2 av de 6 fra Vg2: 62

Antall uordnede utvalg uten tilbakelegging på 2 av de 2 fra Vg3: 22

Den siste vet vi med en gang at må være 1, siden det bare er ett mulig utvalg når begge tredjeklassingene skal være med.

Antall uordnede utvalg uten tilbakelegging på 6 av de totalt 16 elevene: 166

Da kan vi sette opp uttrykket for sannsynligheten oppgaven spør etter. Vi definerer hendelsen A: 2 elever fra hvert klassetrinn blir valgt ut.

P(A) = 82·62·22166=28·15·180080,052

Inndeling av en mengde i ulike grupper

Vi avslutter med et eksempel hentet fra en eksamensoppgave. Her deler vi inn gruppa ulikt når kriteriene endrer seg i de ulike deloppgavene.

Eksamen 2T, høsten 2009:
I klassen til Kåre, Janne og Ane er det 15 jenter og 10 gutter. Klassen har vunnet en tur til Hellas for 6 elever. De 6 elevene trekkes ut ved loddtrekning.

1) Finn sannsynligheten for at Ane får være med på turen.

Løsning

Her deler vi elevene inn i Ane og resten. Vi skal altså trekke 1 Ane og 5 av de andre elevene.

Vi definerer den stokastiske variabelen A som antallet Aner i utvalget. Da får vi n=25, m=1, r=6 og k=1.

PA=1=11·245256=0,24

Her kunne vi også funnet svaret ved å tenke «gunstige delt på mulige».

PAne får være med  turen=gm=625=0,24


2) Finn sannsynligheten for at akkurat 3 jenter og 3 gutter får være med på turen.

Løsning

Her deler vi elevene inn i gutter og jenter, og vi skal ha tre av hver. Vi setter den stokastiske variabelen J til å være antall jenter. Vi får n=25, m=15, r=6 og k=3.

PJ = 3=153·103256=782530,308

3) Kåre og Janne er kjærester. Finn sannsynligheten for at bare én av dem får være med på turen.

Løsning

Her deler vi elevene inn i kjærester og ikke-kjærester. Vi setter den stokastiske variabelen K til å være antallet kjærester som får være med. Som før får vi n=25 og r=6. m blir 2, siden vi har to kjærester. k blir 1, siden vi skal finne sannsynligheten for at bare den ene kjæresten får være med.

PK=1=21·235256=1950=0,38

For å oppsummere:

Et hypergeometrisk forsøk har vi hvis vi skal trekke ut et utvalg av en mengde og vi kan dele mengden opp i to (eller flere) ulike delmengder etter gitte kriterier.

Antallet vi får av én delmengde, er gitt ved en stokastisk variabel.

Vi setter den stokastiske variabelen lik X.
Vi setter verdien til den stokastiske variabelen lik k.
Vi setter mengden lik n.
Vi setter den ene delmengden lik m.
Vi setter utvalget lik r.

Dette gir oss formelen for hypergeometrisk sannsynlighet med to delmengder:

PX=k=mkn-mr-knr