Fagartikkel

Statistiske størrelser i et gruppert datamateriale

Det er mulig å finne medianen, gjennomsnittet og standardavviket i et gruppert (klassedelt) datamateriale selv om vi ikke har de enkelte observasjonene.

Åtte personer i Forsvarets arbeidsuniform står på to rekker. Fotografiet er tatt slik at man bare ser beina deres. Foto. — Bilde: Terje Pedersen / CC BY-NC 4.0

Median i et gruppert materiale

Medianen er den midterste observasjonsverdien når alle observasjonsverdiene er sortert i stigende rekkefølge. Vi ser på eksempelet vårt med 1 000 rekrutter (se lenke nederst på siden). Vi har lagt til en kolonne med kumulativ frekvens i tabellen.

Rekrutthøyder 1910
Høyde i cm	Frekvens	Kumulativ frekvens
[155, 165⟩	128	128
[165, 170⟩	260	388
[170, 175⟩	323	711
[175, 180⟩	204	915
[180, 185⟩	68	983
[185, 190⟩	17	1 000
[190, 200⟩	0	1 000

Medianen vil etter vanlig definisjon være høyden til rekrutt nummer

$\frac{1 000 + 1}{2} = 500, 5$

I utgangspunktet skal derfor medianen være gjennomsnittshøyden til rekrutt nummer 500 og rekrutt nummer 501 dersom vi sorterer alle rekruttene i stigende rekkefølge etter høyden.

I hvilken av klassene ligger rekrutt nummer 500 og nummer 501?

Tips til oppgaven

Bruk kolonnen med kumulative frekvenser.

Løsning

Ut ifra kolonnen med kumulative frekvenser ser vi at 388 rekrutter har høyde lavere enn 170 cm og 711 rekrutter har høyde som er lavere enn 175 cm.

Medianen må altså ligge i klassen $[170, 175 〉$ . Dette er det eneste sikre vi kan si om medianen.

Det er mulig å finne en mer presis verdi for medianen, men da må vi legge noen forutsetninger til grunn. Vi antar at rekruttene i klassen $[170, 175 ⟩$ er jevnt fordelt på alle høydene i klassen. Dette er ikke sikkert, men jo større antall det er i klassen, jo mer sannsynlig er det. Den medianen vi nå finner, er derfor bare den medianen som er mest sannsynlig. Derfor gir det heller ikke mening å regne ut medianen som gjennomsnittet av tall nummer 500 og 501. I slike tilfeller med to tall i midten velger vi at medianen er det første tallet. Medianen blir derfor høyden til rekrutt nummer 500.

I klassen $[170, 175 ⟩$ er det 323 rekrutter. Rekrutt nummer 500 er rekrutt nummer $500 - 388 = 112$ fra venstre klassebredde. Vi tenker oss fortsatt at det er like mange rekrutter på hver høyde i klassen. Medianrekrutten må da ha høyde en brøkdel $\frac{112}{323}$ av 5 cm (klassebredden) ut fra nedre klassegrense. En tilnærmet verdi for medianhøyden blir da

$(170 + \frac{112}{323} \cdot 5) cm = 171, 7 cm$

GeoGebra har dessverre ingen kommando for å finne medianen i et gruppert datamateriale.

Gjennomsnitt i et gruppert datamateriale

Gjennomsnittshøyden i et gruppert datamateriale blir heller ikke en eksakt verdi. For å finne en tilnærmet riktig verdi lar vi alle rekrutter i den samme klassen ha den samme høyden, nemlig klassemidtpunktet. Klassemidtpunktet regnes ut som middelverdien av nedre og øvre klassegrense.

Hva blir klassemidtpunktet i klassen $[175, 180 ⟩$ ?

Løsning

Klassemidtpunktet i klassen fra og med 175 cm til 180 cm er gitt ved

$x = \frac{175 + 180}{2} cm = 177, 5 cm$

Det betyr at når vi skal regne ut gjennomsnittet, antar vi at vi har 204 rekrutter med høyde 177,5 cm. Vi gjør tilsvarende for de andre klassene.

For å finne en tilnærmet riktig verdi for gjennomsnittshøyden kan vi bruke tilsvarende metode som vi har brukt for å finne gjennomsnittskarakteren i klassen til Mary Ann.

Høyde i cm	Klassemidtpunkt x	Frekvens f	x · f
[155, 165⟩	160	128	20 480
[165, 170⟩	167,5	260	43 550
[170, 175⟩	172,5	323	55 717,5
[175, 180⟩	177,5	204	36 210
[180, 185⟩	182,5	68	12 410
[185, 190⟩	187,5	17	3 187,5
[190, 200⟩	195	0	0
	Sum	1 000	171 555

Hva blir gjennomsnittshøyden ut ifra tallene i tabellen over?

Løsning

Gjennomsnittet blir på vanlig måte summen av alle høydene delt på antall rekrutter:

$\bar{x} = \frac{171 555}{1 000} cm = 171, 6 cm$

Bruk regnearkdelen i GeoGebra til å lage tabellen over. Du kan laste ned en mal nedenfor.

Filer

Rekrutthøyde, mal(GGB)

Tips til oppgaven

Det er lurt å lage kolonnen med klassemidtpunktene ut ifra kolonnen med klassegrenser ved hjelp av en regnearkformel. For å summere cellene B1 til og med B6 skriver du Sum(B1:B6). Skriv celleadressene med store bokstaver i GeoGebra. Alternativt kan du markere de cellene som skal summeres og trykke på verktøyknappen "Sum" $_{}^{} \overset{}{Σ}$ . Summen regnes ut i cella under de cellene som ble markert.

Regn ut i regnearkdelen gjennomsnittet i det grupperte materialet. Kontroller at du får det samme svaret som i utregningen over.

Det er enklere å bruke den innebygde kommandoen "gsnitt()" i GeoGebra til å finne gjennomsnittsverdien. Lag de listene du trenger, og bruk denne kommandoen til å finne gjennomsnittshøyden til rekruttene. Får du fortsatt det samme svaret?

Tips til oppgaven

Du trenger ei liste med tallene for klassemidtpunkt og ei med frekvensene.

Løsning

Dersom du kaller lista med klassemidtpunktene "klassemidtpunkt" og lista med frekvensene "frekvenser", blir kommandoen

gsnitt(klassemidtpunkt,frekvenser)

Dette blir som å regne ut gjennomsnittet for et ugruppert datamateriale siden vi antar at alle tallene i en klasse har klassemidtpunktet som verdi.

Nederst på sida kan du laste ned et ferdig GeoGebra-ark til oppgavene på denne sida.

I kommandoen "gsnitt()" kan du erstatte lista med klassemidtpunktene med ei liste med klassegrensene, hvis du ønsker det. Hvordan vet GeoGebra hva slags liste du legger inn?

Svar

Lista med klassemidtpunkt inneholder like mange tall som lista med frekvenser. Lista med klassegrenser inneholder ett tall mer. Så dersom GeoGebra finner at de to listene som er skrevet inn i kommandoen "gsnitt()" har like mange tall, går programmet ut ifra at den første lista er ei liste med verdier. Dersom den første lista har ett tall mer enn den andre, går programmet ut ifra at det er ei liste med klassegrenser.

Standardavvik i et gruppert datamateriale

Når vi skal finne standardavviket i et gruppert datamateriale, har vi den samme tilnærmingen som da vi regnet ut gjennomsnittet over, nemlig å si at alle tallene i en klasse har den samme verdien: klassemidtpunktet. Derfor kan vi regne ut standardavviket for et gruppert datamateriale på den samme måten som standardavviket for et ugruppert datamateriale. Det er bra, for GeoGebra har ingen egen funksjon for å finne standardavvik i et gruppert datamateriale. Framgangsmåten for å finne standardavviket i et ugruppert datamateriale er vist på teorisida "Spredningsmål" (se lenke nederst på sida).

Vi ønsker nå å finne standardavviket i eksempelet med høyden på rekruttene i 1910. Hvilket av de to typene standardavvik skal vi bruke?

Svar

Vi antar at statistikken omfatter alle rekruttene. Det går ikke fram noe sted i originalkilden om det er alle, men vanligvis blir høyden på alle rekrutter målt, så dataene fins. Det betyr at vi skal bruke det vi kaller "vanlig" standardavvik (populasjonsstandardavvik).

Hva blir kommandoen for å regne ut standardavviket i det grupperte datamaterialet over høyden til rekruttene i 1910? Vi antar at du har lagd ei liste "klassemidtpunkt" med klassemidtpunktene og ei liste "frekvenser" med frekvensene.

Løsning

standardavvik=stavvp(klassemidtpunkt,frekvenser)

Nedenfor kan du laste ned et GeoGebra-ark der vi har funnet gjennomsnittet og standardavviket på måtene vist ovenfor.

Filer

Rekrutthøyde ferdig løst(GGB)

Relatert innhold

Fagstoff

Gruppert datamateriale. Histogram

Dersom en frekvenstabell blir veldig stor, deler vi tallmaterialet inn i grupper eller klasser.

Fagstoff

Spredningsmål

Her definerer vi hva vi mener med spredning i et datamateriale, og vi ser på spredningsmålene variasjonsbredde, kvartilbredde og standardavvik.

Median i et gruppert materiale

Gjennomsnitt i et gruppert datamateriale

Filer

Standardavvik i et gruppert datamateriale

Filer

Relatert innhold

Regler for bruk av teksten "Statistiske størrelser i et gruppert datamateriale"