Hopp til innhold

Fagstoff

Statistiske størrelser i et gruppert datamateriale

Det er mulig å finne medianen, gjennomsnittet og standardavviket i et gruppert (klassedelt) datamateriale selv om vi ikke har de enkelte observasjonene.
Åtte personer i Forsvarets arbeidsuniform står på to rekker. Fotografiet er tatt slik at man bare ser beina deres. Foto.
Åpne bilde i et nytt vindu

Median i et gruppert materiale

Medianen er den midterste observasjonsverdien når alle observasjonsverdiene er sortert i stigende rekkefølge. Vi ser på eksempelet vårt med 1 000 rekrutter (se lenke nederst på siden). Vi har lagt til en kolonne med kumulativ frekvens i tabellen.

Rekrutthøyder 1910

Høyde i cm

Frekvens

Kumulativ
frekvens

[155, 165⟩

128

128

[165, 170⟩

260

388

[170, 175⟩

323

711

[175, 180⟩

204

915

[180, 185⟩

68

983

[185, 190⟩

17

1 000

[190, 200⟩

0

1 000

Medianen vil etter vanlig definisjon være høyden til rekrutt nummer

1 000+12=500,5

I utgangspunktet skal derfor medianen være gjennomsnittshøyden til rekrutt nummer 500 og rekrutt nummer 501 dersom vi sorterer alle rekruttene i stigende rekkefølge etter høyden.

I hvilken av klassene ligger rekrutt nummer 500 og nummer 501?

Tips til oppgaven

Bruk kolonnen med kumulative frekvenser.

Løsning

Ut ifra kolonnen med kumulative frekvenser ser vi at 388 rekrutter har høyde lavere enn 170 cm og 711 rekrutter har høyde som er lavere enn 175 cm.

Medianen må altså ligge i klassen [170,175. Dette er det eneste sikre vi kan si om medianen.

Det er mulig å finne en mer presis verdi for medianen, men da må vi legge noen forutsetninger til grunn. Vi antar at rekruttene i klassen [170,175 er jevnt fordelt på alle høydene i klassen. Dette er ikke sikkert, men jo større antall det er i klassen, jo mer sannsynlig er det. Den medianen vi nå finner, er derfor bare den medianen som er mest sannsynlig. Derfor gir det heller ikke mening å regne ut medianen som gjennomsnittet av tall nummer 500 og 501. I slike tilfeller med to tall i midten velger vi at medianen er det første tallet. Medianen blir derfor høyden til rekrutt nummer 500.

I klassen [170,175 er det 323 rekrutter. Rekrutt nummer 500 er rekrutt nummer  500-388=112  fra venstre klassebredde. Vi tenker oss fortsatt at det er like mange rekrutter på hver høyde i klassen. Medianrekrutten må da ha høyde en brøkdel 112323 av 5 cm (klassebredden) ut fra nedre klassegrense. En tilnærmet verdi for medianhøyden blir da

170+112323·5cm=171,7 cm

GeoGebra har dessverre ingen kommando for å finne medianen i et gruppert datamateriale.

Gjennomsnitt i et gruppert datamateriale

Gjennomsnittshøyden i et gruppert datamateriale blir heller ikke en eksakt verdi. For å finne en tilnærmet riktig verdi lar vi alle rekrutter i den samme klassen ha den samme høyden, nemlig klassemidtpunktet. Klassemidtpunktet regnes ut som middelverdien av nedre og øvre klassegrense.

Hva blir klassemidtpunktet i klassen [175,180?

Løsning

Klassemidtpunktet i klassen fra og med 175 cm til 180 cm er gitt ved

x=175+1802 cm=177,5 cm

Det betyr at når vi skal regne ut gjennomsnittet, antar vi at vi har 204 rekrutter med høyde 177,5 cm. Vi gjør tilsvarende for de andre klassene.

For å finne en tilnærmet riktig verdi for gjennomsnittshøyden kan vi bruke tilsvarende metode som vi har brukt for å finne gjennomsnittskarakteren i klassen til Mary Ann.


Høyde i cm

Klassemidtpunkt
x

Frekvens
f

x · f

[155, 165⟩

160

128

20 480

[165, 170⟩

167,5

260

43 550

[170, 175⟩

172,5

323

55 717,5

[175, 180⟩

177,5

204

36 210

[180, 185⟩

182,5

68

12 410

[185, 190⟩

187,5

17

3 187,5

[190, 200⟩

195

0

0

Sum

1 000

171 555

Hva blir gjennomsnittshøyden ut ifra tallene i tabellen over?

Løsning

Gjennomsnittet blir på vanlig måte summen av alle høydene delt på antall rekrutter:

x¯=171 5551 000 cm=171,6 cm

Bruk regnearkdelen i GeoGebra til å lage tabellen over. Du kan laste ned en mal nedenfor.

Filer

Tips til oppgaven

Det er lurt å lage kolonnen med klassemidtpunktene ut ifra kolonnen med klassegrenser ved hjelp av en regnearkformel. For å summere cellene B1 til og med B6 skriver du Sum(B1:B6). Skriv celleadressene med store bokstaver i GeoGebra. Alternativt kan du markere de cellene som skal summeres og trykke på verktøyknappen "Sum"    Σ  . Summen regnes ut i cella under de cellene som ble markert.

Regn ut i regnearkdelen gjennomsnittet i det grupperte materialet. Kontroller at du får det samme svaret som i utregningen over.

Det er enklere å bruke den innebygde kommandoen "gsnitt()" i GeoGebra til å finne gjennomsnittsverdien. Lag de listene du trenger, og bruk denne kommandoen til å finne gjennomsnittshøyden til rekruttene. Får du fortsatt det samme svaret?

Tips til oppgaven

Du trenger ei liste med tallene for klassemidtpunkt og ei med frekvensene.

Løsning

Dersom du kaller lista med klassemidtpunktene "klassemidtpunkt" og lista med frekvensene "frekvenser", blir kommandoen

gsnitt(klassemidtpunkt,frekvenser)

Dette blir som å regne ut gjennomsnittet for et ugruppert datamateriale siden vi antar at alle tallene i en klasse har klassemidtpunktet som verdi.

Nederst på sida kan du laste ned et ferdig GeoGebra-ark til oppgavene på denne sida.

I kommandoen "gsnitt()" kan du erstatte lista med klassemidtpunktene med ei liste med klassegrensene, hvis du ønsker det. Hvordan vet GeoGebra hva slags liste du legger inn?

Svar

Lista med klassemidtpunkt inneholder like mange tall som lista med frekvenser. Lista med klassegrenser inneholder ett tall mer. Så dersom GeoGebra finner at de to listene som er skrevet inn i kommandoen "gsnitt()" har like mange tall, går programmet ut ifra at den første lista er ei liste med verdier. Dersom den første lista har ett tall mer enn den andre, går programmet ut ifra at det er ei liste med klassegrenser.

Standardavvik i et gruppert datamateriale

Når vi skal finne standardavviket i et gruppert datamateriale, har vi den samme tilnærmingen som da vi regnet ut gjennomsnittet over, nemlig å si at alle tallene i en klasse har den samme verdien: klassemidtpunktet. Derfor kan vi regne ut standardavviket for et gruppert datamateriale på den samme måten som standardavviket for et ugruppert datamateriale. Det er bra, for GeoGebra har ingen egen funksjon for å finne standardavvik i et gruppert datamateriale. Framgangsmåten for å finne standardavviket i et ugruppert datamateriale er vist på teorisida "Spredningsmål" (se lenke nederst på sida).

Vi ønsker nå å finne standardavviket i eksempelet med høyden på rekruttene i 1910. Hvilket av de to typene standardavvik skal vi bruke?

Svar

Vi antar at statistikken omfatter alle rekruttene. Det går ikke fram noe sted i originalkilden om det er alle, men vanligvis blir høyden på alle rekrutter målt, så dataene fins. Det betyr at vi skal bruke det vi kaller "vanlig" standardavvik (populasjonsstandardavvik).

Hva blir kommandoen for å regne ut standardavviket i det grupperte datamaterialet over høyden til rekruttene i 1910? Vi antar at du har lagd ei liste "klassemidtpunkt" med klassemidtpunktene og ei liste "frekvenser" med frekvensene.

Løsning

standardavvik=stavvp(klassemidtpunkt,frekvenser)

Nedenfor kan du laste ned et GeoGebra-ark der vi har funnet gjennomsnittet og standardavviket på måtene vist ovenfor.

Filer

Relatert innhold

Her definerer vi hva vi mener med spredning i et datamateriale, og vi ser på spredningsmålene variasjonsbredde, kvartilbredde og standardavvik.

CC BY-SASkrevet av Stein Aanensen, Olav Kristensen og Bjarne Skurdal.
Sist faglig oppdatert 28.02.2022

Læringsressurser

Gruppert datamateriale