Fagartikkel

Statistiske storleikar i eit gruppert datamateriale

Det er mogleg å finne medianen, gjennomsnittet og standardavviket i eit gruppert (klassedelt) datamateriale sjølv om vi ikkje har dei enkelte observasjonane.

Åtte personar i Forsvarets arbeidsuniform står på to rekkjer. Fotografiet er teke slik at ein berre ser beina deira. Foto. — Bilete: Terje Pedersen / CC BY-NC 4.0

Median i eit gruppert materiale

Medianen er den midtarste observasjonsverdien når alle observasjonsverdiane er sorterte i stigande rekkjefølgje. Vi ser på dømet vårt med 1 000 rekruttar (sjå lenkje nedst på sida). Vi har lagt til ein kolonne med kumulativ frekvens i tabellen.

Rekrutthøgder 1910
Høgde i cm	Frekvens	Kumulativ frekvens
[155, 165⟩	128	128
[165, 170⟩	260	388
[170, 175⟩	323	711
[175, 180⟩	204	915
[180, 185⟩	68	983
[185, 190⟩	17	1 000
[190, 200⟩	0	1 000

Medianen vil etter vanleg definisjon vere høgda til rekrutt nummer

$\frac{1 000 + 1}{2} = 500, 5$

I utgangspunktet skal derfor medianen vere gjennomsnittshøgda til rekrutt nummer 500 og rekrutt nummer 501 dersom vi sorterer alle rekruttane i stigande rekkjefølgje etter høgda.

I kva for ein av klassane ligg rekrutt nummer 500 og nummer 501?

Tips til oppgåva

Bruk kolonnen med kumulative frekvensar.

Løysing

Ut frå kolonnen med kumulative frekvensar ser vi at 388 rekruttar har høgde lågare enn 170 cm og 711 rekruttar har høgde som er lågare enn 175 cm.

Medianen må altså liggje i klassen $[170, 175 〉$ . Dette er det einaste sikre vi kan seie om medianen.

Det er mogleg å finne ein meir presis verdi for medianen, men då må vi leggje nokre føresetnader til grunn. Vi går ut frå at rekruttane i klassen $[170, 175 ⟩$ er jamt fordelte på alle høgdene i klassen. Dette er ikkje sikkert, men jo større tal det er i klassen, jo meir sannsynleg er det. Den medianen vi no finn, er derfor berre den medianen som er mest sannsynleg. Derfor gir det heller ikkje meining å rekne ut medianen som gjennomsnittet av tal nummer 500 og 501. I slike tilfelle med to tal i midten vel vi at medianen er det første talet. Medianen blir derfor høgda til rekrutt nummer 500.

I klassen $[170, 175 ⟩$ er det 323 rekruttar. Rekrutt nummer 500 er rekrutt nummer $500 - 388 = 112$ frå venstre klassebreidde. Vi tenkjer oss framleis at det er like mange rekruttar på kvar høgde i klassen. Medianrekrutten må då ha høgde ein brøkdel $\frac{112}{323}$ av 5 cm (klassebreidda) ut frå nedre klassegrense. Ein tilnærma verdi for medianhøgda blir då

$(170 + \frac{112}{323} \cdot 5) cm = 171, 7 cm$

GeoGebra har dessverre ingen kommando for å finne medianen i eit gruppert datamateriale.

Gjennomsnitt i eit gruppert datamateriale

Gjennomsnittshøgda i eit gruppert datamateriale blir heller ikkje ein eksakt verdi. For å finne ein tilnærma riktig verdi lèt vi alle rekruttar i den same klassen ha den same høgda, nemleg klassemidtpunktet. Klassemidtpunktet blir rekna ut som middelverdien av nedre og øvre klassegrense.

Kva blir klassemidtpunktet i klassen $[175, 180 ⟩$ ?

Løysing

Klassemidtpunktet i klassen frå og med 175 cm til 180 cm er gitt ved

$x = \frac{175 + 180}{2} cm = 177, 5 cm$

Det betyr at når vi skal rekne ut gjennomsnittet, går vi ut frå at vi har 204 rekruttar med høgde 177,5 cm. Vi gjer tilsvarande for dei andre klassane.

For å finne ein tilnærma riktig verdi for gjennomsnittshøgda kan vi bruke tilsvarande metode som vi har brukt for å finne gjennomsnittskarakteren i klassen til Mary Ann.

Høgde i cm	Klassemidtpunkt x	Frekvens f	x · f
[155, 165⟩	160	128	20 480
[165, 170⟩	167,5	260	43 550
[170, 175⟩	172,5	323	55 717,5
[175, 180⟩	177,5	204	36 210
[180, 185⟩	182,5	68	12 410
[185, 190⟩	187,5	17	3 187,5
[190, 200⟩	195	0	0
	Sum	1 000	171 555

Kva blir gjennomsnittshøgda ut frå tala i tabellen over?

Løysing

Gjennomsnittet blir på vanleg måte summen av alle høgdene delt på talet på rekruttar:

$\bar{x} = \frac{171 555}{1 000} cm = 171, 6 cm$

Bruk reknearkdelen i GeoGebra til å lage tabellen over. Du kan laste ned ein mal nedanfor.

Filer

Rekrutthøgde, mal(GGB)

Tips til oppgåva

Det er lurt å lage kolonnen med klassemidtpunkta ut frå kolonnen med klassegrenser ved hjelp av ein reknearkformel. For å summere cellene B1 til og med B6 skriv du Sum(B1:B6). Skriv celleadressene med store bokstavar i GeoGebra. Alternativt kan du markere dei cellene som skal summerast og trykkje på verktøyknappen "Sum" $_{}^{} \overset{}{Σ}$ . Summen blir rekna ut i cella under dei cellene som vart markerte.

Rekn ut i reknearkdelen gjennomsnittet i det grupperte materialet. Kontroller at du får det same svaret som i utrekninga over.

Det er enklare å bruke den innebygde kommandoen "gsnitt()" i GeoGebra til å finne gjennomsnittsverdien. Lag dei listene du treng, og bruk denne kommandoen til å finne gjennomsnittshøgda til rekruttane. Får du framleis det same svaret?

Tips til oppgåva

Du treng ei liste med tala for klassemidtpunkt og ei med frekvensane.

Løysing

Dersom du kallar lista med klassemidtpunkta "klassemidtpunkt" og lista med frekvensane "frekvensar", blir kommandoen

gsnitt(klassemidtpunkt,frekvensar)

Dette blir som å rekne ut gjennomsnittet for eit ugruppert datamateriale sidan vi går ut frå at alle tala i ein klasse har klassemidtpunktet som verdi.

Nedst på sida kan du laste ned eit ferdig GeoGebra-ark til oppgåvene på denne sida.

I kommandoen "gsnitt()" kan du erstatte lista med klassemidtpunkta med ei liste med klassegrensene, dersom du ønskjer det. Korleis veit GeoGebra kva slags liste du legg inn?

Svar

Lista med klassemidtpunkt inneheld like mange tal som lista med frekvensar. Lista med klassegrenser inneheld eitt tal meir. Så dersom GeoGebra finn at dei to listene som er skrivne inn i kommandoen "gsnitt()" har like mange tal, går programmet ut frå at den første lista er ei liste med verdiar. Dersom den første lista har eitt tal meir enn den andre, går programmet ut frå at det er ei liste med klassegrenser.

Standardavvik i eit gruppert datamateriale

Når vi skal finne standardavviket i eit gruppert datamateriale, har vi den same tilnærminga som då vi rekna ut gjennomsnittet over, nemleg å seie at alle tala i ein klasse har den same verdien: klassemidtpunktet. Derfor kan vi rekne ut standardavviket for eit gruppert datamateriale på den same måten som standardavviket for eit ugruppert datamateriale. Det er bra, for GeoGebra har ingen eigen funksjon for å finne standardavvik i eit gruppert datamateriale. Framgangsmåten for å finne standardavviket i eit ugruppert datamateriale er vist på teorisida "Spreiingsmål" (sjå lenkje nedst på sida).

Vi ønskjer no å finne standardavviket i dømet med høgda på rekruttane i 1910. Kva for eit av dei to typane standardavvik skal vi bruke?

Svar

Vi går ut frå at statistikken omfattar alle rekruttane. Det går ikkje fram nokon stad i originalkjelda om det er alle, men vanlegvis blir høgda på alle rekruttar målte, så dataa finst. Det betyr at vi skal bruke det vi kallar "vanleg" standardavvik (populasjonsstandardavvik).

Kva blir kommandoen for å rekne ut standardavviket i det grupperte datamaterialet over høgda til rekruttane i 1910? Vi går ut frå at du har laga ei liste "klassemidtpunkt" med klassemidtpunkta og ei liste "frekvensar" med frekvensane.

Løysing

standardavvik=stavvp(klassemidtpunkt,frekvensar)

Nedanfor kan du laste ned eit GeoGebra-ark der vi har funne gjennomsnittet og standardavviket på måtane vist ovanfor.

Filer

Rekrutthøgde ferdig løyst(GGB)

Relatert innhald

Fagstoff

Gruppert datamateriale. Histogram

Dersom ein frekvenstabell blir veldig stor, deler vi talmaterialet inn i grupper eller klassar.

Fagstoff

Spreiingsmål

Her definerer vi kva vi meiner med spreiing i eit datamateriale, og vi ser på spreiingsmåla variasjonsbreidde, kvartilbreidde og standardavvik.

Median i eit gruppert materiale

Gjennomsnitt i eit gruppert datamateriale

Filer

Standardavvik i eit gruppert datamateriale

Filer

Relatert innhald

Reglar for bruk av teksten "Statistiske storleikar i eit gruppert datamateriale"