Statistiske størrelser i et gruppert datamateriale

Median i et gruppert materiale
Medianen er den midterste observasjonsverdien når alle observasjonsverdiene er sortert i stigende rekkefølge. Vi ser på eksempelet vårt med 1 000 rekrutter fra teorisiden "Gruppert datamateriale. Histogram". Vi har lagt til en kolonne med kumulativ frekvens i tabellen.
Rekrutthøyder 1910 | ||
|---|---|---|
Høyde i cm | Frekvens | Kumulativ |
[155, 165⟩ | 128 | 128 |
[165, 170⟩ | 260 | 388 |
[170, 175⟩ | 323 | 711 |
[175, 180⟩ | 204 | 915 |
[180, 185⟩ | 68 | 983 |
[185, 190⟩ | 17 | 1 000 |
[190, 200⟩ | 0 | 1 000 |
Medianen vil etter vanlig definisjon være høyden til rekrutt nummer
I utgangspunktet skal derfor medianen være gjennomsnittshøyden til rekrutt nummer 500 og rekrutt nummer 501 dersom vi sorterer alle rekruttene i stigende rekkefølge etter høyden.
🤔 Tenk over: I hvilken av klassene ligger rekrutt nummer 500 og nummer 501?
Det er mulig å finne en mer presis verdi for medianen, men da må vi legge noen forutsetninger til grunn. Vi antar at rekruttene i klassen er jevnt fordelt på alle høydene i klassen. Dette er ikke sikkert, men jo større antall det er i klassen, jo mer sannsynlig er det. Den medianen vi nå finner, er derfor bare den medianen som er mest sannsynlig. Derfor gir det heller ikke mening å regne ut medianen som gjennomsnittet av tall nummer 500 og 501. I slike tilfeller med to tall i midten velger vi at medianen er det første tallet. Medianen blir derfor høyden til rekrutt nummer 500.
I klassen er det 323 rekrutter. Rekrutt nummer 500 er rekrutt nummer fra venstre klassebredde. Vi tenker oss fortsatt at det er like mange rekrutter på hver høyde i klassen. Medianrekrutten må da ha høyde en brøkdel av 5 cm (klassebredden) ut fra nedre klassegrense. En tilnærmet verdi for medianhøyden blir da
GeoGebra har dessverre ingen kommando for å finne medianen i et gruppert datamateriale.
Gjennomsnitt i et gruppert datamateriale
Gjennomsnittshøyden i et gruppert datamateriale blir heller ikke en eksakt verdi. For å finne en tilnærmet riktig verdi lar vi alle rekrutter i den samme klassen ha den samme høyden, nemlig klassemidtpunktet. Klassemidtpunktet regnes ut som middelverdien av nedre og øvre klassegrense.
🤔 Tenk over: Hva blir klassemidtpunktet i klassen ?
Det betyr at når vi skal regne ut gjennomsnittet, antar vi at vi har 204 rekrutter med høyde 177,5 cm. Vi gjør tilsvarende for de andre klassene.
For å finne en tilnærmet riktig verdi for gjennomsnittshøyden kan vi bruke tilsvarende metode som vi har brukt for å finne gjennomsnittskarakteren i klassen til Mary Ann på teorisiden "Sentralmål".
| Klassemidtpunkt | Frekvens | x · f |
|---|---|---|---|
[155, 165⟩ | 160 | 128 | 20 480 |
[165, 170⟩ | 167,5 | 260 | 43 550 |
[170, 175⟩ | 172,5 | 323 | 55 717,5 |
[175, 180⟩ | 177,5 | 204 | 36 210 |
[180, 185⟩ | 182,5 | 68 | 12 410 |
[185, 190⟩ | 187,5 | 17 | 3 187,5 |
[190, 200⟩ | 195 | 0 | 0 |
Sum | 1 000 | 171 555 |
Hva blir gjennomsnittshøyden ut ifra tallene i tabellen over?
Bruk regnearkdelen i GeoGebra til å lage tabellen over. Du kan laste ned en mal nedenfor.
- Rekrutthøyde, mal(GGB)
Regn ut i regnearkdelen gjennomsnittet i det grupperte materialet. Kontroller at du får det samme svaret som i utregningen over.
Det er enklere å bruke den innebygde kommandoen "gsnitt()" i GeoGebra til å finne gjennomsnittsverdien. Lag de listene du trenger, og bruk denne kommandoen til å finne gjennomsnittshøyden til rekruttene. Får du fortsatt det samme svaret?
Nederst på sida kan du laste ned et ferdig GeoGebra-ark til oppgavene på denne sida.
I kommandoen "gsnitt()" kan du erstatte lista med klassemidtpunktene med ei liste med klassegrensene, hvis du ønsker det. Hvordan vet GeoGebra hva slags liste du legger inn?
Standardavvik i et gruppert datamateriale
Når vi skal finne standardavviket i et gruppert datamateriale, har vi den samme tilnærmingen som da vi regnet ut gjennomsnittet over, nemlig å si at alle tallene i en klasse har den samme verdien: klassemidtpunktet. Derfor kan vi regne ut standardavviket for et gruppert datamateriale på den samme måten som standardavviket for et ugruppert datamateriale. Det er bra, for GeoGebra har ingen egen funksjon for å finne standardavvik i et gruppert datamateriale. Framgangsmåten for å finne standardavviket i et ugruppert datamateriale er vist på teorisida "Spredningsmål" (se lenke nederst på sida).
🤔 Tenk over: Vi ønsker nå å finne standardavviket i eksempelet med høyden på rekruttene i 1910. Hvilket av de to typene standardavvik skal vi bruke?
Hva blir kommandoen for å regne ut standardavviket i det grupperte datamaterialet over høyden til rekruttene i 1910? Vi antar at du har lagd ei liste "klassemidtpunkt" med klassemidtpunktene og ei liste "frekvenser" med frekvensene.
Nedenfor kan du laste ned et GeoGebra-ark der vi har funnet gjennomsnittet og standardavviket på måtene vist ovenfor.