Analyse av enkle datasett med Python
Dataanalyse med Python
Når du skal analysere data i Python, har du bruk for to programpakker: Matplotlib og pandas. Matplotlib er ei pakke for å visualisere data på ulike måter, for eksempel som plott, grafer, 3D-modeller og animasjoner. Pandas brukes til å lese og skrive fra forskjellige fil-formater og til å bearbeide data.
Med disse to verktøyene kan du oppsummere og visualisere data på en enkel og strukturert måte.
Opplasting av måleserier
Du begynner med å laste opp dataene du har samla inn. Funksjonen read_csv() fungerer på både .csv-filer og .txt-filer.
Viktig!
Fila du vil analysere, må ligge lagra på samme sted som kode-fila di.
I data som er lasta ned fra Deploii, inneholder hver rad et tidsstempel i UNIX-format og en måleverdi. UNIX-formatet i Deploii teller antall millisekund som har gått siden 1. januar 1970. Denne verdien må derfor omgjøres til vanlig dato og tid.

Dataene er registrert i atskilte kolonner, eller de er registrert i én kolonne og atskilt med et spesifikt tegn, for eksempel et komma eller et semikolon.
Linje | Timestamp | Temp |
|---|---|---|
| 0 | 2025-10-13 05:09:50.204 | 38.7 |
| 1 | 2025-10-13 05:09:51.236 | 38.7 |
| 2 | 2025-10-13 05:09:52.202 | 38.7 |
| 3 | 2025-10-13 05:09:53.233 | 38.7 |
| 4 | 2025-10-13 05:09:54.205 | 38.7 |
Funksjonen pd.read_csv() leser inn fila. Deretter brukes kolonnetitlene som er angitt i koden, og tidsstempelet fra UNIX blir omgjort til DateTime-formatet. Til slutt skrives de første linjene i datasettet ut.
Visualisering av data med Matplotlib
Nå som dataene er lasta opp, kan vi lage et plott med Matplotlib. Et eksempel på en slik programkode kan være:

Når dataene blir henta ut fra måleserien, vises de som en graf der tidsstempelet er på X-aksen og temperaturverdiene på Y-aksen.

Dette er den grunnleggende strukturen på de fleste plotta i Matplotlib. Du definerer plottet og legger til elementer som tittel, aksetittel, tegnforklaringer til grafen osv. Til slutt vil funksjonen plt.show() vise figuren.
Like enkelt kan du legge til flere plott i en figur. Det gjør du ved å definere enda en funksjon plt.plot(). Du kan legge til så mange linjer du vil, så lenge du gjør det før plt.show().
Et eksempel på en delkode som legger inn flere data i samme graf, kan du se her:

Hvis du har lagt til tittel og navn på aksene blir grafen enklere å lese og tolke.

Pandas
Så langt har du kun brukt Pandas til å hente inn data, men den virkelige styrken ligger i de mange dataanlyse verktøyene. Pandas er bygget rundt DataFrames, som kort sagt er rader og kolonner med data.
Når du lastet opp dataen lagde du en DataFrame: “data”. Hver kolonne har et navn, som du bruker til å refere til kolonnen med data. For å få en oppsumering av dataen kan du bruke .describe().
Boxplot
Du kan også illustrere denne informasjonen i et boxplot. Et boxplot (eller boksdiagram) er en grafisk framstilling av hvordan data er fordelt. Det brukes for å vise spredning, median, og eventuelle ekstremverdier (outliers) i et datasett.
Boxplot er spesielt nyttig når du vil sammenligne flere datasett eller se variasjon i målinger.
For å vise dataaene som en boxplot kan du bruke følgende kode:

Verdiene som vises i en slik boxplot er da:
beskrivelse | verdi |
|---|---|
| count | 19.000000 |
| mean | 49.542105 |
| std | 13.448681 |
| min | 38.700000 |
| 25% | 38.700000 |
| 50% | 38.900000 |
| 75% | 64.200000 |
| max | 70.800000 |
| Name: temp | dtype: float64 |
Grafisk vil disse verdiene da bli vist som i dette eksempelet:

I boxplottet vil den øverste sorte linjen vise max verdien. Toppen og bunnen av boksen er det første og tredje kvartil, imens den grønne linjen er gjennomsnittet. Man kan også utføre matte operasjoner direkte på kolonene, som er nyttig hvis man vil utføre beregninger som inkluderer flere kolonner med data.
Matematiske funksjoner
I Python kan du bruke matematiske funksjoner og operatorer til å regne med tall og data. Dette kan være enkle regnestykker som addisjon og multiplikasjon, eller mer avanserte beregninger med funksjoner fra biblioteket math eller NumPy.
Når du skriver noe som:
data = data + data
betyr det at du legger sammen verdiene i variabelen data med seg selv – altså dobler innholdet.

I tabellform vil dette da vises som:
linje | timestamp | temp | temp_pluss_temp |
|---|---|---|---|
| 0 | 2025-10-13 05:09:50.204000 | 38.700000 | 77.400000 |
| 1 | 2025-10-13 05:09:51.236000 | 38.700000 | 77.400000 |
| 2 | 2025-10-13 05:09:52.202000 | 38.700000 | 77.400000 |
| 3 | 2025-10-13 05:09:53.233000 | 38.700000 | 77.400000 |
| 4 | 2025-10-13 05:09:54.205000 | 38.700000 | 77.400000 |
Her la vi til en ny kolonne som doblet temperaturen. Hvis du bruker jupyter notebooks er det også mulig ved utskriving av tabellen, å legge til en .style for å få en finere tabell.
Dataframes
Tidligere brukte du matplotlib direkte for å plotte, men disse funksjonene er også bygd inn i pandas dataframes.
En DataFrame er en digital datatabell i Python som lar deg lagre, analysere og regne med data — raskt og strukturert, nesten på samme måte som i Excel. Den brukes i biblioteket pandas, som er laget for databehandling og analyse.
En DataFrame består av rader og kolonner, der hver kolonne har et navn, og hver rad representerer én observasjon eller måling.
Du kan legge til, trekke fra og sammenligne kolonner akkurat som i et regneark.
For å visualisere ved hjelp av dataframes kan du bruke en programkode som i dette eksempelet:

Grafisk vil en graf programmert med dataframes kunne se ut som dette:

Histogram
Histogrammer er ofte brukt for å se på fordelingen av dataen. Hver søyle er en “gruppe” av dataen, for eksempel 0-40. høyden på søylen er hvor mange data-punkter i denne gruppen.
Kort fortalt er histogram en grafisk framstilling av hvordan data fordeler seg — altså hvor mange ganger ulike verdier forekommer. I stedet for å vise hvert enkelt tall, deler histogrammet dataene inn i grupper (intervaller) og viser hvor mange målinger som havner i hvert intervall.
Histogram brukes ofte for å se mønstre, spredning og normalfordeling i måledata.
For å vise et histogram, kan du bruke funksjonen .hist(bins=x).

Den grafiske visningen av histogram, er som stolpedigram som her viser hvor mange ganger hver temperatur har blitt avlest.

Filer
Her får du tilgang til filer som kan benyttes som eksempler for dataanalyse med Python. Du får både et eksempel på Pythonkode, samt en .csv-fil som kan benyttes som analyse.
- notebook_enk(IPYNB)
- kode_enkel(PY)