Fagartikkel

Bildegenerering med kunstig intelligens

Digitale visuelle uttrykk kan i dag lages med kunstig intelligens (KI). Uttrykkene kan være så realistiske at vi ikke kan skille dem fra ekte fotoer, eller så dyktig og kreativt generert at vi ikke kan skille dem fra en kunstners verk. Dette gir muligheter, men fører også med seg utfordringer.

En havneby med mange hvite eller lysebrune murhus. Hav i bakgrunnen. KI-foto. — KI-generert foto. Image: Tron Bårdgård / CC0

Hva er kunst?

Et damplokomotiv av typen Stirling ved Peterborough jernbanestasjon på slutten av 1800-tallet. Foto. — Damplokomotiver ble laget for å dekke spesifikke behov. Samtidig så mange på designet som et kunstverk. Image: Tony Hisgett / CC BY 4.0

Å definere kunst er en utfordrende oppgave. Synet på kunst endrer seg stadig, og over tid har begrepet blitt både bredt og omfattende. For eksempel hadde den anerkjente kunsten gjerne religiøse motiver i middelalderen, mens kunstnerne i romantikken la vekt på å formidle følelser og skape originale uttrykk.

Mange forstår kunst som det vi kan se, høre eller oppleve som et resultat av en kunstners ferdigheter. Men er et kunstverk bare noe som laget for å gi tilskueren en opplevelse, eller kan det også være noe som har funksjonell bruk?

Utvikling av nye verktøy gir nye uttrykksformer. Grensa mellom hva som kan kalles kunst og ikke, blir stadig diskutert.

Diskuter

Hva mener dere er kunst?

Kan en datamaskin skape kunstverk ved hjelp av kunstig intelligens?

Hva skiller menneskelig kreativitet fra det en datamaskin kan skape ved hjelp av algoritmer?

Hvem kan være kunstner?

Apekatt som maler et maleri med den ene hånda. Foto. — Kan en apekatt være kunstner? Image: Charmaine E. Quinn / CC BY-SA 4.0

Kunstneren er den som lager kunst. Kunstnerbegrepet har så langt hovedsakelig vært forbeholdt mennesker, men enkelte dyr ser ut til å ha glede av å lage bilder. Kan vi da kalle en apekatt en kunstner?

I nyere tid gjør kunstig intelligens det mulig for datamaskiner å lage det mange vil kalle for kunst. Ved å sette sammen data på nye måter kan maskinene skape originale bilder.

Hvordan kunstig intelligens lager bilder

For bildegenerering brukes spesialiserte maskinlærings-algoritmer som er trent opp på store mengder bilder og tilhørende stikkord (tags). Vi kaller slike algoritmer for modeller (på engelsk: model eller checkpoint).

Modellen er i stand til å koble stikkordene til elementer i bilder som stil, komposisjon og objekter i bildet. Vi kan dermed gi modellen en tekstbeskrivelse, en ledetekst, av hva vi ønsker i bildet, og modellen genererer et bilde som samsvarer. Derfor kaller vi teknologien for tekst-til-bilde-modeller (txt2img). Mange modeller kan i tillegg ta direkte utgangspunkt i et eksisterende bilde, manipulere bildet eller hente ut egenskaper fra det for å produsere et nytt bilde. Dette kaller vil bilde-til-bilde-modeller (img2img).

Stable Diffusion, Dall-e, Adobe Firefly og Midjourney er eksempler på store sentrale utviklere av bildegenereringsmodeller.

Trening av modeller

Modellene prøver å etterlikne hvordan menneskehjernen fungerer, og enkle algoritmer (utregninger) fungerer som nevroner som er koblet sammen. Båndene mellom nevronene har en bestemt styrke, og styrken bestemmer hvor sterk påvirkning nevronene har på hverandre. Et stort antall nevroner som er koblet sammen, kaller vi for et nevralt nettverk (neural network).

Hvite streker i et nettverkssystem på svart bakgrunn. Illustrasjon. — Visualisering av et nevralt nettverk. Image: DancingPhilosopher / CC BY-SA 4.0

Styrken på båndene mellom nevronene i det nevrale nettverket er sentral for at modellen skal fungere. Modellene må trenes for at verdiene skal bli riktig. Modellene prosesserer store mengder ekte bilder med tilhørende stikkord (tags) som de så forsøker å gjenskape gjennom forskjellige iterasjoner. For hver iterasjon testes ulike styrker mellom nevronene. Mellom iterasjonene vurderes sluttresultatet mot tidligere forsøk. Modellen vurderer deretter sine egne produksjoner opp mot originalene og gjør justeringer. Det er også mulig å involvere andre allerede trente modeller eller mennesker til å hjelpe til med fintreningen av en modell.

Det er mulig å trene opp sin egen modell eller delmodell, men de fleste vil nok bruke en allerede eksisterende modell.

Trening på bilder som andre har åndsverk på

Ferdigtrente modeller inneholder ikke noen bilder fra opptreningen, men et nevralt nettverk som kan lage liknende bilder som originalene som ble brukt.

Er det et brudd på åndsverkloven å bruke andres bilder til opptreningen? Og: Hvilke rettigheter har opphaver til bilder som blir generert senere? Dette er etiske og lovmessige spørsmål som vi ikke har et gode svar på ennå.

Noen aktører som Adobe har laget tekst-til-bilde-modeller og har også alle rettigheter til treningsbildene. Dette er for å sikre at framtidig lovgivning og dommer ikke skal påvirke hvem som har opphavsretten til de genererte bildene.

Bruk av modell

Vi har mange forskjellige tekst-til-bilde-modeller. Noen er proprietære, og vi må leie eller kjøpe tilgang (som oftest nett-tjenester eller innbakt i programvare). Andre er åpne, og vi kan kjøre modeller på egen maskinvare med kraftig nok skjermkort eller kapasitet leid hos en skytjeneste.

Programvindu med mange sammenkoblede bokser: bokser for å skrive inn tekst, bokser for å sette innstillinger og en boks for bildet som blir generert. Skjermbilde. — KI-bildegenerering kan være både enkelt og avansert. Image: Tron Bårdgård / CC BY-SA 4.0

Når modellen kjører, gir vi den tekstbeskrivelser av det vi ønsker å få generert et bilde av.

Bildegeneratorer kan ha mange justeringsmuligheter og grader av brukervennlighet.

Du kan få gode resultater med begge løsninger, men for profesjonell bruk er de mer avanserte bildegeneratorene ofte å foretrekke.