Biletgenerering med kunstig intelligens - Teknologiforståing (IM-IKM vg1) - NDLA

Hopp til innhald
Fagartikkel

Biletgenerering med kunstig intelligens

Digitale visuelle uttrykk kan i dag lagast med kunstig intelligens (KI). Uttrykka kan vere så realistiske at vi ikkje kan skilje dei frå ekte foto, eller så dyktig og kreativt genererte at vi ikkje kan skilje dei frå verka til ein kunstnar. Dette gir mogelegheiter, men òg utfordringar.

Kva er kunst?

Å definere kunst er ei utfordrande oppgåve. Synet på kunst endrar seg stadig, og over tid har omgrepet blitt både breitt og omfattande. Til dømes hadde den anerkjende kunsten gjerne religiøse motiv i mellomalderen, mens kunstnarane i romantikken la vekt på å formidle kjensler og skape originale uttrykk.

Mange forstår kunst som det vi kan sjå, høyre eller oppleve som eit resultat av evnene til ein kunstnar. Men er eit kunstverk berre noko som laga for å gi tilskodaren ei oppleving, eller kan det òg vere noko som har funksjonell bruk?

Utvikling av nye verktøy gir nye uttrykksformer. Grensa mellom kva vi kan kalle kunst og ikkje, blir stadig diskutert.

Diskuter

Kva meiner de er kunst?

Kan ei datamaskin skape kunstverk ved hjelp av kunstig intelligens?

Kva skil menneskeleg kreativitet frå det ei datamaskin kan skape ved hjelp av algoritmar?

Kven kan vere kunstnar?

Kunstnaren er den som lagar kunst. Kunstnaromgrepet har så langt hovudsakleg vore reservert for menneske, men enkelte dyr ser ut til å ha glede av å lage bilete. Kan vi då kalle ein apekatt ein kunstnar?

I nyare tid gjer kunstig intelligens det mogleg for datamaskiner å lage det mange vil kalle for kunst. Ved å setje saman data på nye måtar kan maskinene skape originale bilete.

Korleis kunstig intelligens lagar bilete

For biletgenerering blir det brukt spesialiserte - som er trente opp på store mengder bilete og tilhøyrande stikkord (tags). Vi kallar slike algoritmar for modellar (på engelsk: model eller checkpoint).

Modellen er i stand til å kople stikkorda til element i bilete, som stil, komposisjon og objekt i biletet. Vi kan dermed gi modellen ei tekstbeskriving, ein , av kva vi ønsker i biletet, og modellen genererer eit bilete som samsvarer. Derfor kallar vi teknologien for tekst-til-bilete-modellar (txt2img). Mange modellar kan i tillegg ta direkte utgangspunkt i eit eksisterande bilete, manipulere biletet eller hente ut eigenskapar frå det for å produsere eit nytt bilete. Dette kallar vil bilete-til-bilete-modellar (img2img).

Stable Diffusion, Dall-e, Adobe Firefly og Midjourney er døme på store sentrale utviklarar av biletgenereringsmodellar.

Trening av modellar

Modellane prøver å etterlikne korleis menneskehjernen fungerer, og enkle algoritmar (utrekningar) fungerer som nevronar som er kopla saman. Banda mellom nevrona har ein bestemd styrke, og styrken bestemmer kor sterk påverknad nevronane har på kvarandre. Mange nevronar som er kopla saman, kallar vi for eit nevralt nettverk (neural network).

Styrken på banda mellom nevrona i det nevrale nettverket er sentral for at modellen skal fungere. Modellane blir trente for at verdiane skal bli riktige. Modellane prosesserer store mengder ekte bilete med tilhøyrande stikkord (tags) som de så forsøker å gjenskape gjennom forskjellige iterasjoner. For kvar iterasjon blir det testa ulike styrkar mellom nevrona. Mellom iterasjonene blir sluttresultatet vurdert mot tidlegare forsøk. Modellen vurderer deretter sine eigne produksjonar opp mot originalane og gjer justeringar. Det er òg mogleg å involvere andre allereie trente modellar eller menneske til å hjelpe til med fintreninga av ein modell.

Det er mogleg å trene opp sin eigen modell eller delmodell, men dei fleste vil nok bruke ein modell som allereie eksisterer.

Trening på bilete som andre har åndsverk på

Ferdigtrente modellar inneheld ikkje nokon bilete frå opptreninga, men eit nevralt nettverk som kan lage liknande bilete som originalane som vart brukte.

Er det eit brot på åndsverklova å bruke andre sine bilete til opptreninga? Og: Kva rettar har opphavar til bilete som blir genererte seinare? Dette er etiske og lovmessige spørsmål som vi ikkje har eit gode svar på enno.

Nokre aktørar som Adobe har laga tekst-til-bilete-modellar og har òg alle rettar til treningsbileta. Dette er for å sikre at framtidig lovgiving og dommar ikkje skal påverke kven som har opphavsretten til dei genererte bileta.

Bruk av modell

Vi har mange ulike tekst-til-bilete-modellar. Nokre er proprietære, og vi må leige eller kjøpe tilgang (som oftast nett-tenester eller innbakt i programvare). Andre er opne, og vi kan køyre modellar på eiga maskinvare med kraftig nok skjermkort eller kapasitet som ein leiger hos ei skyteneste.

Når modellen køyrer, gir vi han tekstbeskrivingar av det vi ønsker å få generert eit bilete av.

Biletgeneratorar kan ha mange justeringsmogelegheiter og gradar av brukarvennlegheit.

Du kan få gode resultat med begge løysingar, men for profesjonell bruk er dei meir avanserte biletgeneratorane ofte å føretrekke.



Relatert innhald

Fagstoff
Algoritmar

Her får du ei stutt innføring i omgrepet algoritmisk tenking, og du får eksempel på kva ein algoritme kan vere.

Fagstoff
Kunstig intelligens

Kva er kunstig intelligens? Korleis kan vi øve oss i kritisk tenking og forstå etiske problemstillingar?

Skrive av Tron Bårdgård.
Sist fagleg oppdatert 26.09.2024