Task

Lag bilder med kunstig intelligens

Kunstig intelligens (KI) brukes i mange sammenhenger, og nye bruksområder utvikles stadig. I disse oppgavene skal du lage ulike visuelle uttrykk ved å bruke KI-verktøy som genererer bilder basert på ledetekster.

Tilsynelatende et maleri som viser ei gammeldags vindmølle, noen løvtrær og ei stilleflytende elv. KI-illustrasjon. — Går det an å se at dette bildet er KI-generert? Image: Tron Bårdgård / CC0

Generering av bilder med KI

Det finnes en rekke modeller, og de finnes i forskjellig størrelser og med forskjellige spesialiseringer. Noen kan for eksempel generere gode fotorealistiske bilder, mens andre er bedre å bruke til konseptkunst eller tegninger. Visse modeller har mange parametre som kan justeres av brukeren, og andre har bare et enkelt ledetekstfelt der brukeren kan instruere modellen.

Mange modeller er proprietære og tilbys bare av en aktør. Andre er utgitt under åpen kildekode, og flere forskjellige aktører bruker dem i tjenestene sine. Slike modeller kan du ofte også sette opp selv på egen maskinvare.

Under finner du instruksjoner til tre forskjellige løsninger du kan bruke for å generere dine egne KI-bilder. Den første viser generering med NDLA sin bilderobot. Den andre viser bildegenerering med Adobe Photoshop. Den siste viser hvordan du kan sette opp en KI-bildegenerator på din egen datamaskin ved hjelp av programvaren ComfyUI og en selvvalgt modell.

A. Bildegenerering ved hjelp av NDLAs bilderobot

NDLAs bilderobot er basert på Dall-E 3 fra OpenAI.

Skjermdump som viser NDLAs bilderobot. Over et enkelt ledetekstfelt står det følgende: Bilderobot: Hei! Beskriv bildet du ønsker at jeg skal lage. Vær mest mulig spesifikk og detaljert. Beskriv gjerne stemningen og uttrykket. Skjermbilde. — Image: Tron Bårdgård / CC BY-SA 4.0

For å bruke tjenesten må du logge inn på på Min NDLA. Når du er innlogget, velger du "Prøv vår praterobot". I venstremenyen som så kommer opp, velger du "Bilderobot".

Du får nå en tekstboks der du kan skrive en ledetekst (prompt) for bildet du ønsker å generere. Bilderoboten er foreløpig best på engelsk, men du kan også forsøke norsk eller andre språk. Når du er fornøyd med ledeteksten, trykker du på enter eller trykker på "Send"-knappen for å starte genereringen.

Skjermdump fra NDLAs bilderobot som viser ledeteksten watercolour painting, street art, tiger cub in street, bright. Under har det dukket opp et generert bilde av en mur på et gatehjørne. Det er malt en tiger i sterke farger på muren. Tigeren ser ut til å komme ut av muren og gå ut på fortauet foran muren. Skjermbilde. — Image: Tron Bårdgård / CC BY-SA 4.0

Du kan forstørre bildet ved å trykke på det. Deretter kan du laste det ned ved å høyreklikke og velge "Lagre bilde som" (eller liknende, avhengig av nettleseren).

Det kan se ut som at man kan ha en dialog med NDLAs bilderobot, men det stemmer ikke. Hver gang du sender inn en ledetekst, får du et bilde basert kun på denne ledeteksten og ikke det du har skrevet inn fra før. Du må derfor skrive inn en fullstendig ledetekst for hvert bilde (ikke bare forandringene du ønsker å gjøre fra forrige bilde).

B. Bildegenerering med Adobe Photoshop

Adobe Photoshop krever tilgang til Adobe CC-pakken og har ennå noe begrenset funksjonalitet. Hvor mange bilder man kan generere, kommer an på lisenstypen.

Adobes bilde-KI-verktøy egner seg til å modifisere bilder og lage nye enkeltelementer i bilder med, men det kan få problemer med mer komplekse bilder.

Når Photoshop er lastet ned, kan du åpne det. Du kan åpne et eksisterende bilde eller lage et nytt dokument.

Du kan nå velge et område ved hjelp av "Lasso tool" eller "Rectangular Marquee tool", som er oppe i sidemenyen til venstre. Når du har valgt et område, vil du få opp en tekstboks der du kan skrive en ledetekst (prompt) for KI-bildegenerering.

Merking i et tomt dokument med en tekstboks der det står What would you like to generate? Her kan man skrive inn en ledetekst og så trykke på Generate-knappen ved siden av. Skjermbilde. — Image: Adobe / Restricted right of use

Ledeteksten må foreløpig være på engelsk. Når du er fornøyd, trykker du på entertasten eller på "Generate"-knappen. Tre alternativer vil nå bli generert.

Fotorealistisk bilde av en svart valp. En tekstboks under valpen viser ledeteksten A black dog og at dette bildet er alternativ tre av tre. KI-foto. — KI-generert foto. Image: Adobe / Restricted right of use

Hvis du ikke er fornøyd med noen av bildene, kan du trykke på "Generate" for å få laget flere alternativer, eller du kan skrive om ledeteksten.

C. Bildegenerering på egen maskinvare

Det finnes mange KI-modeller for bildegenerering som du kan kjøre på egen datamaskin. Maskinen bør helst ha moderne Nvidia-skjermkort (3060 eller nyere med 8 GB eller mer skjermminne). Hvis du ikke har dette, vil genereringen gå sakte og kreve mye ordinært arbeidsminne.

Denne veiledningen tar utgangspunkt i at Windows brukes som operativsystem.

1. Gå til ComfyUI fra GitHub og velg "Direct link to download". Da vil en standalone (selvstendig) versjon av ComfyUI lastes ned.

2. Hvis du ikke har 7-Zip eller et annet program som kan pakke ut installasjonsfilene, kan du laste ned dette fra hjemmesidene til 7-Zip.

3. Pakk ut ComfyUI-filene og legg dem et sted du finner dem igjen. Du skal ha ei mappe som heter "ComfyUI_windows_portable" med flere filer og mapper i.

Mappe i Windows som viser flere filer og undermapper. Skjermbilde. — Image: Tron Bårdgård / CC BY-SA 4.0

4. Last ned modellene du ønsker å bruke til bildegenereringen.

Bildegenereringsmodeller
Modell	Systemkrav	Lenke
Stable Diffusion 2.1	lav	SD 2.1 på Huggingface
Stable Diffusion XL*	moderat	SDXL på Huggingface
FLUX.1-schnell	høy	FLUX.1-schnell fp8 for ComfyUI

* Stable diffusion XL (SDXL) består av to modeller, SDXL base og SDXL refiner. Begge er nødvendige for god bildekvalitet. Skal du bruke SDXL, bør du søke på nettet etter arbeidsflyter (workflows) som er laget for SDXL.

5. Når filene er lastet ned, legger du dem over i undermappa til din ComfyUI-installasjon, for eksempel "ComfyUI_windows_portable\ComfyUI\models\checkpoints\".

6. Gå tilbake til mappa "ComfyUI_windows_portable" og start ComfyUI ved å dobbeltklikke på "run_nvidia_gpu.bat" (eventuelt "run_cpu" hvis skjermkortet ditt er for svakt og du ønsker å bare bruke datamaskinens prosessor for bildegenereringen).

Et ledetekstvindu vil åpne seg, og via dette kjører programmet. Når ComfyUI er ferdig, vil et nettleservindu åpnes.

7. Brukergrensesnittet til ComfyUI er delt inn i sammenkoblede bokser. Hver boks har en spesifikk funksjon, og boksene kan kobles sammen på forskjellige vis avhengig av hvilken type oppgave det er som skal løses, for eksempel om det skal genereres et bilde basert på tekst eller et annet bilde. Et slikt oppsett av sammenkoblede bokser kalles for en "workflow". I standard "workflow" kan du bestemme hvilken modell du vil bruke; du velger modell i nedtrekkslista til venstre under "Load Checkpoint".

Nettleservindu med en rekke bokser som er koblet sammen med ledninger. Forskjellige bokser gjør forskjellige oppgaver under KI-bildegenereringen. Lengst til høyre er et KI-generert bilde av ei mus. Skjermbilde. — Image: Tron Bårdgård / CC BY-SA 4.0

Litt til høyre er det to tekstbokser (merket "Clip Text encoder"). I den øverste tekstboksen skriver du inn hva som skal vises i bildet (positive prompt), og i den nederste skriver du hva du ikke ønsker i bildet (negative prompt).

I feltet "Empty latent image" bestemmer du størrelsen på bildet. Vi anbefaler 1024 x 1024 for SDXL- og Flux-modellene, mens SD-2.1 modellen bør brukes med oppløsningen 768 x 768.

I "KSampler" kan du justere hvor mange steg modellen skal kjøre, 20–30 er normalt. Det er også en rekke andre felter som du kan justere senere, dersom du vil det.

Nede til høyre er et kontrollpanel. Her kan du laste inn andre arbeidsflyter (workflows) eller nullstille den du har. Du kan også kjøre bildegenereringen. Dette gjør du ved å trykke på "Queue Prompt".

Nettleservindu med mange bokser som er koblet sammen. Lengst til høyre er et KI-generert bilde av en hjort. Skjermbilde. — Image: Tron Bårdgård / CC BY-SA 4.0

Første gang du lager et bilde, må modellen lastes inn i arbeidsminnet til maskinen. Dette tar litt tid, men deretter vil nye bilder kunne lages hurtig.

Bildene du generer, kan du laste ned ved at du høyreklikker på dem og velger "Save Image".

Oppgaver

Når du har et program eller ei tjeneste for KI-bildegenerering tilgjengelig, kan du begynne med disse oppgavene. Husk at ledetekstene (prompts) i de fleste tilfeller må være på engelsk. Du må regne med å generere flere bilder med justerte ledetekster for hver oppgave.

Nedenfor får du fem produksjonsoppgaver. I arbeidet med disse lagrer du minst ett bilde som du er fornøyd med, per oppgave, og ett til to bilder som du ikke er fornøyd med eller fant feil med.
1. Generer et foto av en landskapstype du selv liker.
2. Generer et foto av en bekk eller ei elv.
3. Generer et foto av en landstryker (hobo) på et tog. (Kommentar: Vi har med vilje foreslått et litt gammeldags ord her for å vise at modellen sannsynligvis vil generere bilder som samsvarer med stereotypier som finnes i virkeligheten.)
4. Generer et foto av en modell som viser fram dongeribukser (denim jeans).
5. Generer en tegning (sketch) som kunne ha vært brukt i ei barnebok.
Hvilket av alle bildene du genererte, er du mest fornøyd med? Begrunn.
Gå gjennom bildene du ikke var fornøyd med eller fant feil med. Hvilke feil fant du, og er det feil som går igjen?

Ekstraoppgaver

Generer et maleri (painting) etter en stil fra en kjent maler som ikke lever lenger. Maleriet skal vise noe som ikke eksisterte da kunstneren levde.
Generer en logo for skolen din. Logoen bør være helhetlig og ikke ha for mange detaljer.
Finn en annen ComfyUI-workflow og test denne. Beskriv hva du finner ut.