Oppgave

Lag bilete med kunstig intelligens

Kunstig intelligens (KI) blir brukt i mange samanhengar, og nye bruksområde blir stadig utvikla. I desse oppgåvene skal du lage ulike visuelle uttrykk ved å bruke KI-verktøy som genererer bilete basert på leietekstar.

Tilsynelatande eit måleri som viser ei gammaldags vindmølle, nokre lauvtre og ei stilleflytande elv. KI-illustrasjon. — Går det an å sjå at dette biletet er KI-generert? Bilete: Tron Bårdgård / CC0

Generering av bilete med KI

Det finst ei rekke modellar, og dei finst i forskjellige storleikar og med forskjellige spesialiseringar. Nokre kan til dømes generere gode fotorealistiske bilete, mens andre er betre å bruke til konseptkunst eller teikningar. Visse modellar har mange parametrar som kan justerast av brukaren, og andre har berre eit enkelt leietekstfelt der brukaren kan instruere modellen.

Mange modellar er proprietære og blir tilbodne berre av ein aktør. Andre er utgitt under open kjeldekode, og fleire forskjellige aktørar bruker dei i tenestene sine. Slike modellar kan du ofte setje opp sjølv på di eiga maskinvare òg.

Under finn du instruksjonar til tre forskjellige løysingar du kan bruke for å generere dine eigne KI-bilete. Den første viser generering med NDLA sin biletrobot. Den andre viser biletgenerering med Adobe Photoshop. Den siste viser korleis du kan setje opp ein KI-bildegenerator på di eiga datamaskin ved hjelp av programvara ComfyUI og ein sjølvvald modell.

A. Biletgenerering ved hjelp av NDLAs biletrobot

NDLAs biletrobot er basert på Dall-E 3 frå OpenAI.

Skjermdump som viser NDLAs biletrobot. Over eit enkelt leietekstfelt står det følgande: Bilderobot: Hei! Beskriv bildet du ønsker at jeg skal lage. Vær mest mulig spesifikk og detaljert. Beskriv gjerne stemningen og uttrykket. Skjermbilete. — Bilete: Tron Bårdgård / CC BY-SA 4.0

For å bruke tenesta må du logge inn på på Min NDLA. Når du er logga inn, vel du "Prøv praterobotane våre". I venstremenyen som så kjem opp, vel du "Bilderobot".

Du får no ein tekstboks der du kan skrive ein leietekst (prompt) for biletet du ønsker å generere. Biletroboten er foreløpig best på engelsk, men du kan òg prøve norsk eller andre språk. Når du er fornøgd med leieteksten, trykker du på enter eller trykker på "Send"-knappen for å starte genereringa.

Skjermdump frå NDLAs biletrobot som viser leieteksten watercolour painting, street art, tiger cub in street, bright. Under har det dukka opp eit generert bilete av ein mur på eit gatehjørne. Det er måla ein tiger i sterke fargar på muren. Tigeren ser ut til å komme ut av muren og gå ut på fortauet framfor muren. Skjermbilete. — Bilete: Tron Bårdgård / CC BY-SA 4.0

Du kan forstørre biletet ved å trykke på det. Deretter kan du laste det ned ved å høgreklikke og velje "Lagre bilde som" (eller liknande, avhengig av nettlesaren).

Det kan sjå ut som at ein kan ha ein dialog med NDLAs biletrobot, men det stemmer ikkje. Kvar gong du sender inn ein leietekst, får du eit bilete basert berre på denne leieteksten og ikkje det du har skrive inn frå før. Du må derfor skrive inn ein fullstendig leietekst for kvart bilete (ikkje berre forandringane du ønsker å gjere frå det førre biletet).

B. Biletgenerering med Adobe Photoshop

Adobe Photoshop krev tilgang til Adobe CC-pakken og har ikkje så mange funksjonar enno. Talet på bilete ein kan generere, kjem an på lisenstypen.

Adobes bilet-KI-verktøy eignar seg til å modifisere bilete og lage nye enkeltelement i bilete med, men det kan få problem med meir komplekse bilete.

Når Photoshop er lasta ned, kan du opne det. Du kan opne eit eksisterande bilete eller lage eit nytt dokument.

Du kan no velje eit område ved hjelp av "Lasso tool" eller "Rectangular Marquee tool", som er oppe i sidemenyen til venstre. Når du har valt eit område, vil du få opp ein tekstboks der du kan skrive ein leietekst (prompt) for KI-biletgenerering.

Merking i eit tomt dokument med ein tekstboks der det står What would you like to generate? Her kan ein skrive inn ein leietekst og så trykke på Generate-knappen ved sida av. Skjermbilete. — Bilete: Adobe / Avgrensa bruksrett

Leieteksten må foreløpig vere på engelsk. Når du er fornøgd, trykker du på entertasten eller på "Generate"-knappen. Tre alternativ vil no bli genererte.

Fotorealistisk bilete av ein svart kvalp. Ein tekstboks under kvalpen viser leieteksten A black dog og at dette biletet er alternativ tre av tre. KI-foto. — KI-generert foto. Bilete: Adobe / Avgrensa bruksrett

Dersom du ikkje er fornøgd med nokon av bileta, kan du trykke på "Generate" for å få laga fleire alternativ, eller du kan skrive om leieteksten.

C. Biletgenerering på eiga maskinvare

Det finst mange KI-modellar for biletgenerering som du kan køyre på di eiga datamaskin. Maskina bør helst ha moderne Nvidia-skjermkort (3060 eller nyare med 8 GB eller meir skjermminne). Dersom du ikkje har dette, vil genereringa gå sakte og krevje mykje ordinært arbeidsminne.

Denne rettleiinga tek utgangspunkt i at du bruker Windows som operativsystem.

1. Gå til ComfyUI fra GitHub og vel "Direct link to download". Då vil ein standalone (sjølvstendig) versjon av ComfyUI bli lasta ned.

2. Dersom du ikkje har 7-Zip eller eit anna program som kan pakke ut installasjonsfilene, kan du laste ned dette frå heimesidene til 7-Zip.

3. Pakk ut ComfyUI-filene og legg dei ein stad du finn dei igjen. Du skal ha ei mappe som heiter "ComfyUI_windows_portable" med fleire filer og mapper i.

Mappe i Windows som viser fleire filer og undermapper. Skjermbilete. — Bilete: Tron Bårdgård / CC BY-SA 4.0

4. Last ned modellane du ønsker å bruke til biletgenereringa.

Biletgenereringsmodellar
Modell	Systemkrav	Lenke
Stable Diffusion 2.1	låg	SD 2.1 på Huggingface
Stable Diffusion XL*	moderat	SDXL på Huggingface
FLUX.1-schnell	høg	FLUX.1-schnell fp8 for ComfyUI

* Stable diffusion XL (SDXL) består av to modellar, SDXL base og SDXL refiner. Stable diffusion XL (SDXL) består av to modellar, SDXL base og SDXL refiner. Begge er nødvendige for god biletkvalitet. Skal du bruke SDXL, bør du søke på nettet etter arbeidsflytar (workflows) som er laga for SDXL.

5. Når filene er lasta ned, legg du dei over i undermappa til ComfyUI-installasjonen din, til dømes "ComfyUI_windows_portable\ComfyUI\models\checkpoints\".

6. Gå tilbake til mappa "ComfyUI_windows_portable" og start ComfyUI ved å dobbeltklikke på "run_nvidia_gpu.bat" (eventuelt "run_cpu" dersom skjermkortet ditt er for svakt og du ønsker å berre bruke prosessoren til datamaskina for biletgenereringa).

Eit leietekstvindauge vil opne seg, og via dette køyrer programmet. Når ComfyUI er ferdig, vil eit nettlesarvindauge opne seg.

7. Brukargrensesnittet til ComfyUI er delt inn i samankopla boksar. Kvar boks har ein spesifikk funksjon, og boksane kan koplast saman på forskjellige vis avhengig av kva type oppgåve det er som skal løysast, til dømes om det skal genererast eit bilete basert på tekst eller eit anna bilete. Eit slikt oppsett av samankopla boksar blir kalla for ein "workflow". I standard "workflow" kan du bestemme kva for ein modell du vil bruke; du vel modell i nedtrekkslista til venstre under "Load Checkpoint".

Nettlesarvindauge med fleire boksar som er kopla saman med leidningar. Forskjellige boksar gjer forskjellige oppgåver under KI-biletgenereringa. Lengst til høgre er eit KI-generert bilete av ei mus. Skjermbilete. — Bilete: Tron Bårdgård / CC BY-SA 4.0

Litt til høgre er det to tekstboksar (merkte "Clip Text encoder"). I den øvste tekstboksen skriv du inn kva som skal visast i biletet (positive prompt), og i den nedste skriv du kva du ikkje ønsker i biletet (negative prompt).

I feltet "Empty latent image" bestemmer du storleiken på biletet. Vi tilrår 1024 x 1024 for SDXL- og Flux-modellane, mens SD-2.1 modellen bør brukast med oppløysinga 768 x 768.

I "KSampler" kan du justere kor mange steg modellen skal køyre, 20–30 er normalt. Det er òg fleire andre felt som du kan justere seinare, dersom du vil det.

Nede til høgre er eit kontrollpanel. Her kan du laste inn andre arbeidsflytar (workflows) eller nullstille han du har. Du kan òg køyre biletgenereringa. Dette gjer du ved å trykke på "Queue Prompt".

Nettlesarvindauge med mange boksar som er kopla saman. Lengst til høgre er eit KI-generert bilete av ein hjort. Skjermbilete. — Bilete: Tron Bårdgård / CC BY-SA 4.0

Den første gongen du lagar eit bilete, må modellen lastast inn i arbeidsminnet til maskina. Dette tek litt tid, men deretter vil du kunne lage nye bilete ganske raskt.

Bileta du generer, kan du laste ned ved at du høgreklikkar på dei og vel "Save Image".

Oppgåver

Når du har eit program eller ei teneste for KI-biletgenerering tilgjengeleg, kan du byrje med desse oppgåvene. Hugs at leietekstane (prompts) i dei fleste tilfelle må vere på engelsk. Du må rekne med å generere fleire bilete med justerte leietekstar for kvar oppgåve.

Nedanfor får du fem produksjonsoppgåver. I arbeidet med desse lagrar du minst eitt bilete som du er fornøgd med, per oppgåve, og eitt til to bilete som du ikkje er fornøgd med eller fann feil med.
1. Generer eit foto av ein landskapstype du sjølv liker.
2. Generer eit foto av ein bekk eller ei elv.
3. Generer eit foto av ein landstrykar (hobo) på eit tog. (Kommentar: Vi har med vilje foreslått eit litt gammaldags ord her for å vise at modellen sannsynlegvis vil generere bilete som samsvarer med stereotypiar som finst i verkelegheita.)
4. Generer eit foto av ein modell som viser fram dongeribukser (denim jeans).
5. Generer ei teikning (sketch) som kunne ha vore brukt i ei barnebok.
Kva for eit av alle bileta du genererte, er du mest fornøgd med? Grunngi.
Gå gjennom bileta du ikkje var fornøgd med eller fann feil med. Kva feil fann du, og er det feil som går igjen?

Ekstraoppgåver

Generer eit måleri (painting) etter ein stil frå ein kjend målar som ikkje lever lenger. Måleriet skal vise noko som ikkje eksisterte då kunstnaren levde.
Generer ein logo for skulen din. Logoen bør vere heilskapleg og ikkje ha for mange detaljar.
Finn ein annan ComfyUI-workflow og test denne. Beskriv kva du finn ut.

Relatert innhald

Fagstoff

Biletgenerering med kunstig intelligens

Digitale visuelle uttrykk laga med kunstig intelligens (AI/KI) kan vere realistiske som foto eller kreative som kunstverk.