Hopp til innhold

Oppgaver og aktiviteter

Lag bilder med kunstig intelligens

Kunstig intelligens (AI/KI) brukes i mange sammenhenger, og nye bruksområder utvikles stadig. I denne oppgaven skal du bruke et KI-bildeverktøy basert på tekst-til-bilde for å lage visuelle uttrykk.
Tilsynelatende et maleri som viser ei gammeldags vindmølle, noen løvtrær og ei elv. Illustrasjon.
Åpne bilde i et nytt vindu

Generering av bilder med KI

KI-bildeverktøy kommer i mange varianter. Noen er proprietære og krever betalingsabonnement. Andre har åpen kildekode, men krever at du selv ordner maskinvaren de skal kjøres på.

Alternativ 1, Adobe Photoshop, må du ha lisens for å bruke, mens alternativene 2 og 3 har modeller og brukergrensesnitt fra Stable Diffusion. Disse er utgitt under åpen-kildekode-lisens, og du setter dem derfor opp selv, så de kjører på leid eller gratis skymaskinvare eller egen maskinvare.

1. Bildegenerering med Adobe Photoshop

Adobe Photoshop krever tilgang til Adobe CC-pakken og har ennå begrenset funksjonalitet. Hvor mange bilder man kan generere, kommer an på lisenstypen.

Adobes bilde-KI-verktøy egner seg til å modifisere bilder og lage nye enkeltelementer i bilder med, men det kan få problemer med mer komplekse bilder.

Når Photoshop er lastet ned, kan du åpne det. Du kan åpne et eksisterende bilde eller lage et nytt dokument.

Du kan nå velge et område ved hjelp av "Lasso tool" eller "Rectangular Marquee tool", som er oppe i sidemenyen til venstre. Når du har valgt et område, vil du få opp en tekstboks der du kan skrive en (prompt) for KI-bildegenerering.

Merking i et tomt dokument med en tekstboks der man kan skrive inn kommando til bildegenerering. Skjermbilde.

Ledeteksten må foreløpig være på engelsk. Når du er fornøyd, trykker du på entertasten eller på "Generate"-knappen. Tre alternativer vil nå bli generert.

Et KI-generert bilde av en svart valp. Bildet ser ut som et foto. En tekstboks under valpen viser at dette bildet er alternativ tre av tre. Skjermbilde.

Hvis du ikke er fornøyd med noen av bildene, kan du trykke på "Generate" for å få laget flere alternativer, eller du kan skrive om ledeteksten.

2. Bildegenerering ved hjelp av Google Colab

Google Colab krever innlogging med en privat Google-konto. Tjenesten kan brukes gratis, men gratisversjonen kan være ustabil eller utilgjengelig i perioder.

1. Gå til Colab-dokumentet for å bruke ComfyUI via Google Colab.

Hvis du ikke allerede er pålogget, må du logge inn med en privat Google-konto for å få starte Colab-dokumentet.

Nettsidedokument delt inn i flere seksjoner med kode og lignende i rader nedover. Skjermbilde.
Åpne bilde i et nytt vindu

Google Colab-dokumenter kan virke veldig kompliserte med kode og mange alternativer. Heldigvis er det bare noen få detaljer som må justeres før vi får i gang bildegenereringstjenesten.

2. Øverst under "Environment Setup" trenger du ikke gjøre noen forandringer. Trykk på den lille startknappen rett under tittelen.

Overskriften Environment Setup med et ikon med en startknapp under. Skjermbilde.
Åpne bilde i et nytt vindu

Du vil få opp én til to advarsler om at dokumentet (Notebook) ikke er autorisert av Google, og at det kan være farlig. I begge tilfeller går du videre.

Du vil nå bli tildelt serverkapasitet hos Google for å kjøre Colab-dokumentet. Du kan se status for tildeling av ressurser oppe i høyre hjørne. Står denne på "Busy", kan det være at du må forsøke igjen litt senere.

Du ser at denne delen av dokumentet er ferdigkjørt når startknappen returnerer til ei statisk foroverpil.

3. Lenger ned i det grønne tekstområdet merket "#checkpoints" kan du velge hvilke modeller du vil ha tilgjengelig. Du kan ikke aktivere for mange samtidig i gratisversjonen av Google Colab.

Som standard foreslås stable-diffusion-v1.5 og en tilleggsmodell for denne. Disse vises i hvitt. Deaktiver dem ved å skrive inn "#" først i hver av linjene.

Vi foreslår at du bruker SDXL ved å fjerne "#"-markeringen foran "sd_xl_base" og "sd_xl_refiner", disse er langt oppe i lista.

Tekstliste over modeller, to er valgt. Skjermbilde.
Åpne bilde i et nytt vindu

Når du har fjernet og valgt modellene du ønsker, trykker du på startknappen ved siden av "#checkpoints". Dette laster modellene ned til Colab-instansen. Du ser at denne delen er ferdig når startknappen returnerer til ei statisk foroverpil.

4. Når modellene er lastet ned, går du ned til seksjonen "Run ComfyUI with cloudflared". Trykk på startknappen. Denne prosessen vil kjøre kontinuerlig, så følg med på teksten under til du ser "This is the URL to access ComfyUI".

Trykk på denne lenka for å åpne ComfyUI i en ny nettleserfane.

5. Brukergrensesnittet til ComfyUI er delt inn i sammenkoblede bokser. Hver boks har en spesifikk funksjon, og boksene kan kobles sammen på forskjellige vis avhengig av hvilken type oppgave som skal løses, for eksempel om det skal genereres et bilde basert på tekst eller et annet bilde. Et slikt oppsett av sammenkoblede bokser kalles for en "workflow".

I standard "workflow" kan du bestemme hvilken modell du vil bruke ved å velge den i nedtrekkslista til venstre under "Load Checkpoint".

Nettleservindu med en rekke bokser som er koblet sammen med ledninger. Forskjellige bokser gjør forskjellige oppgaver under KI-bildegenereringen. Lengst til høyre er et KI-generert bilde av ei mus. Skjermbilde.
Åpne bilde i et nytt vindu

Litt til høyre er det to tekstbokser (merket "Clip Text encoder"). I den øverste tekstboksen skriver du inn hva som skal vises i bildet (positive prompt), og i den nederste skriver du hva du ikke ønsker i bildet (negative prompt).

I feltet "Empty latent image" bestemmer du størrelsen på bildet, vi anbefaler 1024 x 1024 for SDXL-modeller.

I "KSampler" kan du justere hvor mange steg modellen skal kjøre, 20–30 er normalt. Det er også en rekke andre felter som kan justere senere, om du vil det.

Nede til høyre er et kontrollpanel, her kan du laste inn andre arbeidsflyter (workflows) eller nullstille den du har. Du kan også kjøre bildegenereringen. Dette gjør du ved å trykke "Queue Prompt".

Første gang du lager et bilde, vil modellen lastes inn i minnet hos Colab. Dette tar litt tid, deretter vil nye bilder kunne lages hurtigere.

Bildene du genererer, kan du laste ned ved å høyreklikke på bildet og velge "Save Image".

3. Bildegenerering på egen maskinvare

Hvis du har en datamaskin med et moderne Nvidia-skjermkort (3060 eller nyere med 8 GB eller mer skjermminne), kan du kjøre Stable Diffusion-modeller på egen maskinvare. Denne veiledningen tar utgangspunkt i at Windows brukes som operativsystem.

1. Last ned ComfyUI fra GitHub. Deres "portable standalone build for Windows" er den enkleste måten å få installert ComfyUI på.

2. Hvis du ikke har 7-Zip eller annet program som kan pakke ut installasjonsfilene, kan dette lastes ned fra 7-Zip sine hjemmesider.

3. Pakk ut ComfyUI-filene og legg dem et sted du finner dem igjen. Du skal ha ei mappe som heter "ComfyUI_windows_portable" med flere filer og mapper i.

Mappe i Windows som viser flere filer og undermapper. Skjermbilde.
Åpne bilde i et nytt vindu

4. Last ned modellene du ønsker å bruke til bildegenereringen. For eksempel kan de være SDXL base og SDXL refiner fra Hugging Face. Filene er ganske store, og det vil ta litt tid å laste ned dem.

5. Når filene er lastet ned, legger du dem over i undermappa til din ComfyUI-installasjon, for eksempel "ComfyUI_windows_portable\ComfyUI\models\checkpoints\OfficialStableDiffusion".

6. Gå tilbake til "ComfyUI_windows_portable" og start ComfyUI ved å dobbeltklikke på "run_nvidia_gpu.bat".

Et ledetekstvindu vil åpne seg, og via dette kjører programmet. Når ComfyUI er ferdig, vil et nettleservindu åpnes.

7. Brukergrensesnitt til ComfyUI er delt inn i sammenkoblede bokser. Hver boks har en spesifikk funksjon, og boksene kan kobles sammen på forskjellige vis avhengig av hvilken type oppgave som skal løses, for eksempel om det skal genereres et bilde basert på tekst eller et annet bilde. Et slikt oppsett av sammenkoblede bokser kalles for en "workflow".I standard "workflow" kan du bestemme hvilken modell du vil bruke ved å velge den i nedtrekkslista til venstre under "Load Checkpoint".

Nettleservindu med en rekke bokser som er koblet sammen med ledninger. Forskjellige bokser gjør forskjellige oppgaver under KI-bildegenereringen. Lengst til høyre er et KI-generert bilde av ei mus. Skjermbilde.
Åpne bilde i et nytt vindu

Litt til høyre er det to tekstbokser (merket "Clip Text encoder"). I den øverste tekstboksen skriver du inn hva som skal vises i bildet (positive prompt), og i den nederste skriver du hva du ikke ønsker i bildet (negative prompt).

I feltet "Empty latent image" bestemmer du størrelsen på bildet, vi anbefaler 1024 x 1024 for SDXL-modeller.

I "KSampler" kan du justere hvor mange steg modellen skal kjøre, 20–30 er normalt. Det er også en rekke andre felter som du kan justere senere, dersom du vil det.

Nede til høyre er kontrollpanel, her kan du laste inn andre arbeidsflyter (workflows) eller nullstille den du har. Du kan også kjøre bildegenereringen. Dette gjør du ved å trykke "Queue Prompt".

Nettleservindu med mange bokser som er koblet sammen. Lengst til høyre er et KI-generert bilde av en hjort. Skjermbilde.
Åpne bilde i et nytt vindu

Første gang du lager et bilde, må modellen lastes inn i arbeidsminnet til maskinen. Dette tar noe tid, deretter vil nye bilder kunne lages hurtig.

Bildene du generer, kan du laste ned ved at du høyreklikker på dem og velger "Save Image".

Oppgave

Når du har et program eller ei tjeneste for AI/KI-bildegenerering tilgjengelig, kan du starte med denne oppgaven. Husk at (prompts) må være på engelsk. Du må regne med å generere flere bilder med justerte ledetekster for hver oppgave.

A) Nedenfor får du fem produksjonsoppgaver. I arbeidet med disse lagrer du minst ett bilde per oppgave som du er fornøyd med, og ett til to bilder som du ikke er fornøyd med eller fant feil med.

  1. Generer et foto av en landskapstype du selv liker.

  2. Generer et foto av en bekk eller ei elv.

  3. Generer et foto av en landstryker (hobo) på et tog. (Kommentar: Vi har med vilje foreslått et litt gammeldags ord her for å vise at modellen sannsynligvis vil generere bilder som samsvarer med stereotypier som finnes i virkeligheten.)

  4. Generer et foto av en modell som viser fram dongeribukser (denim jeans).

  5. Generer en tegning (sketch) som kunne ha vært brukt i ei barnebok.

B) Hvilket av alle bildene du genererte, er du mest fornøyd med? Begrunn.

C) Gå gjennom bildene du ikke var fornøyd med eller fant feil med. Hvilke feil fant du, og er det feil som går igjen?

Ekstraoppgaver

  1. Generer et maleri (painting) etter en stil fra en kjent død maler. Maleriet skal vise noe som ikke eksisterte da kunstneren levde.

  2. Generer en logo for skolen din. Logoen bør være helhetlig og ikke ha for mange detaljer.

  3. Finn en annen ComfyUI-workflow og test denne. Beskriv hva du finner ut.

Relatert innhold

CC BY-SASkrevet av Tron Bårdgård.
Sist faglig oppdatert 21.06.2022

Læringsressurser

Bildegenerering med KI