Quantcast
Channel: NRKbeta
Viewing all articles
Browse latest Browse all 1159

Vi lot maskinene leke med tre kjente ansikter, ser du hvem det er?

$
0
0

Forbløffende bilder og illustrasjoner laget av datamaskiner er noe av det mest spennende som har skjedd på teknologifronten det siste året. Vi ble fristet til å gjøre et artig eksperiment.

Det finnes nå datasystemer som gjør at du kan skrive hva du vil i en tekstboks, og så få laget et bilde. Utviklingen på dette feltet har gått utrolig fort. For å vise det aller siste steget laget vi et eksperiment med ansiktene til Thomas Seltzer, Annika Momrak og Selda Ekiz.

Først spurte vi om lov til å bruke noen få bilder av dem til å trene opp en datamodell. Så brukte vi et system kalt «Stable Diffusion» til å lage programvare vi kunne benytte for å skape helt nye og maskingenererte bilder av ansiktene deres.

Resultatet er noen ganger sjokkerende bra. Andre ganger meget dårlig og rart til det absurde.

Abraham Seltzer og andre amerikanske varianter

Thomas Seltzer var førstemann vi tok kontakt med. Programlederen, musikeren og forfatteren svarte entusiastisk og ville være med. Han mente at dette ville bli et spennende eksperiment. For ham bestemte vi oss for å se om vi kunne trene modellen basert på bilder som vi fant av ham på nett.

Skjermbilde fra Google som viser bilder av Thomas Seltzer
Noen av bildene som vi brukte for å trene opp en datamodell som vet hvordan Thomas Seltzer ser ut. Illustrasjon: Skjermbilde, Google

Bildene viste seg gode nok, så da var det bare å sette igang. Siden Seltzer har vært aktuell med en ny sesong av serien UXA denne høsten ble det fristende å lage litt USA-relatert innhold med det kjente ansiktet.

Illustrasjon med Thomas Seltzer som ser litt ut som et maleri av Abraham Lincoln og Thomas Seltzer på en dollarseddel
Thomas Seltzer som Abraham Lincoln og på dollarseddelen. Illustrasjon: Stable Diffusion / Henrik Lied

Stable Diffusion kan etterligne stilen til en rekke kunstnere og benytte seg av mer generelle teknikker. Det var ingen tvil om at den nye modellen vi laget nå også kunne gjenskape ansiktstrekkene til Seltzer.

Thomas seltzer rendret av en datamaskin som et maleri av Rembrandt, grafikk av Andy Warhol og som en slags 3D-figur fra en animert film
Seltzer i stilen til Rembrandt, Andy Warhol, og som en 3D-figur fra animasjonsfilm. Illustrasjon: Stable Diffusion / Henrik Lied

Men vi klarte ikke helt å gi oss med amerikagreiene. Så vi ba om «An old portrait of a civil war hero Thomas Seltzer». Fotografiet vi fikk er forbausende bra for å være et bilde som skulle være tatt for mer enn 150 år siden.

Gråtonebilde av en tilsynelatende ung Shomas Seltzer
Thomas Seltzer anno sånn ca. 1865. Illustrasjon: Stable Diffusion / Henrik Lied

Så ba vi maskinen om å prøve å lage mer fotorealistiske nåtidsbilder av Seltzer, for eksempel på bar. Da avslørte datamodellen at den fremdeles har noen utfordringer. Særlig med hender.

Mislykkede foto av Thomas Seltzer på bar. Med veldig rare hender.
Et ikke helt vellykket forsøk på å lage falske bilder av Seltzer på bar. Illustrasjon: Stable Diffusion / Henrik Lied

Da hovedpersonen fikk oversendt bildene fra den falske baren så han både humor og potensielt skremmende muligheter.

— Hahaha, dette ble mer shallow fake enn deep fake, si! Kunstig intelligens er enn så lenge konstig intelligens, hvert fall når det gjelder grafikk og musikk. Men på litt større sikt så er dette creepy as fuck, tommel ned herfra. Men ooops, der forsvant tommelen, gitt…

Hva er maskinskapte bilder?
  • Ved å trene opp datamaskiner på flere millioner bilder kombinert med avanserte språkmodeller har man klart å lage systemer som kan generere visualiseringer basert på ren tekst.
  • De mest kjente er Stable Diffusion, Dall-E og Googles system som heter Imagen.
  • Alle baserer seg på såkalte diffusjonsmodeller. Maskinen får servert bilder av høy kvalitet som så blir kombinert med tekstmodeller. Deretter fjerner systemet trinn for trinn informasjon fra bildene slik at programvaren trenes opp til å kjenne igjen de enkleste og tydeligste egenskapene i alle bildene.
  • Prosessen kan så reverseres og programvaren klarer å lage illustrasjoner basert på analyse av teksten den får som input.
  • Mye av teknologien er basert på åpen kildekode slik at man også kan trene modellene selv.
  • Det er for tiden en del kontrovers rundt denne teknologien. Blant annet fordi det settes spørsmålstegn ved opphavsrett og bruk av bilder for å trene modellene.
  • Det foregår også en heftig diskusjon om hvorvidt illustratører, kunstnere og fotografer kan miste jobben på grunn av teknologi som dette.

En mislykket Yoda

Annika Momrak er kjent for mange fra NRKs «Fjerde etasje» og som en av programlederne for MGP nå i vår. Hun svarte litt spøkefullt da vi tok kontakt for å høre om vi kunne få leke med bilder av henne.

— Ja, kjempekult! Er det noe jeg vil låne ut ansiktet mitt til så er det jo dette!

For å trene opp modellen trengte vi 5-10 bilder av ansiktet. Så Momrak kom innom hos oss i NRKbeta og ble fotografert.

Åtte bilder av Annika Momrak tatt fra forskjellige vinkler mot hvit bakgrunn
Noen av bildene vi tok for å trene opp modellen med ansiktet til Annika Momrak Foto: Henrik Lied, NRKbeta

For Momrak ble resultatene ikke like tydelige som for Seltzer. Da vi ba om bilder av henne ble det mye generelle bilder hvor det var vanskeligere å se tydelige trekk av Momrak.

Annika Momrak i forskjellige stilarter
Annika Momrak i forskjellige stilarter. Illustrasjon: Stable Diffusion / Henrik Lied

Da Momrak fikk se bildene ble hun både litt overrasket og tankefull.

— Det er på en måte som å se seg selv utenfra. Jeg kjenner igjen trekk, men det er også mye som ikke stemmer.

Vi ble raskt enige om at det var det særdeles mislykkede forsøket på å fremstille Momrak som Star Wars-figuren Yoda som var de morsomste bildene.

Fotolignende bilder av Annika Momrak med rare øyne og ører.
Annika Momrak som svært mislykket Yoda. Foto: Stable Diffusion / Henrik Lied

Da vi eksperimenterte med disse modellene og prøvde å få en bedre forståelse av hvordan de virker var det interessant å se hvor forskjellig de klarte å lære ulike ansikter.

En utslitt astronaut

Selda Ekiz hadde et helt spesifikt ønske da vi hadde trent modellen med bilder av henne. Hun ville se seg selv som skurken The Joker fra Batman-filmene.

To bilder av Selda Ekiz sminket som The Joker
Selda The Joker. Illustrasjon: Stable Diffusion / Henrik Lied

Det ordnet vi, og Ekiz både lo og ble litt skremt.

— Wow! Se der ja. Jeg føler meg litt som en sliten The Joker av og til. Men ok, det der var også ganske scary. Det blir neste Halloween-kostyme!

For Ekiz hadde modellen klart å ta tak i noen ansiktstrekk som skinner gjennom på flere av bildene.

Illustrasjoner av Selda Ekiz i forskjellige stilarter
Selda Ekiz i flere varianter. Illustrasjon: Stable Diffusion / Henrik Lied

Bildene varierte hele veien fra ung til gammel, og fra trøtt til opplagt. Ekiz selv fant det stort sett bare fascinerende og lot fantasien løpe løpsk.

Maskingenerert foto av Selda Ekiz som smilende astronaut
Det er fort gjort å ta seg selv med ut på eventyr når man kan lage foto av hva man vil. Illustrasjon: Stable Diffusion / Henrik Lied

— Haha. Det der er meg som en litt eldre og utslitt astronaut som nettopp har kommet ned på jorden etter en strabasiøs ferd.

Gjør det selv

Det er enkelt å teste selve hovedmodellen som kan lage bilder av nesten hva som helst, men det å lage en modell av egne bilder er litt mer komplisert. En av de beste oppskriftene vi har funnet er Tarunabh Dutta sin ganske detaljerte gjennomgang. Men det hele krever litt over middels forståelse for datamaskiner og nett-tjenester.

Det nærmeste vi kommer en tydelig og brukervennlig løsning akkurat nå er selskapet Prisma Labs sin app som heter Lensa AI. Du får ikke full frihet til å lage egne beskrivelser av det du vil ha, men det de kaller «Magic Avatars» minner veldig om mye av det vi har laget ved hjelp av Stable Diffusion. Det vi uansett kan si med sikkerhet er at denne teknologien blir bedre, billigere og mer tilgjengelig for hver måned som går.


Viewing all articles
Browse latest Browse all 1159