Datamaskiner kan nå lage illustrasjoner og bilder med bare en setning som utgangspunkt. Resultatet er noe av det villeste og mest spennende jeg har sett.
Det er datasystemet som heter «Dall-E», oppkalt etter kunstneren Salvador Dali og den elskverdige Pixar-roboten Wall-E, som har gitt meg bakoversveis.
Selskapet OpenAI, som lager systemet, lanserte første versjon av Dall-E for et år siden. I april kom eksemplene på hva etterfølgeren Dall-E 2 kan gjøre.
Og den lager bilder som er så spektakulært mye bedre at jeg ikke helt fatter hva jeg ser på!
Fra tid til annen dukker det opp øyeblikk som får meg til å tenke «Wow! Dette er fremtiden». Men det er lenge siden forrige gang. For å sette det i perspektiv: Vi snakker om første gang jeg prøvde internett på tidlig 90-tall, da GPS ble kommersielt tilgjengelig, og da jeg for første gang holdt i en iPhone.
For meg er Dall-E 2 et sånt øyeblikk.
Så enkelt, men likevel så komplisert
For å lage et bilde med Dall-E skriver du en kort tekst om hva du vil ha. For eksempel «En astronaut som rir på en hest». Da kommer Dall-E opp med flere resultater. Dette er to av dem:

Bildene over er ikke en collage av eksisterende foto. Det er datasystemet som vet hvordan en astronaut ser ut, hvordan en hest ser ut, og hva som skal til for at astronauten skal kunne ri på hesten. Så lager systemet et fotorealistisk bilde fra grunnen av.
Om du vil ha en annen stil skriver du bare det. Som for eksempel en strektegning.

Jeg har brukt datamaskiner til å hjelpe meg med redigering, forbedring og endring av bilder i flere tiår. Ved hjelp av tegneprogram, scannere, digitalkamera, Photoshop, avanserte filter og 3D-modellering. Men alltid med utgangspunkt i foto, tegninger og modeller jeg har laget selv.
Det revolusjonerende med Dall-E er at systemet også lager selve innholdet.

Dall-E 2 er ikke tilgjengelig for allmennheten ennå, og eksemplene over er hentet fra OpenAI sine nettsider.
Det er fort gjort å tenke at dette bare er et kuratert utvalg av de mest vellykkede eksemplene. Men i løpet av de siste månedene har flere og flere fått tilgang. Twitter renner over av tilsvarende minst like gode eksempler fra folk som har fått lov til å leke med systemet.
Spøkelset i maskinen
Det er fascinerende og uvant at en datamaskin beveger seg inn på et felt som minner om kreativitet.
«Om ikke dette virker som menneskelig intelligens, så vet jeg ikke hva det skulle vært», sier Károly Zsolnai-Fehér om Dall-E.
Zsolnai-Fehér driver den populære YouTube-kanalen «Two Minute Papers» hvor han kort oppsummerer akademisk forskning. Han har en doktorgrad i datagrafikk og maskinlæring.

De siste ukene har diskusjonen rundt datamaskinenes eventuelle mennskelighet fått vind i seilene.
Google-ingeniøren Blake LeMoine mener å ha sett at Googles veldig avanserte chatbot LaMDA er klar over sin egen eksistens. Han har fått kraftig motbør fra en rekke eksperter på feltet.
«Vi har nå maskiner som tankeløst kan lage ord, men vi har ikke lært å unngå å se en menneskelig bevissthet bak dem», sier professor i lingvistikk Emily M. Bender til Washington Post.
Forskeren og forfatteren Gary Marcus er om mulig enda tydeligere: «Tull. Hverken LaMDA eller noen andre tilsvarende systemer er noe i nærheten av intelligente».
Maskinlæring
Selv om Dall-E med sin form for kunstige kreativitet kan virke menneskelig, så baserer den seg kun på avansert maskinlæring.
Ingeniørene har lært opp systemet basert på millioner av bilder med tekstbeskrivelser. Til slutt har systemet nok data til å håndtere sammenhengen mellom objekter, lys, skygge, refleksjoner og gjennomsiktighet.
OpenAI er ikke alene om å arbeide med slike systemer. Google jobber med sitt system kalt «Imagen». Det er enda mer fokusert på fotorealistiske bilder. Og imponerer minst like mye. Bare se på dette bildet med en panda som spiller gitar:

Prøv selv
Mens folk venter i spenning på å få tilgang til Dall-E 2 dukker det opp flere og flere tjenester som lar deg få en forsmak på hva slike systemer kan lage.
Boris Dayma har laget «Dall-E Mini» som gjør noe av det samme som Dall-E, men i en svært nedskalert versjon, og med mye lavere oppløsning.

Du kan også teste et system som kalles «Disco Diffusion». Det har mer fokus på et slags kunstnerisk uttrykk, men kan fort sluke noen timer av tiden din når du begynner å leke med det.

På mobiltelefonen din kan du installere Dream by Wombo og lage merkelige kunstverk basert på tekst.
Fremtiden
Det internettet som slo pusten ut av meg en gang på tidlig nittitall var ekstremt begrenset og tregt. GPS-systemet som fikk meg til å brøle «wow» var en grå skjerm som viste meg koordinatene jeg befant meg på. Og spesifikasjonene til den første iPhone-modellen er til å le av i dag. Det var ingen appbutikk, kameraet var elendig, og skjermoppløsningen var en vits.
Systemer som Dall-E og Google Imagen vil bare bli bedre. Og et ganske åpenbart skritt videre vil også være å trene opp systemene til å kunne generere video.
Dette vil få store konsekvenser. Kunstnere, designere, fotografer, filmskapere, arkitekter, og jurister som jobber med opphavsrett vil få nye muligheter og nye utfordringer.
Med kraftige verktøy kommer også faren for misbruk. OpenAI jobber med å sørge for at Dall-E ikke skal kunne skape støtende innhold eller falske bilder av kjente personer. Det er likevel ingen tvil om at nye former for verifisering av foto og video vil bli en del av en fremtid der disse systemene er lett tilgjengelig og kan skape innhold som ser ut som det er ekte.
Det er lenge siden jeg har sett ny teknologi som er like banebrytende som Dall-E 2. Det blir særdeles spennende å følge med på utviklingen videre.