Økt fokus på utvikling av maskinlæringsteknikker og kunstig intelligens har ført til mange interessante nyvinninger. Gjengen bak selskapet Synthesia står for én av de mest interessante, og muligens mest urovekkende: Å få mennesker til å si ting de aldri har sagt.
Denne teknologien gjorde at Dagsrevyen-ankeret, Yama Wolasmal, plutselig snakker mandarin og samisk helt flytende.
Falske nyheter har vært et debattert tema både i 2017 og 2018, og denne teknologien vil antagligvis føre til at vi fortsetter debatten også gjennom 2019.
Synthesias teknologi springer ut fra Face2Face, et forskningsprosjekt som kan manipulere mimikk til et menneske i et videoopptak i sanntid.
Her forklarer de hvordan det fungerer:
Face2Face fikk massiv oppmerksomhet da det ble publisert, og flere spådde at vi kom til å møte på store mengder falske videoer i kjølvannet av denne nyvinningen.
Interessert i AI, maskinlæring og teknologi?
Vi følger med på de siste bevegelsene innenfor kunstig intelligens. Få et ping i postkassa hver gang vi publiserer noe!
Enn så lenge har ikke den spådommen slått til. Det har dukket opp flere nedlastbare alternativer til Face2Face, men ingen har klart å gjenskape troverdigheten og detaljnivået til den originale.
my new meat puppet. running #pix2pix live on a webcam pic.twitter.com/wVc5DuCXeG
— Gene Kogan (@genekogan) April 28, 2017
Yama på samisk
Vi har fulgt denne tematikken en stund, og har blant annet testet DeepFakes, en programvare som lar deg «bytte ut» ansikter til mennesker i videoer.
For oss er teknologien interessant på flere plan: Som mediehus må vi forstå hvilke utfordringer vi kan komme til å stå overfor i tiden som kommer. Samtidig åpner den for noen muligheter som tidligere har vært utenkelig, blant annet enkel og rimelig publisering av programmer på flere språk.
Vi ville derfor teste denne teknologien, og tok kontakt med Synthesia om en demonstrasjon.
Yama Wolasmal er programleder i Dagsrevyen, og kan ikke samisk:
For å lage klippet ovenfor har vi gjort en del forarbeid. Synthesia må trenes til å forstå hvordan Yamas ansikt ser ut, og hvordan det beveger seg når han uttaler forskjellige diftonger og vokaler.
Vi sendte derfor Synthesia et par videoklipp hvor Yama beveger på hodet, og sier noen setninger.
Dette gjør Synthesia i stand til å lage en virtuell modell av ansiktet til Yama:
Neste steg er å få tak i noen som faktisk kan samisk. Heldigvis har vi ganske mange ansatte i NRK som tikker av på den boksen.
Etter en kjapp telefonsamtale til Ole Rune Hætta, som er programredaktør i NRK Sapmi, fikk vi en videofil tilbake:
Ved å analysere mimikken i begge videoklippene, kan Synthesia manipulere mimikken i Yamas ansikt til å stemme overens med bevegelsene Ole Rune gjør.
Hva med verdens mest brukte språk?
Over én milliard mennesker kan mandarin – vi ville derfor se om det var mulig å lage en troverdig video der Yama snakker verdens mest brukte språk.
Da gjentok vi i praksis den samme prosessen: Vi fikk oversatt en tekst til Mandarin, og inviterte Lu Zhang til et studio på NRK for å lese teksten.
Etter noen runder med analyse fra Synthesia, fikk vi atter en gang en ganske overbevisende video tilbake:
Derfor er Synthesias teknologi så god
Det som gjør at Synthesia er et par hestehoder foran de andre tilgjengelige teknologiene på feltet, er ifølge Synthesias COO Steffen Tjerrlid at flere av selskapets ansatte har lang erfaring med visuelle effekter fra TV-bransjen.
– Jonathan Starck var sjef for research i The Foundry i over ni år, som blant annet har laget videoredigeringsverktøyet Nuke, sier Tjerrlid til NRKbeta
Tjerrlid hevder at grunnen til at deres videoer ser såpass realistiske ut, er at Synthesia lager 3D-modeller av ansiktene før de begynner å manipulere dem. Det gjør at de bare trenger å manipulere de ulike enkeltdelene av et ansikt som vanligvis er i bevegelse seg når vi prater.
Vil til Hollywood
Tjerrlid sier at teknologien deres per i dag fungerer dårlig utenfor «nyhetsoppleser-konteksten», men at deres hovedfokus fremover er å få teknologien til å fungere i mer komplekse scener.
Innen få år satser Synthesia på å innta Hollywood:
Det langsiktige målet er å være i stand til å dubbe Hollywood-filmer, slik at filmprodusenter verden over kan nå et globalt publikum. Vi tror at en god historie bør kunne reise verden rundt, på samme måte som bøker har gjort i århundrer. Video er dessverre fortsatt et medium som er begrenset til tradisjonell dubbing eller teksting, som påvirker kreativiteten betydelig, sier Tjerrlid til NRKbeta.
Steffen Tjerrlid, COO i Synthesia
Ifølge bransjenettstedet Voices er dubbing en industri på over 4 milliarder dollar, så det er ikke utenkelig at Synthesia kan gjøre et solid innhogg i dette markedet om de får teknologien til å fungere.
– Kan misbrukes på det groveste
Da vi viste klippene til Yama, ble han sjokkert over hvor realistiske de var. Selv om Synthesias formål med teknologien er gode, ser Yama absolutt farene ved denne teknologien i feil hender:
– Denne teknologien kan brukes til å manipulere massene i et samfunn hvor folk ikke er opplyst, og ikke har utdanning. I fattigere land kan denne teknologien misbrukes på det groveste til å tro noe som ikke er sant i det hele tatt, sier Yama Wolasmal.
Yama uttrykker ikke like stor frykt for at denne teknologien har store implikasjoner i den vestlige verden, og tror at folk flest har et rikt tilfang av nyhetskilder, og har sterk kildekritisk sans.
Jobber med deteksjon av falske videoer
Synthesia og flere andre selskaper jobber aktivt med å utvikle teknologi som kan gjenkjenne manipulerte videoer.
– Jeg ser mange utfordringer ved at denne teknologien på sikt blir tilgjengelig for alle, og det er grunnen til at vi vil ta en aktiv rolle i å detektere manipulerte videoer i tillegg til å skape dem, sier Steffen Tjerrlid i Synthesia.
Steffen utdyper videre at de ikke jobber med hvem som helst:
– Vi vil være «de gode» innenfor denne bransjen, og vi er veldig kresen når det kommer til hvilke prosjekt vi tar del i.
Selv om denne teknologien eksisterer, er det per dags dato ingen kjente tilfeller av at ansiktsmanipulasjonsteknologi har blitt brukt til å skape falske videoer med den hensikt å påvirke opinionen. Likevel håper både DARPA og flere uavhengige eksperter at deteksjonsteknologi finner veien inn i sosiale medieplatformer, slik at videoene automatisk kan flagges.
Synes temaet er spennende? Les også våre artikkel om systemet som kan lage falske profilbilder, katter, og Airbnb-utlysninger.