Quantcast
Channel: NRKbeta
Viewing all articles
Browse latest Browse all 1159

Hvorfor tror datamaskinen at artikler om «Analplugg-gnomen» handler om jul?

$
0
0

Når datamaskinen skal gjenkjenne mønster i data kan det gi uheldige utslag. Her i NRK påstår for eksempel en klassifiseringsmodell at en artikkel om den såkalte «Analplugg-gnomen» handler om jul og høytid.

I løpet av det siste året har vi i NRK jobbet med å lage en metode for å automatisk plassere alle nye artikler i en gitt kategori. Det gir oss en ny måte å holde oversikt over hvilket innhold vi publiserer og en fin mulighet til å anbefale deg artikler som likner den du leser.

Vi gjør dette med en teknikk som kalles maskinlæring. I maskinlæring bruker man algoritmer til å la datamaskinen lære seg mønster i data, slik at den automatisk kan utføre oppgaver for oss. I dette tilfellet ønsket vi at maskinen skulle lære seg hva som kjennetegner artikler om ulike tema.

I vårt tilfelle matet vi klassifiseringsmodellen med 10.000 ulike eksempler, og plasserte dem i 81 kategorier. En av kategoriene var «høytid», og det var rundt her det går galt.

Omstridt gnom i julegrøten

Modellen bruker en statistisk metode som her regner ut hvilke grupper av ord og vendinger som typisk hører sammen. For de mer innvidde kalles metoden multinomial logistisk regresjon.

For selv om noen ord er veldig typiske for en kategori, kan de også være veldig tilstedeværende i enkeltsaker i andre kategorier. For eksempel kan juleordene: nisse, gave, julebrus, nisselue, julaften, juletre og julepresang plutselig brukes i en og samme sak om et kunstverk.

Som i denne saken om avdukingen av den omstridte skulpturen «Santa» som er plassert i en rundkjøring rett nedenfor Ekebergparken i Oslo.

Verket er laget av den amerikanske kunstneren Paul McCarthy, og som du ser har journalisten gjort sitt for å krydre artikkelen med juleord:

Les saken selv: Kunst eller jul? Illustrasjon: Øyvind Holmstad

Da går det som det må gå: Modellen kan med stor sikkerhet plassere saken om Analplugg-gnomen i kategorien om jul og høytid. God jul!

Lyspunkt i mørketida

Likevel er vi veldig fornøyde med at modellen stort sett klarer å velge rett kategori: Med våre metoder treffer datamaskinen rett for 90 prosent av artiklene.

Selv om vi elsker statistikk er det noen nedsider med metoden. Det er vanskelig å lage unntaksregler, så selv om vi vet at skulpturen «Santa» ikke er julenissen er det lite vi får gjort.

Antall «juleord» i artikkelen overskygger rett og slett «kunstordene», og ordet «juletre» er viktigere for julekategorien enn ordet «kunst» er for kunst-kategorien.

Vi mennesker er heller ikke perfekte. Vi lot nemlig to NRK-ansatte kategorisere 450 artikler med de 81 kategoriene vi har definert. De valgte kun samme kategori for 93 prosent av artiklene, altså var det hele 32 tilfeller hvor de var uenige om hvilken kategori en artikkel tilhørte.

Det er visst ikke så lett å putte en merkelapp på ting når det kommer til stykket. En ting var de faktisk enige om: saken om Analplugg-gnomen handler om kunst.

Om det er god kunst eller ikke kan dere eventuelt diskutere i kommentarfeltet.


Viewing all articles
Browse latest Browse all 1159