FHIs samarbeidspartner gjorde en alvorlig feil, mener dataanalytiker.
Smittestopp 1 ble lansert mens den første koronabølgen skylte over Norge. Daværende statsminister Erna Solberg uttalte da at «om vi vil ha mer frihet raskere – da er dette veien å gå».
Men appen ble fort kontroversiell for sin omfattende datainnsamling. Appen samlet blant annet inn brukerens stedsdata og informasjon om hvem som var i nærheten av hverandre gjennom blåtann-kommunikasjon.
Under forskningskonferansen Norwegian Information Security Conference (NISK) presenterer dataanalytiker Hagen Echzell tirsdag en artikkel som argumenter for at Simula har gjort en grov feil.
Echzell mener Simula har forsket på blåtann-data fra Smittestopp 1 som ikke er tilstrekkelig anonymisert. Om det stemmer vil det være et brudd på Simulas avtale med FHI og i strid med hva som ble opplyst til appens brukere. Simula opplyser til NRK at de ikke ønsker å la seg intervjue om saken.
– Det spiller ikke noen stor rolle hva slags data man selv har, men hvilke data som eksisterer der ute og kan brukes til å re-identifisere folk, sier Echzell, som mener Simula har hatt et for snevert perspektiv i sin vurdering.
– Jeg vil ikke uttale meg om hvor stor risikoen er for enkeltpersoner, men det er et svik mot folkene som stolte på Smittestopp 1. De sa ja og stolte på oppfordringen fra Folkehelseinstituttet til å bruke appen og Simula som utviklet den digitale løsningen, sier førsteamanuensis Malgorzata Cyndecka ved UiBs juridiske fakultet.
Ikke anonyme data
For der Simula har argumentert for at dataene er anonyme, mener Echzell at det er fullt mulig å finne igjen enkeltpersoner i datasettet.
– Vi drar på ferier, har sykedager, bor på forskjellige måter, og har ulike jobber. Alle disse enkelttingene bidrar til å gjøre oss og våre kontaktmønstre med folk rundt oss unike, sier Echzell.
I et eksempel viser Echzell hvordan han sannsynligvis kunne identifisert Erna Solberg om han hadde tilgang på datasettet. Ved å bruke norske nyhetsartikler og sosiale medier er det nemlig mulig å finne hendelser som ville endt opp i datasettet.
Solberg lastet blant annet opp et bilde 16. april på Facebook hvor hun og Bent Høie holder sine iPhone-mobiler tett inntil hverandre. Senere holdt de to jevnlig pressekonferanser hvor begge var fysisk til stede, noe som burde ført til at deres mobiler kommuniserte over blåtann.
Andre situasjoner som kan bidra til å identifisere Solberg er hennes besøk til Rikshospitalet 12. mai, der hun sammen med sykepleiere danset til en viral TikTok-sang, og da hun besøkte en skole som ble gjenåpnet 11. mai.
- Datasettet består av rader med blåtannkommunikasjon mellom mobilbrukere.
- Datasetet har en unik identifikator per mobilbruker. Det er altså mulig å observere en mobilbruker over tid, men det er ingen navn eller telefonnumre i datasettet som gjør det åpenbart hvem som er hvem.
- For hver rad er det bruker1, bruker2, tid mellom første og siste interaksjon den dagen, sterkeste blåtannsignal, gjennomsnittlig blåtannsignal, mobiloperativsystem til bruker1, mobiloperativsystem til bruker2.
- Smittestopp 1 samlet også inn lokasjonsdata, men disse er ikke inkludert i datasettet.
- Datasettet inkluderer perioden fra 17. april til 4. juni 2020. I Simulas forskningsartikkel kun en mindre periode på 18 dager brukt til å gjennomføre analysene.
- Dataene ble brukt i forskningsartikkelen «Nationwide rollout reveals efficacy of epidemic control through digital contact tracing» som konkluderte med at appen fant nærkontakter som ellers ikke ville blitt fanget opp.
Kilde: Forskningsartikkel Simula
– De motsier seg selv
Simula har ikke ønsket å la seg intervju om denne saken, og henviser til deres forskningsartikkel for hvilke vurderinger de har gjort. Der kommer det frem at det vil være «vanskelig å se for seg» hvordan man kan re-identifisere enkeltpersoner fra datasettet.
– Som det står i den fagfellevurderte forskningsartikkelen, har Simula innhentet juridiske vurderinger fra Wiersholm og uavhengige faglige vurderinger fra Norsk senter for forskningsdata for å sikre at alt har gått riktig for seg, skriver viseadministrerende direktør Kyrre Lekve i Simula til NRK i en kommentar.
I Echzells artikkel, som Simula har fått lese, argumenteres det for at vurderingene det henvises til ikke har vært en grundig og formell analyse av om datasettet faktisk er anonymt.
I korrespondanse Echzell har fått innsyn i mellom Norsk senter for forskningsdata (NSD) og Simula, beskriver NSD selv sin vurdering som en «generell veiledning i forbindelse med behandling av personopplysninger til forskningsformål». Det fremgår også at Wiersholm i sin vurdering legger til grunn at bruken kun er lovlig dersom dataene kan regnes som tilstrekkelig anonymisert.
NRK har delt Echzells forskningsartikkel med to eksperter for å høre deres vurdering. Teknologidirektør Simen Sommerfeldt i Bouvet mener det «definitivt» ikke er anonyme data. Sommerfeldt var en av initiativtakerne i teknologimiljøet til et opprop mot Smittestopp 1.
Førsteamanuensis Malgorzata Cyndecka ved UiB mener det «ser ut til» at dataene ikke er anonymisert. Hun mener det blir ekstra tydelig om man leser Simulas egen forskningsartikkel der det fremgår at datasettet kun er tilgjengelig for andre forskere på forespørsel i tillegg til at det er bruksbegrensninger og krav om å signere en konfidensialitetsavtale.
– Det er helt åpenbart at de motsier seg selv. Om dataene er anonyme er det bare å slippe dem løs. Men at de selv er redde for at andre kan sette sammen dette datasettet med annen informasjon og slik re-identifisere folk, tilsier at dette ikke er anonyme data, sier Cyndecka.
Simula kan bruke anonyme data
Det er Folkehelseinstituttet som er den øverste ansvarlige for Smittestopp og hvordan brukernes opplysninger blir behandlet. Simula, som utviklet appen, har en formell avtale med FHI om at de kan forske på anonymiserte data fra Smittestopp 1.
Assisterende direktør Gun Peggy Knudsen i Folkehelseinstituttet mener Simula selv må få svare på hvilke vurderinger de har gjort. Knudsen forteller også at FHI selv valgte å slette alle data fra appen, men at det i stor grad handlet om at de ikke så nytten i å forske på de anonyme dataene de selv hadde fra appen.
– Hva har dere gjort for å sikre at Simula har gjort en tilstrekkelig jobb for å anonymisere dataene?
– Vi har bedt dem om å bekrefte at de er anonyme.
– Og du tenker at det holder?
– Vi har forholdt oss til det og vi har en avtale som lå til grunn for den første Smittestopp-utviklingen. Der var det avtalefestet at de kunne anonymisere og bruke anonyme data. Og når de har informert oss om den bruken så er det innenfor avtalen.