Den nya AI-tekniken baseras på maskininlärning som behöver enorma mängder data för att tränas upp. En stor del av denna data kommer från nätet, och kan innehålla personuppgifter.

Personlig integritet innebär att alla människor har rätt till ett privatliv, en privat sfär där ett oönskat intrång kan avvisas. Rätten till privatliv finns bland annat i Europakonventionen och i den svenska grundlagen.

Integritet på nätet

På internet är det ofta svårt att överblicka hur information delas och sprids. Det samlas också in massor av data om oss själva bara genom att vi använder olika tjänster och verktyg på nätet.

Många tjänster idag använder självlärande algoritmer och AI för att fungera bättre. Smarta röstassistenter och strömmande musiktjänster är exempel. Ju mer du använder dessa tjänster och produkter, desto mer lär de sig av ditt beteende och blir – förhoppningsvis – bättre på att ge rekommendationer och göra det du ber om. På ett liknande sätt fungerar sociala medier och andra tjänster på internet.

En man och en kvinna sitter vid en laptop och genererar ai-bilder tillsammans.

STATISTIK

Svenskarna och AI 2024

Här hittar du siffror och fakta om hur svenskar använder AI – artificiell intelligens 2024. En tredjedel av svenskarna har använt något AI-verktyg, det mest använda är ChatGPT.

Men vilken data känns okej att dela med sig av, och går det kontrollera vad som händer med din data senare? Att Spotify lär sig din musiksmak för att ge bättre rekommendationer är kanske inte så kontroversiellt, men vad händer med det du skriver in i ChatGPT? Alla de AI-verktyg som finns tillgängliga för allmänheten behöver konstant matas med ny data för att kunna fungera och fortsätta utvecklas.

Vad är data?

Låt oss börja från början – vad är data? Något förenklat kan man säga att data är information som lagras på en dator, mobiltelefon, hårddisk eller liknande – antingen hemma eller på internet. Data kan alltså vara text, bild, ljud, siffror eller egentligen vad som helst.

Man brukar också prata om metadata, som är "data om data". Om du till exempel sparar ett textdokument på din dator så består det av data. Men du kan också se vilket datum dokumentet skapades och vilket format det har – det är metadata. Ett digitalt foto innehåller data som är vad bilden föreställer, men kan också innehålla metadata som till exempel information om var fotot är taget. Ett sista exempel är musik i form av en mp3-fil (data) som innehåller information om låttitel och artist (metadata).

Vad är personliga data?

Personliga data är all den data som går att koppla till dig som person. Det är dels personuppgifter, som ditt namn och personnummer, men det kan också vara kommentarer du gjort på en nyhetssida, en förhandsbokning, prenumeration på ett nyhetsbrev, uppgifter om medlemskap och mycket annat.

Men personliga data kan också vara information som en tjänst eller plattform sparar om dig, exempelvis vilka inlägg och bilder du har interagerat med på Facebook och Instagram. Eller vilka låtar du spelat mycket på Spotify. Om den informationen kan kopplas till ditt användarkonto så är det personliga data.

Hur tränas en AI?

I artikeln Vad är AI för något har vi gått igenom hur man använder olika typer av maskininlärning för att "träna upp" en AI så att den kan utföra sina uppgifter. Ett exempel är bildigenkänning, där en AI tränas på stora mängder bilder för att lära sig känna igen olika motiv.

Det populära verktyget ChatGPT är ett annat exempel, det bygger på en språkmodell som tränats på befintliga texter för att kunna generera egen text som liknar det en människa skulle kunna skriva.

Gemensamt för AI är att det behövs enorma mängder data för att träna upp och förbättra dem. Denna data måste komma någonstans ifrån, men det är i många fall inte tydligt var AI-företagen har fått tag på sin träningsdata.

– Det är en av utmaningarna med AI-modellerna, att vi inte vet varifrån all data kommer. Stora mängder kommer från internet – man kan tänka sig det mesta som finns online. Men det är svårt att specificera mer än så, säger Fredrik Heintz, professor vid Linköpings universitet som forskar på artificiell intelligens.

AI måste matas med data

Precis som Spotify och sociala medier behöver AI-system också matas med data kontinuerligt för att fortsätta utvecklas och bli bättre. I Spotify anpassas algoritmerna utifrån den musik du spelar och gillar, för att på så vis ge bättre rekommendationer. Sociala medier som Instagram och Facebook fungerar på liknande sätt – data om vilka inlägg och bilder du klickar på används för att träna algoritmerna vidare.

AI-modeller fungerar likadant – när du använder AI-verktyg som Midjourney och ChatGPT bidrar du med data som används för att träna systemen vidare. Också här saknas insyn i många av de större AI-företagen och hur de använder din data för att vidareutveckla sina system.

– Det är högst troligt så att den data som matas in av de som använder tjänsten också används för att träna systemet vidare, säger Fredrik Heintz.

ChatGPT kritiseras för brist på integritetsskydd

ChatGPT har blivit ett populärt verktyg för många internetanvändare tack vare dess förmåga att generera texter av många olika slag. Men chattroboten har också krititserats för att inte vara särskilt säkert ur integritetssynpunkt.

Precis som många andra tjänster samlar ChatGPT in data när du använder verktyget, som sedan kan användas för att träna den vidare. Enligt den integritetspolicy som tillverkaren OpenAI har samlar ChatGPT bland annat information om vilken webbläsare du använder, datum, IP-adress och annan platsinformation. Men även dina chattar lagras – allt du skrivit eller frågat om.

Risken med hur ChatGPT använder personuppgifter har bland annat lett till att Italien utfärdade ett tillfälligt förbud för tjänsten i mars 2023. Italiens datamyndighet såg bland annat problem med att ChatGPT inte innehåller någon ålderskontroll för att stoppa personer under 13 år från att använda tjänsten, att personer inte informerades om att deras data samlades in, och att man inte kunde godkänna eller neka insamlingen av data. Även andra länder har kritiserat OpenAI för bristen på integritetsskydd i ChatGPT. Sedan förbudet i Italien har OpenAI lagt till nya verktyg där det ska vara möjligt att bättre kontrollera hur ens data kan användas.

Olof Sundin är professor i i biblioteks- och informationsvetenskap vid Lunds Universitet. Enligt honom finns det också andra problem med verktyg som ChatGPT när det gäller personlig information. Ett av problemen är att verktygen framställs som just en samtalspartner, med ett personligt tilltal som ska likna det hos en människa.

– Tilltalet och känslan av att du pratar med en robotperson gör att du kan skriva väldigt personliga saker. Känslan är att du pratar med någon i ett slutet rum, men så är det ju inte. Det är viktigt att komma ihåg, säger Olof Sundin.

Vad gör EU?

Inom EU upprättades 2018 den så kallade GDPR-lagen, alltså EU:s generella dataskyddsförordning. Lagen ställer stora krav på hur företag och myndigheter får hantera människors personuppgifter. Läs mer om GDPR i artikeln Har du koll på fördelarna med GDPR? Du kan också lyssna på Internetstiftelsens podd Dumma frågor om internet som har ett avsnitt om GDPR.

När det gäller hur personliga data får användas tillämpas proportionalitetsprincipen. Det är en intresseavvägning som i korthet innebär att behandlingen av personuppgifter ska stå i rimlig proportion till den nytta som behandlingen ger. I Sverige är det Integritetsskyddsmyndigheten som ansvarar för att granska och verkställa GDPR. Myndigheten erbjuder också rådgivning till allmänheten via e-post eller telefon.

AI och GDPR

GDPR-lagen ger också europeiska medborgare rätt att veta vad ens personuppgifter används till och vilka personuppgifter som samlats in. Detta har visat sig ha stor betydelse för hur träningen av AI-modeller går till, där det ofta är svårt att avgöra vilken data som används till vad.

För att hantera kraven på integritet och följa lagen finns det olika försök att göra data anonym, alltså ta bort alla kopplingar till personer som kan finnas. Den här processen kallas anonymisering.

Vad är anonymiserad data?

För att personuppgifter ska anses vara anonymiserade krävs det att enskilda individer inte längre kan identifieras utifrån uppgifterna. Flera olika uppgifter i en samling data ska heller inte kunna kombineras för att identifiera en person. Det krävs också att anonymiseringen är oåterkallelig, det vill säga att det inte ska gå att återskapa någon personlig information.

Det finns flera olika metoder för att anonymisera data. De två vanligaste kallas randomisering och generalisering. Vid randomisering förändrar man personuppgifter till något annat, till exempel ändrar namn, personnummer och adress. På så vis kan man inte längre göra en koppling mellan informationen och en särskild person. Vid generalisering gör man personuppgifterna mindre detaljerade – till exempel istället för att skriva en persons ålder kan man skriva ett intervall, som 18–25.

Vad är pseudonymisering?

En mildare variant av anonymisering kallas pseudonymisering. Det är data där all personlig information har dolts och ersatts med en kod, till exempel ett tal, slumpade bokstäver eller något liknande. Det går att identifiera en person utifrån denna data bara om man har tillgång till kompletterande information om vad koderna betyder.

För att data ska anses vara pseudonymiserad krävs att den kompletterande informationen lagras separat och på ett tillräckligt säkert sätt. Men det går alltså att identifiera personer med hjälp av koderna. Därför omfattas pseudonymiserade personuppgifter av GDPR. Anonymiserade uppgifter däremot ses inte längre som personuppgifter, och omfattas inte längre av GDPR.

Syntetiska data för träning

För att träna AI-modeller har man också börjat använda så kallad syntetisk data. Denna data är genererad, ofta utifrån några exempel av verklig data. Ett exempel på syntetisk data är exempelvis fotografier på en människa skapad av en AI.

Syntetiska data kan vara mycket användbart för att träna upp AI-modeller om man har otillräcklig data. Ett praktiskt exempel är när man skapar styrsystem för självkörande bilar. Då vill man träna systemet för att agera korrekt vid en krock, men det är omöjligt att få tag på tillräckligt mycket videoinspelningar om verkliga krockar. Det man kan göra då är att låta en dator skapa ett stort antal simuleringar av krockar, baserade på ett antal verkliga.

Men syntetiska data kan också vara användbart som ett sätt att korrigera för träningsdata som är vinklad eller ofullständig. Genom att lägga till syntetiska data kan man skapa ett urval som är mer representativt för en hel befolkning, exempelvis. Slutligen kan syntetiska data vara användbart ur ett integritetsperspektiv – det finns ju ingen riktig person i denna data som kan identifieras. På så vis kan syntetiska data vara ett bra alternativ till att anonymisera data. Professor Fredrik Heintz berättar:

– Målsättningen är att du tar känslig data och tränar en modell på den känsliga datan. Därefter genererar du data som ser likadan ut, men som inte kan kopplas till specifika individer. Och sen tränar du AI-systemet på den genererade datan.

Svårt att garantera anonymitet

Trots de många olika metoderna för att ta fram data som inte går att koppla till specifika personer finns det stora utmaningar. Ett problem är att det handlar om sådana stora datamängder att det är svårt att överblicka all information. Då går det inte heller att försäkra sig om att det inte går att koppla ihop olika data för att koppla det till en person.

Ett exempel är hur data från videotjänsten Netflix kunde avanonymiseras i en studie från 2007. Netflix publicerade vid ett tillfälle hur 500 000 av deras kunder hade rankat olika filmer. Denna data hade anonymiserats genom att ta bort personliga detaljer och ersatt dem med slumpmässiga nummer.

Netflix publicerade filmbetyg

Forskare på ett universitet i Texas kunde ändå koppla en del av informationen till särskilda personer genom att jämföra den med tillgängliga information på filmdatabasen IMDb. Där kan användare också ge betyg på filmer och den informationen är publik.

Vad forskarna gjorde var att jämföra den data som Netflix hade anonymiserat med motsvarande filmbetyg på IMDb som postats vid samma klockslag. På så vis kunde de identifiera ett antal personer som vid samma tillfälle gett betyg på samma filmer hos både Netflix och IMDb.

Netflix hade i sig inte gjort något fel i hanteringen av sin data. Men exemplet visar ändå hur svårt det är att säkerställa att data fortsätter vara anonym när det kombineras med annan data.

Detta problem blir ännu svårare när det kommer till AI. Dels handlar det om ännu större datamängder och dels är modellerna så komplexa och svåra att överblicka. Också detta kan leda till att data som man tror är anonymiserad ändå kan avanonymiseras, och alltså kopplas till enskilda personer.

Det är helt enkelt svårt att garantera att data är helt anonym och samtidigt fortfarande användbar för att träna upp och förbättra AI-modeller. Kritiker har menat att EU:s lagstiftade integritetsskydd är ett stort hinder för att framställa tillräckligt bra AI-system i Europa. Förespråkare för GDPR och liknande integritetsskydd menar istället att det är den bästa garantin för att skydda medborgares personliga integritet, även om det gör det svårare att skapa effektiva AI-system.

Vad gör AI med din data?

Integritet på nätet

Svenskarna och AI 2024

Vad är data?

Vad är personliga data?

Hur tränas en AI?

Vad är AI för något?

AI måste matas med data

ChatGPT kritiseras för brist på integritetsskydd

Vad gör EU?

AI och GDPR

Vad är anonymiserad data?

AI är redan vardag

Vad är pseudonymisering?

Syntetiska data för träning

Kom igång med AI – guide för dig som är nybörjare

Olika typer av data

Svårt att garantera anonymitet

Netflix publicerade filmbetyg

Lär dig mer om hur du skyddar din integritet på nätet

Internetstiftelsen

Svenskarna och internet

Internetdagarna

Digitala lektioner

Bredbandskollen

Internetmuseum

Vad gör AI med din data?

Integritet på nätet

Svenskarna och AI 2024

Vad är data?

Vad är personliga data?

Hur tränas en AI?

Vad är AI för något?

AI måste matas med data

ChatGPT kritiseras för brist på integritetsskydd

Vad gör EU?

AI och GDPR

Vad är anonymiserad data?

AI är redan vardag

Vad är pseudonymisering?

Syntetiska data för träning

Kom igång med AI – guide för dig som är nybörjare

Olika typer av data

Svårt att garantera anonymitet

Netflix publicerade filmbetyg

Lär dig mer om hur du skyddar din integritet på nätet

Skriv upp dig på vårt nyhetsbrev!

Skriv upp dig på vårt nyhetsbrev!