Hoppa till huvudinnehåll

När kommer AI-modeller att läcka din känsliga data?

onsdag, juni 5, 2024

Projektet LeakPro är ett ambitiöst initiativ vars mål är att ge svenska organisationer nödvändig kunskap och verktyg som behövs för att de ska kunna använda AI tränade på känslig data.

Att AI-modeller kan läcka träningsdata är känt. Men de studier som gjorts har skett under labbliknande förutsättningar som ofta är fördelaktiga för angriparen. Hur riskerna ser ut i verklig drift av AI-lösningar kan däremot ingen svara på i dagsläget.

– Världen är inte så enkel att det finns risk eller så finns det inte risk. All verksamhet innebär någon form av risk och det är viktigt att kunna specificera och värdera denna risk, på samma sätt som man bedömer och värderar en möjlig nytta.

Så förklarar Magnus Kjellberg, Föreståndare för Kompetenscentrum AI, Sahlgrenska Universitetssjukhuset, varför LeakPro är så värdefullt.

Tillsammans med AstraZeneca, Region Halland, Scaleout, Syndata, RISE och AI Sweden deltar Sahlgrenska Universitetssjukhuset i projektet där nyckelfrågor som handlar om läckande AI-modeller står i centrum:

  • Hur kan vi värdera sannolikheten för att en AI-modell läcker data den tränats med? 
  • Hur kan vi minska risken för att det sker? 
  • Och hur förenar vi den tekniska definitionen av risk med den juridiska, vilket är nödvändigt för att kunna fatta beslut om hur en AI-modell kan användas? 

AI-modeller kan vara personuppgifter 

Varför svar på de frågorna är nödvändiga blev tydligt i Regulatory Pilot Testbed (se faktaruta). Där konstaterade Integritetsskyddsmyndigheten (IMY) att det då inte gick att bedöma sannolikheten för att modeller, tränade på personuppgifter, läcker träningsdata. Som en konsekvens måste modellerna i sig betraktas som personuppgifter, och därför hanteras utifrån hur personuppgifter regleras.

Johan Östman and Fazeleh Hoseini, Research engineers at AI Sweden

Johan Östman och Fazeleh Hoseini, Research engineers på AI Sweden. Photo: © AI Sweden.

Johan Östman, research scientist och projektledare på AI Sweden, förklarar vad den slutsatsen innebär:

– Det IMY pekade på begränsar sjukvårdens möjligheter att använda AI, men risken för läckage kan också behöva hanteras ur bland annat affärsmässiga perspektiv i näringslivet. Detta innebär att liknande juridiska svårigheter kan uppstå hos andra svenska organisationer vilket potentiellt begränsar viljan till innovation och användning av AI. Detta har till exempel uppkommit i våra diskussioner med bland annat myndigheter, säger han.

I den regulatoriska sandlådan arbetade projektdeltagarna med det som kallas för federerad inlärning. Men slutsatsen gäller många scenarier där man vill dela modeller som blivit exponerade för känslig data, till exempel när modeller görs tillgängliga som molntjänster eller när hela modeller delas.

Den regulatoriska sandlådan fick därför en naturlig uppföljare i LeakPro. Projektet är en del av det större sammanhang där AI Sweden, genom flera initiativ inom ramen för AI Labs, bygger förmågor och kunskap inom AI Safety (se faktaruta).

Behovet av riskvärdering

–  Det finns ingen fri lunch, vi vill dela modeller för att det kan vara till nytta för oss men risken kommer aldrig att vara noll, så att ha en bra riskbedöming av riskerna är väldigt viktigt för oss. Vi vill både estimera och minimera riskerna för dataläckage när vi delar modeller inom ett samarbete eller genom en vetenskaplig publikation, säger Ola Engkvist, Head of Molecular AI, AstraZeneca.

Markus Lingman, överläkare, professor och strateg på region Halland, för ett liknande resonemang kring sjukvårdens behov:

– Vi behöver alltid förhålla oss till att det finns en balans mellan risk och nytta. Med moderna metoder tillgängliga är det svårt att påstå att något är 100 procent anonymt och då behövs tydlighet i hur stor den eventuella risken är. Här finns väldigt lite vägledning från lagstiftaren. Subjektiva begrepp som ”rimlig risk” hjälper inte så långt i dessa sammanhang, säger han.  

LeakPro angriper de här kunskapsluckorna på tre fronter: Den tekniska, den organisatoriska och den juridiska.

Det tekniska perspektivet handlar om att förstå hur och när modeller läcker, och vad man kan göra för att minska sannolikheten eller till och med förhindra att det händer.

– Att modeller kan läcka är känt från tester i “labbförhållanden”, där förutsättningarna har gjorts fördelaktiga för angriparen som vill hämta ut data ur modellen. Vi vill ta reda på om, hur och när detta kan ske från modeller som faktiskt är satta i produktion, under verkliga förhållanden, säger Johan Östman.

Målsättningen för LeakPro är att utveckla verktyg som bedömer risken för att ett informationsläckage sker. På så vis får användarna möjlighet att testa att lägga till olika typer av försvar, göra en ny bedömning och successivt bygga en lösning som är tillräckligt säker för den tänkta tillämpningen.

De organisatoriska och juridiska  perspektiven handlar om att ge ledningsgrupper och andra beslutsfattare bättre underlag för beslut om hur AI ska användas. Målet är verktyg som icke-tekniker kan använda för att förstå läckageriskerna från en specifik modell så att man därmed kan fatta välunderbyggda beslut om när, hur och om modellen ska användas. Eftersom modellerna kan klassas som personuppgifter faller hanteringen av modellerna i sig själva dessutom in under GDPR.

Av den anledning har LeakPro även en referensgrupp för de juridiska aspekterna, där IMY är med. Johan Östman uttrycker det som ett försök att få “den tekniska definitionen av risk att möta den juridiska definitionen av samma begrepp”.

Magnus Kjellberg utvecklar det resonemanget ytterligare:

– För att kunna fatta välinformerade beslut där vi som organisation balanserar nytta mot risk måste vi ha ett tydligt sätt att mäta just risk. Ur juridisk synpunkt är det viktigt att det råder någon form av konsensus hur nya AI-lösningar kan hanteras och riskbedömas. Verktyg för att göra det för den senaste AI-tekniken saknas, och därför är ett projekt som LeakPro viktigt för oss, säger han.

Resultat med bredd

De delar av projektet som handlar om de tekniska aspekterna sker tillsammans med AstraZeneca, Sahlgrenska Universitetssjukhuset och Region Halland. Här kommer fokus att vara på tillämpningar för life science och sjukvård. Men genom en tvärsektoriell referensgrupp får projektet input från fler sektorer, för att därmed också kunna utveckla metoder och verktyg som går att använda i andra sektorer.

Linda Lindström, jurist på eSamverksansprogrammet (eSam), ser stor potentiell nytta för offentlig sektor:

– Att kunna dela data och kunna utbyta AI-modeller bedöms innebära stora nyttor för offentlig verksamhet. Att kunna göra detta på ett rättssäkert sätt är viktiga frågor för våra statliga myndigheter och som vi inom eSam har flera aktiviteter kring. När eSam fick information om LeakPro-projektet och dess syfte och därtill möjligheten att delta i referensgruppen såg vi en ytterligare möjlighet att gemensamt komma framåt i dessa frågor, säger hon och fortsätter:

– Utan mer specificerade mätvärden kring risker kan detta ofta leda till att en rättslig och säkerhetsmässig bedömning är svår att genomföra och då med konsekvensen att delning av data eller utbyte av modell helt uteblir och därmed i förlängningen också utebliven samhällsnytta.

Arbetet inom LeakPro har dessutom tydliga kopplingar till andra projekt som AI Sweden driver, berättar Johan Östman:

– Det finns till exempel en tydlig koppling till ett annat av våra projekt, där vi jobbar ihop med banker för att utveckla lösningar baserade på federerad inlärning  för att hitta penningtvätt  (federerad inlärning för anti-penningtvätt). Finanssektorn är ytterligare ett exempel på bransch med hårda personuppgiftslagar och där intresset för teknik som minskar riskerna för läckage är stort, säger han.

Vilka konkreta tillämpningar i er verksamhet kommer underlättas av resultaten från LeakPro?

Vi ser LeakPro som en av de viktigaste komponenterna till att vi ska kunna börja tillämpa de senaste årens snabba AI-utveckling med till exempel federerad maskininlärning eller framtagna syntetiska hälsodataset. 

Magnus Kjellberg, Sahlgrenska Universitetssjukhuset.

Samarbetsprojekt med andra regioner. Kanske framför allt när vi behöver träna AI-modeller över organisationsgränser. 

Markus Lingman, Region Halland.

I första steget pre-kliniska modeller som kan delas inom samarbeten eller genom publikationer, i ett andra steg kan vi också tänka på möjliga kliniska tillämpningar. 

Ola Engkvist, AstraZeneca.
 

Fakta: LeakPro

Vid projektets avslutning kommer LeakPro att erbjuda en holistisk plattform, som kan köras lokalt, för att bedöma informationsläckage i följande sammanhang:

  1. Av tränade maskininlärningsmodeller under medlemskapattacker och konstruktionsattacker av träningsdata under öppen åtkomst (white-box) och API-åtkomst (black-box). Flera datamodaliteter kommer att stödjas, till exempel tabell, bilder och text.
  2. Under träningsstadiet för federerad inlärning där angriparen utgör antingen en klient eller server. Attackerna som övervägs är medlemskapsinferens och konstruktion av träningsdata.
  3. Informationläckaget mellan syntetiska data och dess ursprungliga datakälla. Intressanta attacker inkluderar medlemskapsinferens, länkbarhet och inferens av saknade värden.

För mer information, kontakta Johan Östman.

an icon showing a shield with incoming arrow, AI in the center and threat being dissolved into stars
Flera undersökningar har belyst möjligheten att extrahera data från tränade maskininlärningsmodeller...

Fakta: Regulatory Pilot Testbed

Federerad inlärning innebär att data stannar där den är, och att det istället är AI-modellerna som flyttar på sig. Inom sjukvården kan det vara ett sätt att följa den lagstiftning som finns kring patientdata och integritetsskydd och ändå dra nytta av möjligheterna med artificiell intelligens. Hos varje sjukhus eller region skulle en modell tränas på den data som finns där. De modellerna kan sedan slås ihop till en, med samlad kunskap från all träning.

– Ett sånt tillvägagångssätt bygger på att de mindre, lokalt tränade modellerna inte är att betrakta som personuppgifter. Men eftersom en modell kan läcka träningsdata var IMYs slutsats att de åtminstone ibland kommer att betraktas som personuppgifter, säger Johan Östman.

Syftet med den regulatoriska sandlådan var att lära mer om både de tekniska och juridiska aspekterna för federerad inlärning i sjukvården. Projektdeltagare var Region Halland, Sahlgrenska Universitetssjukhuset och Integritetsskyddsmyndigheten, IMY, tillsammans med AI Sweden.

Fakta: AI Safety i AI Labs

Frågan om AI och säkerhet har blivit en central fråga i hela världen. AI Safety är också en central del i AI Labs projekt sedan många år. 

– Vi delar in AI Safety i tre övergripande kategorier: Att säkerställa att AI lär sig rätt saker, att AI gör rätt saker och att AI inte läcker information, säger Mats Nordlund.

Säkerhetsaspekterna av AI ingår i ett antal projekt hos AI Sweden, utöver LeakPro bland annat Federerad maskininlärning i banksektorn och talangprogrammet Industrial Immersion Exchange Program, som arrangeras tillsammans med amerikanska Dakota State University och 2024 går av stapeln för tredje gången.

Vill du veta mer om AI Swedens arbete inom AI Safety, kontakta oss.

För mer information, kontakta

Picture of Johan Östman
Johan Östman
Research Scientist - Decentralized AI
+46 (0)73-561 97 64
Mats Nordlund
Mats Nordlund
Director of AI Labs
+46 (0)70-398 08 37