Hoppa till huvudinnehåll

LeakPro: Läckage och risköversyn av maskininlärningsmodeller

Flera undersökningar har belyst möjligheten att extrahera data från tränade maskininlärningsmodeller. Dessa exempel utförs dock vanligtvis under idealistiska förhållanden och det är oklart om risken kvarstår under mer realistiska antaganden. LeakPro kommer att erbjuda test av informationsläckage under realistiska antaganden.

Utmaningar

Maskininlärningsmodeller är algoritmer som internt kodar förmågan att identifiera mönster i en datakälla. Inom många domäner, t.ex. inom livsvetenskap eller finans, kan data dock vara känslig. Det är därför av viktigt att bedöma svårigheten i att extrahera känslig information under realistiska angreppsscenarier.

I detta projekt kommer vi att skapa LeakPro, en plattform för att bedöma informationläckage i relation till i) tränade maskininlärningsmodeller, ii) under träning med federerad inlärning, och iii) vid användning av syntetiska data.

Syfte

Det primära målet är att skapa LeakPro, en öppen plattform för att utvärdera risken för informationläckage i maskininlärningsapplikationer. LeakPro kommer att följa följande principer:

  1. Öppenhet: LeakPro kommer att utvecklas som ett öppet verktyg för det svenska ekosystemet. Då inferensattacker främst existerar som isolerade öar inom forskningslitteraturen strävar vi efter att samla in attackmetoder av hög kvalitet för olika modaliteter och göra dem tillgängliga för icke-experter.
  2. Skalbarhet: Eftersom det finns en mängd olika inferensattacker och området ständigt utvecklas är det viktigt att designa LeakPro på ett modulärt sätt för att möjliggöra skalbarhet och inkludering av nya attacker. Dessutom kommer LeakPro att tillåta användare att bedöma informationsläckage i, för sina användingsfall, realistiska miljöer. Därav kommer LeakPro att möjliggöra identifiering/validering av realistiska attackvektorer.
  3. Relevans: För att säkerställa LeakPro:s fortsatta relevans antar vi inte bara en öppen källkod-strategi utan arbetar också för dess integration inom RISE Cyber Range för att förbereda för en långsiktig överlämning. Dessutom, för att verifiera LEAKPRO:s praktiska tillämpning, siktar vi på att integrera LeakPro internt hos AstraZeneca, Sahlgrenska och Region Halland.

Förväntade utfall

Vid projektets avslutning kommer LeakPro att erbjuda en holistisk plattform, som kan köras lokalt, för att bedöma informationsläckage i följande sammanhang:

  1. Av tränade maskininlärningsmodeller under medlemskapattacker och konstruktionsattacker av träningsdata under öppen åtkomst (white-box) och API-åtkomst (black-box). Flera datamodaliteter kommer att stödjas, t.ex. tabell, bilder och text.
  2. Under träningsstadiet för federerad inlärning där angriparen utgör antingen en klient eller server. Attackerna som övervägs är medlemskapsinferens och konstruktion av träningsdata.
  3. Informationläckaget mellan syntetiska data och dess ursprungliga datakälla. Intressanta attacker inkluderar medlemskapsinferens, länkbarhet och inferens av saknade värden.
Overview of LeakPro and its interaction between technical and legal experts.

Översikt över LeakPro och dess samverkan mellan tekniska och juridiska experter.

Fakta

Finansiering: Vinnova: Advanced and Innovative Digitalization

Total projektbudget: 18 373 296 SEK

Projektperiod: 1/12-2023 - 1/12-2025

Deltagare: AI Sweden, RISE, Scaleout, Syndata, Sahlgrenska University Hospital, Region Halland, och AstraZeneca

Referensgrupp (legala experter): AI Sweden, RISE, Region Halland, IMY och Esam

För mer information, kontakta

Picture of Johan Östman
Johan Östman
Research Scientist - Decentralized AI
+46 (0)73-561 97 64