Hoppa till huvudinnehåll

Hållbara strategier för data för stora språkmodeller

onsdag, november 5, 2025

Den accelererande användningen av stora språkmodeller skapar ett enormt värde för organisationer. Men för att fullt ut realisera denna potential måste en avgörande flaskhals hanteras: Hållbar datahantering.

– Det är en utmaning som spänner över juridiska, etiska och praktiska dimensioner och kräver en ny typ av ledarskap och kompetens för att säkerställa att AI-system är säkra, transparenta och kontextuellt relevanta, säger Danila Petrelli, senior data lead i AI Swedens NLU-team.

Danila Petrelli

Danila Petrelli, senior data lead i AI Swedens NLU-team.

AI Swedens språkteam är för närvarande involverat i fyra stora projekt med finansiering från EU: OpenEuroLLMTrustLLMEuroLinguaGPT, och DeployAI. OpenEuroLLM är det mest ambitiösa, med sin målsättning att bygga en öppen europeisk familj av stora språkmodeller som täcker alla europeiska officiella språk och som är kompatibla med AI Act.

En gemensam utmaning i alla projekten är träningsdata: I takt med att stora språkmodeller i allt högre grad skapar värde i organisationer blir kontroll på data samtidigt avgörande.

Detta innebär att Danila Petrelli är en nyckelperson i AI Swedens arbete med stora språkmodeller. Hennes slutsats från de lärdomar som dragits i projekten är att vägen framåt ligger i ett fokus på de verkliga behoven i Sverige och EU, och att stärka samarbetet inom EU. 

– För Sverige finns en möjlighet att stärka konkurrenskraften om vi fokuserar på relevans och kvalitet i vår egen kontext. Ingen annan kommer att prioritera det svenska språket och användningsfall inom den offentliga sektorn på det sätt vi gör. Det är där vi kan göra en verklig skillnad. Vi kan till exempel fokusera på att skapa relevanta benchmarks, på att bli riktigt bra på finjustering av modeller, och att utveckla välkurerade datamängder. Det är områden där mindre team kan göra en verklig skillnad, säger hon och fortsätter:

Danila Petrelli

Europas beroende av modeller som utvecklats utanför EU blir allt tydligare för varje dag. Vi tränar våra egna modeller, men inte tillräckligt snabbt eller koordinerat för att hålla jämna steg med den internationella konkurrensen. På europeisk nivå är det smartaste sättet att förbli konkurrenskraftig samarbete: att dela infrastruktur, datamängder och ramverk för styrning istället för att återskapa dem i varje land.

Danila Petrelli

Danila Petrelli

Senior data lead i AI Swedens NLU-team

Data management med ett fokus på AI syftar till att göra data användbar, laglig och meningsfull. Men det finns enligt Danila Petrelli ett par olika aspekter som gör data till en flaskhals i arbetet med att träna europeiska modeller. Begränsningarna löper i tre dimensioner: Juridiska, etiska och praktiska. Ny reglering utan en bred samsyn om hur den ska tolkas är ett exempel. Det faktum att många europeiska språk är små och underrepresenterade är ett annat. En brist på benchmarks som skulle kunna hjälpa till att utvärdera öppna basmodeller på specifika språk och/eller användningsfall är en tredje.

– Sammantaget betyder detta att på en riktigt hög nivå är den största utmaningen tillgången till data överhuvudtaget. Tack och lov ser vi att det arbetas med detta i hela EU. Ett viktigt skäl till detta är en förändring i synen på språkmodeller. För några år sedan var det tillräckligt för de flesta organisationer att ha AI-system som fungerade. Men kraven på säkerhet, hållbarhet, transparens med mera ökar – och med det följer behovet av bättre datahantering, säger Danila Petrelli.

Danila Petrelli in a meeting with Sofia Hedén.

För att komma dit utforskar Danila Petrelli tillsammans med kollegor på AI Sweden och andra projektdeltagare lösningar i flera dimensioner. Det finns tekniska aspekter, som att utveckla metoder för att skapa högkvalitativ syntetisk data som ersättning för autentisk data.

– Det kan hjälpa när känsliga personuppgifter är en utmaning, liksom för mindre språk där det finns en begränsad mängd data tillgänglig. Men det är inte en långsiktig ersättning för autentisk data. Modeller som huvudsakligen tränats på syntetiskt material riskerar att förlora kontakten med verkligheten. I Skandinavien har vi sett både värdet av syntetisk data för mindre språk och vikten av bra metadata och spårbarhet för att inte tappa kontakten med verkligheten.

Kring juridiken ser Danila Petrelli ett behov av standardiserade bedömningsmatriser för riskutvärderingar, metoder och processer för att hålla reda på träningsdatans ursprung, licensvillkor och metadata i olika former, samt EU-gemensamma, harmoniserade tolkningar av gällande regleringar.

– Jag tror också att det skulle hjälpa mycket om fler juridiska experter utbildades i de tekniska detaljerna kring hur stora språkmodeller tränas och används.

Hon ser också ett behov av skräddarsydda benchmarks utöver de mest använda som nya modeller utvärderas mot.

– Anledningen till att vi ser så många nya benchmarks är att språk i sig är komplext, varierat och ständigt föränderligt. Ingen enskild utvärdering kan fånga alla aspekter av prestanda. Varje språk, domän och användningsfall kräver sitt eget sätt att testa modeller. För stora språkmodeller behöver vi flera benchmarks eftersom vi bör mäta allt från hur de resonerar  och faktamässig noggrannhet till kulturella och språkliga nyanser, säger Danila Petrelli.

Det som ytterst står på spel är Europas digitala suveränitet, säger hon, och det är därför detta arbete är så viktigt.

– I Europa bygger vi, men inte tillräckligt snabbt eller koordinerat för att säkra vårt oberoende. Vårt beroende av infrastruktur och modeller som utvecklas på andra platser ökar, och det är en konkret risk. Det begränsar vår förmåga att kontrollera system på våra villkor och att agera när problem uppstår. Det kopplar också till kompetens; om vi själva inte bygger och förstår dessa system, förlorar vi den expertis som behövs för att forma dem på ett ansvarsfullt sätt.

Faktaruta: Därför blir datahantering allt viktigare för LLM:er

  • För att uppfylla lagstadgade och juridiska krav
  • För att skydda personlig och känslig information
  • För att spåra och respektera upphovsrätt och licensvillkor
  • För att dokumentera datasamlingarnas sammansättning och begränsningar
  • För att möjliggöra spårbarhet och ansvarsskyldighet i modellens utdata

De EU-projekt AI Swedens NLU-team är en del av

  • OpenEuroLLM – Projektet syftar till att bygga en öppen europeisk familj av stora språkmodeller (LLM) som täcker alla europeiska officiella språk och som är kompatibla med AI Act. Partnerskap 20 organisationer.
     
  • TrustLLM – Att utveckla europeiska språkmodeller (LLMs) med fokus på germanska språk. Målet är att skapa ett öppet, pålitligt och hållbart ekosystem för nästa generations modulära och utbyggbara europeiska LLMs. Partnerskap 11 organisationer. 
     
  • EuroLinguaGPT – Syftet med EuroLingua-GPT att utveckla och träna nya, storskaliga språkmodeller (LLM) som täcker samtliga officiella språk inom Europeiska Unionen. Det är ett strategiskt samarbetsprojekt mellan AI Sweden och det tyska forskningsinstitutet Fraunhofer IAIS (Institute for Intelligent Analysis and Information Systems).
     
  • DeployAI – Huvudsyftet med projektet DeployAI är att bygga, implementera och lansera en fullt fungerande AI-on-demand-plattform (AIoDP) som främjar pålitliga, etiska och transparenta europeiska AI-lösningar för användning inom industrin, främst för små och medelstora företag, samt inom den offentliga sektorn.
EU flagga och text: Finansieras av Europeiska unionen

Relaterade artiklar

Nina Ökvist

Nina Ökvist ny Head of NLU på AI Sweden

2025-08-22
Med över 20 års erfarenhet från flera statliga myndigheter tillträder Nina Ökvist nu rollen som chef för AI Swedens NLU-team, som är en av landets ledande forsknings- och utvecklingsteam för stora...
Bild på Magnus Sahlgren. Text: OpenEuroLLM och EU-flaggan ihop med texten 'Medfinansieras av Europeiska unionen'

AI Sweden bidrar till utvecklingen av öppna stora språkmodeller för transparent AI i Europa

2025-02-26
Europas ledande AI-företag och forskningsinstitutioner förenar sina krafter och expertis för att utveckla nästa generations språkmodeller med öppen källkod. AI Sweden är en av 20 europeiska...
One of the supercomputors in the Barcelona Supercomputing Center

AI Sweden och tyska Fraunhofer IAIS ska utveckla språkmodeller för hela Europa

2024-05-16
AI Sweden har, tillsammans med tyska Fraunhofer IAIS, fått tillgång till en av de mest kraftfulla superdatorerna i Europa för att träna språkmodeller för EU:s samtliga språk. Projektet EuroLingua-GPT...
Människor som arbetar på bärbara datorer i en kontorsmiljö.

Sveas tredje etapp snart fulltecknad

2025-11-03
Efter nyår inleds den tredje etappen av det stora innovationsinitiativet En gemensam digital assistent för offentlig sektor. – Intresset att bidra till att stärka offentlig sektors förmåga att använda...
Gränssnittet Responsible AI Knowledge Hub på en bärbar dator bredvid en leende yrkeskvinna.

AI Sweden lanserar Responsible AI Knowledge Hub för att hjälpa organisationer att utveckla och använda AI ansvarsfullt

2025-10-21
AI Sweden lanserar Responsible AI Knowledge Hub, en ny nationell plattform som är utformad för att hjälpa organisationer att identifiera och ta till sig verktyg och resurser för att utveckla och...