Den accelererande användningen av stora språkmodeller skapar ett enormt värde för organisationer. Men för att fullt ut realisera denna potential måste en avgörande flaskhals hanteras: Hållbar datahantering.
– Det är en utmaning som spänner över juridiska, etiska och praktiska dimensioner och kräver en ny typ av ledarskap och kompetens för att säkerställa att AI-system är säkra, transparenta och kontextuellt relevanta, säger Danila Petrelli, senior data lead i AI Swedens NLU-team.
Danila Petrelli, senior data lead i AI Swedens NLU-team.
AI Swedens språkteam är för närvarande involverat i fyra stora projekt med finansiering från EU: OpenEuroLLM, TrustLLM, EuroLinguaGPT, och DeployAI. OpenEuroLLM är det mest ambitiösa, med sin målsättning att bygga en öppen europeisk familj av stora språkmodeller som täcker alla europeiska officiella språk och som är kompatibla med AI Act.
En gemensam utmaning i alla projekten är träningsdata: I takt med att stora språkmodeller i allt högre grad skapar värde i organisationer blir kontroll på data samtidigt avgörande.
Detta innebär att Danila Petrelli är en nyckelperson i AI Swedens arbete med stora språkmodeller. Hennes slutsats från de lärdomar som dragits i projekten är att vägen framåt ligger i ett fokus på de verkliga behoven i Sverige och EU, och att stärka samarbetet inom EU.
– För Sverige finns en möjlighet att stärka konkurrenskraften om vi fokuserar på relevans och kvalitet i vår egen kontext. Ingen annan kommer att prioritera det svenska språket och användningsfall inom den offentliga sektorn på det sätt vi gör. Det är där vi kan göra en verklig skillnad. Vi kan till exempel fokusera på att skapa relevanta benchmarks, på att bli riktigt bra på finjustering av modeller, och att utveckla välkurerade datamängder. Det är områden där mindre team kan göra en verklig skillnad, säger hon och fortsätter:
![]()
Europas beroende av modeller som utvecklats utanför EU blir allt tydligare för varje dag. Vi tränar våra egna modeller, men inte tillräckligt snabbt eller koordinerat för att hålla jämna steg med den internationella konkurrensen. På europeisk nivå är det smartaste sättet att förbli konkurrenskraftig samarbete: att dela infrastruktur, datamängder och ramverk för styrning istället för att återskapa dem i varje land.
![]()
Danila Petrelli
Senior data lead i AI Swedens NLU-team
Data management med ett fokus på AI syftar till att göra data användbar, laglig och meningsfull. Men det finns enligt Danila Petrelli ett par olika aspekter som gör data till en flaskhals i arbetet med att träna europeiska modeller. Begränsningarna löper i tre dimensioner: Juridiska, etiska och praktiska. Ny reglering utan en bred samsyn om hur den ska tolkas är ett exempel. Det faktum att många europeiska språk är små och underrepresenterade är ett annat. En brist på benchmarks som skulle kunna hjälpa till att utvärdera öppna basmodeller på specifika språk och/eller användningsfall är en tredje.
– Sammantaget betyder detta att på en riktigt hög nivå är den största utmaningen tillgången till data överhuvudtaget. Tack och lov ser vi att det arbetas med detta i hela EU. Ett viktigt skäl till detta är en förändring i synen på språkmodeller. För några år sedan var det tillräckligt för de flesta organisationer att ha AI-system som fungerade. Men kraven på säkerhet, hållbarhet, transparens med mera ökar – och med det följer behovet av bättre datahantering, säger Danila Petrelli.
För att komma dit utforskar Danila Petrelli tillsammans med kollegor på AI Sweden och andra projektdeltagare lösningar i flera dimensioner. Det finns tekniska aspekter, som att utveckla metoder för att skapa högkvalitativ syntetisk data som ersättning för autentisk data.
– Det kan hjälpa när känsliga personuppgifter är en utmaning, liksom för mindre språk där det finns en begränsad mängd data tillgänglig. Men det är inte en långsiktig ersättning för autentisk data. Modeller som huvudsakligen tränats på syntetiskt material riskerar att förlora kontakten med verkligheten. I Skandinavien har vi sett både värdet av syntetisk data för mindre språk och vikten av bra metadata och spårbarhet för att inte tappa kontakten med verkligheten.
Kring juridiken ser Danila Petrelli ett behov av standardiserade bedömningsmatriser för riskutvärderingar, metoder och processer för att hålla reda på träningsdatans ursprung, licensvillkor och metadata i olika former, samt EU-gemensamma, harmoniserade tolkningar av gällande regleringar.
– Jag tror också att det skulle hjälpa mycket om fler juridiska experter utbildades i de tekniska detaljerna kring hur stora språkmodeller tränas och används.
Hon ser också ett behov av skräddarsydda benchmarks utöver de mest använda som nya modeller utvärderas mot.
– Anledningen till att vi ser så många nya benchmarks är att språk i sig är komplext, varierat och ständigt föränderligt. Ingen enskild utvärdering kan fånga alla aspekter av prestanda. Varje språk, domän och användningsfall kräver sitt eget sätt att testa modeller. För stora språkmodeller behöver vi flera benchmarks eftersom vi bör mäta allt från hur de resonerar och faktamässig noggrannhet till kulturella och språkliga nyanser, säger Danila Petrelli.
Det som ytterst står på spel är Europas digitala suveränitet, säger hon, och det är därför detta arbete är så viktigt.
– I Europa bygger vi, men inte tillräckligt snabbt eller koordinerat för att säkra vårt oberoende. Vårt beroende av infrastruktur och modeller som utvecklas på andra platser ökar, och det är en konkret risk. Det begränsar vår förmåga att kontrollera system på våra villkor och att agera när problem uppstår. Det kopplar också till kompetens; om vi själva inte bygger och förstår dessa system, förlorar vi den expertis som behövs för att forma dem på ett ansvarsfullt sätt.
Relaterade artiklar