Teknisk optimering vid begränsade datamängder – ökad prestanda och effektivitet inom LLM-träning
Storskaliga språkmodeller (Large Language Models, LLM) kräver enorma mängder data. För språk som svenska är det svårt att hitta de rätta mängderna, och uppgiften blir svårare när man behöver filtrera och anpassa data för specifika ändamål. Skalning och prestanda är begränsade för mindre språk på grund av detta. En ambition hos AI Swedens forskare är att höja prestandan, kvaliteten och stabiliteten hos LLM:er genom systematiska förbättringar.
Felix Stollenwerk, PhD, är Senior Research Scientist på AI Sweden och har under 2025 medverkat i ett antal artiklar med våra europeiska partners som publicerats på prestigefyllda konferenser som ACL (Association for Computational Linguistics) och EMNLP (Empirical Methods in Natural Language Processing). I de här artiklarna ligger fokus på Stollenwerks arbete med effektivare datafiltrering och renare input, och att skapa robustare och mer balanserade ordrepresentationer (embeddings). Två skilda delar i träningsprocessen som förenas i ambitionen att skapa bättre och effektivare språkmodeller.
Felix Stollenwerk presenterar sin poster på konferensen ACL 2025.
Datafiltrering med tvärspråklig effekt
I ett tidigt skede i träningsprocessen samlar man in data till sin modell för att sedan filtrera det man samlat in till ett användbart dataset. I “Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models” beskriver forskningsgruppen bakom artikeln ett nytt sätt att filtrera data, som både leder till att större mängder kurerad data blir användbar, men artikeln lyfter också en tvärspråklig effekt som uppstår vid översättning av engelska till en rad andra språk.
Traditionell, regelbaserad datafiltrering inom LLM-träning riskerar att leda till att stora mängder data kasseras på grund av att processen inte kan ta hänsyn till för stora avvikelser från etablerade regler. Samtidigt är det särskilt svårt att överföra till mindre språk. Metoden JQL (Judging Quality Across Languages) adresserar detta genom nya sätt att rensa ut och behålla större mängder data av hög kvalitet även för mindre språk.
Istället för strikta regler använder JQL “LLM-as-a-judge” för att bearbeta stora volymer data med hjälp av en optimerad AI-modell – en innovativ metod inom området. Men steget innan är minst lika viktigt, där använde forskarna en så kallad “ground truth” genom mänskligt annoterad data. “Man behöver den mänskliga komponenten för att ha något att jämföra med. Det finns inga tekniska mätvärden för mänskligt omdöme, utan man får skapa en “ground truth” för att försäkra sig om att modellen gör ungefär samma sak som en människa,” förtydligar han. Genom att använda olika stora LLM-modeller (Gemma, Mistral och Llama) kunde forskarna jämföra vilka öppna modeller som gav bäst resultat.
En viktig sak att förstå är att kvalitet här definieras strikt tekniskt: data som leder till en bättre modell eller samma prestanda med mindre data. Denna effektivitetsvinst är avgörande. “Även om man hade obegränsat med data är det fortfarande jätteviktigt att inte träna på vilken data som helst, utan att nyttja datan med högst kvalitet optimalt. Det handlar om att vara effektiv – att träna modeller är kostsamt i compute, energi och rent ekonomiskt. Med högkvalitativ data behövs mindre compute och mindre energi för att träna samma modeller," förklarar Stollenwerk.
Hög datakvalitet kan vara svårt att definiera. JQL etablerar vilken data som kan anses vara av hög kvalitet med hjälp av människor som låter modeller lära sig diskriminera vad som är hög kvalitet baserat på annotering. Exempelvis behöll man sammanhängande text, men som kunde vara ofullständig eller ovidkommande därför att den innehöll nyckelbegrepp och var lämplig för till exempel utbildningssyfte. Även nya metoder utvecklades för förhållandet mellan skiljetecken och bokstäver, som genom regelbaserade heuristiska metoder kan klassas som skräp. Båda metoderna ledde till fler undantag och att en större mängd data kunde behållas.
Från stora språkmodeller till små annoterare
För att göra processen skalbar och kostnadseffektiv var nästa steg destillering. Expertisen hos de stora LLM-as-a-judges överfördes till betydligt mindre annoterare (byggda på Snowflake Arctic Embed v2.0) som utförde kvalitetsbedömningen väldigt effektivt – cirka 11 000 annoteringar per minut på en A100 GPU.
![]()
I grunden handlar det om att använda AI för att skilja mellan bra och dålig data. Genom att destillera de stora modellerna till mindre, snabbare verktyg får vi samma bedömningsförmåga, men till en bråkdel av kostnaden och energiförbrukningen.
![]()
Felix Stollenwerk
Senior Research Scientist på AI Sweden, PhD
En av de mest kritiska insikterna från forskningen med JQL är den robusta tvärspråkliga förmågan (cross-lingual effect). Genom att översätta en liten mängd engelsk, mänskligt annoterad data till 35 olika språk, kan de destillerade modellerna lära sig att bedöma kvalitet i data från vitt skilda språkfamiljer – även i zero-shot-scenarion med språk som thailändska, mandarin och arabiska. Det visar på att metoden är användbar även för språk där modellen saknar tillräckliga mängder data.
Redan med utvecklingen av GPT-SW3 konstaterade forskningsgruppen på AI Sweden att den tvärspråkliga effekten stärker språkmodellers robusthet och ger önskvärda förbättringar av modellens prestanda. Argumentet stärks ytterligare för att utveckla flerspråkiga modeller med denna forskning och går i linje med de EU-projekt som NLU teamet medverkar i. Fokus på att träna gemensamma filtreringsmodeller med andra språk utnyttjar maximalt den tvärspråkliga effekten och den begränsade datamängd som finns, vilket är en fördel för språk som svenska, med förhoppningen om att det även ska vara möjligt för minoritetsspråk som till exempel samiska och meänkieli.
Men förbättringar i prestanda uppnås inte enbart genom datakvalitet; en lika viktig del i arbetet med att höja LLM:ers effektivitet ligger i att optimera själva träningsprocessen.
Coupled Adam: För bättre ordrepresentationer
Ett problem med ordrepresentationer (embeddings) är anisotropi, där ord grupperar sig i ett begränsad del av den möjliga statistiska distributionen. Det kan leda till att man begränsar ordens semantiska användbarhet och modellens uttrycksförmåga. I artikeln “Better Embeddings with Coupled Adam” fokuserar Felix Stollenwerk, tillsammans med Tobias Stollenwerk, på att optimera träningsprocessen och lösa det här problemet. Genom en modifierad optimeringsalgoritm designad för att förbättra hur stora språkmodeller lär sig ordrepresentationer kallad Coupled Adam får modellen ett sätt att bibehålla språkets viktiga strukturella och semantiska delar.
Genom forskningen med Coupled Adam påvisar de grundorsaken till skevheten som finns i standardoptimiseraren Adam. Närmare bestämt sker denna förskjutning i algoritmens andra moment. Optimeringen i det här steget justeras hos varje parameter individuellt (normaliseras), vilket är effektivt för mindre förekommande ord (sparse data). Detta leder till konsekvensen att hela uppsättningen av ordrepresentationer kollektivt förskjuts bort från origo. Stollenwerks forskning med Coupled Adam visar på en möjlig justering som är enkel men kraftfull: den kopplar det andra momentet för alla ordrepresentationsvektorer via att nyttja ett genomsnitt av alla moment, vilket innebär att modellen får en mer balanserad fördelning av ordrepresentationerna.
Istället för att anpassa inlärningstakten specifikt för varje enskilt ord, använde Felix och Tobias ett gemensamt snittvärde så att alla ord behandlas mer lika. Man slipper problemet med att alla ord dras åt samma håll (vilket SGD (Stochastic Gradient Descent) är bra på), men behåller samtidigt Adams förmåga att lära sig snabbt och smart.
Resultaten visar att Coupled Adam skapar ordrepresentationer av betydligt högre kvalitet, vilket i sin tur har en positiv inverkan på både upströms- och nedströmsprestanda för LLM:er tränade på tillräckligt stora dataset, något som leder till att själva inlärningsprocessen och ordrepresentationerna blir mer robusta och effektiva.
Att effektivisera och förbättra språkmodeller
Trots att JQL och Coupled Adam är tekniskt åtskilda drivs de av samma ambition: att höja prestandan hos LLM:er genom systematiska förbättringar som är betydelsefulla både för lågresursspråk och för att förbättra språkmodellers kvalitet och robusthet på en generell nivå.
För forskare och utvecklare inom språkteknologi pekar dessa metoder på möjligheten till nya strategier för att utveckla framtidens LLM:er. De grundläggande komponenterna för att utveckla LLM:er, såsom stora mängder beräkningskapacitet och tillräckliga volymer data, kommer fortsatt vara viktiga, men genom att undersöka alternativ har Stollenwerk i sin forskning visat på att det finns mekanismer som ännu är outvecklade inom forskningsområdet för stora språkmodeller. I hans forskningsbidrag framkommer högre kvalitet på input (JQL) och mer robusta träningsprocesser (Coupled Adam) är möjliga att uppnå. Metoderna öppnar upp för att göra mer med mindre data, och det går även att hitta nya lösningar som i förlängningen ger mindre påverkan på miljön och mer kostnadseffektiva alternativ i form av noggrant genomtänkt arkitektur. Den här typen av forskning visar på de bidrag NLU teamet gör för att demokratisera LLM-utvecklingen för resurssvaga språk.
Relaterat innehåll
Vetenskapliga publikationer
Språkteknologier (NLU)