AI Sweden har, tillsammans med tyska Fraunhofer IAIS, fått tillgång till en av de mest kraftfulla superdatorerna i Europa för att träna språkmodeller för EU:s samtliga språk. Projektet EuroLingua-GPT är det tredje stora EU-samarbetet kring språkmodeller där AI Sweden just nu deltar.
I ett nytt samarbete ska AI Sweden och Fraunhofer IAIS utveckla en serie öppna, stora flerspråkiga språkmodeller för 45 europeiska språk och dialekter, inklusive Europas alla 24 officiella språk. Projektet, som fått namnet EuroLingua-GPT, pågår ett år och ska resultera i en familj nya språkmodeller i storleksordningen 7 till 180 miljarder parametrar. Träningen startar i slutet av maj, och planen är att ha de första modellerna klara inom några månader.
Träningen kommer att ske på MareNostrum 5 i Barcelona, en av de kraftfullaste superdatorerna i Europa. MareNostrum 5, som är en del av Barcelona Supercomputing Center och EuroHPC, är finansierad av EU och beräkningskraften fördelas genom ett ansökningsförfarande där de projekt som bedöms ha störst potential antas.
Den “extreme scale access” som AI Sweden och Fraunhofer IAIS nu fått innebär 8,8 miljoner beräkningstimmar på ett datorkluster som totalt består av 4480 stycken H100-GPU:er från Nvidia.
– Den tilldelning som vi fått på MareNostrum 5 utgör en beräkningskapacitet som är avsevärt mycket större än vad som finns tillgängligt nationellt, Vi ser att både offentlig och privat sektor i EU frågar efter öppna, kraftfulla språkmodeller som är tränade för de europeiska språken. Det här är ett sätt att möta det behovet, säger Magnus Sahlgren.
EuroLingua-GPT är ett av tre stora pågående EU-projekt kring språkmodeller där AI Sweden är en av projektparterna. De två andra är TrustLLM och Deploy AI.
– Det här är ett kvitto på att NLU-teamet hos oss på AI Sweden är en av de ledande forskargrupperna inom språkteknologi i Europa. Det ger Sverige en unik möjlighet att både bidra till resten av Europa, men också i att skapa en attraktiv miljö i Sverige för att locka till oss de bästa talangerna och de viktigaste investeringarna, säger Mikael Ljungblom, Director Public Policy and International Relations, AI Sweden.
– Beräkningskapactieten för EuroLingua är en milstolpe – generativ AI 'Made in Europe' blir därmed en verklighet. Målet med vårt samarbete med AI Sweden är att träna en familj av stora språkmodeller från grunden, modeller som kommer att publiceras som öppen källkod. Jag är mycket glad att våra två organisationer samlar sin expertis för att uppnå detta, säger Dr. Joachim Köhler, Head of Department Netmedia vid Fraunhofer IAIS.
Fraunhofer IAIS och AI Swedens respektive NLU-team är två av Europas ledande miljöer för utveckling av stora språkmodeller.
Fraunhofer IAIS har utvecklat OpenGPT-X, medan AI Swedens NLU-team tillsammans med RISE och WASP WARA Media & Language utvecklat GPT-SW3 för de skandinaviska språken.