Hoppa till huvudinnehåll

AI Sweden och tyska Fraunhofer IAIS ska utveckla språkmodeller för hela Europa

torsdag, maj 16, 2024

AI Sweden har, tillsammans med tyska Fraunhofer IAIS, fått tillgång till en av de mest kraftfulla superdatorerna i Europa för att träna språkmodeller för EU:s samtliga språk. Projektet EuroLingua-GPT är det tredje stora EU-samarbetet kring språkmodeller där AI Sweden just nu deltar.

One of the supercomputors in the Barcelona Supercomputing Center

Foto: En av superdatorerna, Med tillstånd av Barcelona Supercomputing Center - www.bsc.es

Det här är en unik möjlighet för AI Sweden att vara med och bidra till att stärka europeisk och svensk konkurrenskraft och digital suveränitet genom utvecklandet av en kraftfull och öppen europeisk språkmodell.

Magnus Sahlgren, Head of Research, NLU, på AI Sweden.

I ett nytt samarbete ska AI Sweden och Fraunhofer IAIS utveckla en serie öppna, stora flerspråkiga språkmodeller för 45 europeiska språk och dialekter, inklusive Europas alla 24 officiella språk. Projektet, som fått namnet EuroLingua-GPT, pågår ett år och ska resultera i en familj nya språkmodeller i storleksordningen 7 till 180 miljarder parametrar. Träningen startar i slutet av maj, och planen är att ha de första modellerna klara inom några månader. 

Träningen kommer att ske på MareNostrum 5 i Barcelona, en av de kraftfullaste superdatorerna i Europa. MareNostrum 5, som är en del av Barcelona Supercomputing Center och EuroHPC, är finansierad av EU och beräkningskraften fördelas genom ett ansökningsförfarande där de projekt som bedöms ha störst potential antas.

Photo: By courtesy of Barcelona Supercomputing Center - www.bsc.es

Bilder: MareNostrum5, Barcelona Supercomputing Center

Photo: By courtesy of Barcelona Supercomputing Center - www.bsc.es

Den “extreme scale access” som AI Sweden och Fraunhofer IAIS nu fått innebär 8,8 miljoner beräkningstimmar på ett datorkluster som totalt består av 4480 stycken H100-GPU:er från Nvidia.  

– Den tilldelning som vi fått på MareNostrum 5 utgör en beräkningskapacitet som är avsevärt mycket större än vad som finns tillgängligt nationellt, Vi ser att både offentlig och privat sektor i EU frågar efter öppna, kraftfulla språkmodeller som är tränade för de europeiska språken. Det här är ett sätt att möta det behovet, säger Magnus Sahlgren.

Ett av tre stora EU-projekt där AI Swedens språkteam deltar

EuroLingua-GPT är ett av tre stora pågående EU-projekt kring språkmodeller där AI Sweden är en av projektparterna. De två andra är TrustLLM och Deploy AI.

– Det här är ett kvitto på att NLU-teamet hos oss på AI Sweden är en av de ledande forskargrupperna inom språkteknologi i Europa. Det ger Sverige en unik möjlighet att både bidra till resten av Europa, men också i att skapa en attraktiv miljö i Sverige för att locka till oss de bästa talangerna och de viktigaste investeringarna, säger Mikael Ljungblom, Director Public Policy and International Relations, AI Sweden.  

– Beräkningskapactieten för EuroLingua är en milstolpe – generativ AI 'Made in Europe' blir därmed en verklighet. Målet med vårt samarbete med AI Sweden är att träna en familj av stora språkmodeller från grunden, modeller som kommer att publiceras som öppen källkod. Jag är mycket glad att våra två organisationer samlar sin expertis för att uppnå detta, säger Dr. Joachim Köhler, Head of Department Netmedia vid Fraunhofer IAIS.

Bakgrund

Fraunhofer IAIS och AI Swedens respektive NLU-team är två av Europas ledande miljöer för utveckling av stora språkmodeller. 

Fraunhofer IAIS har utvecklat OpenGPT-X, medan AI Swedens NLU-team tillsammans med RISE och WASP WARA Media & Language utvecklat GPT-SW3 för de skandinaviska språken.

För mer information, kontakta

A picture of Magnus Sahlgren
Magnus Sahlgren
Head of Research, NLU
+46 (0)76-315 34 80

Du kanske också är intresserad av:

A picture of Magnus Sahlgren and text: New from NLU: RoBERTa, Tyr, Translation model, Adaption of Meta's Llama 3
AI Sweden har släppt fyra nya språkmodeller. Alla fyra är anpassningar av befintliga, öppna modeller...
Scrabble tiles tumbling in the air, each spelling out the letters and symbols of GPT-SW3
Nu gör AI Sweden den första stora språkmodellen för de nordiska språken, GPT-SW3, fritt tillgänglig...