Hoppa till huvudinnehåll

Fyra nya språkmodeller från AI Sweden

måndag, maj 27, 2024

AI Sweden har släppt fyra nya språkmodeller. Alla fyra är anpassningar av befintliga, öppna modeller, och ett viktigt steg i linje med en ny strategi för AI Swedens språkteam.

– Framöver fokuserar vi på två olika spår. Det ena är ett mer långsiktigt, där europeiska samarbeten där flera ledande aktörer går samman och tränar stora modeller från grunden. Det andra är att göra snabba justeringar av öppna modeller som andra tränat för att möta specifika behov, säger Magnus Sahlgren, Head of Research, natural language understanding, på AI Sweden.

A picture of Magnus Sahlgren

Tillsammans med tyska Fraunhofer Intelligent Analysis and Information Systems (IAIS) har AI Sweden fått tillgång till MareNostrum 5, som är en del av EuroHPC, för att träna en ny familj med stora språkmodeller för 45 europeiska språk och dialekter. Det här är ett av tre stora EU-projekt där AI Swedens språkteam just nu deltar.

Photo: By courtesy of Barcelona Supercomputing Center - www.bsc.es

Bild: MareNostrum5, Barcelona Supercomputing Center

– Vårt samarbete med Fraunhofer IAIS  är ett exempel på det mer långsiktiga spåret för hur vi kommer att jobba, där syftet är att möta det behov av öppna och transparent tränade språkmodeller som vi och våra samarbetspartner ser hos både privat och offentlig sektor, säger Magnus Sahlgren. 

De fyra nya språkmodeller som nu finns på AI Swedens sida på HuggingFace är resultatet av det andra spåret i språkteamets strategi: Att snabbt kunna förse svenska organisationer med specialtränade varianter av öppna modeller som tränats av andra, som Meta och Mistral AI. 

– Vi har fått önskemål om det, bland annat från myndighetshåll. Att vi kan tillmötesgå det är möjligt tack vare det arbete vi tidigare gjort med bland annat GPT-SW3. Genom investeringen i GPT-SW3 har vi skaffat både kunskap och träningsdata för att kunna göra snabba anpassningar av modeller som andra släpper, säger Magnus Sahlgren.

De fyra modellerna har sina specifika inriktningar:

– Sammantaget speglar de här fyra modellerna i kombination med samarbetet med Fraunhofer vår ambition att främja utvecklandet av öppna modeller, och vår strävan att skapa modeller som inte bara är tekniskt avancerade utan också praktiskt anpassningsbara och relevanta för specifika svenska användningsområden, säger Magnus Sahlgren.

RoBERTA

RoBERTa-modellen är en vidareutveckling av Metas RoBERTa-large, och har tränats på Intels accelerator Gaudi. Som träningsmaterial har AI Swedens team använt the Nordic Pile, ett dataset som växte fram under arbetet med GPT-SW3. 

Trots sin relativt blygsamma storlek på 335 miljoner parametrar är RoBERTa en kraftfull modell som kan anpassas för specifika användningsområden som exempelvis sentimentanalys, namnigenkänning (på engelska named entity recognition, ofta förkortat NER), och semantisk sökning (till exempel som encoder-modell i ett RAG-system). 

AI Swedens svenska RoBERTa innehar i mitten av maj 2024 en topplacering på ScandEvals rankningssida för encoder-modeller.  

Tyr

Tyr är en innovativ modell inom det juridiska fältet och är den första i sitt slag för det svenska språket. Namnet kommer från den nordiska rättvisans gud Tyr, och är resultatet av en så kallad “model merging” av en svensk Mistral-modell med den engelska juridiska språkmodellen Saul

Sammanslagningen har resulterat i en modell som kan besvara grundläggande juridiska frågor på svenska, även om den ännu inte har tränats specifikt på den svenska lagstiftningen. 

Genom ytterligare finjusteringar har Tyr potentialen att erbjuda ännu mer precisa svar inom den svenska rättskontexten, vilket öppnar upp för AI-stödd juridisk rådgivning och systemanvändning. 

Översättning

Översättningsmodellen är baserad på GPT-SW3 och kan hantera översättningar mellan svenska-engelska samt engelska-svenska. Modellen har tränats på en DGX-maskin från Aixia baserat på översättningsdata som tagits fram hos AI Sweden. Störst nytta gör modellen i sammanhang där man behöver översätta stora mängder text. 

Llama 3

Den fjärde modellen som släppts är framtagen utifrån  Metas öppna språkmodell Llama 3. Med hjälp av träningsmaterialet Nordic Pile, som sammanställdes inför utvecklingen av GPT-SW3 har den 8 miljarder parametrar stora versionen av Llama 3 tränats att bli bättre på nordiska språk.

Om att använda dessa modeller

Alla modeller finns tillgängliga från AI Swedens modellbibliotek på HuggingFace. AI Sweden erbjuder ingen teknisk support. Precis som GPT-SW3 är det här modeller där eventuella guardrails och andra anpassningar för olika tillämpningar behöver göras av de organisationer som väljer att att bygga lösningar med modellerna. AI Sweden utfäster inga garantier för modellernas resultat och alla resultat ska granskas innan de används. Modellerna är inte menade att i sig själva användas som rådgivning eller att resultaten på annat sätt står självständigt. AI Sweden tar inte ansvar för att resultaten är fria från fel.

Du kanske också är intresserad av:

One of the supercomputors in the Barcelona Supercomputing Center
AI Sweden har, tillsammans med tyska Fraunhofer IAIS, fått tillgång till en av de mest kraftfulla...
an image of earth seen from space
Hur maximerar man värdet med AI på kort sikt? I sin keynote på AI Swedens event The Latest...
Scrabble tiles tumbling in the air, each spelling out the letters and symbols of GPT-SW3
Nu gör AI Sweden den första stora språkmodellen för de nordiska språken, GPT-SW3, fritt tillgänglig...