Hoppa till huvudinnehåll

Modeller & Resurser

AI Swedens strategi för stora språkmodeller följer två parallella vägar: Samarbeta med andra ledande europeiska organisationer för att utveckla storskaliga öppna modeller från grunden. Samt att snabbt finjustera befintliga öppna modeller för att möta specifika applikationsbehov hos svenska organisationer.

Modeller

Vi är glada att kunna berätta att alla våra modeller finns i AI Swedens modellbibliotek på HuggingFace! Vi välkomnar dig att utforska och upptäcka de modeller vi har utvecklat. Ta en stund för att lära dig mer om var och en nedan. Håll även utkik efter fler modeller som vi kommer att släppa framöver.

Llama 3-8B Instruct

Från den tidigare AI-Sweden-Models/Llama-3-8B har NLU teamet tagit fram modellen, Llama 3-8B Instruct. Den stora skillnaden mellan den föregående modellen och den här är att Instruct-modellen kan följa instruktioner och föra en dialog med användaren. Modellen har placerat sig högt på ScandEvals lista över svenska modeller och är trots sin storlek i klass med Chat-GPT 4.

Modellen har tränats på superdatorn LUMI i Finland, vilken är en av de snabbaste superdatorerna i världen. Tillgången till superdatorn kommer från det EU-finansierade projektet DeployAI, där AI Swedens roll är att experimentera med och validera tjänster för stora språkmodeller. 

Träningen har tagit 1.5 epok och gjorts på 8 st noder - motsvarande en komplett tidvattencykel eller 12 timmar. Datasetet är framtaget av 42labs som är AI Sweden community-medlemmar. 

Versioner:

https://huggingface.co/AI-Sweden-Models/Llama-3-8B-instruct

https://huggingface.co/AI-Sweden-Models/Llama-3-8B-instruct-bf16-gguf

https://huggingface.co/AI-Sweden-Models/Llama-3-8B-instruct-q8-gguf

https://huggingface.co/AI-Sweden-Models/Llama-3-8B-instruct-Q4_K_M-gguf

https://huggingface.co/AI-Sweden-Models/Llama-3-8B-instruct-Q3_K_M-gguf

Llama 3

Denna modell är framtagen utifrån Metas öppna språkmodell Llama 3. Med hjälp av träningsmaterialet Nordic Pile, som sammanställdes inför utvecklingen av GPT-SW3 har den 8 miljarder parametrar stora versionen av Llama 3 tränats att bli bättre på nordiska språk.

Översättning

Översättningsmodellen är baserad på GPT-SW3 och kan hantera översättningar mellan svenska-engelska samt engelska-svenska. Modellen har tränats på en DGX-maskin från Aixia baserat på översättningsdata som tagits fram hos AI Sweden. Störst nytta gör modellen i sammanhang där man behöver översätta stora mängder text. 

Tyr

Tyr är en innovativ modell inom det juridiska fältet och är den första i sitt slag för det svenska språket. Namnet kommer från den nordiska rättvisans gud Tyr, och är resultatet av en så kallad “model merging” av en svensk Mistral-modell med den engelska juridiska språkmodellen Saul

Sammanslagningen har resulterat i en modell som kan besvara grundläggande juridiska frågor på svenska, även om den ännu inte har tränats specifikt på den svenska lagstiftningen. 

Genom ytterligare finjusteringar har Tyr potentialen att erbjuda ännu mer precisa svar inom den svenska rättskontexten, vilket öppnar upp för AI-stödd juridisk rådgivning och systemanvändning. 

RoBERTa

RoBERTa-modellen är en vidareutveckling av Metas RoBERTa-large, och har tränats på Intels accelerator Gaudi. Som träningsmaterial har AI Swedens team använt the Nordic Pile, ett dataset som växte fram under arbetet med GPT-SW3. 

Trots sin relativt blygsamma storlek på 335 miljoner parametrar är RoBERTa en kraftfull modell som kan anpassas för specifika användningsområden som exempelvis sentimentanalys, namnigenkänning (på engelska named entity recognition, ofta förkortat NER), och semantisk sökning (till exempel som encoder-modell i ett RAG-system). 

AI Swedens svenska RoBERTa innehar i mitten av maj 2024 en topplacering på ScandEvals rankningssida för encoder-modeller.  

Scrabble tiles falling and spelling out GPT-SW3
 

GPT-SW3

AI Sweden har tillsammans med RISE och WASP WARA Media & Language utvecklat en storskalig generativ språkmodell för de nordiska språken, främst svenska.

Om att använda dessa modeller

Alla modeller finns tillgängliga från AI Swedens modellbibliotek på HuggingFace. AI Sweden erbjuder ingen teknisk support. Detta är modeller där eventuella guardrails och andra anpassningar för olika tillämpningar behöver göras av de organisationer som väljer att att bygga lösningar med modellerna. AI Sweden utfäster inga garantier för modellernas resultat och alla resultat ska granskas innan de används. Modellerna är inte menade att i sig själva användas som rådgivning eller att resultaten på annat sätt står självständigt. AI Sweden tar inte ansvar för att resultaten är fria från fel.

Fler Resurser

Handbook för prompting

Med denna handbok vill vi ge en övergripande förklaring av vad en språkmodell är och demonstrera teknikens stora potential. Handboken kan användas som ett verktyg för att framgångsrikt skapa promtar på egen hand och utveckla och förbättra specifika applikationer. Handboken är under arbete och kommer att uppdateras under loppet av GPT-SWE valideringsprojektet.

NLP-seminarieserie

Seminariumserien om NLP var ett forum för personer som arbetar med eller är intresserade av bearbetning av naturligt språk (NLP) och språkteknologier. Seminarierna organiserades av RISE NLP-grupp och AI Sweden.

Vi har för närvarande inga inplanerade tillfällen, men kika gärna på tidigare inspelningar på vår YouTube-kanal.

Statusuppdatering: Region Halland om valideringsprojekt för GPT-SW3: GPT-SW3-tillämpningar inom sjukvården

Presentation vid referensgruppsmötet “Offentlig sektor och tillämpad språkteknologi” på AI Sweden
Niclas Hertzberg & Anna Lokrantz (AI Sweden & Region Halland)

Juni 8, 2023

Framtidens Digitala Assistent för Offentlig Sektor

Presentation vid referensgruppsmötet “Offentlig sektor och tillämpad språkteknologi” på AI Sweden
Jonatan Permert, AI Sweden

Juni 8, 2023

Utbildningsmaterial för Interdisciplinary Expert Pool för NLU

Detta utbildningsmaterial grundläggande resurser för alla som vill få kunskap om stora språkmodeller, med särskilt fokus på de etiska aspekterna av tekniken. Materialet är inriktat på både en teknisk och en icke-teknisk publik. Det består av både grundläggande och mer avancerade resurser i form av läsningar, poddar, öppna kurser, videor och böcker.

Materialet finns tillgängligt på MyAI. Skapa ett gratis konto för att få tillgång till materialet.

Alternativt finns materialet tillgängligt som en presentation i länken nedan.

Denna lista har sammanställts för Interdisciplinary Expert Pool for NLU-projektet.

Statusuppdatering: Data Readiness Lab, Juni 2022

Presentation vid referensgruppsmötet "Offentlig sektor och tillämpad språkteknologi" på AI Sweden
Felix Stollenwerk, AI Sweden

Juni 8, 2022

Statusuppdatering: Språkmodeller för svenska myndigheter, Juni 2022

Presentation vid referensgruppsmötet "Offentlig sektor och tillämpad språkteknologi" på AI Sweden
Magnus Sahlgren, AI Sweden

Juni 8, 2022