Modeller & Resurser
AI Swedens strategi för stora språkmodeller följer två parallella vägar: Samarbeta med andra ledande europeiska organisationer för att utveckla storskaliga öppna modeller från grunden. Samt att snabbt finjustera befintliga öppna modeller för att möta specifika applikationsbehov hos svenska organisationer.
Modeller
Vi är glada att kunna berätta att alla våra modeller finns i AI Swedens modellbibliotek på HuggingFace! Vi välkomnar dig att utforska och upptäcka de modeller vi har utvecklat. Ta en stund för att lära dig mer om var och en nedan. Håll även utkik efter fler modeller som vi kommer att släppa framöver.
Llama 3-8B Instruct
Från den tidigare AI-Sweden-Models/Llama-3-8B har NLU teamet tagit fram modellen, Llama 3-8B Instruct. Den stora skillnaden mellan den föregående modellen och den här är att Instruct-modellen kan följa instruktioner och föra en dialog med användaren. Modellen har placerat sig högt på ScandEvals lista över svenska modeller och är trots sin storlek i klass med Chat-GPT 4.
Modellen har tränats på superdatorn LUMI i Finland, vilken är en av de snabbaste superdatorerna i världen. Tillgången till superdatorn kommer från det EU-finansierade projektet DeployAI, där AI Swedens roll är att experimentera med och validera tjänster för stora språkmodeller.
Träningen har tagit 1.5 epok och gjorts på 8 st noder - motsvarande en komplett tidvattencykel eller 12 timmar. Datasetet är framtaget av 42labs som är AI Sweden community-medlemmar.
Versioner:
https://huggingface.co/AI-Sweden-Models/Llama-3-8B-instruct
https://huggingface.co/AI-Sweden-Models/Llama-3-8B-instruct-bf16-gguf
https://huggingface.co/AI-Sweden-Models/Llama-3-8B-instruct-q8-gguf
https://huggingface.co/AI-Sweden-Models/Llama-3-8B-instruct-Q4_K_M-gguf
https://huggingface.co/AI-Sweden-Models/Llama-3-8B-instruct-Q3_K_M-gguf
Llama 3
Denna modell är framtagen utifrån Metas öppna språkmodell Llama 3. Med hjälp av träningsmaterialet Nordic Pile, som sammanställdes inför utvecklingen av GPT-SW3 har den 8 miljarder parametrar stora versionen av Llama 3 tränats att bli bättre på nordiska språk.
Översättning
Översättningsmodellen är baserad på GPT-SW3 och kan hantera översättningar mellan svenska-engelska samt engelska-svenska. Modellen har tränats på en DGX-maskin från Aixia baserat på översättningsdata som tagits fram hos AI Sweden. Störst nytta gör modellen i sammanhang där man behöver översätta stora mängder text.
Tyr
Tyr är en innovativ modell inom det juridiska fältet och är den första i sitt slag för det svenska språket. Namnet kommer från den nordiska rättvisans gud Tyr, och är resultatet av en så kallad “model merging” av en svensk Mistral-modell med den engelska juridiska språkmodellen Saul.
Sammanslagningen har resulterat i en modell som kan besvara grundläggande juridiska frågor på svenska, även om den ännu inte har tränats specifikt på den svenska lagstiftningen.
Genom ytterligare finjusteringar har Tyr potentialen att erbjuda ännu mer precisa svar inom den svenska rättskontexten, vilket öppnar upp för AI-stödd juridisk rådgivning och systemanvändning.
RoBERTa
RoBERTa-modellen är en vidareutveckling av Metas RoBERTa-large, och har tränats på Intels accelerator Gaudi. Som träningsmaterial har AI Swedens team använt the Nordic Pile, ett dataset som växte fram under arbetet med GPT-SW3.
Trots sin relativt blygsamma storlek på 335 miljoner parametrar är RoBERTa en kraftfull modell som kan anpassas för specifika användningsområden som exempelvis sentimentanalys, namnigenkänning (på engelska named entity recognition, ofta förkortat NER), och semantisk sökning (till exempel som encoder-modell i ett RAG-system).
AI Swedens svenska RoBERTa innehar i mitten av maj 2024 en topplacering på ScandEvals rankningssida för encoder-modeller.
Om att använda dessa modeller
Alla modeller finns tillgängliga från AI Swedens modellbibliotek på HuggingFace. AI Sweden erbjuder ingen teknisk support. Detta är modeller där eventuella guardrails och andra anpassningar för olika tillämpningar behöver göras av de organisationer som väljer att att bygga lösningar med modellerna. AI Sweden utfäster inga garantier för modellernas resultat och alla resultat ska granskas innan de används. Modellerna är inte menade att i sig själva användas som rådgivning eller att resultaten på annat sätt står självständigt. AI Sweden tar inte ansvar för att resultaten är fria från fel.
Fler Resurser
Handbook för prompting
Med denna handbok vill vi ge en övergripande förklaring av vad en språkmodell är och demonstrera teknikens stora potential. Handboken kan användas som ett verktyg för att framgångsrikt skapa promtar på egen hand och utveckla och förbättra specifika applikationer. Handboken är under arbete och kommer att uppdateras under loppet av GPT-SWE valideringsprojektet.
NLP-seminarieserie
Seminariumserien om NLP var ett forum för personer som arbetar med eller är intresserade av bearbetning av naturligt språk (NLP) och språkteknologier. Seminarierna organiserades av RISE NLP-grupp och AI Sweden.
Vi har för närvarande inga inplanerade tillfällen, men kika gärna på tidigare inspelningar på vår YouTube-kanal.
Statusuppdatering: Region Halland om valideringsprojekt för GPT-SW3: GPT-SW3-tillämpningar inom sjukvården
Presentation vid referensgruppsmötet “Offentlig sektor och tillämpad språkteknologi” på AI Sweden
Niclas Hertzberg & Anna Lokrantz (AI Sweden & Region Halland)
Juni 8, 2023
Framtidens Digitala Assistent för Offentlig Sektor
Presentation vid referensgruppsmötet “Offentlig sektor och tillämpad språkteknologi” på AI Sweden
Jonatan Permert, AI Sweden
Juni 8, 2023
Utbildningsmaterial för Interdisciplinary Expert Pool för NLU
Detta utbildningsmaterial grundläggande resurser för alla som vill få kunskap om stora språkmodeller, med särskilt fokus på de etiska aspekterna av tekniken. Materialet är inriktat på både en teknisk och en icke-teknisk publik. Det består av både grundläggande och mer avancerade resurser i form av läsningar, poddar, öppna kurser, videor och böcker.
Materialet finns tillgängligt på MyAI. Skapa ett gratis konto för att få tillgång till materialet.
Alternativt finns materialet tillgängligt som en presentation i länken nedan.
Denna lista har sammanställts för Interdisciplinary Expert Pool for NLU-projektet.
Statusuppdatering: Data Readiness Lab, Juni 2022
Presentation vid referensgruppsmötet "Offentlig sektor och tillämpad språkteknologi" på AI Sweden
Felix Stollenwerk, AI Sweden
Juni 8, 2022
Statusuppdatering: Språkmodeller för svenska myndigheter, Juni 2022
Presentation vid referensgruppsmötet "Offentlig sektor och tillämpad språkteknologi" på AI Sweden
Magnus Sahlgren, AI Sweden
Juni 8, 2022