SuperLim
SuperLim-projektet utgör en svensk version av den engelska benchmarkingplattformen (Super)GLUE. Den första versionen av ett utvärderingsramverk för svenska språkmodeller har nu släppts med en uppsättning uppgifter för språkförståelse. Att kunna utvärdera modellerna inom parametrar som prestanda och bias är avgörande för att möjliggöra NLP-applikationer mer allmänt.
Presentation av SuperLIM-projektet
Hör presentationen av Aleksandrs Berdicevskis, Göteborgs universitet, på workshoppen 'Applied Swedish NLP' vid SLTC, i november 2020.
Syfte
SuperLim-projektet utgör grunden för en nationell testbädd för svenska språkmodeller genom att skapa en svensk version av (Super)GLUE. Genom att tillhandahålla en standardiserad samling av benchmarkingtester för svenska språkmodeller, stöder samarbetet det nationella ansvaret att underlätta utvecklingen av pålitliga och robusta NLP-applikationer.
Benchmarkingtesterna utgör ett väsentligt steg i möjliggörandet av implementeringen av kvalitativa NLP-applikationer i stor skala i Sverige. Överförbarheten av resultaten från pågående initiativ och projekt beror i stor utsträckning på en sådan infrastruktur.
Projektets mål
Målet med projektet är att börja skapa ett nationellt utvärderingsramverk. Projektet består av datainsamling samt annotering av data.
Resultat
Hitta förhandsversionen av SuperLim på Språkbanken.
Bakgrund
Målet är att möjliggöra tillämpade lösningar med NLP på en bred, nationell nivå. Svensk Natural Language Processing (NLP) genomgår nu en omvandlande genombrott med utvecklingen av storskaliga svenska språkmodeller. De pågående initiativen för att göra svenska språkmodeller tillgängliga, och för att öka tillgängligheten till svenska språkdata, är viktiga steg mot detta mål.
Varje företag, universitet och offentlig myndighet kommer att kunna dra nytta av detta grundarbete när de tillämpar modeller som specifikt tränats för uppdrag som identifierats inom sin egen organisation. Detta kommer att ha en positiv inverkan på effektiviteten i många olika typer av yrken. Till exempel kan vårdpersonal fokusera på att ge vård istället för administration.
En förutsättning för att uppnå detta är att ha ett gemensamt sätt att beskriva kvaliteten på språkmodellerna och hur de fungerar. När man utvecklar eller implementerar applikationer som är baserade på svenska språkmodeller, är det av stor vikt att kunna förstå kvaliteterna hos både de underliggande algoritmerna samt applikationen själv. Prestandan för en språkmodell handlar inte bara om hur väl den har tränats för att förstå och utföra sin angivna uppgift. De data den tränas på och hur det påverkar modellen är minst lika viktigt för vår förståelse av de resultat vi får när vi tillämpar modellerna.
För att öka förklarbarheten hos språkmodeller och vad de faktiskt gör, finns det standardiserade benchmarkingtester för att beskriva en rad kvaliteter hos språkmodeller som finns i samlingarna GLUE/SuperGLUE. GLUE - General Language Understanding Evaluation - är en uppsättning av uppgifter för språkförståelse, som möjliggör utvärdering av språkmodeller med avseende på både prestanda och bias. Semantisk likhet, inneboende bias och fördomar, och ord i kontext är exempel på tester som kan hittas på plattformen. Men dessa tester är inte anpassade för svenska språkmodeller.
Fakta
Projektet är ett samarbete mellan Språkbanken Text vid Göteborgs universitet, Kungliga bibloteket, RISE och AI Sweden. Representanter från akademin, offentlig och privat sektor utgör referensgruppen. Projektet finansieras av Vinnova.
Projektperiod
SuperLim: 2020-09-01 - 2021-11-31
SuperLim 2.0: 2021-12-01 - 2022-12-31