Hoppa till huvudinnehåll

Svenska Språkdata Labbet

En genomtänkt grund för Naturlig Språkbehandling (NLP) är en av hörnstenarna för framgångsrika AI-applikationer. NLP är ett av AI Swedens strategiska områden, och Svenska Språkdata Labbet var det första initierade NLP-projektet.

Uppdatering från Svenska Språkdata Labbet

Projektportföljchefen Johanna Bergman, berättar om projektstatusen för Svenska Språkdata Labbet, September 2020

Bakgrund

Naturlig Språkbehandling (NLP) erbjuder möjligheten att utveckla metoder, verktyg och applikationer som är baserade på maskinläsning av det mänskliga språket. NLP gör data mer tillgängligt för oss i många olika sammanhang. Dessa NLP-baserade applikationer kan hjälpa oss att utvinna relevant information baserat på sammanhanget, genom att göra sammanfattningar, simuleringar, tolkningar och mycket mer från stora mängder språkdata.

Algoritmerna som utgör grunden för dessa applikationer kallas språkmodeller. Utvecklingen av svensk-specifika språkmodeller beror till stor del på data som är specifikt skrivet (eller talat) på svenska. Svenska är ett litet språk och globala aktörer har sällan något intresse av att producera annoterade datauppsättningar för svenska. Utvecklingen av språkmodeller på svenska är viktig för att upprätthålla språklig mångfald och främja innovation inom området NLP i Sverige, vilket kommer att gynna en mängd organisationer inom akademiska världen, industrin och den offentliga sektorn.

Syfte

Svenska Språkdata Labbet är ett projekt finansierat av Vinnova och koordinerat av AI Sweden. Det är ett utforskande projekt, baserat på samarbete mellan ledande aktörer inom NLP och intressenter från offentlig sektor och akademi. Syftet med projektet är att samla kunskap och utmaningar med några av de viktiga stegen i NLP-implementeringsprocessen - från att identifiera behoven till att utvärdera utbildade språkmodeller. Arbetet är uppdelat i flera områden med följande mål:

  • Utveckla och tillgängliggöra utbildade svenska språkmodeller; en NER-modell och två sentimentanalysmodeller.
  • Skapa ett tekniskt, lagligt och etiskt ramverk för bearbetning och underlättande av tillgänglighet till svenska språkdatauppsättningar.
  • Analysera text och modeller ur perspektivet av talad dialog.
  • Utföra kravanalys och datainsamling i den offentliga sektorn.
  • Genomföra förstudier för NLP specifikt utvecklat för medicinska och juridiska domäner.
  • Utveckla en plattform för att utbilda modeller utan att se de faktiska datat.

Projektets mål

Det övergripande målet med projektet är att skapa en nationell kunskapsnod inom NLP som kommer att accelerera innovation, forskning och applikationer inom detta område. Projektet ingår i Vinnovas “Data-driven innovation” finansieringsprogram med syftet att "öka kompetensnivå inom återanvändning av data i innovationer i Sverige".

Fakta

Projektet koordineras av AI Sweden. Recorded FutureGavagai, och Talkamatic tillhandahåller språkteknisk expertis, medan Språkbanken, språkforskningsenheten vid Göteborgs unversitet, och Sveriges Kommuner och Regioner (SKR) är intressenter och ägare av data. En mängd andra intressenter stödjer också projektet genom att tillhandahålla stödbrev och delta i referensgruppen.

Projektperiod: juni 2019 - maj 2021

 

 

Läs mer

An open book with text
Förståelse av Natural Language Understanding (NLU) kommer att vara nyckeln till att fullt ut...

Contact

Picture of Francisca Hoyer
Francisca Hoyer
Head of Responsible AI and Operations NLU, PhD (Parental leave)
+46 (0)70-787 23 01