Pilotstudie för federativa språkmodeller på svenska
AI Sweden anslöt sig till Kungliga biblioteket och Scaleout Systems för en pilotstudie om federativt tränade språkmodeller. Detta var den första federativa, storskaliga modelleringen av artificiella neuronnätverk för språkförståelse i Sverige och ett av de första exemplen globalt. Den potentiella påverkan är betydande eftersom den skulle möjliggöra för fler aktörer att använda stora, befintliga datamängder utan att datan någonsin lämnar den punkt där den uppstod - vilket löser brådskande utmaningar kring datadelning och integritet. Pilotstudien kan också vara ett första, viktigt steg mot en gemensam skandinavisk språkmodell.
De digitala samlingarna på Kungliga biblioteket är de största och mest avancerade som finns för det svenska språket idag. De används för några av de mest framgångsrika arbetena med stora språkmodeller, inklusive den vida använda svenska språkmodellen KB-BERT. Denna pilotstudie gjorde det möjligt för Kungliga biblioteket att kombinera sina egna data med textresurser från andra nationella bibliotek. Som ett första steg kommer data från det norska nationalbiblioteket att inkluderas och därefter potentiellt utvidgas till Danmark och Finland samt de svenska universitetsbiblioteken. Dessutom kommer det att ge andra aktörer i Sverige möjlighet att träna och utvärdera stora språkmodeller.
Central träning av data kräver att stora mängder data överförs samtidigt som komplicerade tekniska och juridiska krav uppfylls. Till exempel är det svårt för Kungliga biblioteket att dela sina data utanför sin egen organisation. Federativt lärande tillåter algoritmer att skickas ut till platsen där datan uppstår för att träna datan där istället. Som ett resultat lämnar inte datan den ursprungliga platsen på biblioteket. Kunskap och insikter - istället för rådata - samlas centralt.
Projektet genomfördes under det första kvartalet 2021.
Partners: Kungliga bibloteket och Scaleout Systems