Multimodal språkmodell
Nu tar AI Swedens språkteam nästa stora steg genom att starta utvecklingen av Sveriges första stora multimodala språkmodell. Den nya modellen förväntas, precis som GPT-SW3, bli en viktig nationell resurs för Sverige.
Den nya modellen kommer att kunna hantera text, bild och ljud och därmed få en bred förmåga att lösa många olika typer av uppgifter, inklusive interaktion med externa verktyg som till exempel databaser och webbläsare. Dessutom kommer den att kunna generera både bilder och ljud.
Sedan arbetet med GPT-SW3 startade har frontlinjen för storskaliga språkmodeller flyttats, från att bara kunna hantera text till att kunna hantera flera olika modaliteter såsom bild, ljud och text.. Genom att utvecklingen av en multimodal modell nu startar fortsätter Sverige att befinna sig i framkanten av utvecklingen av detta område.
Fakta
Ambitionen är en modellfamilj där den största har minst 100 miljarder parametrar.
Alla modeller som utvecklas inom detta projekt planeras vara öppna och därmed nedladdningsbara och tillgängliga för modifiering, finjustering, forskning och kommersialisering.
Finansiering: Vinnova
Projektperiod: januari-oktober 2024
Under perioden samlar vi bland annat in träningsdata för modellen, samt utför experiment kring ny funktionalitet i modellen