I början av december 2025 samlades världens främsta forskare inom artificiell intelligens (AI) och maskininlärning (ML) för konferensen Neural Information Processing Systems (NeurIPS). Konferensen är en av de mest prestigefyllda och inflytelserika inom området. Till 2025 års upplaga fick AI Sweden två forskningsartiklar antagna. Mauricio Muñoz, forskare vid AI Sweden, sammanfattar en konferens som präglas av fokus på förmågan att resonera, riskerna med modellkonvergens och en mognad inom AI-forskningen.
Mauricio Muñoz, Project Lead and Senior Research Engineer på AI Sweden.
NeurIPS 2025 kan bli första året som blir ihågkommet lika mycket för de artiklar som accepterades som för de som refuserades. För första gången i konferensens historia tvingade ”resursbrist” arrangörerna att tacka nej till 400 artiklar som granskarna tidigare hade markerat för godkännande.
Traditionellt har stereotypen kring NeurIPS (åtminstone för mig) vilat på två grunder: konferensen som en marknadsplats för talanger där rekryterare från industrin flockas, och som en grindvakt för betydelsefull, matematikintensiv och teoretisk AI-forskning.
Det är dock tydligt att konferensens identitet har utvecklats avsevärt över tid. Idag läggs ett särskilt fokus på tillämpningar, domänspecifika områden och tvärvetenskaplig AI inom exempelvis naturvetenskap, hälso- och sjukvård, samhällsfrågor och ekonometri.
Som väntat var effektivitet ett genomgående tema i huvudspåret. Det spände över ämnen från 3D-rekonstruktion inom robotik till ”LLMOps” (hantering av stora språkmodeller, såsom träning, inferens och resonemang). Konferensen fortsätter därmed att återspegla verkligheten: AI:s framkant handlar numera lika mycket om ingenjörskonst och värdeskapande i praktiska användarfall som om grundforskning.
AI Swedens egna bidrag vid NeurIPS speglar detta skifte mot praktisk forskning. Under konferensen presenterade vi studier om hur man kan träna modeller på finansiella transaktioner och nätverksdata utan att kompromissa med integriteten, tillsammans med arbete kring profilering av läckage av känsliga data i inferensattacker mot toppmoderna modeller.
Skärmdump från sida som visar en visualisering av kluster för NeurIPS 2025-artiklar kategoriserade efter forskningsämnen.
Denna graf ger en övergripande bild av de viktigaste fokusområdena under NeurIPS 2025. Tydliga kluster framträder kring ämnen som utvärdering av stora språkmodeller (LLM), benchmarking och utveckling av generella förmågor (resonerande, RAG [Retrieval-Augmented Generation], kodning och agentiska funktioner). Andra centrala områden är multimodala modeller, diffusionsmodeller, förstärkningsinlärning (reinforcement learning, eller RL), kausal inferens, inlärningsteori, grafneurala nätverk och effektivitetsfokuserad ”LLMOps” – allt i kontexten av storskaliga inlärningssystem.
Dessa kluster representerar kärnan i vad forskarsamhället arbetar med just nu, vilket återspeglas tydligt i valen av konferensens bästa artiklar (Best Papers).
Här är mina personliga observationer:
Resonemangsförmåga (reasoning capabilities) står i centrum. 2025 blev utan tvekan året då fokus skiftade från skalning vid träning (train-time scaling) till skalning vid användning (test-time scaling). Även om viss forskning visade på begränsningar med RLVR (förstärkningsinlärning från verifierbara belöningar), motverkades den bilden av praktiska genombrott. Ett exempel är GPT-5.2, som passerade 50-procentströskeln på ARG-AGI-2-benchmarken – en milstolpe för branschen. På samma sätt visade en annan prisbelönt artikel att modelldjup är en avgörande faktor för att använda förstärkningsinlärning för att uppnå nya förmågor. Sammanfattningsvis är resonerande (och särskilt effektivt resonerande) troligen den viktigaste frågan för forskarsamhället just nu och för en överskådlig framtid.
Algoritmisk ensidighet och konsekvenser av enformighet. Effekterna av gränslös skalning och tillgängliga anpassningsmetoder börjar bli verkligt märkbara. En prisbelönt artikel visade att språkmodeller tenderar att producera homogena svar, både individuellt och kollektivt, på ett sätt som människor inte gör. Risken är uppenbar: om vi fortsätter att anpassa modeller som vi gör nu, riskerar vi att sluta med verktyg som drabbas av ”(algorithmic) mode collapse” och som i förlängningen även likriktar det mänskliga tänkandet. Dessa tankar går i linje med kritiken om att träningsdata från internet redan är uttömda och att skillnaderna mellan modeller främst beror på datafiltrering och anpassningsmetoder (alignment) efter träningen. Det är anmärkningsvärt att detta inte är en djupt teknisk artikel, utan snarare en principiell studie som bidrar med viktiga observationer från ett mer övergripande perspektiv.
AI-forskningen mognar. Robusthet och operativ effektivitet håller forskningen kring modellarkitektur vid liv. Att bevisa att metoder fungerar i stor skala har blivit vardagsmat. Exempelvis lyckades artikeln om ”Gated Attention” avsevärt öka träningens robusthet och effektivitet genom att bearbeta över 3,5 biljoner tokens. De löste ett mekaniskt fel i den vanliga Transformer-arkitekturen med en fix som påminner om äldre RNN-modeller (Recurrent Neural Networks). Det är talande att utmärkelsen i detta fall gick till en ”tråkig” ingenjörslösning. Alibabas Qwen-team uppfann inte ett nytt paradigm; de lagade helt “enkelt” en läckande ventil i attention-mekanismen. Det är ett tecken på mognad som visar att 1) praktiska överväganden är viktiga, och 2) de ofta kan lösas med relativt enkla medel. Kraven på empiriska bevis är dock fortfarande så höga att det ibland kan bli problematiskt för den akademiska världen att hålla jämna steg.
Min slutsats från de inbjudna talarna är att de representerar ett välkommet skifte från fokus på enbart skalning. Talen fungerade snarare som en introspektiv reflektion över faktiskt värde och huruvida ”AI-skeppet” över huvud taget styrs i rätt riktning.
Mina personliga höjdpunkter: Richard Sutton (mottagare av Turingpriset 2024) betonar kontinuerlig inlärning som nyckeln till nästa stora steg. Både Yejin Choi och Melanie Mitchell fokuserar på centrala kognitiva ämnen och lyfter tankar som påminner om Moravecs paradox eller ”AI:s oregelbundna frontlinje” (The Jagged Frontier). Detta blir alltmer relevant när modellernas förmågor ökar.
Personligen tror jag att dessa punkter, sedda i ljuset av konferensens huvudområden, ger oss en fingervisning om framtiden: en tydlig satsning på anpassningsförmåga ”i stunden”, där modellens vikter inte bara kodar kunskap utan även förmågan att över huvud taget inhämta den kunskapen. Kontinuerlig inlärning är troligen en avgörande pusselbit som ger nytt sammanhang till frågor om robusthet och inlärningsdynamik – det är också mitt tips för nästa område att skala upp. Självövervakad förstärkningsinlärning (self-supervised RL) är en annan del av framtidspusslet. Något jag fortfarande saknar i årets breda utbud är metoder relaterade till exempelvis hierarkiska minnesmekanismer som går bortom kontextfönster och RAG (Retrieval-Augmented Generation).
Vi kommer sannolikt att fortsätta kämpa med att utveckla och lita på rätt benchmarks och grundläggande metoder för att mäta modellernas kognitiva prestation. När förmågorna ökar, ökar också risken att vi felbedömer den ”oregelbundna frontlinjen” och tror att framstegen är mer linjära än de är. Det tyder på att AI-säkerhet numera handlar lika mycket om tillämpningen som om den underliggande tekniska forskningen. Detta är en punkt jag själv betonat i mitt arbete under de senaste tre åren, och jag är nöjd med att se den representerad i årets diskussioner vid NeurIPS.
NeurIPS 2026 kommer utan tvekan att bli ännu större, och växtvärken – både logistiskt och tekniskt – lär kvarstå. Men i takt med att fältet svänger från att ”träna större” till att ”tänka längre”, förändras också definitionen av framsteg. Jag ser särskilt fram emot att se var vi landar i den ännu olösta frågan om resonerande, och hur stor roll detta faktiskt kommer att spela för modellernas fortsatta prestanda. Fram till dess fortsätter vi att hålla koll på resultattavlorna.
Relaterade artiklar