AI må lære hvor ting er

Moderne multimodale modeller er gode til å se bilder og forklare dem. Men en robot eller skjermagent trenger mer enn beskrivelse. Den må forstå hvor noe er, hvordan det kan påvirkes, og hvilken handling som bør skje neste.

Det er denne overgangen Microsoft Research angriper med Magma, en foundation model for multimodale AI-agenter. Paperet ble publisert i 2025 og retter seg mot både digitale og fysiske miljøer: brukergrensesnitt, videoer, spillaktige oppgaver og robotmanipulasjon.

Kort sagt: Magma prøver å bygge bro mellom å se verden og å handle i den.

En robot trenger ikke bare syn. Den trenger et språk for handling.

Fra vision-language til vision-language-action

Tradisjonelle vision-language-modeller kan svare på spørsmål om bilder. Magma utvider dette mot agentiske oppgaver. Modellen trenes på heterogene datasett fra bilder, videoer og robotikk, og bruker to sentrale teknikker: Set-of-Mark og Trace-of-Mark.

Set-of-Mark handler om å markere handlingsrelevante objekter i bilder, for eksempel knapper i et brukergrensesnitt. Trace-of-Mark handler om bevegelsesspor i video, for eksempel hvordan en hånd eller robotarm flytter seg gjennom tid.

Sammen skal dette gi modellen både romlig og tidsmessig intelligens.

2025
Magma-paper
3
hoveddomener: UI, video, robotikk
8B
offentlig Magma-modellvariant
Magma vil gi multimodale agenter romfølelse - Bilde 1

Hvorfor UI og robotikk henger sammen

Det kan virke rart å kombinere skjermnavigasjon og robotarmer i samme modell. Men de har en felles kjerne: Agenten må se et miljø, forstå mål, velge et punkt eller objekt, og foreslå neste handling.

I et brukergrensesnitt kan handlingen være å klikke riktig knapp. I robotikk kan det være å gripe riktig objekt. Begge krever visuell grounding. Begge straffer små feil.

Relevans for norsk industri

Norge har mange miljøer der digital og fysisk automatisering møtes: maritim sektor, industri, energi, lager, helseutstyr og offentlig drift. Magma er ikke en ferdig norsk industriløsning, men forskningen er relevant fordi den peker mot mer generelle agenter for slike miljøer.

I stedet for å trene én modell for én robotoppgave og en annen for ett skjermsystem, kan fremtidige systemer bruke samme multimodale grunnmodell som startpunkt. Deretter kan den tilpasses domene, sikkerhet og lokale prosedyrer.

Det betyr ikke at en robot plutselig blir trygg i produksjon. Fysisk AI krever ekstrem verifikasjon. Men bedre romforståelse kan gjøre det enklere å bygge systemer som lærer raskere og feiler mer synlig.

Multimodal AI blir virkelig nyttig når den kan peke, planlegge og handle, ikke bare beskrive.

Den store begrensningen

Magma er fortsatt forskning. Å få en modell til å prestere på benchmark og demo er én ting. Å få den til å fungere robust i et rotete lager, på et fartøy eller i et sykehusmiljø er noe annet.

Sensorstøy, uventede objekter, dårlig lys, sikkerhetskrav og mekaniske begrensninger gjør fysisk AI hardere enn skjerm-AI. Derfor bør norske aktører se Magma som en forskningsretning, ikke som en plug-and-play-robotpilot.

Konklusjon

Magma er interessant fordi den angriper et av de største hullene i dagens AI-agenter: overgangen fra forståelse til handling. Ved å koble bilder, video, språk og handlingsspor prøver Microsoft Research å gi agentene bedre romfølelse.

For 24AI-lesere er hovedpoenget enkelt: Den neste bølgen av AI-forskning handler ikke bare om større språkmodeller. Den handler om modeller som kan orientere seg i verden, enten verden er en skjerm eller et fysisk rom.