La IA debe aprender dónde están las cosas

Los modelos multimodales modernos son buenos para ver imágenes y explicarlas. Pero un robot o un agente de pantalla necesita más que una descripción. Debe entender dónde está algo, cómo puede ser afectado y qué acción debe ocurrir a continuación.

Es esta transición la que Microsoft Research aborda con Magma, un modelo fundacional para agentes de IA multimodales. El artículo fue publicado en 2025 y se dirige tanto a entornos digitales como físicos: interfaces de usuario, videos, tareas similares a juegos y manipulación robótica.

En resumen: Magma intenta tender un puente entre ver el mundo y actuar en él.

Un robot no solo necesita visión. Necesita un lenguaje para la acción.

De visión-lenguaje a visión-lenguaje-acción

Los modelos tradicionales de visión-lenguaje pueden responder preguntas sobre imágenes. Magma extiende esto hacia tareas agenciales. El modelo se entrena con conjuntos de datos heterogéneos de imágenes, videos y robótica, y utiliza dos técnicas centrales: Set-of-Mark y Trace-of-Mark.

Set-of-Mark se trata de marcar objetos relevantes para la acción en imágenes, por ejemplo, botones en una interfaz de usuario. Trace-of-Mark se trata de rastros de movimiento en video, por ejemplo, cómo una mano o un brazo robótico se mueve a través del tiempo.

Juntos, esto debería dotar al modelo de inteligencia espacial y temporal.

2025
Artículo de Magma
3
dominios principales: UI, video, robótica
8B
variante pública del modelo Magma
Magma dará percepción espacial a los agentes multimodales - Bilde 1

Por qué la UI y la robótica están conectadas

Puede parecer extraño combinar la navegación de pantalla y los brazos robóticos en el mismo modelo. Pero tienen un núcleo común: el agente debe ver un entorno, comprender los objetivos, seleccionar un punto u objeto y proponer la siguiente acción.

En una interfaz de usuario, la acción puede ser hacer clic en el botón correcto. En robótica, puede ser agarrar el objeto correcto. Ambos requieren anclaje visual. Ambos penalizan los pequeños errores.

Relevancia para la industria noruega

Noruega tiene muchos entornos donde la automatización digital y física se encuentran: sector marítimo, industria, energía, almacenes, equipos de salud y operaciones públicas. Magma no es una solución industrial noruega terminada, pero la investigación es relevante porque apunta hacia agentes más generales para dichos entornos.

En lugar de entrenar un modelo para una tarea robótica y otro para un sistema de pantalla, los sistemas futuros pueden usar el mismo modelo fundacional multimodal como punto de partida. Luego, puede adaptarse al dominio, la seguridad y los procedimientos locales.

Esto no significa que un robot de repente sea seguro en producción. La IA física requiere una verificación extrema. Pero una mejor comprensión espacial puede facilitar la construcción de sistemas que aprenden más rápido y fallan de manera más visible.

La IA multimodal se vuelve realmente útil cuando puede señalar, planificar y actuar, no solo describir.

La gran limitación

Magma sigue siendo investigación. Lograr que un modelo rinda en benchmarks y demostraciones es una cosa. Lograr que funcione de manera robusta en un almacén desordenado, en una embarcación o en un entorno hospitalario es otra.

El ruido de los sensores, los objetos inesperados, la mala iluminación, los requisitos de seguridad y las limitaciones mecánicas hacen que la IA física sea más difícil que la IA de pantalla. Por lo tanto, los actores noruegos deberían ver a Magma como una dirección de investigación, no como un piloto de robot plug-and-play.

Conclusión

Magma es interesante porque aborda una de las mayores brechas en los agentes de IA actuales: la transición de la comprensión a la acción. Al conectar imágenes, video, lenguaje y rastros de acción, Microsoft Research intenta dar a los agentes una mejor percepción espacial.

Para los lectores de 24AI, el punto principal es simple: la próxima ola de investigación en IA no se trata solo de modelos de lenguaje más grandes. Se trata de modelos que pueden orientarse en el mundo, ya sea que el mundo sea una pantalla o un espacio físico.