La IA física —es decir, sistemas como robots y vehículos autónomos que deben navegar y actuar en el mundo real— ha requerido durante mucho tiempo un mosaico de modelos especializados que debían comunicarse entre sí. NVIDIA ahora quiere poner fin a este enfoque fragmentado.

Un modelo para todo

Cosmos 3 está construido sobre lo que NVIDIA describe como una arquitectura Mixture-of-Transformers (MoT), y representa un cambio significativo respecto a las generaciones anteriores de Cosmos de la compañía. Mientras que las versiones anteriores distribuían las tareas entre modelos separados para la generación del mundo, la comprensión de la escena, la generación controlada y la generación de políticas, respectivamente, Cosmos 3 maneja todas estas modalidades en un mismo sistema —en una única pasada hacia adelante, según el blog de NVIDIA.

El modelo puede procesar y generar texto, imágenes, video, sonido ambiental y datos de acción. Este último punto es particularmente importante para la robótica: Cosmos 3 puede producir datos de acción numéricos concretos, como ángulos de articulación y posiciones de agarre, de los que los robots pueden aprender directamente.

«La familia Cosmos 3 ofrece a los desarrolladores un cambio generacional en la capacidad de construir robots, vehículos autónomos e IA de visión que perciben, razonan, planifican y actúan en el mundo físico.» — Jensen Huang, fundador y CEO, NVIDIA
Cosmos 3 de NVIDIA fusiona el cerebro y el cuerpo de los robots en un solo modelo - Bilde 1

Dos tamaños de modelo – uno planificado para el borde

Cosmos 3 se lanza en dos variantes con casos de uso claramente diferenciados:

Cosmos 3 Nano es un modelo de 8 mil millones de parámetros (8B de razonamiento + 8B de generador) escalado para una inferencia eficiente en hardware de estación de trabajo, específicamente la GPU RTX PRO 6000 de NVIDIA. Esto hace que el modelo sea accesible para desarrolladores que no tienen acceso a infraestructura de centros de datos.

Cosmos 3 Super es un modelo de 32 mil millones de parámetros diseñado para la generación de datos sintéticos a gran escala y la investigación, y se ejecuta en las GPU Hopper y Blackwell de NVIDIA.

Una tercera variante, provisionalmente llamada Cosmos 3 Edge, ha sido anunciada para inferencia en tiempo real directamente en dispositivos de borde, pero aún no ha sido lanzada.

8B
Cosmos 3 Nano (parámetros)
32B
Cosmos 3 Super (parámetros)

De meses a días – según la propia NVIDIA

Las propias afirmaciones de la compañía son ambiciosas: los ciclos de entrenamiento y evaluación para la IA física, según NVIDIA, podrían reducirse de meses a días con la ayuda de Cosmos 3. Cabe señalar que estas son cifras de NVIDIA, y no existe verificación independiente de estos ahorros a la fecha de publicación.

Entre los casos de uso mencionados se encuentran la generación de datos sintéticos para escenarios de seguridad en almacenes, el entrenamiento de robots para tareas como doblar ropa y recoger y colocar objetos, así como la generación de escenarios de conducción poco comunes para vehículos autónomos —las llamadas situaciones de «cola larga» que son difíciles de recopilar con datos reales.

Cosmos 3 puede funcionar como la columna vertebral de lo que NVIDIA denomina World Action Models —sistemas que permiten a los robots aprender directamente de mundos simulados

Código abierto y líderes en benchmarks

El modelo se ha puesto a disposición completa como código abierto, con los pesos del modelo y los scripts de entrenamiento en Hugging Face y GitHub. NVIDIA afirma que Cosmos 3 se clasifica en la cima entre los modelos abiertos en una serie de benchmarks de la industria, incluyendo Artificial Analysis, Physics-IQ, PAI-Bench y R-Bench para la generación del mundo, así como RoboLab y RoboArena para políticas de acción, según el blog de NVIDIA.

Los competidores: fragmentados, pero establecidos

Cosmos 3 no compite directamente con frameworks de bajo nivel como ROS 2 y MoveIt, pero desafía la división tradicional del trabajo en el desarrollo de IA física. ROS 2 sigue siendo el estándar de la industria para el middleware de robots y gestiona la comunicación y el control en tiempo real, mientras que Cosmos 3 opera en un nivel de abstracción superior —y está destinado a integrarse en sistemas basados en ROS, no a reemplazarlos. NVIDIA ya ofrece Isaac ROS como un puente entre sus modelos y el ecosistema ROS.

El verdadero desafío que plantea Cosmos 3 es contra el patrón fragmentado donde modelos separados para simulación, razonamiento y generación de acciones deben coordinarse manualmente —algo que hasta ahora ha sido la norma en el campo.

Cosmos 3 es la señal más clara de NVIDIA hasta ahora de que la compañía ve la IA física —no solo los modelos de lenguaje— como la próxima gran área de crecimiento. Si las promesas técnicas se mantienen en la práctica, las comunidades de investigación y los socios de la industria pronto tendrán la oportunidad de verificarlo.