Un hilo en Hacker News que está explotando ahora mismo trata sobre la reciente publicación del blog de OpenRouter — «Royale: Last Agent Standing» — donde han enfrentado a LLM entre sí en tareas de agentes de larga duración y han visto quién realmente sobrevive más tiempo sin colapsar, alucinar hasta un rincón o simplemente... detenerse.

Los resultados son lo suficientemente interesantes por sí mismos, pero lo que realmente enciende la sección de comentarios es la pregunta subyacente: ¿qué sucede cuando estos agentes no solo viven en una caja de chat, sino que controlan algo físico?

Y aquí, los datos de OpenRouter se encuentran con una realidad bastante incómoda del mundo académico. Investigaciones de, entre otros, Carnegie Mellon y King's College London son contundentes: ninguno de los LLM populares actuales está realmente listo para el control robótico físico general. Ni Claude, ni Grok, ni ninguno.

Una tasa de precisión del 99 % suena impresionante — hasta que te das cuenta de que una de cada cien ejecuciones puede causar daño físico.

Las cifras concretas de la investigación son bastante aleccionadoras: los ataques de prompt causan en promedio una degradación del rendimiento del 21,2 %, mientras que los ataques de percepción golpean aún más fuerte con un 30,2 %. En la práctica, esto significa que un robot controlado por un LLM puede ser manipulado para hacer algo completamente diferente a lo previsto — por una nota en el suelo, una instrucción inusual, o simplemente un poco de ruido en la entrada de la cámara.

¿Qué IA controla al robot que corre hacia ti? - Bilde 1

También se ha documentado que los modelos en escenarios de navegación espacial — piensa en la evacuación por incendio — han recomendado con total confianza ir hacia la sala de servidores en lugar de la salida de emergencia. No porque sean tontos, sino porque carecen de lo que los investigadores llaman «embodiment» — una verdadera comprensión de que los errores en el mundo físico no tienen un botón de «deshacer».

El debate de HN gira precisamente en torno a esto: el benchmark de OpenRouter mide la robustez del agente en entornos digitales, pero la comunidad pregunta en voz alta si nos estamos engañando a nosotros mismos al creer que «se mantiene mucho tiempo en un bucle de agente» = «lo suficientemente seguro para mover cosas en el mundo».

Estas son señales tempranas de fuentes de la comunidad, así que tómalo con pinzas — pero la temperatura de la discusión es lo suficientemente alta como para que esto probablemente aparezca en medios más establecidos en breve.

Vale la pena seguir de cerca: cómo los proveedores de modelos responden a este tipo de críticas de benchmarks, y si pronto veremos evaluaciones de «seguridad física» propias como estándar — no solo «¿dónde se rompió el flujo de tokens?»