La medida de IA más importante quizás sea el tiempo
Los puntos de referencia pueden ser impresionantes, pero a menudo dicen poco sobre el día a día laboral. Un modelo puede sobresalir en matemáticas, código y conocimiento, pero aun así colapsar cuando la tarea requiere muchas pequeñas decisiones durante un largo período.
Esto es lo que METR intenta capturar con el horizonte temporal de la IA. En lugar de preguntar «¿cuántos porcentajes correctos obtiene el modelo?», preguntan: ¿Cuánto tiempo de tarea humana puede realizar el agente de IA solo antes de que la probabilidad de éxito sea demasiado baja?
Suena sencillo. En realidad, es una pregunta bastante brutal.
Un agente que logra diez minutos es una herramienta. Un agente que logra diez horas empieza a parecerse a un trabajador.
Qué significa el horizonte temporal del 50 por ciento
METR define el horizonte temporal del 50 por ciento como la duración de las tareas, medida por el tiempo que las personas relevantes dedican a ellas, que el sistema de IA puede completar con una tasa de éxito del 50 por ciento.
En el artículo de 2025, los investigadores combinaron, entre otros, RE-Bench, HCAST y nuevas tareas más cortas. Cronometraron a personas con experiencia relevante, dejaron que los agentes de IA lo intentaran y modelaron la rapidez con la que la tasa de éxito disminuía a medida que las tareas se hacían más largas.
El resultado: los agentes de frontera han mejorado drásticamente. METR informa que el horizonte temporal se ha duplicado aproximadamente cada siete meses desde 2019, con signos de un crecimiento más rápido en 2024.

Por qué esto afecta la seguridad de la IA
El horizonte temporal no es solo una medida de productividad. También es una medida de seguridad. Cuanto más tiempo pueda trabajar un agente de forma autónoma, más daño podrá causar si los objetivos, el acceso a herramientas o los límites de control son incorrectos.
Un chatbot que responde mal a una pregunta es irritante. Un agente que puede trabajar durante horas con archivos, navegador, código y API puede crear problemas reales: cambios incorrectos, fugas de datos, sobrecostos o acciones que ningún humano ha aprobado.
No todos los dominios son iguales
METR continuó con un análisis de cómo el horizonte temporal varía entre dominios. Allí señalan que las tareas de software, razonamiento y cercanas a la investigación tienen horizontes temporales mucho más altos que el uso visual de computadoras como OSWorld y WebArena.
Esto significa que «agente de IA» no es una única cosa. Un agente puede ser fuerte en código y débil en la navegación de la interfaz gráfica de usuario (GUI). Puede responder bien a preguntas científicas, pero perderse en un largo proceso de navegación web.
Para las empresas noruegas, esto es crucial. Un agente bancario, un agente municipal o un agente de soporte debe ser probado en su propio entorno. Las cifras generales son un mapa, no el terreno.
La consecuencia práctica
Si la tendencia de METR se mantiene, 2026 y 2027 no serán solo los años de un mejor chat. Serán los años en que la duración del trabajo autónomo se convierta en un parámetro de competencia. Los proveedores no solo venderán «mejores respuestas», sino «trabajo ininterrumpido más largo».
Esto dificulta las compras. Un proveedor que muestra una gran demostración de cinco minutos no ha demostrado que el agente pueda manejar una tarea de dos horas. Y un agente que puede trabajar mucho tiempo también debe tener mejor registro, botones de parada y políticas.
Conclusión
La medición del horizonte temporal de METR le da al debate sobre la IA un tan esperado contacto con la realidad. Permite hablar de la capacidad del agente como tiempo de trabajo, no solo como puntos de referencia.
Para Noruega, esto significa que las empresas deberían empezar a medir a sus agentes en flujos de trabajo duraderos, reales y reversibles. ¿Cuánto tiempo pueden trabajar? ¿Con qué frecuencia deben intervenir los humanos? ¿Y qué sucede cuando se equivocan después de 47 minutos, no después de 47 segundos?
