9 de cada 10 intentos de reintento en agentes de IA son un desperdicio — aquí está la solución

Un nuevo análisis revela que los agentes de IA basados en ReAct desperdician casi toda su capacidad de reintento en errores que nunca pueden corregirse. Esto no se debe a debilidades del modelo, sino a fallos arquitectónicos fundamentales.

Casi todos los intentos son un desperdicio

Cuando un agente de IA falla en una tarea y lo intenta de nuevo, cabría suponer que las repeticiones lo acercan gradualmente al objetivo. Pero según un análisis publicado por Towards Data Science, la realidad es muy diferente: En un benchmark controlado que consta de 200 tareas, un total del 90,8 por ciento de todos los intentos de reintento se dedicaron a tipos de errores que, por definición, nunca pueden tener éxito.

La razón no es que los modelos de lenguaje subyacentes sean demasiado débiles. El problema es arquitectónico — y eso significa que más entrenamiento o mejores prompts no lo resolverán.

¿Qué son los agentes ReAct?

ReAct (Reasoning and Acting) es uno de los paradigmas más utilizados para los agentes de IA en la actualidad. El sistema permite que un modelo de lenguaje alterne entre el razonamiento y las acciones reales en un bucle iterativo llamado Thought-Action-Observation (TAO). Esto hace que los agentes sean flexibles y capaces de manejar tareas complejas y compuestas.

Pero la flexibilidad tiene un precio.

9 de cada 10 intentos de reintento en agentes de IA son un desperdicio — aquí está la solución

Las llamadas a herramientas alucinadas son el problema central

Lo que hace que el problema de los reintentos sea particularmente grave es que los errores no son aleatorios. El análisis muestra que la mayor parte de los intentos fallidos se deben a que el agente llama a herramientas que no existen, o las utiliza de formas estructuralmente imposibles. Estas llamadas a herramientas alucinadas pueden repetirse indefinidamente sin que el agente tenga éxito — y agotan el presupuesto de reintentos del sistema sin aportar ningún valor.

El prompt-tuning, que es el enfoque más extendido para mejorar el comportamiento del agente, no tiene ningún efecto sobre este tipo de errores porque el problema reside en la propia arquitectura del agente.

Ajustar los prompts en un sistema estructuralmente defectuoso es como ajustar la navegación de un barco con agujeros en el casco.

Tres cambios estructurales que ayudan

Según Towards Data Science, existen tres tipos de cambios arquitectónicos que, en la práctica, pueden eliminar los reintentos desperdiciados. Estos están respaldados por una investigación más amplia sobre diseños de agentes alternativos.

1. Reflexión antes de la acción

La variante llamada REBACT incorpora un paso de reflexión antes de cada fase de acción, no después. Esto le da al agente la oportunidad de corregir el rumbo inmediatamente en lugar de descubrir el error a posteriori. Los resultados de la prueba de benchmark ALFWorld muestran una tasa de éxito del 98,51 por ciento — un aumento de 24 puntos porcentuales sobre el modelo base — y una disminución correspondiente en errores acumulativos y llamadas a API.

2. Contexto enfocado y detención temprana

"Focused ReAct" aborda un fenómeno llamado deriva del contexto, donde el agente pierde gradualmente de vista lo que se le pidió originalmente que hiciera. La solución es simple: repetir la tarea original en cada paso de razonamiento y detenerse temprano si una acción se repite. Según la investigación, esto aumenta la precisión hasta en un 530 por ciento en el modelo Gemma 2B y reduce el tiempo de ejecución hasta en un 34 por ciento.

3. Arquitectura multiagente con planificación jerárquica

El sistema CoAct utiliza un planificador global para controlar agentes ejecutores locales. En comparación con un agente estándar basado en ReAct en GPT-3.5, la tasa de éxito promedio en tareas complejas aumentó del 9,4 al 13,8 por ciento — una mejora de alrededor del 47 por ciento. Se informan resultados aún más drásticos de la arquitectura GLM, que combina la estructura multiagente con el razonamiento basado en grafos.

90,8 %

Reintentos desperdiciados en el benchmark

530 %

Aumento de precisión con Focused ReAct

¿Qué significa esto para la práctica?

Para los equipos que construyen y operan sistemas de producción basados en agentes ReAct, el mensaje del análisis es claro: los esfuerzos de eficiencia deben dirigirse a la estructura del agente en sí, no al diseño de prompts o la selección del modelo. Hay poco que ganar mejorando el razonamiento de un agente que sistemáticamente intenta realizar operaciones imposibles.

Las comunidades de investigación apuntan hacia un futuro donde la arquitectura del agente, no solo el tamaño del modelo, se convierte en el factor decisivo para el rendimiento y la rentabilidad en los sistemas de IA. La arquitectura GLM ilustra el potencial: una reducción del 95,7 por ciento en los costos de tokens y un 90,3 por ciento menos de latencia de inferencia en comparación con sistemas comparables, según la base de investigación que sustenta este artículo.

La fuente precisa que las cifras provienen de benchmarks controlados y que el valor de transferencia a entornos de producción variará según el tipo de tarea y la configuración del sistema.