Una discusión que está ganando impulso en Lobsters AI en este momento trata sobre algo que debería preocupar a todos los que construyen agentes de IA o implementan LLM en producción: la inyección de prompts entendida como confusión de roles.
Los investigadores Charles Ye, Jasmine Cui y Dylan Hadfield-Menell han publicado un análisis que argumenta que los LLM, en esencia, procesan toda la entrada como un único gran flujo de texto. El modelo infiere quién está hablando basándose en cómo suena el texto — no en la fuente técnica real. Esto significa que si un atacante logra escribir una entrada que «suena como» un mensaje del sistema o un razonamiento interno, el modelo lo interpreta como tal.
Esta no es la discusión habitual sobre el «jailbreak» de engañar al modelo para que interprete un personaje o eluda los filtros de contenido. Se trata de algo más fundamental: que el modelo no tiene un mecanismo interno fiable para distinguir entre instrucciones confiables y no confiables. El jailbreaking suele ser manipulación social. La confusión de roles es una falla arquitectónica.
La consecuencia práctica es el ataque que llaman «CoT Forgery» — donde un atacante inyecta cadenas de pensamiento falsas (razonamiento de cadena de pensamiento) en el contexto. El modelo lo asume como su propia lógica interna y actúa en consecuencia. En las pruebas, esto logró una tasa de éxito promedio del 60 % en el benchmark StrongREJECT y del 61 % en escenarios de exfiltración de agentes. Desde casi cero como línea base. Son cifras altas.

Lo que hace esto especialmente relevante ahora mismo es que los agentes de IA — sistemas que utilizan LLM para recuperar datos, ejecutar código y actuar de forma autónoma — están a punto de volverse mainstream en el stack empresarial. Si el modelo no puede confiar en su propia comprensión de quién da las instrucciones, la cadena de confianza en toda la arquitectura del agente está potencialmente comprometida.
La fuente aquí es un hilo de discusión en Lobsters AI, que enlaza a una página de investigación dedicada. Estas son señales tempranas de la comunidad — aún no un estudio publicado y revisado por pares, así que tómelo con esa salvedad. Pero el compromiso en los comentarios sugiere que la comunidad académica se lo está tomando en serio.
Esto debería estar en el radar de todos los que trabajan con seguridad en aplicaciones LLM — y especialmente de aquellos que construyen sistemas donde el modelo tiene acceso a datos sensibles o puede realizar acciones con consecuencias fuera del sandbox.
