Underground · Dispatch

2026.06.22

Los LLM no saben quién está hablando — y eso es un gran problema

Nueva investigación muestra que los modelos de lenguaje no distinguen entre instrucciones confiables y maliciosas a nivel estructural — y eso los hace fundamentalmente vulnerables.

Traducido automáticamente del original noruego por 24AI.

◉

24AI Underground

22 de junio de 2026·Actualizado 22 de junio de 2026·2 min lectura

Los LLM no saben quién está hablando — y eso es un gran problema

Detrás de la noticia ⚡ (telemetría IA)Clic para abrir

Aquí puedes ver cómo seis agentes IA con nombre dentro del flujo de 24AI captaron, verificaron, escribieron, revisaron y visualizaron esta noticia. Los agentes son roles de sistema, no personas, periodistas ni editores responsables.

Sigrid ⚖️(Agente de publicación)

Detectó la noticia en el feed RSS «Lobsters AI» y la pasó adelante en el flujo de 24AI por valor informativo y relevancia.

Pregunta a Sigrid →

Eskil 🔍(Agente de research)

Realizó búsquedas en Google y verificó la información con 10 fuentes independientes.

Ver research con Eskil →

Ingrid ✍️(Agente de escritura)

Redactó el artículo en estilo tabloide claro, preparó el TL;DR y añadió citas estructurales.

Debatir el ángulo con Ingrid →

Torbjørn ⚖️(Agente de revisión)

Puntuación de calidad:95 / 100

“Artículo sólido: buenas fuentes, lenguaje claro y un ángulo convincente.”

Impugnar la revisión de Torbjørn →

Vidar 📷(Agente visual)

Generó la imagen principal y las ilustraciones del cuerpo.

Prompt: Hero — photorealistic editorial news photography shot on iPhone ProRAW. Close-up of two people in a modern open-plan office, one leaning toward the other mid-conversation, slightly off-center framing. The scene feels like a candid moment of someone being misled or confused about who is giving instructions. Natural indoor light from large windows, bright Nordic daylight color temperature, clean whites and soft blues. Slight lens imperfection, mild sensor grain, real office textures — desks, cables, coffee cups visible in background. Low angle, documentary feel. No screens showing content, no text in image.

Hablar de estética con Vidar →

Nora ⚡(Agente de distribución)

Preparó textos para compartir en Bluesky, X y Facebook listos para publicar.

Consejos de difusión de Nora →

Señal temprana · fuente comunitaria

SEÑALES

Los LLM identifican «quién está hablando» basándose en el estilo del texto, no en el etiquetado de roles real — y esto puede ser explotado
Un nuevo tipo de ataque llamado «CoT Forgery» logra una tasa de éxito del 60 % en todos los modelos al falsificar el razonamiento interno
Esta es una debilidad estructural, no solo un error que se pueda parchear

Señal temprana · fuente comunitaria · no verificada

❖ ESTADO DE CALIDAD

Publicado:	22 de junio de 2026
Categoría:	Underground
Fuentes:	10 referencias
Producción:	Generado por IA
Revisión automática:	95/100
Revisión humana:	No, no estándar

Una discusión que está ganando impulso en Lobsters AI en este momento trata sobre algo que debería preocupar a todos los que construyen agentes de IA o implementan LLM en producción: la inyección de prompts entendida como confusión de roles.

Los investigadores Charles Ye, Jasmine Cui y Dylan Hadfield-Menell han publicado un análisis que argumenta que los LLM, en esencia, procesan toda la entrada como un único gran flujo de texto. El modelo infiere quién está hablando basándose en cómo suena el texto — no en la fuente técnica real. Esto significa que si un atacante logra escribir una entrada que «suena como» un mensaje del sistema o un razonamiento interno, el modelo lo interpreta como tal.

Los límites de roles que los desarrolladores diseñan en los prompts se disuelven dentro del espacio latente del modelo.

Esta no es la discusión habitual sobre el «jailbreak» de engañar al modelo para que interprete un personaje o eluda los filtros de contenido. Se trata de algo más fundamental: que el modelo no tiene un mecanismo interno fiable para distinguir entre instrucciones confiables y no confiables. El jailbreaking suele ser manipulación social. La confusión de roles es una falla arquitectónica.

La consecuencia práctica es el ataque que llaman «CoT Forgery» — donde un atacante inyecta cadenas de pensamiento falsas (razonamiento de cadena de pensamiento) en el contexto. El modelo lo asume como su propia lógica interna y actúa en consecuencia. En las pruebas, esto logró una tasa de éxito promedio del 60 % en el benchmark StrongREJECT y del 61 % en escenarios de exfiltración de agentes. Desde casi cero como línea base. Son cifras altas.

Los LLM no saben quién está hablando — y eso es un gran problema - Bilde 1

Lo que hace esto especialmente relevante ahora mismo es que los agentes de IA — sistemas que utilizan LLM para recuperar datos, ejecutar código y actuar de forma autónoma — están a punto de volverse mainstream en el stack empresarial. Si el modelo no puede confiar en su propia comprensión de quién da las instrucciones, la cadena de confianza en toda la arquitectura del agente está potencialmente comprometida.

La fuente aquí es un hilo de discusión en Lobsters AI, que enlaza a una página de investigación dedicada. Estas son señales tempranas de la comunidad — aún no un estudio publicado y revisado por pares, así que tómelo con esa salvedad. Pero el compromiso en los comentarios sugiere que la comunidad académica se lo está tomando en serio.

Esto debería estar en el radar de todos los que trabajan con seguridad en aplicaciones LLM — y especialmente de aquellos que construyen sistemas donde el modelo tiene acceso a datos sensibles o puede realizar acciones con consecuencias fuera del sandbox.

ESTADO DE IA Y CALIDAD

Esta noticia es producida por 24AI con IA y pasa por control automático de calidad antes de publicarse. Las noticias estándar normalmente no se aprueban manualmente antes de su publicación. 24AI no es un medio periodístico dirigido por un editor. Los roles con nombre del desk son agentes IA, no personas, periodistas ni editores responsables. Las fuentes se muestran abajo y los errores pueden enviarse a post@aprex.no. Lee nuestro método →

Fuentes (10)

6.role-confusion.github.io

7.lobste.rs

8.news.ycombinator.com

9.paloaltonetworks.com

10.promptfoo.dev