Claude confunde quién dice qué — y eso es un problema grave

Un desarrollador ha documentado un error bizarro en Claude Code: el modelo atribuye su propio razonamiento interno al usuario. HN está en ebullición.

◉

24AI Underground

10 de abril de 2026·2 min lectura

Claude confunde quién dice qué — y eso es un problema grave

Señal temprana · fuente comunitaria

SEÑALES

Claude Code tiene un error documentado donde el modelo atribuye erróneamente sus propios mensajes internos al usuario
Esto no es una alucinación común — parece ser un "error de arnés" que etiqueta incorrectamente el razonamiento interno como entrada del usuario
El hilo en Hacker News ha explotado con 343 comentarios y 449 puntos en poco tiempo

Señal temprana · fuente comunitaria · no verificada

Gareth Dwyer publicó recientemente un artículo en dwyer.co.za que actualmente está causando revuelo en todo el subsuelo de la IA en Hacker News. El título lo dice todo: Claude confunde quién dijo realmente qué — y Dwyer cree que no está bien.

Lo que hace esto particularmente interesante es que no se trata del tipo de alucinación habitual de "el modelo inventa cosas" al que todos estamos acostumbrados a referirnos. Aquí, parece que Claude Code, el asistente de codificación de Anthropic, se envía mensajes a sí mismo como parte del procesamiento interno — y luego atribuye erróneamente estos mensajes al usuario. En otras palabras: el modelo cree que dijiste algo que nunca dijiste, porque mezcla su propio proceso de pensamiento con tu entrada.

Cuando una IA no sabe la diferencia entre sus propios pensamientos y lo que realmente escribiste, tenemos un problema fundamental de confianza.

La sección de comentarios en HN está llena de desarrolladores que asienten con reconocimiento — o que están conmocionados. Varios describen experiencias similares con Claude Code donde el modelo de repente se refiere a instrucciones o contexto que nunca fueron proporcionados explícitamente por el usuario. Lo que antes se descartaba como casos aislados extraños ahora comienza a parecer un patrón sistemático.

¿Por qué es esto importante? Bueno, porque los errores de atribución de este tipo son mucho más insidiosos que las alucinaciones comunes. Cuando un modelo inventa un hecho, generalmente puedes verificarlo. Pero cuando el modelo te atribuye erróneamente una acción o una declaración — y lo usa como base para un razonamiento posterior — toda la lógica de la conversación puede desmoronarse sin que necesariamente lo notes.

Los datos de investigación que hemos revisado apoyan que este es un problema más amplio de la industria: GPT-4o fabricó o parafraseó citas en más de la mitad de los casos de prueba en ciertos benchmarks, mientras que Gemini 1.5 Pro se desempeñó mucho mejor. Irónicamente, Claude había sido elogiado anteriormente por negarse a generar citas falsas de figuras públicas — lo que hace que este error de arnés sea aún más sorprendente.

Este es uno de esos momentos de "señales tempranas" donde la discusión de la comunidad está mucho más avanzada que las declaraciones oficiales. Anthropic aún no ha comentado públicamente sobre el asunto. Si se trata de un error de implementación aislado en el arnés de Claude Code o algo que se adentra más en la arquitectura del modelo, aún no lo sabemos.

Vale la pena seguirlo de cerca. Y quizás verificar dos veces qué "instrucciones" cree Claude que ha recibido de ti la próxima vez que lo uses.

Fuente: Hacker News AI Best + dwyer.co.za — señales tempranas basadas en la comunidad, no verificadas por Anthropic.

Claude confunde quién dice qué — y eso es un problema grave

Artículos Relacionados

Nadie sabe cómo medir el impacto de la IA — y la situación está llegando a un punto crítico

FeatDrop permite a los usuarios enviar solicitudes de funciones directamente en tu aplicación

La IA secreta de Anthropic encuentra errores más antiguos que internet