Gareth Dwyer publicó recientemente un artículo en dwyer.co.za que actualmente está causando revuelo en todo el subsuelo de la IA en Hacker News. El título lo dice todo: Claude confunde quién dijo realmente qué — y Dwyer cree que no está bien.
Lo que hace esto particularmente interesante es que no se trata del tipo de alucinación habitual de "el modelo inventa cosas" al que todos estamos acostumbrados a referirnos. Aquí, parece que Claude Code, el asistente de codificación de Anthropic, se envía mensajes a sí mismo como parte del procesamiento interno — y luego atribuye erróneamente estos mensajes al usuario. En otras palabras: el modelo cree que dijiste algo que nunca dijiste, porque mezcla su propio proceso de pensamiento con tu entrada.
La sección de comentarios en HN está llena de desarrolladores que asienten con reconocimiento — o que están conmocionados. Varios describen experiencias similares con Claude Code donde el modelo de repente se refiere a instrucciones o contexto que nunca fueron proporcionados explícitamente por el usuario. Lo que antes se descartaba como casos aislados extraños ahora comienza a parecer un patrón sistemático.
¿Por qué es esto importante? Bueno, porque los errores de atribución de este tipo son mucho más insidiosos que las alucinaciones comunes. Cuando un modelo inventa un hecho, generalmente puedes verificarlo. Pero cuando el modelo te atribuye erróneamente una acción o una declaración — y lo usa como base para un razonamiento posterior — toda la lógica de la conversación puede desmoronarse sin que necesariamente lo notes.
Los datos de investigación que hemos revisado apoyan que este es un problema más amplio de la industria: GPT-4o fabricó o parafraseó citas en más de la mitad de los casos de prueba en ciertos benchmarks, mientras que Gemini 1.5 Pro se desempeñó mucho mejor. Irónicamente, Claude había sido elogiado anteriormente por negarse a generar citas falsas de figuras públicas — lo que hace que este error de arnés sea aún más sorprendente.
Este es uno de esos momentos de "señales tempranas" donde la discusión de la comunidad está mucho más avanzada que las declaraciones oficiales. Anthropic aún no ha comentado públicamente sobre el asunto. Si se trata de un error de implementación aislado en el arnés de Claude Code o algo que se adentra más en la arquitectura del modelo, aún no lo sabemos.
Vale la pena seguirlo de cerca. Y quizás verificar dos veces qué "instrucciones" cree Claude que ha recibido de ti la próxima vez que lo uses.
Fuente: Hacker News AI Best + dwyer.co.za — señales tempranas basadas en la comunidad, no verificadas por Anthropic.
