Código fuente de Anthropic filtrado: agentes secretos, nombres clave y sabotaje revelados

Un archivo source map de 59,8 MB en un paquete npm reveló cientos de miles de líneas de código interno de Anthropic, incluyendo un agente de fondo no anunciado y mecanismos diseñados para envenenar los datos de entrenamiento de la competencia.

Un hilo en Hacker News que está explotando ahora mismo — más de 950 comentarios y más de 1000 puntos — trata sobre lo que rápidamente podría convertirse en una de las filtraciones accidentales más trascendentales en la historia de la IA. Alguien descubrió que Anthropic incluyó por error un gigantesco archivo source map de JavaScript en la versión 2.1.88 de @anthropic-ai/claude-code en npm. El archivo estaba destinado a la depuración interna. No fue así.

El descubrimiento fue compartido por primera vez en X por Chaofan Shou, interno de Solayer Labs, a las 04:23 ET. En cuestión de horas, el código se había extendido a miles de repositorios de GitHub. Anthropic ha enviado avisos de eliminación por derechos de autor a más de 8000 repositorios, pero la gente ya ha comenzado a reescribir el código a otros lenguajes para eludirlos. El gato ya salió de la bolsa.

¿Entonces qué aprendimos realmente? Parte es técnicamente interesante, pero algo es genuinamente sorprendente:

KAIROS Daemon Mode se describe internamente como la característica no publicada más grande, con más de 150 referencias en la base de código. Es un agente de fondo siempre activo que actúa de forma proactiva, registra diariamente y tiene un "Dream mode" para consolidar observaciones y gestionar la memoria sin interacción del usuario. Esto no es un chatbot. Esto es algo más cercano a una herramienta de trabajo autónoma.

Undercover Mode es otra cosa. Esta instrucción le dice a Claude Code que elimine todo rastro de los internos de Anthropic cuando se use en repositorios públicos — no mencionar nombres clave internos, no reconocer el origen de la IA en los commits. No es necesariamente malicioso, pero es el tipo de cosa que encenderá discusiones éticas sobre la transparencia de la IA.

El código contiene la inyección deliberada de "herramientas falsas" y datos de entrenamiento envenenados — dirigidos a competidores que intentan aprender del tráfico de la API de Claude Code.

La línea oficial de Anthropic es que no se expusieron datos sensibles de usuarios, pesos de modelos o credenciales, y que esto fue un error humano en el proceso de lanzamiento — no una brecha de seguridad. Esto es probablemente cierto. Pero de poco sirve cuando información competitiva estratégica, nombres clave internos ("Capybara" = Claude 4.6, "Fennec" = Opus 4.6) y una guía de arquitectura detallada están ahora públicamente disponibles para OpenAI, Google y todos los demás.

Esta es también la segunda filtración de Anthropic en poco tiempo, lo que comienza a plantear preguntas sobre las prácticas de seguridad internas — no solo como un problema de seguridad, sino como una cuestión de confianza.

Estamos en una fase temprana aquí. Las fuentes de la comunidad como Reddit y HN son las que están impulsando esto ahora mismo. Los medios de tecnología convencionales están empezando a hacerse eco, pero aún faltan análisis en profundidad. Manténganse informados.

Código fuente de Anthropic filtrado: agentes secretos, nombres clave y sabotaje revelados

Artículos Relacionados

Claude Code Desenterró una Vulnerabilidad de Linux de 23 Años

IA Gratuita Escondida en tu Mac — Nadie lo Sabe

AMD contraataca: Lemonade hace que el LLM local en chips AMD sea realmente utilizable