La IA secreta de Anthropic encontró miles de fallas de seguridad — se mantiene alejada del público

El modelo de IA más potente de Anthropic ha descubierto miles de vulnerabilidades graves en los sistemas operativos y navegadores más utilizados del mundo, pero en lugar de lanzarlo públicamente, ha sido entregado discretamente a las organizaciones que gestionan internet.

Un modelo de IA que nunca ha visto la luz pública ya ha realizado una de las revisiones de seguridad más exhaustivas en la historia de internet. Se trata de Claude Mythos Preview de Anthropic, y la decisión de la compañía sobre qué hacer con los hallazgos difiere significativamente de lo habitual en la industria.

Modelo secreto, hallazgos masivos

Según AI News, Claude Mythos Preview ha identificado miles de vulnerabilidades de alto riesgo en todos los principales sistemas operativos y navegadores. Resulta particularmente llamativo que varias de las fallas habían pasado desapercibidas durante años —una de ellas durante 27 años en OpenBSD, otra durante 16 años en la plataforma multimedia FFmpeg— a pesar de las frecuentes revisiones de seguridad y millones de pruebas automatizadas.

Anthropic describe la situación directamente: «Los modelos de IA han alcanzado un nivel de capacidad de codificación en el que pueden superar a todos, excepto a los humanos más experimentados, en la búsqueda y explotación de vulnerabilidades de software».

«Tenemos un nuevo modelo que explícitamente no estamos lanzando al público.» — Mike Krieger, Anthropic Labs

Project Glasswing: La industria se une

En lugar de un lanzamiento de producto habitual, Anthropic ha creado la iniciativa Project Glasswing, donde Mythos Preview se pone a disposición de un amplio grupo de actores tecnológicos y comunidades de código abierto. Los socios colaboradores incluyen Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks.

El objetivo es utilizar las capacidades del modelo para encontrar y parchear proactivamente las fallas de seguridad en software crítico, antes de que puedan ser explotadas por actores maliciosos.

Un cambio en el panorama de amenazas

Los hallazgos de Anthropic no surgen de la nada. Investigaciones de Veracode muestran que un 45 por ciento del código generado por IA en más de 100 grandes modelos de lenguaje contiene fallas de seguridad; en aplicaciones Java, la tasa de error supera el 70 por ciento, según el mismo informe. La empresa Checkmarx, por su parte, ha documentado que hasta el 70 por ciento del código generado por IA puede considerarse inseguro.

Al mismo tiempo, los datos muestran que las herramientas de seguridad impulsadas por IA pueden mejorar la detección de las llamadas vulnerabilidades de día cero en un 70 por ciento y reducir las falsas alarmas en la inteligencia de amenazas hasta en un 90 por ciento. Esto significa que los analistas de seguridad pueden dedicar más tiempo a las amenazas reales.

45%

Código generado por IA con fallas de seguridad (Veracode 2025)

70%

Detección mejorada de vulnerabilidades de día cero con IA

No es el único proyecto de su tipo

Anthropic no está solo en este campo. Según el material de investigación, Google DeepMind ha desarrollado CodeMender, un agente impulsado por IA basado en los modelos Gemini Deep Think, que ya ha contribuido con 72 correcciones de seguridad a proyectos de código abierto. Empresas como Snyk y DeepKeep también trabajan con enfoques híbridos que combinan el aprendizaje automático con la experiencia humana.

Los expertos creen que las capacidades de la IA han superado un umbral que cambia fundamentalmente la urgencia de proteger la infraestructura crítica.

Retención responsable — ¿o precedente peligroso?

La decisión de Anthropic de mantener Mythos Preview alejado del público plantea cuestiones de principios. Por un lado, es una señal clara de que la empresa se toma en serio lo que se denomina «divulgación responsable» —da tiempo a las partes afectadas para parchear las fallas antes de que sean de conocimiento general. Por otro lado, significa que un modelo de seguridad muy potente opera ahora en un consorcio industrial cerrado sin supervisión pública.

Cabe señalar que los detalles sobre Project Glasswing, por ahora, solo se conocen a través de las propias declaraciones de Anthropic y la cobertura de AI News. La verificación independiente del alcance y la composición de las vulnerabilidades encontradas no está disponible hasta el momento.

El hecho de que la mitad de los expertos en ciberseguridad ya en 2025 utilizaban la IA para detectar vulnerabilidades en el código, según datos de la industria, sugiere que esto ya no es una actividad de nicho, sino un nuevo estándar para proteger la infraestructura digital.

La IA secreta de Anthropic encontró miles de fallas de seguridad — se mantiene alejada del público

Modelo secreto, hallazgos masivos

Project Glasswing: La industria se une

Un cambio en el panorama de amenazas

No es el único proyecto de su tipo

Retención responsable — ¿o precedente peligroso?

Artículos Relacionados

La Ley de IA de la UE interviene ahora en los agentes autónomos – las empresas noruegas deben adaptarse

Microsoft clasifica a Noruega entre los mejores del mundo en IA

El marco de Trump divide a EE. UU.: No hay reglas de IA sin quitar poder a los estados