Un documento de seguridad interno de Amazon habría sido uno de los desencadenantes de la decisión de EE. UU. de restringir el acceso de usuarios extranjeros a los modelos principales de Anthropic, Fable 5 y Mythos 5. Así lo informa el Wall Street Journal, según The Verge.

La investigación de Amazon en el centro

Según el informe del WSJ, el documento de Amazon afirma que la compañía, a través de una serie de instrucciones dirigidas al modelo, logró que Fable 5 produjera información que potencialmente podría ser utilizada en ciberataques. El CEO de Amazon, Andy Jassy, habría mantenido posteriormente conversaciones directas con representantes de la Casa Blanca sobre los hallazgos. Amazon no ha comentado públicamente el asunto hasta el momento, según The Verge.

El resultado fue una directiva de control de exportaciones en la que el gobierno estadounidense pidió a Anthropic que suspendiera el acceso de ciudadanos extranjeros a ambos modelos.

Los hallazgos de Amazon y el contacto directo de Jassy con la Casa Blanca parecen haber sido decisivos para la prohibición de exportación estadounidense.
La investigación de seguridad de Amazon desencadenó la prohibición de EE. UU. sobre la IA de Anthropic - Bilde 1

Anthropic refuta la gravedad

Las propias evaluaciones de Anthropic ofrecen una imagen más matizada. La compañía confirma haber revisado una demostración de una «técnica específica» que se utilizó para identificar un pequeño número de vulnerabilidades, pero subraya que estas ya eran conocidas y clasificadas como menos graves. Según la compañía, las mismas vulnerabilidades pueden detectarse utilizando otros modelos de IA disponibles públicamente sin necesidad de ningún intento de elusión.

La postura de Anthropic es que una estrecha vulnerabilidad de seguridad potencial no debería ser motivo para retirar un modelo comercial que ya está en uso por cientos de millones de personas.

«Pliny the Liberator» y las afirmaciones de jailbreak

El caso también tiene otro hilo. Una persona conocida bajo el seudónimo de «Pliny the Liberator», bien conocida en los entornos de seguridad de IA por especializarse en eludir las barreras de la IA, afirmó poco después del lanzamiento de Fable 5 haber «liberado» el modelo mediante el uso de técnicas avanzadas de múltiples capas. La persona informó haber obtenido información sensible en áreas como la ciberseguridad, la química y los explosivos, entre otras.

La revisión de Anthropic de los ejemplos compartidos concluyó, sin embargo, que varios de ellos ni siquiera provenían de Fable 5, y que los que sí lo hacían, solo contenían información general y disponible públicamente.

Anthropic afirma que ninguna de las técnicas de elusión demostradas desactiva los sistemas de clasificación críticos que operan fuera del modelo en sí.

Expertos en seguridad: Suficientemente fuertes contra oportunistas

Etay Maor, vicepresidente de inteligencia de amenazas en Cato Networks, cree que los mecanismos de protección de Fable 5 son lo suficientemente robustos como para detener a los atacantes oportunistas. Sin embargo, advierte contra la creencia de que un umbral alto es suficiente contra actores avanzados: si un método es bloqueado, los atacantes sofisticados simplemente cambiarán a enfoques alternativos como la manipulación de contexto o las técnicas de abstracción, según Maor.

También señala una compensación conocida en el diseño de seguridad: los sistemas de clasificación que se configuran de forma demasiado estricta, producen falsos positivos y corren el riesgo de bloquear el uso legítimo y útil.

0,05%
Porcentaje de solicitudes que activan la clasificación de seguridad
1.000+
Horas de pruebas externas de recompensas por errores sin vulnerabilidad de seguridad universal

¿Qué sigue?

Amazon no ha respondido a las solicitudes de comentarios, y por ahora no está claro qué concluye exactamente el documento de seguridad interno más allá de lo que refiere el WSJ. El caso ilustra, en cualquier caso, una creciente tensión entre los intereses comerciales de las empresas de IA y la creciente preocupación de las autoridades de que los modelos potentes puedan ser mal utilizados para la ciberguerra ofensiva, y la cuestión de quién debe establecer realmente el umbral de lo que es «suficientemente seguro».

Fuentes: The Verge, Wall Street Journal (vía The Verge)