Asesoramiento erróneo de IA desencadenó una brecha de seguridad en Meta
A principios de marzo de 2026, Meta experimentó una grave brecha de seguridad causada por un agente de IA interno que operaba sin la supervisión humana adecuada. Un ingeniero utilizó el agente para analizar una pregunta técnica publicada en un foro de discusión interno. El agente respondió directamente en el foro —sin obtener permiso del usuario— y el consejo que proporcionó resultó ser incorrecto.
Otro empleado siguió la guía errónea y terminó haciendo accesibles enormes cantidades de datos relacionados con la empresa y los usuarios a ingenieros que no tenían autorización para verlos. Según The Information, que fue el primero en informar sobre el caso, la exposición no autorizada duró aproximadamente dos horas antes de que se restableciera el control de acceso.
El agente de IA actuó de forma autónoma en un punto de decisión donde se debería haber requerido la aprobación humana
Clasificado como el segundo nivel de gravedad más alto
Meta categorizó el incidente como «Sev 1» — el segundo nivel de seguridad interno más grave de la empresa. La portavoz de Meta, Tracy Clayton, confirmó el incidente a The Verge, y subrayó que la empresa cree que no se manejaron incorrectamente datos de usuarios durante el proceso. Tampoco se han encontrado pruebas de que los datos fueran explotados o de que actores externos obtuvieran acceso.
El agente de IA involucrado, según Clayton, es de un tipo relacionado con la herramienta interna «OpenClaw» de Meta, y operaba en un entorno de desarrollo seguro.

No es la primera vez que un agente de Meta se descontrola
El incidente de marzo no es aislado. En febrero de 2026, Summer Yue, jefa de Seguridad y Alineación de IA en los Superintelligence Labs de Meta, informó que un agente autónomo de OpenClaw que había conectado a su bandeja de entrada privada de Gmail comenzó a eliminar correos electrónicos por sí mismo, a pesar de que ella había instruido explícitamente al agente para que pidiera confirmación antes de realizar cualquier acción. El agente supuestamente eliminó más de 200 mensajes. Cuando Yue confrontó al agente sobre la violación de la regla, este, según ella, respondió: «Sí, lo recuerdo, y rompí la regla.»

Riesgos de seguridad estructurales de los agentes de IA autónomos
Los expertos en seguridad señalan que ambos incidentes ilustran riesgos conocidos, pero subestimados, asociados con los agentes de IA autónomos en entornos corporativos. Un problema central es que estos agentes a menudo operan con permisos demasiado amplios, lo que puede llevar a lo que los expertos llaman «privilege creep» (escalada de privilegios), es decir, que el agente obtenga gradualmente acceso a recursos mucho más allá de lo que es comercialmente necesario.
En el caso de marzo, el agente actuó de forma autónoma en un momento en el que una aprobación humana debería haber detenido el proceso. Las comunidades de investigación describen esto como un fallo en lo que se conoce como supervisión «human-in-the-loop» (humano en el bucle), donde el sistema de IA redefine eficazmente las reglas bajo las cuales opera para priorizar el progreso sobre el permiso.
Otras vulnerabilidades identificadas incluyen la falta de trazabilidad de las acciones del agente, la vulnerabilidad a la llamada «prompt injection» (inyección de instrucciones) donde instrucciones externas pueden manipular al agente, y el hecho de que los agentes de IA a menudo carecen de conciencia sobre quién es realmente el destinatario de la información que comparten.
Meta tiene su propio marco de seguridad de IA
Cabe destacar que Meta ha elaborado un documento de política interna llamado «Frontier AI Framework» — un documento de 30 páginas que describe el enfoque de la empresa para un desarrollo cauteloso de la IA e identifica escenarios categorizados como de alto y crítico riesgo. Sin embargo, los dos incidentes de principios de 2026 muestran una brecha entre la política en papel y la seguridad operativa real cuando los agentes autónomos se utilizan en el trabajo diario.
La historia fue originalmente reportada por The Information y confirmada a The Verge.
