Un fallo de seguridad crítico en Microsoft Copilot ha permitido a actores maliciosos extraer códigos de autenticación de dos factores (2FA) directamente de las conversaciones de los usuarios con el asistente de IA. La vulnerabilidad, conocida como «SearchLeak», ha sido documentada por Ars Technica y se describe como un síntoma de un fallo estructural persistente en cómo la industria aborda la seguridad en los grandes modelos de lenguaje.

Así funcionó el ataque

La explotación de SearchLeak se basó en la forma en que Copilot procesa y retransmite contenido externo durante las búsquedas y la ejecución de herramientas. Al insertar instrucciones especialmente diseñadas en el contenido que Copilot recuperaba de la web, un atacante podía manipular al asistente para que expusiera información sensible de la sesión en curso del usuario — incluyendo códigos de un solo uso utilizados para la autenticación de dos factores, según Ars Technica.

Esta es una variante de lo que se conoce como inyección de prompt a través de contenido externo: el sistema de IA no logra distinguir entre instrucciones legítimas del usuario e instrucciones maliciosas ocultas en los datos que procesa en nombre del usuario.

SearchLeak demuestra que la industria repite los mismos errores de seguridad en los sistemas LLM, una y otra vez.
Vulnerabilidad crítica de Copilot: Hackers podrían robar códigos 2FA directamente de los usuarios - Bilde 1

Un patrón que se repite

La cobertura de Ars Technica subraya que este no es un incidente aislado, sino parte de un patrón reconocible: los productos basados en LLM se lanzan con pruebas de seguridad insuficientes, y las vulnerabilidades críticas se descubren a posteriori — a menudo por investigadores externos.

La comunidad de seguridad ha advertido durante mucho tiempo que la integración de acceso a la web, sistemas de complementos y cadenas de herramientas basadas en agentes amplía drásticamente la superficie de ataque para los asistentes de IA. Cuando un modelo puede enviar solicitudes HTTP, leer correos electrónicos o iniciar otras herramientas en nombre del usuario, cualquier fallo en el filtrado de contenido se vuelve potencialmente crítico.

Qué recomienda la comunidad de investigación

Según los principios de seguridad reconocidos para los LLM, entre ellos el marco OWASP LLM Top 10, la protección adecuada de dichos sistemas requiere mucho más que parchear errores individuales después de que se descubran.

Las recomendaciones clave incluyen pruebas sistemáticas de equipo rojo (red teaming) donde equipos especializados intentan activamente romper las defensas del sistema antes del lanzamiento. Herramientas como PyRIT de Microsoft, así como soluciones de código abierto como Garak y LLM Guard, pueden utilizarse para automatizar partes de estas pruebas.

Además, se recomienda implementar sistemas de Prevención de Pérdida de Datos (DLP) para capturar información sensible en las salidas del modelo, arquitectura de confianza cero con autenticación multifactor y control de acceso basado en roles, así como el aislamiento de entornos de inferencia de LLM para evitar la fuga de datos entre diferentes contextos de usuario.

Cuando los asistentes de IA pueden leer correos electrónicos y recuperar páginas web en tu nombre, la seguridad del contenido se convierte en una capa de seguridad crítica — no en un complemento.

Cadena de suministro y riesgos basados en agentes

Una dimensión que a menudo se subestima es el riesgo asociado a la cadena de suministro de los sistemas LLM. OWASP identifica esto como LLM05 en su lista Top 10. Componentes de terceros comprometidos — desde modelos preentrenados hasta adaptadores de ajuste fino y conjuntos de datos — pueden introducir puertas traseras que son muy difíciles de detectar.

Para sistemas basados en agentes como Copilot, donde la IA opera con sus propias herramientas y puede tomar acciones autónomas, los vectores de ataque se amplían aún más. El marco OWASP ASI 2026 señala específicamente los ataques de secuestro de objetivos (goal hijacking) y el uso indebido de herramientas como las principales amenazas contra los agentes de IA autónomos.

La vulnerabilidad SearchLeak es un claro ejemplo de que el nivel de ambición en el desarrollo de productos de IA, por ahora, supera el trabajo de seguridad — y que las consecuencias para los usuarios finales pueden ser muy concretas.