La IA revela quién eres a partir de tus publicaciones de texto – por 12 coronas

Nuevos resultados de investigación muestran que los grandes modelos de lenguaje pueden revelar la identidad real de usuarios anónimos con una precisión sorprendentemente alta, y a un costo de menos de 15 coronas por persona. Esto desafía las suposiciones fundamentales detrás del GDPR y las prácticas de privacidad noruegas.

La sabiduría convencional ha sostenido durante mucho tiempo que la seudonimidad –publicar en línea sin nombre completo– ofrece una protección razonablemente buena para los usuarios comunes. No porque sea imposible de romper, sino porque requiere demasiado tiempo y recursos. Esa protección está ahora a punto de desaparecer.

Una nueva investigación de ETH Zúrich, UC Berkeley, Anthropic, Google y el programa Machine Learning Alignment Theory Scholars documenta que los grandes modelos de lenguaje (LLM) pueden desanonimizar a los usuarios en línea a gran escala, de forma más rápida, económica y precisa que cualquier método anterior.

Identificó a 226 de 338 Usuarios por Menos de 20.000 Coronas

En un experimento clave, los investigadores vincularon a usuarios seudónimos de Hacker News con perfiles reales de LinkedIn de un grupo de 89.000 candidatos. El resultado: 226 de 338 usuarios fueron identificados correctamente, lo que corresponde a un 67% de recall con un 90% de precisión, según el material de investigación. Los métodos clásicos, en comparación, lograron una precisión cercana a cero por ciento en un nivel de precisión similar.

Costo total de todo el experimento: menos de 2.000 dólares estadounidenses – alrededor de 20.000 coronas noruegas. Por persona, esto equivale a entre 14 y 56 coronas, dependiendo de la escala y la metodología.

67%

Recall con 90% de precisión (Hacker News)

45%

Recall con 99% de precisión (Reddit)

Para los usuarios de Reddit que publicaron en foros de películas, se logró hasta un 45% de recall con un 99% de precisión. En un intento, el historial de comentarios de usuarios individuales se dividió en dos con un intervalo de un año, y dos tercios aún se emparejaron correctamente. Con los métodos tradicionales, las cifras comparables estaban por debajo del uno por ciento.

La IA revela quién eres a partir de tus publicaciones de texto – por 12 coronas

ESRC: La Máquina de Cuatro Pasos Que Te Lee

Detrás de los resultados se encuentra una metodología llamada ESRC – Extracción, Búsqueda, Razonamiento y Calibración. El sistema trabaja exclusivamente con texto no estructurado y no requiere ningún esfuerzo manual por parte del investigador.

El sistema difiere fundamentalmente de ataques de desanonimización anteriores – como el conocido ataque del Netflix Prize de 2008 – que requerían conjuntos de datos estructurados. ESRC opera directamente sobre texto de foro crudo y sin procesar.

La «Oscuridad Práctica» Ya No Es Suficiente Protección

Los investigadores señalan que un principio central de privacidad está ahora bajo presión: la oscuridad práctica – la idea de que, aunque la desanonimización es técnicamente posible, es tan intensiva en recursos que rara vez se lleva a cabo en la práctica.

Pregúntate: ¿podría un equipo de investigadores inteligentes averiguar quién eres a partir de tus publicaciones? Si es así, los agentes LLM probablemente puedan hacer lo mismo, y el costo solo disminuye

Es el co-investigador Simon Lermen de ETH Zúrich quien lo formula así, según el material de investigación. El investigador principal Daniel Paleka dice que le sorprendió «la poca información que se necesita para vincular dos cuentas».

Los modelos también pueden inferir atributos personales – lugar de residencia, nivel de ingresos, edad y ocupación – con hasta un 85% de precisión solo a partir de publicaciones de Reddit, según el mismo material de investigación.

Implicaciones Noruegas: GDPR y Seudonimización Bajo Presión

Para las empresas y agencias públicas noruegas, esto está lejos de ser una discusión académica abstracta.

Según el GDPR, la seudonimización se considera una medida técnica reconocida para reducir el riesgo en el tratamiento de datos personales. La Autoridad Noruega de Protección de Datos y las autoridades de supervisión europeas han aceptado, en la práctica, una seudonimización bien implementada como un elemento en las evaluaciones de riesgos según los artículos 25 y 32 del Reglamento General de Protección de Datos.

Cuando un actor comercial puede romper la seudonimidad por menos de 50 coronas por persona utilizando API de IA de acceso abierto, la base técnica para tales evaluaciones se debilita considerablemente.

El artículo del GDPR sobre seudonimización no fue escrito para un mundo donde un modelo de lenguaje puede reidentificar a las personas por el precio de una taza de café.

Esto afecta particularmente a:

Sector público: Los municipios noruegos, los fideicomisos de salud y NAV (la Administración Noruega de Trabajo y Bienestar) están realizando cada vez más análisis basados en datos seudonimizados. Si la seudonimización ya no proporciona suficiente protección contra la reidentificación, podría requerir una revisión completa de los acuerdos de procesamiento de datos y las evaluaciones de impacto de la protección de datos (DPIA).
Empresas: Las empresas que utilizan datos de clientes, reseñas de usuarios o encuestas a empleados bajo la suposición de anonimato pueden enfrentar una exposición legal real si los datos son realmente reidentificables.
Investigación y periodismo: Las entrevistas anonimizadas y la protección de fuentes están bajo presión. En el experimento contra el conjunto de datos parcialmente editado de Anthropic Interviewer – entrevistas con investigadores nombrados – 9 de 33 individuos anonimizados fueron identificados correctamente con un 82% de precisión.

¿Qué Significa Esto para el Futuro?

Los investigadores estiman que se puede lograr alrededor de un 27% de recall a escala de internet – es decir, contra conjuntos de datos con millones de candidatos – un nivel que no puede ser igualado por métodos no basados en LLM. Contra un millón de candidatos, se proyecta un 35% de recall con un 90% de precisión.

Cabe destacar que la investigación describe actualmente lo que es técnicamente posible bajo condiciones controladas. Los métodos no han sido validados en todas las posibles situaciones de ataque en el mundo real, y existen preguntas legítimas sobre su transferibilidad a todo tipo de conjuntos de datos seudonimizados. Sin embargo, la dirección es lo suficientemente clara como para que las autoridades de supervisión, los profesionales del derecho y los propietarios de sistemas deban abordar las implicaciones ahora.

El material de investigación se publica en afiliación con ETH Zúrich, UC Berkeley, Anthropic y Google, y ha sido cubierto por Ars Technica (marzo de 2026).

La IA revela quién eres a partir de tus publicaciones de texto – por 12 coronas

Identificó a 226 de 338 Usuarios por Menos de 20.000 Coronas

ESRC: La Máquina de Cuatro Pasos Que Te Lee

La «Oscuridad Práctica» Ya No Es Suficiente Protección

Implicaciones Noruegas: GDPR y Seudonimización Bajo Presión

¿Qué Significa Esto para el Futuro?

Artículos Relacionados

Nuevo ataque Rowhammer otorga control total sobre máquinas con GPU Nvidia

Modelos de IA se negaron a eliminarse mutuamente — ¿pero fue solo una broma?

Agente de IA resuelve 8 de cada 10 casos bancarios – sin ayuda humana