Un hilo en Hacker News que está explotando ahora mismo — 855 puntos y casi 450 comentarios — trata aparentemente de algo bastante inocente: Anna's Archive ha publicado un archivo llms.txt en su blog. El archivo se dirige directamente a los LLM que rastrean la web, animándolos (y a las personas detrás de ellos) a donar al archivo. Un poco meta, un poco divertido.
Pero si cavas una capa más profundo, rápidamente te das cuenta de que esto no es un peculiar truco de relaciones públicas. Es casi una provocación.
El trasfondo es brutal: El archivo, que proporciona acceso a más de 140 millones de libros y artículos digitalizados, ha sido, según demandas y documentos internos, una fuente central de datos de entrenamiento para algunos de los mayores actores de IA del mundo. Meta supuestamente descargó un total de 81.7 terabytes de datos de Anna's Archive y servicios similares. NVIDIA está siendo demandada por intentar asegurar acceso directo. DeepSeek ha reconocido abiertamente que entrenaron con 800,000 libros científicos chinos de allí.
¿Y el precio por el acceso "legal"? $100,000 en criptomonedas — algo que al menos 30 empresas habrían pagado.
Apenas cuatro días antes de que apareciera la publicación del blog, se dictó una sentencia federal en EE. UU. por $19.5 millones contra el archivo. Las editoriales que demandaron definieron explícitamente a Anna's Archive como un centro de datos de entrenamiento de IA, no solo un sitio de piratería. Este es un movimiento legal que podría tener consecuencias mucho más allá de este caso individual.
¿Qué hace esto interesante ahora mismo? Porque el archivo llms.txt funciona como una confesión pública envuelta en humor. El archivo dice implícitamente: ya han usado nuestros datos, ustedes lo saben, nosotros lo sabemos — así que paguen. Y el hilo de HN está discutiendo frenéticamente qué significa esto para las normas en torno al web scraping, el uso justo y cómo se verán realmente los futuros conjuntos de datos de entrenamiento a medida que el sistema legal se endurezca.
Esto sigue siendo una señal temprana de fuentes de la comunidad, y no sabemos cómo terminarán las demandas en curso contra Meta y NVIDIA. Pero la dirección es clara: la zona legalmente gris en la que ha operado la industria de la IA en lo que respecta a los datos de entrenamiento está a punto de volverse considerablemente más estrecha.
Sigan el hilo de HN — se mueve rápido.
