Un hilo en Hacker News que está explotando ahora mismo trata sobre ATLAS, un proyecto de benchmark de código abierto que supuestamente demuestra que una GPU de alrededor de 500 dólares puede igualar, o incluso superar, a Claude Sonnet en tareas de codificación. El proyecto fue creado por un solo desarrollador en GitHub, y la reacción en la sección de comentarios es lo que nos encanta seguir: la mitad está genuinamente impresionada, la otra mitad es escéptica y comienza a investigar.

ATLAS (AGI-Oriented Testbed for Logical Application in Science) no es un benchmark cualquiera. El conjunto consta de alrededor de 800 tareas originales creadas por expertos con doctorado en matemáticas, física, química, biología, informática y más. La idea es contrarrestar el problema clásico de que los modelos hayan memorizado las respuestas de los datos de entrenamiento. Las tareas son nuevas, de examen cruzado y requieren un razonamiento abierto, formateado en LaTeX, no solo de selección múltiple.

Si la afirmación es cierta, esto es una señal de que la inferencia en el borde se acerca a un punto de inflexión.

Pero —y esto es importante tener en cuenta— el proyecto utiliza lo que se denomina evaluación "LLM-as-a-judge". Es decir, otro modelo de lenguaje evalúa las respuestas. Esto no es necesariamente incorrecto, pero abre una trampa clásica: el modelo evaluador puede tener puntos ciegos que se superponen con el modelo que está evaluando. Investigaciones en el campo muestran que los jueces LLM pueden favorecer las salidas de modelos de la misma «familia», lo que puede inflar los números sin que nadie se dé cuenta. La sección de comentarios en HN ya está abordando esto.

También vale la pena señalar que esta es una señal temprana de la comunidad, no un estudio revisado por pares. La fuente es un repositorio de GitHub de un solo usuario, y la metodología del benchmark aún no ha sido verificada de forma independiente. Tome los números como una indicación, no como una verdad absoluta.

Sin embargo: la razón por la que esto recibe tanta atención no son solo los números. Es lo que sugieren. Si es cierto que los modelos locales en hardware asequible realmente están empezando a cerrar la brecha con los servicios basados en la nube en dominios específicos como la codificación, es un cambio que significará mucho, para la privacidad, para los costos y para quién realmente necesita suscripciones a API.

La comunidad de código abierto en r/LocalLLaMA también ha comenzado a hablar de esto, y esperamos ver intentos de replicación en los próximos días. Esté atento a si alguien logra reproducir los resultados de forma independiente; esa es la prueba que realmente importa aquí.