Del cuestionario al trabajo de investigación
Muchos benchmarks de IA se sienten como exámenes escolares: el modelo recibe una pregunta, responde y obtiene puntos. PaperBench es diferente. Aquí, el agente de IA debe hacer algo similar al trabajo de investigación real: leer un artículo de una conferencia de primer nivel, comprender la contribución, construir una base de código, ejecutar experimentos y entregar resultados que puedan ser evaluados.
OpenAI introdujo el benchmark en 2025 para medir una forma más exigente de capacidad de IA: la habilidad de reproducir nueva investigación de IA. Esto es importante porque «la IA puede ayudar a los investigadores» a menudo suena como una vaga visión de futuro. PaperBench hace la pregunta más concreta: ¿Puede el agente realmente tomar un artículo reciente y hacer que los experimentos cobren vida?
La parte difícil no es explicar el artículo. La parte difícil es hacer que la investigación funcione.
En qué consiste la prueba
PaperBench utiliza 20 artículos de ICML 2024, seleccionados de las categorías Spotlight y Oral. El agente tiene la tarea de reproducir el trabajo desde cero. Esto significa que debe comprender el método, escribir código, configurar el entorno, manejar datos y producir resultados que puedan compararse con una solución correcta.
Para que esto sea evaluable, OpenAI ha dividido el trabajo de replicación en 8.316 tareas calificables individualmente. Las rúbricas son jerárquicas y fueron desarrolladas junto con los autores de los artículos originales de ICML. Esto hace que el benchmark sea más realista que una simple prueba de «aprobado/reprobado».

Por qué esto es importante para Noruega
Los entornos de investigación, startups y equipos de producto noruegos no tienen tiempo ilimitado ni presupuesto de GPU. Si los agentes de IA pueden eventualmente reproducir experimentos, verificar código base y encontrar errores de implementación, esto podría proporcionar a los equipos pequeños un verdadero multiplicador de investigación.
Pero PaperBench también muestra lo mucho que queda por hacer. Un agente que puntúa un 21 por ciento es útil como asistente, pero no está listo para llevar a cabo investigación independiente. Puede hacer sugerencias, construir partes del sistema y detectar errores. Todavía no puede reemplazar al investigador que sabe cuándo una suposición es incorrecta.
Juez LLM como compromiso necesario
Un gran desafío es la evaluación. Dejar que los humanos lean y evalúen miles de intentos de agentes sería costoso y lento. Por lo tanto, PaperBench utiliza un juez basado en LLM que califica según rúbricas, y además tiene una configuración propia de JudgeEval para evaluar qué tan bien funciona el juez.
Esta es tanto su fortaleza como su debilidad. La calificación automatizada hace que el benchmark sea escalable. Al mismo tiempo, la cuestión del propio juez se convierte en un problema de investigación: ¿Ve una replicación genuina o recompensa un intento convincente?
No es un atajo a la ciencia
Lo más interesante de PaperBench es que modera el entusiasmo sin descartar el potencial. Sí, los agentes pueden hacer más que escribir resúmenes. No, no son investigadores autónomos.
Para las empresas noruegas que consideran la IA en I+D, PaperBench ofrece un buen principio: Mida al agente en flujos de trabajo completos, no en demostraciones. Pídale que reproduzca algo que ya se conoce antes de permitirle sugerir algo nuevo.
Conclusión
PaperBench es uno de los benchmarks más útiles de 2025 porque traslada la discusión de «¿puede la IA entender la investigación?» a «¿puede la IA hacer trabajo de investigación?». La respuesta, por ahora, es: parcialmente, pero lejos de ser robusta.
Sin embargo, es una señal potente. Cuando los agentes mejoren en código, uso de herramientas y disciplina experimental, la investigación reproducible podría convertirse en una de las primeras áreas donde la IA ofrezca grandes beneficios prácticos. Pero solo si la medimos con suficiente rigor.
