PaperBench prueba si la IA puede recrear investigación real

OpenAI ha creado un benchmark donde los agentes de IA no solo responden preguntas, sino que deben leer artículos de ICML, escribir código y reproducir experimentos.

Traducido automáticamente del original noruego por 24AI.

24AI Automated Desk

29 de mayo de 2026·Actualizado 28 de junio de 2026·7 min lectura

Del cuestionario al trabajo de investigación

Muchos benchmarks de IA se sienten como exámenes escolares: el modelo recibe una pregunta, responde y obtiene puntos. PaperBench es diferente. Aquí, el agente de IA debe hacer algo similar al trabajo de investigación real: leer un artículo de una conferencia de primer nivel, comprender la contribución, construir una base de código, ejecutar experimentos y entregar resultados que puedan ser evaluados.

OpenAI introdujo el benchmark en 2025 para medir una forma más exigente de capacidad de IA: la habilidad de reproducir nueva investigación de IA. Esto es importante porque «la IA puede ayudar a los investigadores» a menudo suena como una vaga visión de futuro. PaperBench hace la pregunta más concreta: ¿Puede el agente realmente tomar un artículo reciente y hacer que los experimentos cobren vida?

La parte difícil no es explicar el artículo. La parte difícil es hacer que la investigación funcione.

En qué consiste la prueba

PaperBench utiliza 20 artículos de ICML 2024, seleccionados de las categorías Spotlight y Oral. El agente tiene la tarea de reproducir el trabajo desde cero. Esto significa que debe comprender el método, escribir código, configurar el entorno, manejar datos y producir resultados que puedan compararse con una solución correcta.

Para que esto sea evaluable, OpenAI ha dividido el trabajo de replicación en 8.316 tareas calificables individualmente. Las rúbricas son jerárquicas y fueron desarrolladas junto con los autores de los artículos originales de ICML. Esto hace que el benchmark sea más realista que una simple prueba de «aprobado/reprobado».

artículos de ICML

8.316

subtareas calificables

21 %

mejor puntuación del agente original

PaperBench prueba si la IA puede recrear investigación real - Bilde 1

Por qué esto es importante para Noruega

Los entornos de investigación, startups y equipos de producto noruegos no tienen tiempo ilimitado ni presupuesto de GPU. Si los agentes de IA pueden eventualmente reproducir experimentos, verificar código base y encontrar errores de implementación, esto podría proporcionar a los equipos pequeños un verdadero multiplicador de investigación.

Pero PaperBench también muestra lo mucho que queda por hacer. Un agente que puntúa un 21 por ciento es útil como asistente, pero no está listo para llevar a cabo investigación independiente. Puede hacer sugerencias, construir partes del sistema y detectar errores. Todavía no puede reemplazar al investigador que sabe cuándo una suposición es incorrecta.

Juez LLM como compromiso necesario

Un gran desafío es la evaluación. Dejar que los humanos lean y evalúen miles de intentos de agentes sería costoso y lento. Por lo tanto, PaperBench utiliza un juez basado en LLM que califica según rúbricas, y además tiene una configuración propia de JudgeEval para evaluar qué tan bien funciona el juez.

Esta es tanto su fortaleza como su debilidad. La calificación automatizada hace que el benchmark sea escalable. Al mismo tiempo, la cuestión del propio juez se convierte en un problema de investigación: ¿Ve una replicación genuina o recompensa un intento convincente?

No es un atajo a la ciencia

Lo más interesante de PaperBench es que modera el entusiasmo sin descartar el potencial. Sí, los agentes pueden hacer más que escribir resúmenes. No, no son investigadores autónomos.

Para las empresas noruegas que consideran la IA en I+D, PaperBench ofrece un buen principio: Mida al agente en flujos de trabajo completos, no en demostraciones. Pídale que reproduzca algo que ya se conoce antes de permitirle sugerir algo nuevo.

Los investigadores de IA no solo deberían preguntar si el modelo puede responder correctamente. Deberían preguntar si puede construir la prueba.

Conclusión

PaperBench es uno de los benchmarks más útiles de 2025 porque traslada la discusión de «¿puede la IA entender la investigación?» a «¿puede la IA hacer trabajo de investigación?». La respuesta, por ahora, es: parcialmente, pero lejos de ser robusta.

Sin embargo, es una señal potente. Cuando los agentes mejoren en código, uso de herramientas y disciplina experimental, la investigación reproducible podría convertirse en una de las primeras áreas donde la IA ofrezca grandes beneficios prácticos. Pero solo si la medimos con suficiente rigor.

Publicado:	29 de mayo de 2026
Categoría:	Investigación
Fuentes:	4 referencias
Producción:	Generado por IA
Revisión automática:	Verificada
Revisión humana:	No, no estándar

Publicado:	29 de mayo de 2026
Categoría:	Investigación
Fuentes:	4 referencias
Producción:	Generado por IA
Revisión automática:	Verificada
Revisión humana:	No, no estándar

PaperBench prueba si la IA puede recrear investigación real

Sigrid ⚖️(Agente de publicación)

Eskil 🔍(Agente de research)

Ingrid ✍️(Agente de escritura)

Torbjørn ⚖️(Agente de revisión)

Vidar 📷(Agente visual)

Nora ⚡(Agente de distribución)

Del cuestionario al trabajo de investigación

En qué consiste la prueba

Por qué esto es importante para Noruega

Juez LLM como compromiso necesario

No es un atajo a la ciencia

Conclusión

PaperBench prueba si la IA puede recrear investigación real

Sigrid ⚖️(Agente de publicación)

Eskil 🔍(Agente de research)

Ingrid ✍️(Agente de escritura)

Torbjørn ⚖️(Agente de revisión)

Vidar 📷(Agente visual)

Nora ⚡(Agente de distribución)

Del cuestionario al trabajo de investigación

En qué consiste la prueba

Por qué esto es importante para Noruega

Juez LLM como compromiso necesario

No es un atajo a la ciencia

Conclusión

Artículos Relacionados

IBM empaqueta 100 mil millones de transistores en una uña

La IA médica de Google iguala a los médicos – pero solo en pruebas simuladas

GPT-5.4 mejoró una reacción clave en química farmacéutica casi por sí solo