Un hilo en r/artificial que ha ganado mucha tracción desde ayer trata sobre el lanzamiento de GPT-5.4, e incluso en una comunidad bastante acostumbrada a grandes cifras, hay un poco más de actividad de lo normal. Porque las cifras aquí no son precisamente modestas.

OpenAI lanzó el modelo el 5 de marzo, y ya está disponible a través de ChatGPT (como GPT-5.4 Thinking), la API y Codex. Lo que está haciendo que la gente discuta no es necesariamente la arquitectura técnica, sino los resultados del benchmark frente a profesionales reales.

El benchmark GDPval mide el rendimiento en tareas profesionales en 44 profesiones diferentes. GPT-5.4 iguala o supera a los profesionales de la industria en el 83% de estas comparaciones. Su predecesor, GPT-5.2, estaba en 70.9%. No es un salto pequeño.

Por primera vez, un modelo de OpenAI ha superado a los humanos en navegación de escritorio, y sucedió en silencio, sin mucha fanfarria.

En OSWorld Verified, que prueba la capacidad de controlar una computadora usando capturas de pantalla, ratón y teclado, GPT-5.4 obtuvo un 75.0% frente al 72.4% de los humanos. Es un margen pequeño, pero está por encima, y es la primera vez que los modelos de OpenAI cruzan ese umbral en esa prueba.

Otras cifras que la gente destaca en el hilo: en el trabajo con documentos legales (BigLaw Bench), el modelo obtiene un 91%, en hojas de cálculo de banca de inversión un 87.3% frente al 68.4% de GPT-5.2, y la búsqueda web agéntica (BrowseComp) sube al 82.7%. El razonamiento abstracto en ARC-AGI-2 ha saltado del 54.2% al 83.3% para la variante Pro, lo que supone casi 30 puntos porcentuales en una sola generación.

Un punto que no recibe tanta atención, pero debería: el nuevo sistema "Tool Search" redujo el consumo de tokens en un 47% sin pérdida de precisión. Para quienes ejecutan grandes pipelines agénticos, esto representa un ahorro de costos potencialmente considerable.

La fiabilidad fáctica también ha mejorado: las afirmaciones individuales son supuestamente un 33% menos erróneas, y las respuestas completas un 18% menos defectuosas que GPT-5.2. Es difícil verificarlo de forma independiente ahora mismo, pero es algo a lo que hay que prestar atención.

Cabe señalar: estas son todavía señales tempranas de una comunidad de Reddit, y los benchmarks siempre son objeto de debate sobre qué tan bien reflejan el rendimiento laboral real. Pero la dirección es clara, y el ritmo de desarrollo no es algo que la gente descarte fácilmente en estas discusiones.

Estamos en una fase temprana aquí. El periodismo tecnológico mainstream lo recogerá en cuestión de días. Manténganse atentos.