Hacker News está en ebullición ahora mismo. El hilo en HN sobre el lanzamiento de Claude Opus 4.8 ha superado los 870 comentarios y más de 1000 puntos en cuestión de horas — es el tipo de compromiso que se ve cuando algo realmente toca una fibra sensible en la comunidad.

Entonces, ¿qué está pasando? Anthropic lanzó Opus 4.8 hoy, y no son precisamente modestos con sus afirmaciones. Según sus propios datos, el modelo supera a GPT-5.5 en la mayoría de los benchmarks que realmente importan en la práctica: trabajo de conocimiento, codificación a nivel de problemas, uso de herramientas agénticas y ventanas de contexto largas. GPT-5.5 aún se mantiene firme en los flujos de trabajo de terminal y CLI, pero por lo demás, la situación parece difícil para OpenAI en esta ronda.

Lo que realmente hace hablar a la gente no son solo las cifras brutas. SWE-bench Verified al 88,6% es sólido, pero es SWE-bench Pro lo que impresiona — subiendo del 64,3% al 69,2%. Esa es la versión más difícil de la prueba, y un salto allí es significativo. Databricks informa que Opus 4.8 proporciona «un salto cuántico en el razonamiento agéntico» dentro de su Genie-dataagent, lo que sugiere que esto no es solo una manipulación de benchmarks.

Anthropic afirma que el modelo es cuatro veces menos propenso a dejar pasar errores de código desapercibidos — ese es el tipo de mejora en la fiabilidad que realmente importa en producción.

En cuanto a los precios, también hay novedades. El precio base no ha cambiado desde Opus 4.7 (5 dólares por millón de tokens de entrada, 25 dólares de salida), pero el nuevo Fast mode a 10/50 dólares por millón de tokens ofrece una velocidad 2,5 veces mayor y es tres veces más económico que el modo rápido equivalente de la generación anterior. La ventana de contexto es de un millón de tokens con una salida máxima de 128K — eso es generoso.

Anthropic lanza Opus 4.8 — supera a GPT-5.5 en 12 benchmarks - Bilde 1

La discusión en HN está, como era de esperar, dividida. Algunos están entusiasmados con las mejoras en la fiabilidad y destacan que Anthropic compara Opus 4.8 con su mejor modelo de alineación (Claude Mythos Preview) en cuanto a tasas de comportamiento desalineado. Otros son más escépticos con los propios benchmarks de Anthropic y esperan pruebas independientes.

Cabe señalar: estas son señales tempranas basadas en discusiones de la comunidad y las propias notas de lanzamiento de Anthropic. Las evaluaciones independientes y sistemáticas llevan tiempo, y la historia demuestra que las cifras oficiales de los benchmarks no siempre se mantienen en la práctica.

Sin embargo — con la puntuación de "buzz" que genera este hilo y los detalles técnicos concretos que ya circulan, esto es definitivamente algo a seguir de cerca en los próximos días.