OpenAI anunció esta semana GPT-5.4, la última iteración de la serie GPT-5. Según la compañía, este es el modelo más potente y eficiente que han lanzado para uso profesional, con un énfasis particular en la codificación, el uso de herramientas y el llamado «uso de computadoras» — la capacidad de operar una computadora de forma autónoma.
Puede tomar el control de todo tu PC
La característica más notable de GPT-5.4 es su control informático integrado. El modelo puede tomar capturas de pantalla, usar el ratón y el teclado, y navegar por aplicaciones y sitios web — todo sin que se requiera un modelo especializado separado para la tarea, según las propias descripciones de OpenAI.
Esto convierte a GPT-5.4 en un fuerte candidato para el desarrollo de agentes autónomos que pueden realizar tareas de trabajo complejas a lo largo del tiempo, sin intervención humana en cada paso individual.
El modelo está disponible para suscriptores de ChatGPT Plus, Team y Pro, así como a través de la plataforma Codex y la API para desarrolladores de OpenAI.

¿Qué dicen los benchmarks?
Cabe señalar que muchas de las cifras de benchmark disponibles provienen de GPT-5.2, y que las comparaciones independientes de GPT-5.4 aún son limitadas. OpenAI aún no ha publicado un conjunto completo de benchmarks para el nuevo modelo.
Lo que sabemos de las mediciones de GPT-5.2 aún así ofrece una imagen del nivel: En el benchmark de matemáticas AIME 2025, GPT-5.2 alcanzó el 100 por ciento sin herramientas externas, y en el benchmark de codificación SWE-bench Verified, la variante Codex obtuvo un 80.0 por ciento — según los datos de investigación disponibles.

Claude y Gemini no se asustan
Los competidores no parecen quedarse quietos. Claude Opus 4.6 de Anthropic obtiene un 80.8 por ciento en SWE-bench Verified — marginalmente por encima de GPT-5.2 — y ha mostrado resultados sólidos en tareas de codificación basadas en terminal con un 65.4 por ciento en Terminal-bench 2.0. Según los datos de comparación disponibles, muchos desarrolladores destacan que Claude es mejor para interpretar instrucciones vagas y ceñirse al plan en tareas de agente largas.
Gemini 3.1 Pro de Google impresiona particularmente en el razonamiento abstracto, con un 77.1 por ciento en ARC-AGI-2 — significativamente más alto que Claude Opus 4.6 (68.8 por ciento) y GPT-5.2 (52.9 por ciento). En el razonamiento científico a nivel de doctorado (GPQA Diamond), Gemini 3.1 Pro obtiene un 94.3 por ciento, frente al 87 por ciento de Claude.
Tres perfiles distintos para tres necesidades diferentes
Basado en los datos disponibles, se perfila una imagen de tres modelos con diferentes fortalezas:
GPT-5.4
Se dirige a flujos de trabajo profesionales con control informático integrado y una fuerte integración con el propio ecosistema de herramientas de OpenAI. Adecuado para empresas que buscan construir agentes autónomos.
Claude Opus 4.6
Destaca en codificación compleja, tareas a largo plazo y situaciones en las que el modelo debe interpretar instrucciones poco claras. Preferido por muchos en las comunidades de desarrolladores para el trabajo basado en agentes.
Gemini 3.1 Pro
Más fuerte en tareas multimodales — texto, imagen, audio y video — así como en razonamiento abstracto y científico. También tiene la ventana de contexto más grande entre los tres, con dos millones de tokens en la hoja de ruta.
Una mirada crítica a las fuentes
Es importante recalcar que las cifras de este artículo provienen de una combinación de la propia comunicación de OpenAI y datos de investigación compilados, y que se han ejecutado diferentes benchmarks en diferentes versiones del modelo. GPT-5.4 es tan reciente que los datos comparativos directos contra Claude Opus 4.6 y Gemini 3.1 Pro en pruebas idénticas aún no están disponibles de actores independientes. Las cifras de benchmark de las propias empresas de IA deben leerse con cautela.
