Todos los modelos de IA comienzan en el mismo lugar: con una ejecución de entrenamiento. La calidad y velocidad de la infraestructura de entrenamiento determinan la rapidez con la que los equipos pueden iterar, la escala de modelos que pueden manejar y si los trabajos se completan de manera fiable. Con los resultados de MLPerf Training 6.0 publicados, ahora está claro que la generación Blackwell de NVIDIA establece un nuevo estándar de la industria, según la propia NVIDIA y los datos de benchmark disponibles.

Blackwell supera a la competencia en MLPerf

MLPerf Training es una de las series de benchmarks independientes más reconocidas de la industria para la infraestructura de entrenamiento de IA. En la última ronda, versión 6.0, NVIDIA ocupó el primer lugar en todas las categorías con sus sistemas basados en Blackwell, según el propio blog de NVIDIA.

Las cifras más impresionantes se refieren al entrenamiento de grandes modelos de lenguaje. El sistema GB200 NVL72 —que conecta 72 GPU Blackwell en formato de rack— ofreció un entrenamiento hasta 3,2 veces más rápido en Llama 3.1 405B en comparación con las soluciones Hopper optimizadas (H100) con precisión FP8. El rendimiento mejorado se debe, según NVIDIA, en gran medida a la introducción de la precisión NVFP4 y a las optimizaciones de software.

3,2x
Entrenamiento más rápido vs. H100 (Llama 3.1 405B)
1,6x
GB300 más rápido que GB200
Blackwell de NVIDIA domina el panorama: entrenamiento de IA 3 veces más rápido que H100 - Bilde 1

GB300 NVL72: Blackwell Ultra va un paso más allá

Si el GB200 NVL72 ya es potente, el nuevo GB300 NVL72 —denominado «Blackwell Ultra»— es aún más rápido. Según los datos de benchmark disponibles, el sistema GB300 ofrece un rendimiento de entrenamiento hasta 1,6 veces superior al del GB200 a la misma escala. Es un salto generacional notable dentro de la misma familia de arquitecturas.

La GPU B200, que es la base de la serie Blackwell, está construida sobre un diseño CoWoS de doble chip producido con el proceso 4NP de TSMC, con 208 mil millones de transistores y 192 GB de memoria HBM3E con un ancho de banda de 8 TB/s. La introducción de operaciones tensoriales FP4 nativas es una de las innovaciones técnicas más importantes en comparación con la generación anterior.

Con el GB300 NVL72, ahora es posible entrenar modelos en una magnitud que antes requería mucho más tiempo y recursos.

Clientes reales confirman el rendimiento

Las cifras de benchmark de NVIDIA deben, naturalmente, ser vistas con ojo crítico —la compañía tiene intereses comerciales obvios. Por lo tanto, vale la pena señalar que usuarios independientes informan resultados similares. La empresa Cohere, conocida por su IA orientada a empresas, afirma, según fuentes disponibles, haber logrado un entrenamiento tres veces más rápido para su plataforma North en el GB200 NVL72. El servicio de generación de imágenes Midjourney, según el mismo material de origen, escalará una gran flota de GPU Blackwell Ultra para el entrenamiento de futuros modelos de imagen y video.

Estas afirmaciones son, por supuesto, difíciles de verificar de forma independiente, pero dan una indicación de que las ganancias de rendimiento no son solo cifras en papel.

AMD MI300X: Todavía relevante, pero bajo presión

Es importante tener una imagen matizada de la competencia. AMD Instinct MI300X sigue siendo un actor serio, especialmente para tareas que requieren mucha memoria. Con 192 GB de memoria HBM3 y 5,3 TB/s de ancho de banda, el MI300X es muy adecuado para la inferencia de modelos muy grandes en una sola GPU, lo que reduce la necesidad de división de modelos y los costos de red.

En MLPerf Inference v4.1, el MI300X mostró un fuerte rendimiento en la inferencia de Llama 2 70B, y AMD ha afirmado ventajas del 20-60 por ciento sobre el H100 en ciertos escenarios de inferencia. Sin embargo, para el entrenamiento de IA en bruto a gran escala, la situación es diferente: Blackwell B200 ofrece aproximadamente el doble de potencia bruta en comparación con H200 en diferentes precisiones.

Un factor importante es la pila de software. La plataforma ROCm de AMD ha logrado avances significativos, pero generalmente se considera menos madura que el ecosistema CUDA de NVIDIA. Esto, según análisis independientes, puede resultar en que el MI300X solo realice entre el 37% y el 66% de su capacidad teórica en cargas de trabajo LLM reales —una limitación significativa que AMD está trabajando activamente para reducir.

AMD MI300X es fuerte en inferencia que requiere mucha memoria, pero para el entrenamiento de IA puro a gran escala, Blackwell establece un nuevo estándar de la industria con el que es difícil competir hoy en día.

¿Qué significa esto para el panorama del entrenamiento de IA?

Cuando la infraestructura de entrenamiento fundamental mejora en un factor de 3 de generación en generación, cambia lo que es posible construir. Modelos que antes requerían semanas para entrenar, ahora pueden completarse en días. Esto reduce el umbral para la iteración y la experimentación —y, en la práctica, acelera todo el ciclo de desarrollo de la IA.

El benchmark MLPerf no es perfecto, y siempre hay una brecha entre las condiciones de prueba controladas y los entornos de producción. Pero como medida comparativa para la infraestructura de entrenamiento, es reconocido en la industria, y la dominancia de Blackwell aquí es difícil de ignorar.

Las fuentes de este artículo incluyen el blog oficial de NVIDIA sobre MLPerf Training 6.0, así como trabajos de análisis independientes que comparan AMD Instinct MI300X y NVIDIA Blackwell en escenarios de entrenamiento reales.