Amazon Web Services (AWS) recibió recientemente a TechCrunch para un recorrido exclusivo por el laboratorio de chips donde se desarrollan los chips Trainium, el mismo laboratorio que ahora es el núcleo de una serie de acuerdos multimillonarios con algunas de las empresas de IA más influyentes del mundo. El momento no fue casual: el recorrido tuvo lugar poco después de que Amazon anunciara su inversión de 50 mil millones de dólares en OpenAI, según TechCrunch.

¿Qué es exactamente Trainium?

Trainium es el chip acelerador de IA propio de Amazon, diseñado por Annapurna Labs y construido específicamente para el entrenamiento de aprendizaje automático a gran escala. Si bien las GPU H100 de Nvidia han sido el estándar de la industria para el entrenamiento de IA, AWS Trainium se posiciona como una alternativa más económica y escalable, especialmente para empresas que ejecutan grandes cargas de trabajo durante mucho tiempo.

El laboratorio secreto de chips de Amazon: Aquí Anthropic, OpenAI y Apple entrenan sus modelos de IA

Anthropic: De la inversión inicial a la colaboración profunda

Amazon ha invertido un total de 8 mil millones de dólares en Anthropic — 4 mil millones inicialmente, seguidos de otros 4 mil millones. La inversión no solo ha proporcionado capital a Anthropic, sino que también ha consolidado a AWS como el principal socio de servicios en la nube y entrenamiento de la compañía.

Anthropic ha establecido una colaboración técnica donde sus ingenieros trabajan directamente con Annapurna Labs para optimizar futuras generaciones de chips Trainium. También contribuyen al desarrollo de la pila de software AWS Neuron, lo que les da acceso a optimizaciones hasta el nivel del silicio, según el informe de TechCrunch.

Central a la colaboración es «Project Rainier» — un enorme clúster de computación que consta de cientos de miles de chips Trainium2, dedicado a entrenar los futuros modelos Claude de Anthropic.

Cabe señalar que Anthropic se ha comprometido paralelamente a utilizar hasta un millón de TPU de Google Cloud, lo que demuestra que la empresa opera con una estrategia multi-nube a pesar de su estrecha relación con AWS.

OpenAI, históricamente vinculado estrechamente a Microsoft Azure y Nvidia, está realizando ahora su mayor cambio de infraestructura en años
El laboratorio secreto de chips de Amazon: Aquí Anthropic, OpenAI y Apple entrenan sus modelos de IA

OpenAI: 2 gigavatios y una ruptura con viejos hábitos

La participación de OpenAI en el ecosistema Trainium representa un cambio estratégico significativo. La compañía se ha comprometido a consumir aproximadamente 2 gigavatios de capacidad Trainium a través de la infraestructura de AWS, distribuidos entre los chips Trainium3 actuales y la próxima generación Trainium4.

El objetivo es una mejora del 40 por ciento en la relación precio-rendimiento para tareas de inferencia de alto volumen como ChatGPT, en comparación con las soluciones existentes, según TechCrunch. Además, AWS actuará como distribuidor exclusivo de la nube de terceros para OpenAI Frontier, la plataforma de agentes empresariales de la compañía.

OpenAI justifica esto con una estrategia consciente de «múltiples proveedores»: para distribuir el riesgo de infraestructura y reducir la dependencia de Nvidia y lo que internamente se conoce como el «impuesto de Nvidia» — una prima que las empresas pagan por la capacidad H100 bajo presión.

$50 mil millones
Inversión de Amazon en OpenAI
50 %
Posible reducción de costos vs. Nvidia H100
2 GW
Compromiso de capacidad Trainium de OpenAI

Apple: Más del 40 por ciento de ganancia de eficiencia

Apple es quizás el actor más sorprendente en la historia de Trainium. La compañía ha utilizado AWS durante más de diez años para servicios como Siri, Apple Maps y Apple Music, pero recientemente reveló que utiliza activamente chips de AWS para entrenar los modelos de IA que impulsan Apple Intelligence.

Al cambiar a chips AWS Graviton e Inferentia desde instancias x86 tradicionales, Apple ha logrado una ganancia de eficiencia de más del 40 por ciento para las cargas de trabajo de aprendizaje automático, según el material fuente de TechCrunch. Las pruebas iniciales de Trainium 2 indican mejoras potenciales de hasta el 50 por ciento en la eficiencia del entrenamiento de modelos.

Apple subraya que el uso de chips de AWS se aplica exclusivamente a la fase de entrenamiento. El procesamiento real de IA en los dispositivos de los usuarios sigue ocurriendo dentro del propio marco Private Cloud Compute de Apple, en línea con la política de privacidad de la compañía.

Un nuevo frente competitivo contra Nvidia

El interés combinado de Anthropic, OpenAI y Apple señala que AWS Trainium se está estableciendo como una alternativa real a la posición dominante de Nvidia en el mercado de infraestructura de IA. El nivel de costos, la escalabilidad y la estrecha integración con el ecosistema de la nube de AWS se destacan como los principales impulsores.

Si Trainium realmente cumple con las promesas de rendimiento declaradas a escala de producción — y no solo en entornos de prueba controlados — está por verse. Pero las señales de tres de los actores de IA más importantes del mundo son lo suficientemente claras como para que la dirección de Nvidia deba tomar nota del movimiento.