Los costos cada vez mayores de ejecutar modelos de IA en producción —lo que se conoce como inferencia— han sido durante mucho tiempo un cuello de botella para las empresas que desean utilizar la inteligencia artificial a gran escala. Ahora, Google Cloud y NVIDIA anuncian una colaboración que promete cambiar radicalmente este panorama.
Las nuevas instancias A5X reducirán la factura a la mitad — y más
Durante la conferencia Google Cloud Next, que tuvo lugar del 22 al 23 de abril de 2026, los dos gigantes tecnológicos presentaron lo que describen como una nueva generación de infraestructura de IA. El núcleo de la oferta son las instancias bare-metal A5X, construidas sobre sistemas a escala de rack NVIDIA Vera Rubin NVL72, según AI News.
Mediante una estrecha coordinación entre hardware y software —lo que en la industria se denomina «co-design»—, las partes afirman que la nueva arquitectura puede ofrecer hasta diez veces menos costo de inferencia por token y diez veces mayor rendimiento de tokens por megavatio en comparación con la generación anterior.
Un costo de inferencia por token diez veces menor no es una mejora marginal, es una reestructuración potencial de los presupuestos de IA en toda la industria.
Es importante destacar que Google Cloud aún no ha hecho públicos los precios por hora concretos de las instancias A5X. Las afirmaciones sobre las mejoras de costos se basan actualmente en los objetivos de rendimiento declarados por la propia empresa y no pueden verificarse de forma independiente.

Capacidad de escalado masivo
Una de las especificaciones técnicas más llamativas es la capacidad de escalado del sistema. Las instancias A5X utilizan NVIDIA ConnectX-9 SuperNIC combinadas con la propia red Virgo de Google. Esto debería permitir clústeres de hasta 80.000 GPU NVIDIA Rubin dentro de un único centro de datos, y hasta 960.000 GPU distribuidas en múltiples ubicaciones.
El objetivo es manejar lo que se describe como IA agéntica e IA física a gran escala, es decir, sistemas de IA que actúan de forma autónoma y potencialmente interactúan con el mundo físico.

Situación competitiva: AWS responde con recortes
El lanzamiento de A5X no ocurre en el vacío. Amazon Web Services ya ha implementado reducciones de precios en su infraestructura de GPU. Según la información de precios disponible, una instancia AWS P5 con ocho GPU NVIDIA H100 costaba alrededor de 60 dólares por hora antes del verano de 2025. Después de que AWS anunciara reducciones de hasta el 45 por ciento, el precio cayó a aproximadamente 33-34 dólares por hora. Las compras Spot y los Savings Plans pueden, según los datos del mercado, presionar el precio de la GPU hasta 1,90-2,10 dólares por hora de GPU.
AWS también ofrece sus propios chips personalizados. Las instancias basadas en Inferentia se comercializan con hasta un 70 por ciento menos de costo por inferencia en comparación con instancias EC2 equivalentes, mientras que se afirma que Trainium2 ofrece un 30-40 por ciento mejor relación precio-rendimiento que las instancias P5.
¿Qué significa esto para las empresas noruegas?
Para las empresas noruegas que ya están ejecutando o planean ejecutar IA en producción, este desarrollo es potencialmente importante. Los costos de inferencia —es decir, lo que cuesta usar realmente un modelo preentrenado— constituyen para muchas empresas el mayor gasto continuo en IA, y a menudo supera los costos del propio entrenamiento.
Si las afirmaciones de Google Cloud se mantienen en la práctica, las empresas de finanzas, salud, energía e industria —sectores donde Noruega tiene actores importantes— podrían ver costos operativos significativamente más bajos para los sistemas basados en IA. Sin embargo, dado que A5X está actualmente dirigido a escala masiva, son principalmente los actores más grandes quienes tendrán acceso en primera instancia.
Hasta que Google Cloud publique precios reales y se dispongan de benchmarks independientes, los directores de TI y los compradores noruegos deben tratar las cifras de rendimiento prometidas como indicaciones en lugar de garantías. La competencia entre Google y AWS es real, sin embargo, y la presión sobre los precios parece seguir a la baja independientemente de qué plataforma termine tomando la delantera.
