xAI elimina a sus competidores con Grok Voice API — 5 veces más rápido que GPT

xAI ha lanzado discretamente una suite completa de API de voz que supera a GPT Realtime y Gemini en los benchmarks. La comunidad está en ebullición.

◉

24AI Underground

18 de abril de 2026·Actualizado 18 de abril de 2026·2 min lectura

xAI elimina a sus competidores con Grok Voice API — 5 veces más rápido que GPT

Señal temprana · fuente comunitaria

SEÑALES

xAI ha lanzado Grok Voice Agent API, TTS y STT — y las cifras son absurdas
0,78 segundos hasta el primer audio, xAI afirma que es casi 5 veces más rápido que su competidor más cercano
Un precio fijo de $0,05 por minuto lo hace más barato que OpenAI Realtime para la mayoría de los casos de uso

Señal temprana · fuente comunitaria · no verificada

Una discusión que se está extendiendo en Product Hunt ahora mismo trata sobre algo que la mayoría de los profesionales tecnológicos noruegos apenas han notado: xAI ha introducido discretamente un paquete completo de API de voz y parece superar tanto a OpenAI como a Google en lo que realmente importa: latencia y precio.

Empecemos desde el principio. La API Grok Voice Agent fue lanzada en diciembre de 2025, pero es ahora en abril de 2026 cuando empieza a ebullir en los canales de la comunidad. La razón es probablemente que las API de TTS y STT se lanzaron tan recientemente como el 16 de marzo, y la gente está empezando a construir con todo el stack combinado.

Lo que hace esto interesante es la arquitectura. En lugar de la clásica pipeline STT → LLM → TTS, la API Grok Voice Agent procesa el audio directamente. Suena a marketing, pero el benchmark en Big Bench Audio arroja un 92,3% — superando tanto a Gemini 2.5 Flash Native Audio como a GPT Realtime en la categoría de razonamiento. Esto no es algo de todos los días.

0,78 segundos hasta el primer audio. Si esto se mantiene en producción, representa un cambio fundamental para los agentes de voz.

El modelo de precios también es digno de mención. $0,05 por minuto fijo para la API de Voice Agent. OpenAI Realtime factura por token, lo que puede sumar rápidamente en conversaciones largas. Para aquellos que construyen bots telefónicos o agentes de atención al cliente —que, por cierto, es exactamente para lo que xAI lo utiliza a través de Starlink y Tesla— el cálculo es bastante sencillo.

La API de TTS admite etiquetas de voz en línea (inline speech tags), lo que significa que puedes programar pausas, susurros, suspiros y risas directamente en el texto. Esto es algo que ElevenLabs ha tenido durante un tiempo, pero ahora está integrado en la misma API que la propia capa del agente. El STT cuenta con diarización de hablantes (speaker diarization) y marcas de tiempo a nivel de palabra (word-level timestamps), y transmite a través de WebSocket.

¿Por qué vale la pena seguir esto ahora? Porque los agentes de voz son donde la integración de LLM realmente llega a los usuarios finales — no en chatbots, sino en teléfonos, automóviles y servicio al cliente. Si Grok Voice realmente mantiene sus cifras de latencia en producción, y el precio se mantiene como está, muchos desarrolladores que construyen sobre OpenAI Realtime comenzarán a buscar otras opciones.

Advertencia importante: Estas son señales tempranas basadas en discusiones de la comunidad y los propios benchmarks de xAI. Actualmente faltan pruebas independientes a gran escala, y los benchmarks propios siempre deben tomarse con cautela. Pero el revuelo es real, y las cifras no son algo detrás de lo que xAI pueda esconderse por mucho tiempo — la comunidad lo probará a fondo en las próximas semanas.

xAI elimina a sus competidores con Grok Voice API — 5 veces más rápido que GPT

Artículos Relacionados

Anthropic lanzó un alma de IA de 84 páginas — y HN está explotando

¿Gas Town roba créditos de IA a sus usuarios para autoentrenarse?

Anthropic lanza Claude Code Routines — Agentes de IA que codifican mientras duermes