Una discusión que se está extendiendo en Product Hunt ahora mismo trata sobre algo que la mayoría de los profesionales tecnológicos noruegos apenas han notado: xAI ha introducido discretamente un paquete completo de API de voz y parece superar tanto a OpenAI como a Google en lo que realmente importa: latencia y precio.
Empecemos desde el principio. La API Grok Voice Agent fue lanzada en diciembre de 2025, pero es ahora en abril de 2026 cuando empieza a ebullir en los canales de la comunidad. La razón es probablemente que las API de TTS y STT se lanzaron tan recientemente como el 16 de marzo, y la gente está empezando a construir con todo el stack combinado.
Lo que hace esto interesante es la arquitectura. En lugar de la clásica pipeline STT → LLM → TTS, la API Grok Voice Agent procesa el audio directamente. Suena a marketing, pero el benchmark en Big Bench Audio arroja un 92,3% — superando tanto a Gemini 2.5 Flash Native Audio como a GPT Realtime en la categoría de razonamiento. Esto no es algo de todos los días.
El modelo de precios también es digno de mención. $0,05 por minuto fijo para la API de Voice Agent. OpenAI Realtime factura por token, lo que puede sumar rápidamente en conversaciones largas. Para aquellos que construyen bots telefónicos o agentes de atención al cliente —que, por cierto, es exactamente para lo que xAI lo utiliza a través de Starlink y Tesla— el cálculo es bastante sencillo.
La API de TTS admite etiquetas de voz en línea (inline speech tags), lo que significa que puedes programar pausas, susurros, suspiros y risas directamente en el texto. Esto es algo que ElevenLabs ha tenido durante un tiempo, pero ahora está integrado en la misma API que la propia capa del agente. El STT cuenta con diarización de hablantes (speaker diarization) y marcas de tiempo a nivel de palabra (word-level timestamps), y transmite a través de WebSocket.
¿Por qué vale la pena seguir esto ahora? Porque los agentes de voz son donde la integración de LLM realmente llega a los usuarios finales — no en chatbots, sino en teléfonos, automóviles y servicio al cliente. Si Grok Voice realmente mantiene sus cifras de latencia en producción, y el precio se mantiene como está, muchos desarrolladores que construyen sobre OpenAI Realtime comenzarán a buscar otras opciones.
Advertencia importante: Estas son señales tempranas basadas en discusiones de la comunidad y los propios benchmarks de xAI. Actualmente faltan pruebas independientes a gran escala, y los benchmarks propios siempre deben tomarse con cautela. Pero el revuelo es real, y las cifras no son algo detrás de lo que xAI pueda esconderse por mucho tiempo — la comunidad lo probará a fondo en las próximas semanas.
