Un artículo interactivo publicado en Lobsters AI (arkaung.github.io) ha encendido el 'underground' de la IA esta semana. Desglosa el algoritmo TurboQuant de Google desde cero, y aparentemente, este es exactamente el enfoque que la gente estaba esperando — la sección de comentarios se está llenando rápidamente con personas que desmenuzan los detalles.

Entonces, ¿cuál es el problema? La caché KV es uno de los mayores consumidores de memoria en la inferencia moderna de LLM. Al ejecutar ventanas de contexto largas, el uso de memoria se dispara — y eso es costoso. TurboQuant aborda esto directamente cuantificando los vectores clave y de valor durante la propia inferencia, no solo los pesos en el modelo. Este es un problema diferente y más exigente, porque no hay tiempo para entrenar libros de códigos separados para cada conjunto de datos.

El truco es elegante: el algoritmo rota aleatoriamente los vectores de entrada antes de la cuantificación escalar y aplica una transformación QJL (Quantized Johnson–Lindenstrauss) de un bit al error residual para asegurar una estimación imparcial del producto interno. El resultado es un método agnóstico a los datos — no necesita conocer el conjunto de datos de antemano y puede ejecutarse en línea durante la inferencia.

6x reducción de memoria, 8x más rápido el cálculo de atención en H100 — y ninguna degradación de calidad perceptible. Si esto se mantiene en producción, es un gran avance.

Las cifras son impresionantes sobre el papel: con 3,5 bits por canal, la calidad es neutra en comparación con la precisión completa. En pruebas de "aguja en un pajar" con Llama 3.1 8B, TurboQuant comprimido iguala la línea base sin comprimir, con más de 4x de compresión. Para los usuarios empresariales, esto significa que el hardware existente puede manejar ventanas de contexto significativamente más largas — o que simplemente se pueden reducir los costos de GPU.

Sin embargo, cabe señalar que algunos en las discusiones de la comunidad indican que el método de cuantificación central de TurboQuant tiene similitudes con el método de cuantificación EDEN introducido anteriormente. Entonces, ¿qué tan nueva es realmente la noticia? Esta es una discusión legítima que está en curso en este momento, y algo a lo que debe prestar atención antes de sacar conclusiones.

Esto sigue siendo una señal temprana de fuentes de la comunidad — el recorrido interactivo no es un artículo revisado por pares, y las cifras de rendimiento más agresivas son las propias de Google. La validación independiente en entornos de producción aún está pendiente. Pero la señal es lo suficientemente fuerte como para justificar la atención: si TurboQuant cumple en la práctica, podría cambiar fundamentalmente el cálculo en torno a las ventanas de contexto largas y los costos operativos de los LLM.