Un artículo de análisis en Lobsters AI que circula actualmente en la comunidad underground de IA disecciona ThunderKittens — y la sección de comentarios está empezando a burbujear. Esta no es una noticia que la mayoría de la gente haya captado todavía, pero entre aquellos que realmente escriben kernels CUDA para ganarse la vida, este es un nombre que aparece cada vez con más frecuencia.

¿Entonces, cuál es el problema? ThunderKittens es un DSL (lenguaje específico de dominio) que vive dentro de CUDA, creado por el Hazy Research Lab de Stanford. La idea es proporcionar una capa de abstracción de alto nivel que permita programar la jerarquía de la GPU — grupos de warp, tiles, memoria compartida — sin perder el control sobre lo que realmente sucede en la máquina. Es una especie de término medio entre escribir CUDA puro (doloroso, pero rápido) y usar Triton (más simple, pero con techos de rendimiento).

14 veces más rápido que Triton en atención lineal no es un ajuste fino — es un salto arquitectónico.

Las cifras citadas por Hazy Research son brutales si se mantienen: FlashAttention-forward en H100 es un 30% más rápido que FA2. Las implementaciones de Mamba-2 son "varias veces más rápidas" que la versión de Triton. En modelos de atención lineal como Based y LoLCATS Hedgehog, hablamos de una aceleración de 14x y 6.5x. ThunderKittens 2.0, que salió en febrero de este año, afirma superar a cuBLAS en B200 para BF16 y los nuevos formatos MXFP8/NVFP4.

Cabe señalar: estas son cifras del laboratorio que creó la herramienta, no de un estudio de benchmark independiente. La fuente de la comunidad aquí son principalmente las propias publicaciones y entradas de blog de Stanford — y actualmente no existe un estudio comparativo grande y neutral que enfrente a ThunderKittens, Triton y TVM en igualdad de condiciones. Tómense los números en serio, pero con cierta reserva hasta que aparezcan estudios de replicación.

Lo que hace esto especialmente interesante no es solo el rendimiento, sino el posicionamiento. Triton (OpenAI/Meta) se ha convertido en el estándar de facto para las personas que quieren evitar CUDA puro, pero ThunderKittens señala un techo de rendimiento real en Triton — especialmente en las arquitecturas Hopper y Blackwell donde las instrucciones WGMMA y el flujo de datos TMA son críticos. ThunderKittens está construido precisamente para estas.

Si esto escala y la adopción por parte de la comunidad aumenta, podríamos ver un cambio en cómo se escriben los kernels de IA más críticos para el rendimiento — especialmente en entornos de investigación que trabajan con nuevos mecanismos de atención y modelos de espacio de estados. Ese es el espacio al que ThunderKittens apunta claramente.

Vale la pena seguirlo de cerca. Esto sigue siendo una señal temprana de fuentes de la comunidad, pero el rumor es real.