Un artículo que apareció en la escena de IA de Lobsters — 0xkato.xyz — ha recibido una atención inusualmente alta en los últimos días. El título es casi provocadoramente simple: How LLMs Actually Work. Pero es la sección de comentarios la razón por la que lo destacamos ahora.
Porque no es solo una energía de "ooh, interesante introducción a los transformers" en los comentarios. Lo que la gente realmente discute es lo que no son los transformers — y por qué eso podría ser significativo.
La cantidad y calidad de la discusión en torno a las variantes de RNN, es decir, Long Short-Term Memory (LSTM) y Gated Recurrent Units (GRU), es notablemente más alta de lo que se esperaría de un "artículo introductorio". Parece que muchos profesionales están cansados de leer sobre la arquitectura GPT por duodécima vez, y prefieren hablar sobre lo que realmente se ejecuta en sistemas embebidos, en hardware de borde y en aplicaciones en tiempo real donde los transformers son demasiado lentos y pesados.
Esta no es una discusión académica. El mercado de IA embebida — estimado en casi 20 mil millones de dólares — funciona esencialmente con arquitecturas basadas en RNN como GRU y LSTM, no con los grandes modelos transformer de los que escuchamos en el mainstream. Las GRU son especialmente populares porque son más rápidas de entrenar y más fáciles de ajustar que las LSTM, y funcionan igual de bien en secuencias cortas a medianas.

Lo interesante de esta ola de compromiso es el momento. Vemos en paralelo que los Modelos de Espacio de Estados (SSM) como Mamba están comenzando a recibir una atención más seria como una tercera alternativa — ni RNN tradicional ni transformer completo. La conversación en Lobsters indica que algunos desarrolladores están reconsiderando las elecciones de arquitectura que daban por sentadas hace dos años.
Ahora bien, esto es, por supuesto, una señal temprana de fuentes de la comunidad, no un estudio revisado por pares. Lobsters es una red de nicho relativamente para desarrolladores con orientación técnica, y la sección de comentarios no es representativa de la industria en su conjunto. Pero precisamente este tipo de conversaciones han sido anteriormente precursoras de cambios en lo que la gente realmente construye.
Vale la pena seguir de cerca si esta energía en torno a las arquitecturas no-transformer comienza a aparecer en r/LocalLLaMA y Hacker News en las próximas semanas.
