Un hilo en Lobsters AI que está generando mucho revuelo ahora mismo trata sobre el proyecto sectorllm — y el concepto es tan absurdamente compacto que te detiene en medio del desplazamiento.
Alguien ha escrito un motor de inferencia de Llama2 funcional en ensamblador x86 en modo real, lo ha reducido a 1356 bytes y ha logrado que arranque directamente desde un sector de disco. Sin Linux, sin Windows, sin tiempo de ejecución. Enciendes la máquina y el modelo comienza a generar texto.
Ahora, es importante ser honesto sobre lo que esto realmente es: el proyecto ejecuta stories260K, un modelo de juguete con 260.000 parámetros, arquitectura y prompt codificados, y muestreo greedy argmax. La ventana de contexto se detiene en 512 tokens. Esto no es algo con lo que vayas a reemplazar a Claude el viernes. Como el propio proyecto admite: el rendimiento y la precisión no son óptimos — es una compensación deliberada por el tamaño.
¿Entonces por qué le importa a la gente? Porque este es uno de esos proyectos extraños que te obliga a pensar fundamentalmente en lo que realmente requiere la inferencia. Toda la discusión en la comunidad gira precisamente en torno a eso: ¿cuál es el límite absoluto? ¿Se puede ir más bajo? ¿Qué pasa si se intenta un modelo un poco más grande? — el autor mismo menciona que stories15M probablemente requeriría una transición a modo protegido, lo que rompería todo el concepto.
También es una curiosidad técnica que el proyecto opere en modo real x86 — un modo que la mayoría de los sistemas operativos modernos nunca tocan, donde solo tienes acceso a 1 MB de memoria direccionable. Que sea posible ejecutar inferencia de transformadores allí, incluso en un modelo diminuto, no es trivial.
Para las personas que trabajan con IA de borde (edge AI), sistemas embebidos o simplemente tienen curiosidad por el nivel inferior de lo que el hardware moderno puede hacer sin las capas de abstracción a las que estamos acostumbrados, este es un trabajo de ingeniería genuinamente interesante. También es un recordatorio de que el campo de la IA todavía tiene espacio para personas que piensan en bytes, no solo en miles de millones de parámetros.
Ten en cuenta que esta es una señal temprana de una comunidad de nicho — nadie ha verificado de forma independiente todas las afirmaciones técnicas todavía, y el proyecto está disponible abiertamente en GitHub para aquellos que quieran investigar por sí mismos.
Vale la pena seguirlo si estás en el mundo de edge/embedded.
