LLM se ejecuta sin SO en 1356 bytes de ensamblador x86 — y funciona

Alguien ha logrado ejecutar la inferencia de Llama2 en menos de 1500 bytes de ensamblador x86 y lo arranca directamente desde el disco — sin sistema operativo. La comunidad de IA de Lobsters está en ebullición.

◉

24AI Underground

5 de mayo de 2026·Actualizado 6 de mayo de 2026·2 min lectura

LLM se ejecuta sin SO en 1356 bytes de ensamblador x86 — y funciona

Señal temprana · fuente comunitaria

SEÑALES

SectorLLM es un motor de inferencia de Llama2 en 1356 bytes de ensamblador x86 en modo real — arranca directamente desde el disco, sin SO
Ejecuta un modelo de 260K parámetros, no exactamente GPT-4 — pero ese no es el punto
Esto es un "code golf" extremo que ilumina algo importante sobre lo poco que realmente necesitas

Señal temprana · fuente comunitaria · no verificada

Un hilo en Lobsters AI que está generando mucho revuelo ahora mismo trata sobre el proyecto sectorllm — y el concepto es tan absurdamente compacto que te detiene en medio del desplazamiento.

Alguien ha escrito un motor de inferencia de Llama2 funcional en ensamblador x86 en modo real, lo ha reducido a 1356 bytes y ha logrado que arranque directamente desde un sector de disco. Sin Linux, sin Windows, sin tiempo de ejecución. Enciendes la máquina y el modelo comienza a generar texto.

Ahora, es importante ser honesto sobre lo que esto realmente es: el proyecto ejecuta stories260K, un modelo de juguete con 260.000 parámetros, arquitectura y prompt codificados, y muestreo greedy argmax. La ventana de contexto se detiene en 512 tokens. Esto no es algo con lo que vayas a reemplazar a Claude el viernes. Como el propio proyecto admite: el rendimiento y la precisión no son óptimos — es una compensación deliberada por el tamaño.

El punto no es lo que puede hacer. El punto es que existe en absoluto.

¿Entonces por qué le importa a la gente? Porque este es uno de esos proyectos extraños que te obliga a pensar fundamentalmente en lo que realmente requiere la inferencia. Toda la discusión en la comunidad gira precisamente en torno a eso: ¿cuál es el límite absoluto? ¿Se puede ir más bajo? ¿Qué pasa si se intenta un modelo un poco más grande? — el autor mismo menciona que stories15M probablemente requeriría una transición a modo protegido, lo que rompería todo el concepto.

También es una curiosidad técnica que el proyecto opere en modo real x86 — un modo que la mayoría de los sistemas operativos modernos nunca tocan, donde solo tienes acceso a 1 MB de memoria direccionable. Que sea posible ejecutar inferencia de transformadores allí, incluso en un modelo diminuto, no es trivial.

Para las personas que trabajan con IA de borde (edge AI), sistemas embebidos o simplemente tienen curiosidad por el nivel inferior de lo que el hardware moderno puede hacer sin las capas de abstracción a las que estamos acostumbrados, este es un trabajo de ingeniería genuinamente interesante. También es un recordatorio de que el campo de la IA todavía tiene espacio para personas que piensan en bytes, no solo en miles de millones de parámetros.

Ten en cuenta que esta es una señal temprana de una comunidad de nicho — nadie ha verificado de forma independiente todas las afirmaciones técnicas todavía, y el proyecto está disponible abiertamente en GitHub para aquellos que quieran investigar por sí mismos.

Vale la pena seguirlo si estás en el mundo de edge/embedded.

LLM se ejecuta sin SO en 1356 bytes de ensamblador x86 — y funciona

Artículos Relacionados

Modelo chino de código abierto supera a Claude, GPT-5.5 y Gemini en codificación

Claude Code se niega a trabajar si mencionas OpenClaw en los commits

¿Quién es el dueño del código que escribió Claude Code? Nadie sabe la respuesta