Un hilo en Hacker News está explotando ahora mismo con 232 comentarios y casi 450 puntos — y la discusión gira en torno a una demostración que parece casi imposible sobre el papel: un iPhone 17 Pro ejecutando una LLM de 400 mil millones de parámetros localmente, sin la nube, sin hardware externo.
La cuenta @anemll en X ha publicado la demostración, y las reacciones van desde «esto lo cambia todo» hasta «esto es técnicamente trampa». La verdad se encuentra en algún punto intermedio.
¿Qué está pasando realmente?
El truco es algo llamado Flash-MoE — un enfoque de código abierto basado en la arquitectura Mixture of Experts. La idea central es que un modelo MoE no necesita tener todos los pesos activos simultáneamente. Para cada token, solo se activa una fracción del modelo. Esto significa que los 12 GB de RAM del iPhone no necesitan mantener más de 200 GB en memoria activa a la vez — carga las partes que realmente necesita, sobre la marcha.
¿El resultado? Funciona. Técnicamente. Pero la velocidad es brutal: 0,6 tokens por segundo. Es decir, aproximadamente una palabra cada dos segundos. No es precisamente algo con lo que quieras chatear en tiempo real.
¿Por qué debería importarnos entonces?
Porque esto es una prueba de concepto, no un producto. Y es exactamente el tipo de demostración que históricamente anuncia un cambio. Hace un año, los modelos 7B en teléfonos eran experimentales. Ahora son algo común. El listón se baja constantemente en los requisitos de hardware — y el enfoque Flash-MoE sugiere que el límite de lo que es «demasiado grande para un teléfono» quizás no sea tan fijo como pensábamos.
La propia Apple ha posicionado el A19 Pro con Aceleradores Neurales y un sistema de refrigeración mejorado precisamente para cargas de trabajo LLM locales. Obviamente no apuntan a modelos de 400B — pero alguien fuera de Apple lo está haciendo ahora, con hardware existente.
La sección de comentarios de HN está dividida. Una parte cree que esto es una hazaña de ingeniería digna de seguir. Otros señalan que «cargar partes de un modelo desde el almacenamiento» no es lo mismo que una verdadera inferencia local en el sentido tradicional, y que la comparación es coja.
En cualquier caso: esto es territorio de señales tempranas. Ninguna redacción tecnológica principal lo ha recogido todavía, y es precisamente por eso que vale la pena destacarlo ahora.
Fuente: @anemll en X, discutido en Hacker News (HN AI Best). Estas son observaciones impulsadas por la comunidad — aún no verificadas por benchmarks independientes.
