iPhone 17 Pro Ejecuta Modelo 400B — Pero No Preguntes por la Velocidad

Una demostración en X muestra un iPhone 17 Pro ejecutando una LLM de 400 mil millones de parámetros localmente. El inconveniente: 0,6 tokens por segundo.

◉

24AI Underground

24 de marzo de 2026·Actualizado 4 de abril de 2026·2 min lectura

iPhone 17 Pro Ejecuta Modelo 400B — Pero No Preguntes por la Velocidad

Señal temprana · fuente comunitaria

SEÑALES

Una demostración de la cuenta @anemll en X muestra un iPhone 17 Pro ejecutando una LLM de 400B directamente en el dispositivo
Funciona gracias a Flash-MoE — una técnica que solo carga las partes activas del modelo, no todo el conjunto
El rendimiento es lamentablemente lento (0,6 tokens/seg), pero es el principio en sí lo que tiene a la gente hablando

Señal temprana · fuente comunitaria · no verificada

Un hilo en Hacker News está explotando ahora mismo con 232 comentarios y casi 450 puntos — y la discusión gira en torno a una demostración que parece casi imposible sobre el papel: un iPhone 17 Pro ejecutando una LLM de 400 mil millones de parámetros localmente, sin la nube, sin hardware externo.

La cuenta @anemll en X ha publicado la demostración, y las reacciones van desde «esto lo cambia todo» hasta «esto es técnicamente trampa». La verdad se encuentra en algún punto intermedio.

¿Qué está pasando realmente?

El truco es algo llamado Flash-MoE — un enfoque de código abierto basado en la arquitectura Mixture of Experts. La idea central es que un modelo MoE no necesita tener todos los pesos activos simultáneamente. Para cada token, solo se activa una fracción del modelo. Esto significa que los 12 GB de RAM del iPhone no necesitan mantener más de 200 GB en memoria activa a la vez — carga las partes que realmente necesita, sobre la marcha.

¿El resultado? Funciona. Técnicamente. Pero la velocidad es brutal: 0,6 tokens por segundo. Es decir, aproximadamente una palabra cada dos segundos. No es precisamente algo con lo que quieras chatear en tiempo real.

No es utilizable hoy — pero tampoco lo era el 4G en 2009.

¿Por qué debería importarnos entonces?

Porque esto es una prueba de concepto, no un producto. Y es exactamente el tipo de demostración que históricamente anuncia un cambio. Hace un año, los modelos 7B en teléfonos eran experimentales. Ahora son algo común. El listón se baja constantemente en los requisitos de hardware — y el enfoque Flash-MoE sugiere que el límite de lo que es «demasiado grande para un teléfono» quizás no sea tan fijo como pensábamos.

La propia Apple ha posicionado el A19 Pro con Aceleradores Neurales y un sistema de refrigeración mejorado precisamente para cargas de trabajo LLM locales. Obviamente no apuntan a modelos de 400B — pero alguien fuera de Apple lo está haciendo ahora, con hardware existente.

La sección de comentarios de HN está dividida. Una parte cree que esto es una hazaña de ingeniería digna de seguir. Otros señalan que «cargar partes de un modelo desde el almacenamiento» no es lo mismo que una verdadera inferencia local en el sentido tradicional, y que la comparación es coja.

En cualquier caso: esto es territorio de señales tempranas. Ninguna redacción tecnológica principal lo ha recogido todavía, y es precisamente por eso que vale la pena destacarlo ahora.

Fuente: @anemll en X, discutido en Hacker News (HN AI Best). Estas son observaciones impulsadas por la comunidad — aún no verificadas por benchmarks independientes.

iPhone 17 Pro Ejecuta Modelo 400B — Pero No Preguntes por la Velocidad

Artículos Relacionados

Claude Code Desenterró una Vulnerabilidad de Linux de 23 Años

IA Gratuita Escondida en tu Mac — Nadie lo Sabe

AMD contraataca: Lemonade hace que el LLM local en chips AMD sea realmente utilizable