Un hilo en r/LocalLLaMA está explotando en este momento, señalando un artículo de pago en el Financial Times: DeepSeek está listo para lanzar V4 la próxima semana. No solo como un modelo de texto actualizado, sino con generación de imágenes y video integrada directamente en su arquitectura desde cero.

No se trata de módulos pegados a posteriori. Según lo que circula en la comunidad, V4 está construido como un verdadero modelo multimodal, donde el texto, las imágenes y el video han sido datos de entrenamiento desde el primer día. Esto significa que el modelo, en teoría, puede razonar a través de las modalidades de una manera más coherente que sus competidores: comprende el contexto visual mientras escribe y comprende la intención textual mientras genera video.

Las cifras que se manejan son impresionantes: videos de hasta 30 minutos, renderizado de luz avanzado y reflejos de materiales a la par de las herramientas de estudio de producción, además de una sólida comprensión del movimiento de objetos y las relaciones espaciales. Y todo esto de un modelo que, según se informa, activa solo alrededor de 32 mil millones de un total de un billón de parámetros por token, una optimización de eficiencia que debería hacer que la inferencia sea significativamente más barata que su predecesor, V3.

¿Un modelo generalista que supera a Sora en video, a Midjourney en imágenes — y aún así codifica mejor que la mayoría? Suena casi demasiado bueno para ser verdad.

Y ahí es precisamente donde aprieta el zapato. Todavía estamos hablando de señales tempranas de fuentes de la comunidad y un artículo de pago del FT. Nadie ha visto el modelo funcionar en vivo, y las comparaciones con Sora, Midjourney y Stable Diffusion se basan en especificaciones esperadas, no en puntos de referencia reales. r/LocalLLaMA está, por supuesto, extasiado, pero el entusiasmo en estos hilos no es lo mismo que la prueba.

Lo que hace esto interesante, sin embargo, es el momento y la fuente. El FT no es precisamente un sitio de rumores, y DeepSeek ha sorprendido anteriormente al mercado con modelos que ofrecían mucho más de lo que su precio sugeriría. Si V4 realmente llega la próxima semana con estas capacidades, no es solo un golpe para OpenAI y Google, es potencialmente un terremoto para toda la industria comercial de generación de imágenes y video.

Mantente atento a los canales oficiales de DeepSeek y sigue el hilo en r/LocalLLaMA. Esto se mueve rápido.