Un hilo de discusión en Product Hunt sobre DeepSeek-V4 está empezando a ganar atención en el 'underground' de la IA, y no sin razón. DeepSeek lo ha vuelto a hacer: ha lanzado un modelo que, en teoría, no debería ser posible ofrecer a estos precios.
Empecemos desde el principio: DeepSeek-V4 existe en dos variantes, Pro y Flash. La versión Pro tiene 1.6 billones de parámetros totales, pero solo utiliza 49 mil millones activamente por token gracias a una arquitectura Mixture-of-Experts. Esto no es nuevo de DeepSeek, pero lo que sí es nuevo es el mecanismo de atención híbrido que llaman CSA y HCA; hace que el modelo solo necesite el 27% de FLOPs en comparación con su predecesor DeepSeek-V3.2 cuando se trabaja con contextos largos. La versión Flash lleva esto aún más lejos, hasta el 10%.
Y el modelo es nativamente multimodal. Entrenado desde cero con texto, imágenes, video y audio, no añadido posteriormente.
En LiveCodeBench, supera a Claude por un buen margen: 93.5% frente a 88.8%. En GPQA, alcanza un 90.1%. Estas son cifras que, hace seis meses, pertenecían exclusivamente a los modelos 'frontier' cerrados.
El precio es lo que realmente hace que la gente levante las cejas. La variante Flash cuesta $0.14 por millón de tokens de entrada y $0.28 por millón de tokens de salida. La versión Pro cuesta $1.74 y $3.48. En comparación, esto es una pequeña fracción de lo que se paga por APIs de clase GPT-4 de OpenAI o Anthropic.
Los pesos son de código abierto bajo Apache 2.0 o MIT, y la comunidad ya está empezando a probar la ejecución local y el ajuste fino.
Vale la pena subrayar: esta es una señal temprana basada en la discusión de la comunidad y la documentación técnica disponible, no un análisis independiente y revisado por pares. Las cifras de los benchmarks del propio productor del modelo siempre deben tomarse con cautela hasta que otros las confirmen.
Pero el ambiente es claro: los círculos de r/LocalLLaMA y HN ya están en marcha con la reproducción y las pruebas. Si las cifras se mantienen en evaluaciones independientes, este es un nuevo punto de datos que ejerce una presión significativa sobre la estructura de precios de los modelos cerrados.
Manténganse atentos a esto. Los medios tecnológicos principales aún no lo han recogido.
