Un hilo en r/LocalLLaMA que está explotando ahora mismo ha generado un gran revuelo: el equipo Qwen de Alibaba ha lanzado una nueva serie de modelos compactos sin previo aviso, y la reacción de la comunidad es bastante clara — la gente está impresionada.
No se trata solo de que los modelos sean pequeños. Se trata de lo que realmente pueden lograr.
Qwen3.5-9B es el modelo que se está robando el protagonismo ahora mismo. Cabe en una sola RTX 3060 con 12GB de VRAM con cuantificación de 4 bits — es decir, una tarjeta asequible y de tres años de antigüedad. Sin embargo, los benchmarks informan que supera a GPT-5 Nano y Gemini 2.5 Flash-Lite en tareas de visión por márgenes de dos dígitos. En MathVision, obtiene 78.9 frente a los 62.2 de Google. No es una pequeña diferencia.
Uno de los aspectos más interesantes es el modelo MoE Qwen3.5-35B-A3B. Tiene 35 mil millones de parámetros en total, pero activa solo 3 mil millones durante la inferencia — y aún así supera al modelo de 235B-A22B de la generación anterior. Esto nos dice algo importante: Alibaba está apostando fuerte por la arquitectura y la calidad de los datos en lugar de simplemente añadir más parámetros. Es una clara tendencia que veremos más a menudo.
Todos los modelos son nativamente multimodales (texto, imagen, video desde los mismos pesos), soportan una ventana de contexto de 262K — expandible a alrededor de 1M tokens — y cubren 201 idiomas y dialectos. Ya están disponibles a través de Ollama, LMStudio, llama.cpp y MLX.
Para los modelos más pequeños (0.8B y 2B), la situación es aún más extrema: están diseñados para ejecutarse directamente en teléfonos móviles, requiriendo de 3GB a 5GB de memoria total.
Cabe mencionar un par de advertencias. Estas son señales tempranas de fuentes de la comunidad, y las experiencias de los usuarios varían. Algunos reportan alucinaciones en tareas de codificación especializadas (especialmente Solidity), mientras que otros tienen experiencias diametralmente opuestas. Tales variaciones son comunes en el lanzamiento, y se realizará una prueba más sistemática.
¿Por qué es esto importante? Porque el umbral de lo que puede ejecutarse localmente — en tu propia máquina, sin costos de API, sin compartir datos — acaba de caer de nuevo. Y está sucediendo rápido.
Mantente atento a esto. Los medios de tecnología convencionales aún no lo han cubierto.
