Alibaba lanza Qwen3.5 small — y el modelo 9B supera a GPT-5 Nano

Alibaba ha lanzado discretamente una nueva serie de modelos pequeños Qwen3.5, y r/LocalLLaMA está en ebullición. ¿Un modelo de 9B que se ejecuta en una RTX 3060 y supera a modelos de tres a nueve veces más grandes? Vale la pena seguirlo de cerca.

◉

24AI Underground

3 de marzo de 2026·Actualizado 25 de marzo de 2026·2 min lectura

Alibaba lanza Qwen3.5 small — y el modelo 9B supera a GPT-5 Nano

Señal temprana · fuente comunitaria

SEÑALES

Alibaba ha lanzado modelos Qwen3.5 en tamaños de 0.8B, 2B, 4B y 9B — todos de código abierto, Apache 2.0
Qwen3.5-9B se ejecuta en una RTX 3060 de 12GB con cuantificación de 4 bits y supera a GPT-5 Nano y Gemini 2.5 Flash-Lite en benchmarks de visión
Un modelo MoE de 35B activa solo 3B parámetros y aparentemente supera al modelo de 235B de la generación anterior

Señal temprana · fuente comunitaria · no verificada

Un hilo en r/LocalLLaMA que está explotando ahora mismo ha generado un gran revuelo: el equipo Qwen de Alibaba ha lanzado una nueva serie de modelos compactos sin previo aviso, y la reacción de la comunidad es bastante clara — la gente está impresionada.

No se trata solo de que los modelos sean pequeños. Se trata de lo que realmente pueden lograr.

Qwen3.5-9B es el modelo que se está robando el protagonismo ahora mismo. Cabe en una sola RTX 3060 con 12GB de VRAM con cuantificación de 4 bits — es decir, una tarjeta asequible y de tres años de antigüedad. Sin embargo, los benchmarks informan que supera a GPT-5 Nano y Gemini 2.5 Flash-Lite en tareas de visión por márgenes de dos dígitos. En MathVision, obtiene 78.9 frente a los 62.2 de Google. No es una pequeña diferencia.

Un modelo de 9B que supera a los mini-modelos de Google y OpenAI — y se ejecuta localmente en hardware de consumo.

Uno de los aspectos más interesantes es el modelo MoE Qwen3.5-35B-A3B. Tiene 35 mil millones de parámetros en total, pero activa solo 3 mil millones durante la inferencia — y aún así supera al modelo de 235B-A22B de la generación anterior. Esto nos dice algo importante: Alibaba está apostando fuerte por la arquitectura y la calidad de los datos en lugar de simplemente añadir más parámetros. Es una clara tendencia que veremos más a menudo.

Todos los modelos son nativamente multimodales (texto, imagen, video desde los mismos pesos), soportan una ventana de contexto de 262K — expandible a alrededor de 1M tokens — y cubren 201 idiomas y dialectos. Ya están disponibles a través de Ollama, LMStudio, llama.cpp y MLX.

Para los modelos más pequeños (0.8B y 2B), la situación es aún más extrema: están diseñados para ejecutarse directamente en teléfonos móviles, requiriendo de 3GB a 5GB de memoria total.

Cabe mencionar un par de advertencias. Estas son señales tempranas de fuentes de la comunidad, y las experiencias de los usuarios varían. Algunos reportan alucinaciones en tareas de codificación especializadas (especialmente Solidity), mientras que otros tienen experiencias diametralmente opuestas. Tales variaciones son comunes en el lanzamiento, y se realizará una prueba más sistemática.

¿Por qué es esto importante? Porque el umbral de lo que puede ejecutarse localmente — en tu propia máquina, sin costos de API, sin compartir datos — acaba de caer de nuevo. Y está sucediendo rápido.

Mantente atento a esto. Los medios de tecnología convencionales aún no lo han cubierto.

Alibaba lanza Qwen3.5 small — y el modelo 9B supera a GPT-5 Nano

Artículos Relacionados

Claude Code Desenterró una Vulnerabilidad de Linux de 23 Años

IA Gratuita Escondida en tu Mac — Nadie lo Sabe

AMD contraataca: Lemonade hace que el LLM local en chips AMD sea realmente utilizable