Modelo chino de código abierto supera a Claude, GPT-5.5 y Gemini en codificación

Kimi K2.6 de Moonshot AI acaba de ser lanzado como un modelo de pesos abiertos — y el hilo de HN está explotando después de que superara un benchmark de programación contra los mayores actores propietarios.

◉

24AI Underground

4 de mayo de 2026·2 min lectura

Modelo chino de código abierto supera a Claude, GPT-5.5 y Gemini en codificación

Señal temprana · fuente comunitaria

SEÑALES

Kimi K2.6 de la china Moonshot AI es un modelo de pesos abiertos con un total de 1 billón de parámetros, pero solo activa 32 mil millones por token
Ha superado a Claude, GPT-5.5 y Gemini en un desafío práctico de codificación — y el hilo de HN está candente ahora mismo
El modelo es gratuito para descargar, lo que potencialmente hace que la ayuda de codificación de nivel frontera esté disponible para todos

Señal temprana · fuente comunitaria · no verificada

Un hilo en Hacker News que está explotando ahora mismo — 374 puntos y 218 comentarios en poco tiempo — trata sobre algo bastante sorprendente: un modelo de pesos abiertos de China acaba de superar a Claude, GPT-5.5 y Gemini en un desafío práctico de programación.

El modelo se llama Kimi K2.6, fue creado por Moonshot AI y fue lanzado el 20 de abril de este año. Su arquitectura es una Mixture-of-Experts dispersa con un total de un billón de parámetros — pero debido a que solo se activan 32 mil millones por token, el costo de inferencia es comparable al de un modelo mucho más pequeño. Es una forma inteligente de obtener una cantidad brutal de capacidad a un precio razonable.

Lo que realmente deja sin aliento a la gente aquí no es solo el rendimiento, es que el modelo es de pesos abiertos. Puedes descargarlo. Tú mismo. Y ejecutarlo tú mismo si tienes suficiente hardware, o usarlo a través de API por alrededor de 80 centavos por millón de tokens de entrada. En comparación, Claude Opus y GPT-5.5 son sistemas cerrados detrás de Anthropic y OpenAI.

La codificación de frontera de pesos abiertos ya no es solo un sueño — es una descarga de 594 GB.

En SWE-Bench Pro, que mide la capacidad de resolver problemas reales de GitHub, K2.6 obtiene un 58,6 % — eso está por encima de Claude Opus 4.6 y GPT-5.4 en una de las evaluaciones. En Humanity's Last Exam con acceso a herramientas, alcanza el 54,0 %, nuevamente por delante de Claude (53,0 %) y GPT-5.4 (52,1 %). Se clasifica como el número uno entre los 77 modelos de pesos abiertos en el Artificial Analysis Intelligence Index.

Algo más que se nota en la discusión: la tasa de alucinaciones ha disminuido drásticamente con respecto a su predecesor K2.5. De 65 % a 39 % — todavía no es perfecto, pero ahora está cerca del nivel de Claude Opus.

Para los desarrolladores que trabajan con flujos de trabajo de agentes, otro detalle digno de mención: K2.6 admite los llamados enjambres de agentes con hasta 300 subagentes paralelos que pueden ejecutarse durante más de 12 horas seguidas. No es solo un truco de benchmark, está diseñado para una codificación autónoma de larga duración.

¿Cuánto de esto es bombo publicitario de Moonshot AI y cuánto es real? La discusión en HN es, como de costumbre, saludablemente escéptica, y vale la pena señalar que los benchmarks varían según la evaluación que se mire. Pero la señal es lo suficientemente clara: los modelos de pesos abiertos están entrando y superando el rendimiento de la IA de frontera propietaria, y está sucediendo más rápido de lo que la mayoría pensaba.

Esta es una señal temprana basada en fuentes de la comunidad de HN y evaluaciones técnicas independientes — no verificada editorialmente por 24AI.

Modelo chino de código abierto supera a Claude, GPT-5.5 y Gemini en codificación

Artículos Relacionados

Claude Code se niega a trabajar si mencionas OpenClaw en los commits

¿Quién es el dueño del código que escribió Claude Code? Nadie sabe la respuesta

Devin salta a tu terminal — y quiere tomar el control de tu flujo de trabajo