Un hilo en Hacker News que está explotando ahora mismo — 374 puntos y 218 comentarios en poco tiempo — trata sobre algo bastante sorprendente: un modelo de pesos abiertos de China acaba de superar a Claude, GPT-5.5 y Gemini en un desafío práctico de programación.

El modelo se llama Kimi K2.6, fue creado por Moonshot AI y fue lanzado el 20 de abril de este año. Su arquitectura es una Mixture-of-Experts dispersa con un total de un billón de parámetros — pero debido a que solo se activan 32 mil millones por token, el costo de inferencia es comparable al de un modelo mucho más pequeño. Es una forma inteligente de obtener una cantidad brutal de capacidad a un precio razonable.

Lo que realmente deja sin aliento a la gente aquí no es solo el rendimiento, es que el modelo es de pesos abiertos. Puedes descargarlo. Tú mismo. Y ejecutarlo tú mismo si tienes suficiente hardware, o usarlo a través de API por alrededor de 80 centavos por millón de tokens de entrada. En comparación, Claude Opus y GPT-5.5 son sistemas cerrados detrás de Anthropic y OpenAI.

La codificación de frontera de pesos abiertos ya no es solo un sueño — es una descarga de 594 GB.

En SWE-Bench Pro, que mide la capacidad de resolver problemas reales de GitHub, K2.6 obtiene un 58,6 % — eso está por encima de Claude Opus 4.6 y GPT-5.4 en una de las evaluaciones. En Humanity's Last Exam con acceso a herramientas, alcanza el 54,0 %, nuevamente por delante de Claude (53,0 %) y GPT-5.4 (52,1 %). Se clasifica como el número uno entre los 77 modelos de pesos abiertos en el Artificial Analysis Intelligence Index.

Algo más que se nota en la discusión: la tasa de alucinaciones ha disminuido drásticamente con respecto a su predecesor K2.5. De 65 % a 39 % — todavía no es perfecto, pero ahora está cerca del nivel de Claude Opus.

Para los desarrolladores que trabajan con flujos de trabajo de agentes, otro detalle digno de mención: K2.6 admite los llamados enjambres de agentes con hasta 300 subagentes paralelos que pueden ejecutarse durante más de 12 horas seguidas. No es solo un truco de benchmark, está diseñado para una codificación autónoma de larga duración.

¿Cuánto de esto es bombo publicitario de Moonshot AI y cuánto es real? La discusión en HN es, como de costumbre, saludablemente escéptica, y vale la pena señalar que los benchmarks varían según la evaluación que se mire. Pero la señal es lo suficientemente clara: los modelos de pesos abiertos están entrando y superando el rendimiento de la IA de frontera propietaria, y está sucediendo más rápido de lo que la mayoría pensaba.

Esta es una señal temprana basada en fuentes de la comunidad de HN y evaluaciones técnicas independientes — no verificada editorialmente por 24AI.