Una incidencia de GitHub que se ha disparado en Hacker News en este momento describe algo con lo que muchos en la comunidad de desarrolladores de IA se identifican: Claude Code, que durante mucho tiempo ha sido la herramienta preferida para la codificación seria con asistencia de IA, supuestamente ha empeorado significativamente después de las actualizaciones de febrero. No solo un poco peor. De hecho, inutilizable para ciertas tareas complejas, según los más vocales.
Lo que hace que este hilo valga la pena seguir es que los que se quejan no son principiantes que no entienden la herramienta. Son personas con trayectoria en ingeniería de software que señalan regresiones muy concretas — se dice que el modelo se ha vuelto más cauteloso, más reservado y, en general, peor para mantener el contexto a través de flujos de trabajo largos y complejos. Exactamente lo que hace que una herramienta de codificación sea realmente útil en la práctica.
Esta no es la primera vez que vemos este patrón. OpenAI recibió duras críticas en 2023-2024 cuando los usuarios notaron que GPT-4 fue lobotomizado con el tiempo — y pasó mucho tiempo antes de que la compañía admitiera que el ajuste RLHF había hecho que el modelo fuera más "seguro" a expensas de su capacidad. La pregunta ahora es si Anthropic ha caído en la misma trampa con sus optimizaciones de seguridad o costos.
El contexto hace esto aún más interesante. Los benchmarks como SWE-bench Verified siguen mostrando cifras impresionantes para los modelos Claude, y Claude Code (Opus 4.6) lidera en el SWE-rebench más resistente a la contaminación con un 52,9 por ciento. Pero los benchmarks y la experiencia de usuario real son dos cosas muy diferentes — algo que este hilo ilustra con bastante claridad. Puedes obtener buenos resultados en problemas aislados y aun así ser frustrante trabajar con ellos durante una jornada laboral completa.
Para aquellos que usan Claude Code profesionalmente, la señal aquí es que podría valer la pena probar las alternativas nuevamente. La competencia de Cursor, GitHub Copilot y similares no está dormida. Y por parte de Anthropic: una comunidad que reacciona rápidamente y tiene 667 puntos a su favor en HN no es algo que deba ignorarse.
Recuerda: Estas son señales tempranas de fuentes de la comunidad — una incidencia de GitHub y un hilo de HN. No es investigación revisada por pares. Pero cuando el volumen y la precisión técnica de las quejas son tan altos, vale la pena seguir de cerca los próximos días.
