Coreano anónimo afirma haber demostrado que la Atención nunca fue un problema O(n²)

Una prueba matemática no verificada de un foro coreano se está extendiendo como la pólvora en r/MachineLearning. La afirmación: el mayor cuello de botella del Transformer es una ilusión creada por softmax.

Un hilo en r/MachineLearning que se mueve rápidamente ahora mismo no trata sobre GPT-5 o Gemini Ultra — trata sobre un archivo PDF adjunto de un usuario anónimo en un foro coreano de IA. Un usuario de la comunidad "The Singularity Gallery" sintió que la prueba era demasiado importante para ser enterrada en un hilo local, y la tradujo y compartió globalmente. El resultado: 197 puntos y una sección de comentarios donde la gente está realmente trabajando a través de las ecuaciones en lugar de simplemente posar.

La afirmación en sí es controvertida de la mejor manera. Durante nueve años, hemos vivido con la autoatención siendo un problema O(n²d) — cuadrático en la longitud de la secuencia n. Por eso las ventanas de contexto largas son tan costosas, y es la razón por la que industrias enteras de investigación se han dedicado a sortear esto. Flash Attention, sparse attention, linear attention — todo es, en esencia, una solución alternativa para n².

La prueba anónima, llamada "The d² Pullback Theorem", argumenta que el cuello de botella de n² es autoimpuesto. La normalización softmax, el corazón mismo de la atención clásica, fuerza a la matriz de atención a tener rango completo n y destruye lo que el autor llama una "estructura de emparejamiento euclidiano". En otras palabras: hemos pagado un precio computacional astronómico por una propiedad matemática que nosotros mismos introdujimos.

La solución propuesta es "Centered Shifted-Quadratic (CSQ) Attention" — softmax se reemplaza por un kernel polinomial de grado 2 (x²). Según la prueba, esto produce una complejidad O(nd³), lo que significa que para secuencias suficientemente grandes, esto es potencialmente una mejora drástica.

Si esto se mantiene, durante nueve años hemos estado pagando el precio de n² por un problema que en realidad era d²-dimensional.

Ahora, es importante mantener la calma. Esta es una señal temprana de fuentes de la comunidad, no un artículo revisado por pares. Nadie ha confirmado aún formalmente la prueba, y hay buenas razones por las que softmax está donde está — incluyendo la estabilidad del entrenamiento y la interpretabilidad. La sección de comentarios en Reddit está dividida: algunos creen que las matemáticas parecen sólidas, otros señalan posibles lagunas en la argumentación sobre lo que CSQ-attention realmente conserva de la semántica de atención.

Pero es precisamente la emoción aquí lo que hace que valga la pena seguir esto. Si una única publicación anónima de un foro coreano inicia un debate serio sobre la complejidad fundamental de la arquitectura Transformer, es una señal de que la investigación impulsada por la comunidad está empezando a igualar a la investigación institucional en impacto. Esté atento a si algunos nombres importantes comienzan a comentar — eso dirá mucho sobre si esto merece un estudio de replicación completo.

Coreano anónimo afirma haber demostrado que la Atención nunca fue un problema O(n²)

Artículos Relacionados

Claude Code Desenterró una Vulnerabilidad de Linux de 23 Años

IA Gratuita Escondida en tu Mac — Nadie lo Sabe

AMD contraataca: Lemonade hace que el LLM local en chips AMD sea realmente utilizable