Un hilo en Lobsters AI está en ebullición ahora mismo en torno al reciente lanzamiento de código abierto de Baidu: Unlimited-OCR. Y aunque Baidu no es precisamente un nombre desconocido, esto es algo diferente a lo que suelen ofrecer.

El quid de la cuestión es un problema técnico concreto que todos los que han trabajado con el análisis de documentos conocen demasiado bien: cuanto más largo es el documento, más problemas surgen para los modelos OCR existentes. La caché KV crece, la velocidad disminuye, y después de más de 50 páginas, la precisión empieza a desmoronarse. Las soluciones tradicionales manejan esto dividiendo el documento página por página — pero entonces se pierde el contexto entre las páginas, y todo se convierte en un parche de ingeniería en lugar de una solución adecuada.

Unlimited-OCR hace algo fundamentalmente diferente. Introduce Reference Sliding Window Attention (R-SWA), un mecanismo de atención que mantiene la caché KV constante durante todo el proceso de decodificación — independientemente de la longitud de la salida. Esto significa que el modelo puede procesar 40, 100, o incluso más páginas en una sola pasada hacia adelante bajo el límite de 32K tokens, sin que la velocidad se degrade en el proceso.

La página 1 y la página 150 obtienen una precisión idéntica — eso no es algo que se escuche a menudo de las herramientas OCR.

Las cifras que circulan son bastante impresionantes: 93,92% en OmniDocBench v1.6, alrededor de 7 800 tokens por segundo con 6 000 tokens de salida, y un PDF de 100 páginas terminado en 8–12 segundos. En comparación: los pipelines tradicionales utilizan 45–90 segundos y requieren postprocesamiento adicional.

Baidu lanza un OCR que lee 100 páginas en 10 segundos - Bilde 1

El modelo está construido sobre una arquitectura Mixture-of-Experts con 3 mil millones de parámetros totales, pero solo 500 millones activados durante la inferencia. Esto la hace relativamente fácil de ejecutar localmente — algo que la gente de la comunidad ya ha empezado a probar. Un detalle práctico importante que se repite en los comentarios: las cuantificaciones GGUF requieren por ahora una compilación específica de llama.cpp (PR #17400) hasta que el soporte para DeepSeek-OCR esté en la rama principal.

¿Por qué es esto interesante más allá de los benchmarks? Porque esto es de código abierto, y porque el mecanismo R-SWA se presenta como general — Baidu sugiere que también puede usarse para ASR y traducción. Si esto se sostiene, es un movimiento arquitectónico que puede migrar rápidamente a otros proyectos.

Estos son, por supuesto, señales tempranas de la comunidad, y aún no hemos visto replicaciones independientes a gran escala. Pero el compromiso en Lobsters sugiere que la gente realmente está probando, no solo leyendo.