Un hilo en Lobsters AI está en ebullición ahora mismo en torno al reciente lanzamiento de código abierto de Baidu: Unlimited-OCR. Y aunque Baidu no es precisamente un nombre desconocido, esto es algo diferente a lo que suelen ofrecer.
El quid de la cuestión es un problema técnico concreto que todos los que han trabajado con el análisis de documentos conocen demasiado bien: cuanto más largo es el documento, más problemas surgen para los modelos OCR existentes. La caché KV crece, la velocidad disminuye, y después de más de 50 páginas, la precisión empieza a desmoronarse. Las soluciones tradicionales manejan esto dividiendo el documento página por página — pero entonces se pierde el contexto entre las páginas, y todo se convierte en un parche de ingeniería en lugar de una solución adecuada.
Unlimited-OCR hace algo fundamentalmente diferente. Introduce Reference Sliding Window Attention (R-SWA), un mecanismo de atención que mantiene la caché KV constante durante todo el proceso de decodificación — independientemente de la longitud de la salida. Esto significa que el modelo puede procesar 40, 100, o incluso más páginas en una sola pasada hacia adelante bajo el límite de 32K tokens, sin que la velocidad se degrade en el proceso.
Las cifras que circulan son bastante impresionantes: 93,92% en OmniDocBench v1.6, alrededor de 7 800 tokens por segundo con 6 000 tokens de salida, y un PDF de 100 páginas terminado en 8–12 segundos. En comparación: los pipelines tradicionales utilizan 45–90 segundos y requieren postprocesamiento adicional.

El modelo está construido sobre una arquitectura Mixture-of-Experts con 3 mil millones de parámetros totales, pero solo 500 millones activados durante la inferencia. Esto la hace relativamente fácil de ejecutar localmente — algo que la gente de la comunidad ya ha empezado a probar. Un detalle práctico importante que se repite en los comentarios: las cuantificaciones GGUF requieren por ahora una compilación específica de llama.cpp (PR #17400) hasta que el soporte para DeepSeek-OCR esté en la rama principal.
¿Por qué es esto interesante más allá de los benchmarks? Porque esto es de código abierto, y porque el mecanismo R-SWA se presenta como general — Baidu sugiere que también puede usarse para ASR y traducción. Si esto se sostiene, es un movimiento arquitectónico que puede migrar rápidamente a otros proyectos.
Estos son, por supuesto, señales tempranas de la comunidad, y aún no hemos visto replicaciones independientes a gran escala. Pero el compromiso en Lobsters sugiere que la gente realmente está probando, no solo leyendo.
