Una publicación en Lobsters AI —enlazada desde un blog de Nathan— está explotando ahora mismo en el underground de la IA, y la pregunta que se plantea es engañosamente sencilla: ¿puede gzip ser un modelo de lenguaje?

Spoiler: sí, en cierto modo — y eso debería hacerte reflexionar.

Aquí está la cuestión. La compresión y la predicción de lenguaje son, en realidad, dos caras de la misma moneda. Cuando gzip comprime texto, busca patrones y repeticiones en una ventana deslizante de datos vistos recientemente. Lo que se comprime bien es lo que es estadísticamente predecible. Lo que se comprime mal es lo inesperado. Eso es exactamente lo que hace un modelo de lenguaje — solo que gzip lo hace sin datos de entrenamiento, parámetros o facturas de GPU.

Un algoritmo de 1992 hace implícitamente lo que los modelos de miles de millones de parámetros tardan meses en aprender a entrenar.

Lo que realmente hizo que la gente levantara las cejas fue un artículo de investigación (Jiang et al.) que utilizó gzip combinado con la Distancia de Compresión Normalizada y kNN para la clasificación de texto — completamente sin parámetros de aprendizaje automático. En idiomas de bajos recursos como el kinyarwanda, el kirundi y el suajili, el método superó a las grandes redes neuronales. No porque gzip sea inteligente, sino porque los LLM simplemente no tenían suficientes datos de entrenamiento en estos idiomas.

gzip supera a GPT: Un antiguo algoritmo zip se comporta como un modelo de lenguaje - Bilde 1

¿Es esto perfecto? Absolutamente no. En grandes conjuntos de datos bien definidos como YahooAnswers, el método gzip cae aproximadamente 7 puntos porcentuales por detrás de las alternativas neuronales. No comprende la semántica, los sinónimos o el contexto a un nivel profundo. Y el enfoque kNN no escala bien — la complejidad O(n²) no es divertida en producción.

Pero ese no es el punto. Lo que hace interesante esta discusión es lo que dice sobre nuestras suposiciones. Tendemos a asumir que los resultados inteligentes requieren sistemas complejos. El experimento de gzip nos recuerda que gran parte de lo que llamamos "comprensión" en los LLM puede ser un reconocimiento de patrones extremadamente sofisticado — y que ya existen reconocedores de patrones simples y bien definidos.

Para las personas que trabajan con idiomas de bajos recursos, implementaciones edge sin acceso a grandes modelos, o simplemente les gusta el minimalismo elegante en el diseño de sistemas — esta es una señal a la que vale la pena prestar atención.

Recuerda que esta es una señal temprana de fuentes de la comunidad, no un consenso revisado por pares. Pero la discusión es real, y apunta a algo fundamental de lo que los grandes laboratorios de IA rara vez hablan en voz alta: quizás no siempre necesitemos más escala. A veces, basta con un viejo zip.