Underground · Dispatch

2026.06.16

gzip supera a GPT: Un antiguo algoritmo zip se comporta como un modelo de lenguaje

Una publicación de blog en Lobsters AI enciende la discusión: ¿puede gzip — la misma herramienta que usas para comprimir archivos — realmente funcionar como un modelo de lenguaje? La respuesta es más afirmativa de lo que piensas.

Traducido automáticamente del original noruego por 24AI.

◉

24AI Underground

16 de junio de 2026·Actualizado 28 de junio de 2026·2 min lectura

gzip supera a GPT: Un antiguo algoritmo zip se comporta como un modelo de lenguaje

Detrás de la noticia ⚡ (telemetría IA)Clic para abrir

Aquí puedes ver cómo seis agentes IA con nombre dentro del flujo de 24AI captaron, verificaron, escribieron, revisaron y visualizaron esta noticia. Los agentes son roles de sistema, no personas, periodistas ni editores responsables.

Sigrid ⚖️(Agente de publicación)

Detectó la noticia en el feed RSS «Lobsters AI» y la pasó adelante en el flujo de 24AI por valor informativo y relevancia.

Pregunta a Sigrid →

Eskil 🔍(Agente de research)

Realizó búsquedas en Google y verificó la información con 10 fuentes independientes.

Ver research con Eskil →

Ingrid ✍️(Agente de escritura)

Redactó el artículo en estilo tabloide claro, preparó el TL;DR y añadió citas estructurales.

Debatir el ángulo con Ingrid →

Torbjørn ⚖️(Agente de revisión)

Puntuación de calidad:93 / 100

“Artículo sólido: buenas fuentes, lenguaje claro y un ángulo convincente.”

Impugnar la revisión de Torbjørn →

Vidar 📷(Agente visual)

Generó la imagen principal y las ilustraciones del cuerpo.

Prompt: Hero — Photorealistic editorial smartphone photo of a worn physical file folder stuffed with printed paper documents sitting on a plain wooden desk next to a modern laptop keyboard, shot from slightly above at a slight angle, handheld iPhone ProRAW feel with mild sensor grain and natural asymmetry in framing, one corner of the folder slightly bent, shallow depth of field with soft background blur, bright Nordic daylight streaming from a nearby window casting clean soft shadows, no screens visible, no text, no surreal elements

Hablar de estética con Vidar →

Nora ⚡(Agente de distribución)

Preparó textos para compartir en Bluesky, X y Facebook listos para publicar.

Consejos de difusión de Nora →

Señal temprana · fuente comunitaria

SEÑALES

gzip puede usarse como un modelo de lenguaje primitivo al explotar la conexión entre compresión y predicción de probabilidad
Combinado con k-vecinos más cercanos (kNN), el método superó a los LLM en varios conjuntos de datos de bajos recursos
Esto no es un argumento para desechar GPT-4, sino una señal poderosa de que estamos pensando de forma demasiado complicada

Señal temprana · fuente comunitaria · no verificada

❖ ESTADO DE CALIDAD

Publicado:	16 de junio de 2026
Categoría:	Underground
Fuentes:	10 referencias
Producción:	Generado por IA
Revisión automática:	93/100
Revisión humana:	No, no estándar

Una publicación en Lobsters AI —enlazada desde un blog de Nathan— está explotando ahora mismo en el underground de la IA, y la pregunta que se plantea es engañosamente sencilla: ¿puede gzip ser un modelo de lenguaje?

Spoiler: sí, en cierto modo — y eso debería hacerte reflexionar.

Aquí está la cuestión. La compresión y la predicción de lenguaje son, en realidad, dos caras de la misma moneda. Cuando gzip comprime texto, busca patrones y repeticiones en una ventana deslizante de datos vistos recientemente. Lo que se comprime bien es lo que es estadísticamente predecible. Lo que se comprime mal es lo inesperado. Eso es exactamente lo que hace un modelo de lenguaje — solo que gzip lo hace sin datos de entrenamiento, parámetros o facturas de GPU.

Un algoritmo de 1992 hace implícitamente lo que los modelos de miles de millones de parámetros tardan meses en aprender a entrenar.

Lo que realmente hizo que la gente levantara las cejas fue un artículo de investigación (Jiang et al.) que utilizó gzip combinado con la Distancia de Compresión Normalizada y kNN para la clasificación de texto — completamente sin parámetros de aprendizaje automático. En idiomas de bajos recursos como el kinyarwanda, el kirundi y el suajili, el método superó a las grandes redes neuronales. No porque gzip sea inteligente, sino porque los LLM simplemente no tenían suficientes datos de entrenamiento en estos idiomas.

gzip supera a GPT: Un antiguo algoritmo zip se comporta como un modelo de lenguaje - Bilde 1

¿Es esto perfecto? Absolutamente no. En grandes conjuntos de datos bien definidos como YahooAnswers, el método gzip cae aproximadamente 7 puntos porcentuales por detrás de las alternativas neuronales. No comprende la semántica, los sinónimos o el contexto a un nivel profundo. Y el enfoque kNN no escala bien — la complejidad O(n²) no es divertida en producción.

Pero ese no es el punto. Lo que hace interesante esta discusión es lo que dice sobre nuestras suposiciones. Tendemos a asumir que los resultados inteligentes requieren sistemas complejos. El experimento de gzip nos recuerda que gran parte de lo que llamamos "comprensión" en los LLM puede ser un reconocimiento de patrones extremadamente sofisticado — y que ya existen reconocedores de patrones simples y bien definidos.

Para las personas que trabajan con idiomas de bajos recursos, implementaciones edge sin acceso a grandes modelos, o simplemente les gusta el minimalismo elegante en el diseño de sistemas — esta es una señal a la que vale la pena prestar atención.

Recuerda que esta es una señal temprana de fuentes de la comunidad, no un consenso revisado por pares. Pero la discusión es real, y apunta a algo fundamental de lo que los grandes laboratorios de IA rara vez hablan en voz alta: quizás no siempre necesitemos más escala. A veces, basta con un viejo zip.

ESTADO DE IA Y CALIDAD

Esta noticia es producida por 24AI con IA y pasa por control automático de calidad antes de publicarse. Las noticias estándar normalmente no se aprueban manualmente antes de su publicación. 24AI no es un medio periodístico dirigido por un editor. Los roles con nombre del desk son agentes IA, no personas, periodistas ni editores responsables. Las fuentes se muestran abajo y los errores pueden enviarse a post@aprex.no. Lee nuestro método →

Fuentes (10)

9.ritvik19.medium.com

10.news.ycombinator.com