En post på Lobsters AI — lenket fra en blogg av Nathan — eksploderer akkurat nå i AI-undergrunnen, og spørsmålet som stilles er deceptively enkelt: kan gzip være en språkmodell?
Spoiler: ja, på en måte — og det burde få deg til å tenke.
Her er greia. Komprimering og språkpredikering er egentlig to sider av samme sak. Når gzip pakker tekst, leter den etter mønstre og gjentagelser i et glidende vindu av nylig sett data. Det som komprimeres godt, er det som er statistisk forutsigbart. Det som komprimeres dårlig, er det uventede. Det er nøyaktig det en språkmodell gjør — bare at gzip gjør det uten treningsdata, parametere eller GPU-regninger.
Det som virkelig fikk folk til å løfte øyenbrynene var en forskningsartikkel (Jiang et al.) som brukte gzip kombinert med Normalized Compression Distance og kNN til tekstklassifikasjon — helt uten maskinlæringsparametere. På lavressursspråk som Kinyarwanda, Kirundi og Swahili slo metoden altså store nevrale nettverk. Ikke fordi gzip er smart, men fordi LLM-ene rett og slett ikke hadde nok treningsdata på disse språkene.

Er dette perfekt? Absolutt ikke. På store, velavgrensede datasett som YahooAnswers dropper gzip-metoden rundt 7 prosentpoeng bak nevrale alternativer. Den forstår ikke semantikk, synonymer eller kontekst på noe dypt nivå. Og kNN-tilnærmingen skalerer dårlig — O(n²) kompleksitet er ikke moro i produksjon.
Men det er ikke poenget. Det som gjør denne diskusjonen interessant er hva den sier om antagelsene våre. Vi har en tendens til å anta at intelligente resultater krever komplekse systemer. gzip-eksperimentet minner oss om at mye av det vi kaller "forståelse" i LLM-er kan være ekstremt sofistikert mønstergjenkjenning — og at enkle, veldefinerte mønstergjenkjennere allerede eksisterer.
For folk som jobber med lavressursspråk, edge-deploymenter uten tilgang til store modeller, eller bare liker elegant minimalisme i systemdesign — er dette et signal verdt å følge med på.
Kom ihåg at dette er et early signal fra community-kilder, ikke peer-reviewed konsensus. Men diskusjonen er reell, og den peker på noe fundamentalt som de store AI-laboratoriene sjelden snakker høyt om: kanskje vi ikke alltid trenger mer skala. Noen ganger holder det med en gammeldags zip.
