Tokenbasierte Kompression

Bei tokenbasierter Kompression (englisch token-based compression) werden die Seiten eines Dokuments als eine Ansammlung aus im Dokument vorkommenden Symbolen (Tokens) repräsentiert. Positionsinformationen geben an, wo die Symbole erscheinen sollen. Jedes Symbol ist hierbei eine Abbildung eines Teils des Dokument, etwa ein Buchstabe oder eine Grafik.

Mehrfaches Vorkommen desselben Zeichens im Dokument wird repräsentiert, indem die Abbildung des Zeichens nur einmal verwendet wird. Jede Seite des Dokuments spezifiziert, welches Symbol auf ihr vorkommt und legt seine Position fest.

Die Kompressionsraten hierbei sind recht hoch.