Token (Übersetzerbau)

Ein Token ist die lexikalische Grundeinheit, die ein Parser bearbeitet. Man kann Tokens als Eingabesymbole des Parsers verstehen. Beim Parsen wird jedes Token letztlich mit einem Terminalsymbol einer Grammatik verglichen, nur wenn das Terminalsymbol zu dem Token passt, kann die entsprechende Regel der Grammatik angewendet werden.

Im einfachsten Fall sind Tokens die Zeichen der ursprünglichen Eingabe: der Buchstabe A erzeugt ein A-Token, usw. Für das Parsen komplexerer Sprachen empfiehlt es sich aber, die Eingabe in einer Zwischenstufe als Kette von komplexeren Tokens zu betrachten. Dazu fasst ein vorgeschalteter Lexer die Zeichen der Eingabe zu handlichen "Häppchen", eben den komplexeren Tokens, zusammen. Dabei wird jedem Token ein "Typ" zugewiesen, der dann mit den Terminalsymbolen der Grammatik verglichen werden kann. Zum Beispiel könnte "123" zu dem Token "Zahl:123" werden, "foobar" zu "id:foobar" und "begin" zu "keyword:begin".

Siehe auch

Externe Verweise

Vorlage:Stub