Zum Inhalt springen

„Bytecode“ – Versionsunterschied

aus Wikipedia, der freien Enzyklopädie
[gesichtete Version][gesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
Deutlicher. Binär ist zweiwertig: ist eine zweielementige Menge binär? deren Kardinalität ist jedenfalls unär dual 10. Auch der schönste Text ist dem Computer ein Muster von Strom / Nicht-Strom, auf der Ebene sehen Textdateien nicht weniger binär aus als ausführbare Dateien ...
 
(28 dazwischenliegende Versionen von 20 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
'''Bytecode''' ist in der [[Informatik]] die Bezeichnung für eine Sammlung von [[Befehlssatz|Befehlen]], also die Maschinensprache für eine [[virtuelle Maschine]]. Bytecode bezeichnet sowohl die Vorschrift wie der Quellcode von Programmen in diesen Objektcode zu kodieren ist, als auch die Ergebnisse dieser Kodierung, also die ausführbaren Programme. Bytecode ist im Gegensatz zu [[Quelltext]]en oder [[Skriptsprache|Skripten]] nicht „menschenlesbar“, Programmanweisungen und Werte sind wie in [[Maschinensprache|Maschinencode]] als Bytes codiert. Maschinencode wird jedoch direkt von einem (Hardware) [[Prozessor]] ausgeführt, Bytecode dagegen betont, dass das Programm zunächst von einem speziellen anderen Programm „[[Interpreter|interpretiert]]“, in Maschinencode übersetzt wird. Ein Bytecode kann jedoch von passenden Hardware-Prozessoren direkt ausgeführt werden, und Maschinencode wird meist, sozusagen als Bytecode, auf Software-Prozessoren entwickelt.
Der '''Bytecode''' ist in der [[Informatik]] eine Sammlung von [[Befehlssatz|Befehlen]] für eine [[virtuelle Maschine]]. Bei [[Compiler|Kompilierung]] eines [[Quelltext]]es mancher [[Programmiersprache]]n oder Umgebungen –&nbsp;wie beispielsweise [[Java (Programmiersprache)|Java]]&nbsp;– wird nicht direkt [[Maschinensprache|Maschinencode]], sondern ein [[Zwischencode]], der Bytecode, erstellt.<ref name="itwissen">{{Internetquelle |url=https://www.itwissen.info/Bytecode-bytecode.html |titel=ITWissen: Bytecode |datum= |zugriff=2018-10-19}}</ref> Dieser Code ist in der Regel unabhängig von realer [[Hardware]]. Er entsteht als Resultat einer semantischen Analyse des Quelltexts und ist im Vergleich zu diesem oft relativ kompakt und wesentlich effizienter interpretierbar als der originale Quelltext.

Bei [[Compiler|Kompilierung]] eines Quelltextes mancher [[Programmiersprache]]n oder Umgebungen –&nbsp;wie beispielsweise [[Java (Programmiersprache)|Java]]&nbsp;– wird nicht direkt Maschinencode, sondern ein [[Zwischencode]], der Bytecode, erstellt.<ref name="itwissen">{{Internetquelle |url=https://www.itwissen.info/Bytecode-bytecode.html |titel=Bytecode |werk=itwissen.info |datum=2013-11-02 |zugriff=2018-10-19}}</ref> Dieser Code ist in der Regel unabhängig von realer [[Hardware]]. Er entsteht als Resultat einer semantischen Analyse des Quelltexts und ist im Vergleich zu diesem deutlich kompakter und zumeist wesentlich effizienter interpretierbar als der originale Quelltext.


== Technische Details ==
== Technische Details ==
Die virtuelle Maschine –&nbsp;im Fall von Java die [[Java Virtual Machine]] (JVM)&nbsp;– führt dann dieses Zwischenergebnis aus, indem sie zur [[Laufzeit (Informatik)|Laufzeit]] den Bytecode entweder in Maschinensprache für den jeweiligen [[Prozessor]] übersetzt ([[Just-in-time-Kompilierung]]) oder entsprechende Maschinencode-Routinen ausführt ([[Interpreter]]). Dabei muss die virtuelle Maschine für jede Rechnerplattform, auf der das Kompilat ausgeführt werden soll, vorhanden sein.<ref>{{Internetquelle |url=https://techterms.com/definition/bytecode |werk=techterms.com |titel=Bytecode |sprache=en |datum=2018-01-23 |zugriff=2018-10-19}}</ref>


Java ist nur eines der prominenteren Beispiele für eine Bytecode-basierte Programmiersprache. Andere Sprachen, die Bytecodes verwenden, sind etwa [[P-Code]], [[Lua]], die [[.Net-Framework]]-Sprachen [[C-Sharp|C#]], [[F-Sharp|F#]] und [[Visual Basic .NET|Visual Basic]], [[Python (Programmiersprache)|Python]], [[Ruby (Programmiersprache)|Ruby]], [[Perl (Programmiersprache)|Perl]], [[PHP]], [[Prolog (Programmiersprache)|Prolog]], [[Limbo (Programmiersprache)|Limbo]], [[Gambas (Programmiersprache)|Gambas]] sowie [[Tcl]].<ref name="itwissen" /> Während bei Java, Python und .NET der Bytecode als „Kompilat“ gespeichert und dann unabhängig vom Quellcode ausgeführt wird, wird bei den [[Skriptsprache]]n Perl (bis Version&nbsp;5) und Tcl beim Programmstart der Quellcode in Bytecode übersetzt und nur im Arbeitsspeicher vorgehalten.
Die virtuelle Maschine –&nbsp;im Fall von Java die [[Java Virtual Machine]] (JVM)&nbsp;– führt dann dieses Zwischenergebnis aus, indem sie zur [[Laufzeit (Informatik)|Laufzeit]] den Bytecode entweder in Maschinensprache für den jeweiligen [[Prozessor]] übersetzt ([[Just-in-time-Kompilierung]]) oder entsprechende Maschinencode-Routinen ausführt ([[Interpreter]]). Dabei muss die virtuelle Maschine für jede Rechnerplattform, auf der das Kompilat laufen soll, vorhanden sein.<ref>{{Internetquelle |url=https://techterms.com/definition/bytecode |titel=TechTerms: Bytecode |sprache=en |datum= |zugriff=2018-10-19}}</ref>


Die Verwendung von Bytecode macht es möglich, dieselbe virtuelle Maschine für mehrere Sprachen zu verwenden, beispielsweise die JVM für Java, [[Scala (Programmiersprache)|Scala]], [[Groovy]] und viele andere. Der Aufwand, nur einen Bytecode-Compiler für eine [[höhere Programmiersprache]] zu entwickeln, ist dann deutlich reduziert. Dagegen wäre der Aufwand, wenn ein Compiler eine direkte Übersetzung in Maschinencode für mehrere Betriebssysteme und Architekturen bereitstellen soll, sehr viel höher. Ein Bytecode kann auch unabhängig von einer speziellen Sprache für einen bestimmten Einsatzzweck entwickelt worden sein, zum Beispiel [[WebAssembly]].
Java ist nur eines der prominenteren Beispiele für eine Bytecode-basierte Programmiersprache. Andere Sprachen, die Bytecodes verwenden, sind [[P-Code]], [[Lua]], die [[.NET]]-Sprachen [[C-Sharp|C#]], [[F-Sharp|F#]] und [[Visual Basic .NET|Visual Basic]], [[Python (Programmiersprache)|Python]], [[Ruby (Programmiersprache)|Ruby]], [[Perl (Programmiersprache)|Perl]], [[PHP]], [[Prolog (Programmiersprache)|Prolog]], [[Limbo (Programmiersprache)|Limbo]], [[Gambas (Programmiersprache)|Gambas]] sowie [[Tcl]].<ref name="itwissen" /> Während bei Java, Python, und .NET der Bytecode als „Kompilat“ gespeichert und dann unabhängig vom Quellcode ausgeführt wird, wird bei den [[Skriptsprache]]n Perl (bis Version&nbsp;5) und Tcl beim Programmstart der Quellcode in Bytecode übersetzt und nur im Arbeitsspeicher vorgehalten.


Die Ausführung von Bytecode durch das Programm, das die virtuelle Maschine repräsentiert, geht auf Kosten von dessen Startzeit, welche im Allgemeinen aber eher nur messbar als wahrnehmbar beeinträchtigt wird. Spezielle [[Just-in-time-Kompilierung|Just-in-time-Compiler]] (JIT-Compiler) übersetzen Bytecode-Stücke einmal während der Programmausführung in entsprechende Maschinencodestücke und führen diese dann aus. Dadurch lassen sich die Ausführungszeiten, jedoch nicht die Startzeiten, oft in den Bereich von vorübersetztem Maschinencode reduzieren.<ref>{{Internetquelle |autor=Carles Mateo |url=http://blog.carlesmateo.com/2014/10/13/performance-of-several-languages/ |titel=Performance of several languages |werk=carlesmateo.com |datum=2017-03-26 |abruf=2021-04-08 |sprache=en |kommentar=Blogeintrag}}</ref>
Die Verwendung von Byte-Codes macht es möglich, dieselbe virtuelle Maschine für mehrere Sprachen zu verwenden, beispielsweise die JVM für Java, [[Scala (Programmiersprache)|Scala]], [[Groovy]] und viele andere. Der Aufwand nur einen Bytecode-Compiler für eine höhere Programmiersprache zu entwickeln ist dann deutlich reduziert. Dagegen wäre der Aufwand, wenn ein Compiler eine direkte Übersetzung in Maschinencode für mehrere Betriebssysteme und Architekturen bereitstellen soll, sehr viel höher. Ein Byte-Code kann auch unabhängig von einer speziellen Sprache für einen bestimmten Einsatzzweck entwickelt worden sein, zum Beispiel [[WebAssembly]].

Die Ausführung von Bytecode durch das Programm, das die virtuelle Maschine repräsentiert, geht auf Kosten von dessen Startzeit, welche im Allgemeinen aber eher nur messbar als wahrnehmbar beeinträchtigt wird. Spezielle [[Just-in-time-Kompilierung|Just-in-time-Compiler]] (JIT-Compiler) übersetzen Bytecode-Stücke einmal während der Programmausführung in entsprechende Maschinencodestücke und führen diese dann aus. Dadurch lassen sich die Ausführungszeiten, jedoch nicht die Startzeiten, oft in den Bereich von vorübersetztem Maschinencode drücken.<ref>Blogeintrag von Carles Mateo '[http://blog.carlesmateo.com/2014/10/13/performance-of-several-languages/ Performance of several languages]'</ref>


== Hintergründe ==
== Hintergründe ==

Viele interpretierte Sprachen verwenden auch intern Bytecode. Das bedeutet, dass der Bytecode an sich unsichtbar für den Programmierer und Endbenutzer gehalten wird und automatisch als Zwischenschritt der Interpretation des Programmes erzeugt wird. Beispiele für aktuelle Sprachen, die diese Technik verwenden, sind: Perl, PHP, Prolog, Tcl und Python. In Python wird der Bytecode nach dem ersten Parsen in .pyc-Dateien (welche den Bytecode enthalten) abgelegt; das Vorgehen ähnelt damit prinzipiell dem bei Java. Dieser Schritt ist jedoch optional.
Viele interpretierte Sprachen verwenden auch intern Bytecode. Das bedeutet, dass der Bytecode an sich unsichtbar für den Programmierer und Endbenutzer gehalten wird und automatisch als Zwischenschritt der Interpretation des Programmes erzeugt wird. Beispiele für aktuelle Sprachen, die diese Technik verwenden, sind: Perl, PHP, Prolog, Tcl und Python. In Python wird der Bytecode nach dem ersten Parsen in .pyc-Dateien (welche den Bytecode enthalten) abgelegt; das Vorgehen ähnelt damit prinzipiell dem bei Java. Dieser Schritt ist jedoch optional.


Auch dieses Verfahren ist sehr alt: Bereits für [[Lisp]] wurde in den 1960er Jahren Bytecompiling eingesetzt: Die 256 [[Lispatom|atomare]] Funktionen wurden in einem Byte kodiert; was Anlass für die Namensgebung war. Frühe [[BASIC]]-Versionen der 1970er und 1980er Jahre verwandten anstelle der Schlüsselwörter bestimmte Byte-Werte, sogenannte [[Token (Übersetzerbau)|Tokens]], um die Ausführung ihrer Programme zu beschleunigen und den Programmtext in einer kompakteren Form abzuspeichern. Der restliche Text&nbsp;– zum Beispiel Variablen, mathematische Ausdrücke und Zeichenketten&nbsp;– wurde jedoch unverändert gespeichert. Bei Ausgabe durch den LIST-Befehl wurden die Tokens wieder in lesbare Schlüsselwörter umgewandelt.
Auch dieses Verfahren ist sehr alt: Bereits für [[Lisp]] wurde in den 1960er Jahren Bytecompiling eingesetzt: Die 256 [[Lispatom|atomaren]] Funktionen wurden in einem Byte kodiert. Frühe [[BASIC]]-Versionen der 1970er und 1980er Jahre verwendeten anstelle der Schlüsselwörter bestimmte Byte-Werte, sogenannte [[Token (Übersetzerbau)|Tokens]], um die Ausführung ihrer Programme zu beschleunigen und den Programmtext in einer kompakteren Form abzuspeichern. Der restliche Text&nbsp;– zum Beispiel Variablen, mathematische Ausdrücke und Zeichenketten&nbsp;– wurde jedoch unverändert gespeichert. Bei Ausgabe durch den LIST-Befehl wurden die Tokens wieder in lesbare Schlüsselwörter umgewandelt. Ein bekannter früher [[Heimcomputer]], der Bytecode verwendet, ist der [[Texas Instruments TI-99/4A|TI 99/4a]] von [[Texas Instruments]].


Aufgrund des stark begrenzten Speicherplatzes der ersten Homecomputer war es unumgänglich, beispielsweise BASIC-Programme als Bytecode in den [[Random-Access Memory|RAM]] zu überführen. Alternativ konnte man nur mit direkt eingegebenen Maschinencode programmieren. Reiner Text wäre sehr schnell an die Speichergrenze gestoßen. Die Platzersparnis von Quelltexten in Bytecodeform war aber auch später noch angesichts langsamer und begrenzter Massenspeicher von Vorteil. Hinzu kommt der große Vorteil, dass Bytecode deutlich schneller ausgeführt werden kann als ein normaler Quelltext. Statt jeden Buchstaben eines Befehls zu vergleichen, um erst mal herauszufinden, um welchen Befehl es sich handelt, muss man nur ein oder wenige Bytes vergleichen, die diesen repräsentieren.
Ein bekannter früher [[Heimcomputer]], der Bytecode verwendet, ist der [[Texas Instruments TI-99/4A|TI 99/4a]] von [[Texas Instruments]].


== Rückgewinnung von Quelltext aus Kompilaten ==
== Rückgewinnung von Quelltext aus Kompilaten ==
Für Programmierer, die an Programmen arbeiten, deren Quellcode nicht offengelegt werden soll, gibt es einen wichtigen Aspekt zu beachten: Bei Programmiersprachen, wie beispielsweise [[C (Programmiersprache)|C]], die direkt zu Maschinencode kompiliert werden, ist es in der Regel nicht möglich, aus dem Maschinencode den ursprünglichen Quellcode zurückzugewinnen.<ref>{{Internetquelle |url=https://whatis.techtarget.com/definition/bytecode |titel=What Is: bytecode |sprache=en |datum= |zugriff=2018-10-19}}</ref> Bei Kompilierung zu Bytecode ist dies oftmals kein allzu großes Problem. Hierbei kann zwar nicht der exakte Quellcode rekonstruiert werden, allerdings ist es oftmals möglich, zumindest äquivalenten Code in der Quellsprache zurückzugewinnen, oftmals mit verblüffenden Ähnlichkeiten. Sehr gut scheint dies beispielsweise bei Java und .NET möglich zu sein; in Prolog mit [[Warren’s Abstract Machine|WAM]]-Bytecode funktioniert es immer.<ref>{{Internetquelle |url=http://www.dcs.ed.ac.uk/teaching/cs1/CS1/Bh/Notes/JavaByteCode.pdf#page=5 |titel=CS1Bh Lecture Note 7 Compilation I: Java Byte Code |datum= |zugriff=2018-10-19 |format=PDF}}</ref>
Für Programmierer, die an Programmen arbeiten, deren Quellcode nicht offengelegt werden soll, gibt es einen wichtigen Aspekt zu beachten: Bei Programmiersprachen, wie beispielsweise [[C (Programmiersprache)|C]], die direkt zu Maschinencode kompiliert werden, ist es normalerweise nicht möglich, aus dem Maschinencode den ursprünglichen Quellcode zurückzugewinnen.<ref>{{Internetquelle |url=https://whatis.techtarget.com/definition/bytecode |werk=techtarget.com|titel=What Is: bytecode |sprache=en |datum=2005-09 |zugriff=2018-10-19}}</ref> Dazu müssten mindestens die Algorithmen des verwendeten Compilers bekannt sein. Funktionsbezeichner und Variablennamen können allerdings nur dann ermittelt werden, wenn dem Compilat Daten für einen [[Debugger]] hinzugefügt wurden.


Bei Kompilierung zu Bytecode ist dieses sogenannte [[Decompiler|Dekompilieren]] hingegen viel einfacher, da dieser sich weniger an der abstrakten Maschinensprache orientiert, sondern meistens deutlich näher an der zugrundeliegenden Programmiersprache liegt. Hierbei kann zwar nicht der exakte Quellcode rekonstruiert werden, allerdings ist es häufig möglich, zumindest äquivalenten Code in der Quellsprache zurückzugewinnen, teilweise mit verblüffenden Ähnlichkeiten. Beispielsweise bei Java und .NET ist dies in den meisten Fällen sehr gut möglich; in Prolog mit [[Warren’s Abstract Machine|WAM]]-Bytecode ist eine Rückgewinnung immer möglich;<ref>{{Internetquelle |url=http://www.dcs.ed.ac.uk/teaching/cs1/CS1/Bh/Notes/JavaByteCode.pdf |seiten=5 |werk=ac.uk |sprache=en |archiv-url=https://web.archive.org/web/20140328021346/http://www.dcs.ed.ac.uk/teaching/cs1/CS1/Bh/Notes/JavaByteCode.pdf |archiv-datum=2014-03-28 |titel=CS1Bh Lecture Note 7 Compilation I: Java Byte Code |datum=2003-02-06 |zugriff=2018-10-19 |format=PDF}}</ref>
Für eigene .NET-Projekte kann der [[.NET Reflector]] verwendet werden um den Quellcode wiederherzustellen. Dieser unterstützt drei .NET-Sprachen: C#, Visual Basic .NET und [[Delphi.NET]].
Mithilfe eines sogenannten [[Obfuskation (Software)|Obfuskator]]s kann die Nutzbarkeit des durch das dekompilieren erhaltenen Quelltextes sehr stark eingeschränkt werden.


Mithilfe eines sogenannten [[Obfuskation (Software)|Obfuskators]] kann die Nutzbarkeit des durch das Dekompilieren erhaltenen Quelltextes sehr stark eingeschränkt werden. Mitunter werden Befehlsfolgen eingebaut, die in der Quellsprache nicht existieren (beispielsweise Code nach Ende einer Methode), was ein Dekompilieren in die Quellsprache gar nicht mehr möglich macht.
== Weblinks ==


== Weblinks ==
* [http://www.javaworld.com/javaworld/jw-09-1996/jw-09-bytecodes.html Java-Bytecode entschlüsselt] (englisch)
* Bill Venners: {{Webarchiv |url=http://www.javaworld.com/article/2077233/core-java/bytecode-basics.html |wayback=20160306052502 |text=Bytecode basics. A first look at the bytecodes of the Java virtual machine}} in javaworld.com vom 1. September 1996 (englisch) – Java-Bytecode entschlüsselt


== Einzelnachweise ==
== Einzelnachweise ==

Aktuelle Version vom 17. Februar 2025, 23:50 Uhr

Bytecode ist in der Informatik die Bezeichnung für eine Sammlung von Befehlen, also die Maschinensprache für eine virtuelle Maschine. Bytecode bezeichnet sowohl die Vorschrift wie der Quellcode von Programmen in diesen Objektcode zu kodieren ist, als auch die Ergebnisse dieser Kodierung, also die ausführbaren Programme. Bytecode ist im Gegensatz zu Quelltexten oder Skripten nicht „menschenlesbar“, Programmanweisungen und Werte sind wie in Maschinencode als Bytes codiert. Maschinencode wird jedoch direkt von einem (Hardware) Prozessor ausgeführt, Bytecode dagegen betont, dass das Programm zunächst von einem speziellen anderen Programm „interpretiert“, in Maschinencode übersetzt wird. Ein Bytecode kann jedoch von passenden Hardware-Prozessoren direkt ausgeführt werden, und Maschinencode wird meist, sozusagen als Bytecode, auf Software-Prozessoren entwickelt.

Bei Kompilierung eines Quelltextes mancher Programmiersprachen oder Umgebungen – wie beispielsweise Java – wird nicht direkt Maschinencode, sondern ein Zwischencode, der Bytecode, erstellt.[1] Dieser Code ist in der Regel unabhängig von realer Hardware. Er entsteht als Resultat einer semantischen Analyse des Quelltexts und ist im Vergleich zu diesem deutlich kompakter und zumeist wesentlich effizienter interpretierbar als der originale Quelltext.

Technische Details

[Bearbeiten | Quelltext bearbeiten]

Die virtuelle Maschine – im Fall von Java die Java Virtual Machine (JVM) – führt dann dieses Zwischenergebnis aus, indem sie zur Laufzeit den Bytecode entweder in Maschinensprache für den jeweiligen Prozessor übersetzt (Just-in-time-Kompilierung) oder entsprechende Maschinencode-Routinen ausführt (Interpreter). Dabei muss die virtuelle Maschine für jede Rechnerplattform, auf der das Kompilat ausgeführt werden soll, vorhanden sein.[2]

Java ist nur eines der prominenteren Beispiele für eine Bytecode-basierte Programmiersprache. Andere Sprachen, die Bytecodes verwenden, sind etwa P-Code, Lua, die .Net-Framework-Sprachen C#, F# und Visual Basic, Python, Ruby, Perl, PHP, Prolog, Limbo, Gambas sowie Tcl.[1] Während bei Java, Python und .NET der Bytecode als „Kompilat“ gespeichert und dann unabhängig vom Quellcode ausgeführt wird, wird bei den Skriptsprachen Perl (bis Version 5) und Tcl beim Programmstart der Quellcode in Bytecode übersetzt und nur im Arbeitsspeicher vorgehalten.

Die Verwendung von Bytecode macht es möglich, dieselbe virtuelle Maschine für mehrere Sprachen zu verwenden, beispielsweise die JVM für Java, Scala, Groovy und viele andere. Der Aufwand, nur einen Bytecode-Compiler für eine höhere Programmiersprache zu entwickeln, ist dann deutlich reduziert. Dagegen wäre der Aufwand, wenn ein Compiler eine direkte Übersetzung in Maschinencode für mehrere Betriebssysteme und Architekturen bereitstellen soll, sehr viel höher. Ein Bytecode kann auch unabhängig von einer speziellen Sprache für einen bestimmten Einsatzzweck entwickelt worden sein, zum Beispiel WebAssembly.

Die Ausführung von Bytecode durch das Programm, das die virtuelle Maschine repräsentiert, geht auf Kosten von dessen Startzeit, welche im Allgemeinen aber eher nur messbar als wahrnehmbar beeinträchtigt wird. Spezielle Just-in-time-Compiler (JIT-Compiler) übersetzen Bytecode-Stücke einmal während der Programmausführung in entsprechende Maschinencodestücke und führen diese dann aus. Dadurch lassen sich die Ausführungszeiten, jedoch nicht die Startzeiten, oft in den Bereich von vorübersetztem Maschinencode reduzieren.[3]

Viele interpretierte Sprachen verwenden auch intern Bytecode. Das bedeutet, dass der Bytecode an sich unsichtbar für den Programmierer und Endbenutzer gehalten wird und automatisch als Zwischenschritt der Interpretation des Programmes erzeugt wird. Beispiele für aktuelle Sprachen, die diese Technik verwenden, sind: Perl, PHP, Prolog, Tcl und Python. In Python wird der Bytecode nach dem ersten Parsen in .pyc-Dateien (welche den Bytecode enthalten) abgelegt; das Vorgehen ähnelt damit prinzipiell dem bei Java. Dieser Schritt ist jedoch optional.

Auch dieses Verfahren ist sehr alt: Bereits für Lisp wurde in den 1960er Jahren Bytecompiling eingesetzt: Die 256 atomaren Funktionen wurden in einem Byte kodiert. Frühe BASIC-Versionen der 1970er und 1980er Jahre verwendeten anstelle der Schlüsselwörter bestimmte Byte-Werte, sogenannte Tokens, um die Ausführung ihrer Programme zu beschleunigen und den Programmtext in einer kompakteren Form abzuspeichern. Der restliche Text – zum Beispiel Variablen, mathematische Ausdrücke und Zeichenketten – wurde jedoch unverändert gespeichert. Bei Ausgabe durch den LIST-Befehl wurden die Tokens wieder in lesbare Schlüsselwörter umgewandelt. Ein bekannter früher Heimcomputer, der Bytecode verwendet, ist der TI 99/4a von Texas Instruments.

Aufgrund des stark begrenzten Speicherplatzes der ersten Homecomputer war es unumgänglich, beispielsweise BASIC-Programme als Bytecode in den RAM zu überführen. Alternativ konnte man nur mit direkt eingegebenen Maschinencode programmieren. Reiner Text wäre sehr schnell an die Speichergrenze gestoßen. Die Platzersparnis von Quelltexten in Bytecodeform war aber auch später noch angesichts langsamer und begrenzter Massenspeicher von Vorteil. Hinzu kommt der große Vorteil, dass Bytecode deutlich schneller ausgeführt werden kann als ein normaler Quelltext. Statt jeden Buchstaben eines Befehls zu vergleichen, um erst mal herauszufinden, um welchen Befehl es sich handelt, muss man nur ein oder wenige Bytes vergleichen, die diesen repräsentieren.

Rückgewinnung von Quelltext aus Kompilaten

[Bearbeiten | Quelltext bearbeiten]

Für Programmierer, die an Programmen arbeiten, deren Quellcode nicht offengelegt werden soll, gibt es einen wichtigen Aspekt zu beachten: Bei Programmiersprachen, wie beispielsweise C, die direkt zu Maschinencode kompiliert werden, ist es normalerweise nicht möglich, aus dem Maschinencode den ursprünglichen Quellcode zurückzugewinnen.[4] Dazu müssten mindestens die Algorithmen des verwendeten Compilers bekannt sein. Funktionsbezeichner und Variablennamen können allerdings nur dann ermittelt werden, wenn dem Compilat Daten für einen Debugger hinzugefügt wurden.

Bei Kompilierung zu Bytecode ist dieses sogenannte Dekompilieren hingegen viel einfacher, da dieser sich weniger an der abstrakten Maschinensprache orientiert, sondern meistens deutlich näher an der zugrundeliegenden Programmiersprache liegt. Hierbei kann zwar nicht der exakte Quellcode rekonstruiert werden, allerdings ist es häufig möglich, zumindest äquivalenten Code in der Quellsprache zurückzugewinnen, teilweise mit verblüffenden Ähnlichkeiten. Beispielsweise bei Java und .NET ist dies in den meisten Fällen sehr gut möglich; in Prolog mit WAM-Bytecode ist eine Rückgewinnung immer möglich;[5]

Mithilfe eines sogenannten Obfuskators kann die Nutzbarkeit des durch das Dekompilieren erhaltenen Quelltextes sehr stark eingeschränkt werden. Mitunter werden Befehlsfolgen eingebaut, die in der Quellsprache nicht existieren (beispielsweise Code nach Ende einer Methode), was ein Dekompilieren in die Quellsprache gar nicht mehr möglich macht.

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. a b Bytecode. In: itwissen.info. 2. November 2013, abgerufen am 19. Oktober 2018.
  2. Bytecode. In: techterms.com. 23. Januar 2018, abgerufen am 19. Oktober 2018 (englisch).
  3. Carles Mateo: Performance of several languages. In: carlesmateo.com. 26. März 2017, abgerufen am 8. April 2021 (englisch, Blogeintrag).
  4. What Is: bytecode. In: techtarget.com. September 2005, abgerufen am 19. Oktober 2018 (englisch).
  5. CS1Bh Lecture Note 7 Compilation I: Java Byte Code. (PDF) In: ac.uk. 6. Februar 2003, S. 5, archiviert vom Original am 28. März 2014; abgerufen am 19. Oktober 2018 (englisch).