IEEE 754
Die Norm IEEE 754 (ANSI/IEEE Std 754-1985; IEC-60559:1989 - International version) definiert Standarddarstellungen für binäre Gleitkommazahlen in Computern und legt genaue Verfahren für die Durchführung mathematischer Operationen, insbesondere für Rundungen, fest. Der genaue Name der Norm ist IEEE Standard for Binary Floating-Point Arithmetic for microprocessor systems (ANSI/IEEE Std 754-1985).
Überblick
In der Norm IEEE 754 werden zwei Grunddatenformate für binäre Gleitkommazahlen mit 32 Bit (single precision) bzw. 64 Bit (double precision) Speicherbedarf und zwei erweiterte Formate definiert. In der verwandten Norm IEEE 854 werden nichtbinäre Gleitpunktzahlen definiert. Im Entwurf für eine Neufassung von IEEE 754 (IEEE 754r) werden weitere binäre (16, 32, 64, 128 Bit) und dezimale (32, 64, 128 Bit) Formate für Gleitpunktzahlen vorgeschlagen. IEEE 754 und IEEE 854 werden in Zukunft also zusammengeführt.
Schließlich gibt es Vorschläge und Implementierungen von weiteren Zahlenformaten, die nach den Prinzipien der IEEE 754 Norm gestaltet sind und deshalb oft als IEEE-Zahlen bezeichnet werden, obwohl das streng genommen falsch ist. Dazu gehören die Minifloats, die für die Ausbildung gedacht sind. Minifloats mit 16 Bit werden aber gelegentlich in der Grafikprogrammierung verwendet. Dazu gehören auch mehrere nicht von IEEE definierte Zahlenformate mit mehr als 64 Bit, etwa das 80-Bit-Format, welches die IA-32-Prozessoren intern in ihrer klassischen Gleitkommaeinheit (Floating Point Unit, FPU) verwenden.
Allgemeines
Die Darstellung einer Gleitkommazahl x = s · m · be besteht aus:
- Vorzeichen s (fast ausnahmslos 1 Bit)
- Exponent e (r Bit) (nicht zu verwechseln mit dem „biased exponent“ bzw. der Charakteristik)
- Mantisse m (p Bit), manchmal als Signifikant bezeichnet
Bei normalisierten Gleitkommazahlen (NZ) nach IEEE 754 ist die Basis b = 2. Das Vorzeichen wird in einem Bit S gespeichert, so dass S = 0 positive Zahlen und S = 1 negative Zahlen markiert. Der Exponent e ergibt sich aus der in den Exponentenbits gespeicherten nichtnegativen Binärzahl E (E wird manchmal auch als Charakteristik oder biased exponent bezeichnet) durch Subtraktion eines festen Biaswertes B: . Der Biaswert (engl: Verzerrung) berechnet sich durch , wobei k die Anzahl der Bit der Charakteristik bzw des biased exponents darstellt. Schließlich ist die Mantisse 1 ≤ m < 2 ein Wert, der sich aus den p Mantissenbits mit dem Wert M als berechnet. Einfacher ausgedrückt, denkt man sich an das Mantissenbitmuster M links 1. angehängt: m = 1.M.
Dieses Verfahren ist möglich, weil durch Normalisierung (s. u.) die Bedingung 1 ≤ m < 2 für alle darstellbaren Zahlen immer eingehalten werden kann. Da dann die Mantisse immer links mit 1. beginnt, braucht dieses Bit nicht mehr gespeichert zu werden. Damit gewinnt man ein zusätzliches Bit Genauigkeit.
Für Sonderfälle stehen spezielle Bitmuster zur Verfügung. Um diese Sonderfälle zu kodieren, sind zwei Exponentenwerte, der maximale (1...11) und die Null (0...00) reserviert. Mit dem maximalen Exponentenwert werden die Sonderfälle NaN und ∞ kodiert. Mit Null im Exponenten wird die Gleitkommazahl 0 und alle denormalisierten Werte kodiert.
Die Werte NaN (für engl. „not a number“, übersetzt „keine Zahl“) werden als Darstellung für explizit unmögliche Zahlen verwendet. Dazu gehören Ergebnisse verbotener Operationen und die Möglichkeit, nichtinitialisierte Variablen in Programmen zu finden, wenn der Speicher bei Programmbeginn mit NaN gefüllt wurde. NaN werden in Signal-NaN (signalling NaN, NaNs) für Ausnahmebedingungen und stille NaN (quiet NaN, NaNq) unterteilt. Die Kodierung dieser Unterteilung ist leider nicht definiert worden.
Die Zahl 0 existiert in zwei Darstellungen als +0 und −0. Beide werden jedoch rechnerisch als identisch betrachtet.
Zu große Ergebnisse werden durch zwei Darstellungen für ∞ und −∞ kodiert. Solch ein Ergebnis steht jedoch nur im Ausnahmefall für den mathematischen Wert Unendlich; im Regelfall signalisiert es einen Überlauf des Rechenergebnisses aus dem Bereich der darstellbaren Zahlen.
Als letzter Sonderfall füllen denormalisierte Zahlen (in IEEE 754r als subnormale Zahlen bezeichnet) den Bereich zwischen der kleinsten normalisierten Gleitkommazahl und Null. Sie werden als Festkommazahlen gespeichert und weisen nicht dieselbe Genauigkeit auf wie die normalisierten Zahlen. Konstruktionsbedingt haben die meisten dieser Werte auch keinen Kehrwert außer ∞.
Zahlenformate und andere Festlegungen des IEEE 754 Standards
IEEE 754 unterscheidet vier Darstellungen: einfach genaue (single), erweiterte einfach genaue (single extended), doppelt genaue (double) und erweiterte doppelt genaue (double extended) Zahlenformate. Bei den erweiterten Formaten ist nur jeweils eine Mindestbitzahl vorgeschrieben. Die genaue Bitzahl und der Biaswert bleiben dem Implementierer überlassen. Die Grundformate sind vollständig definiert.
Die Anzahl der Exponentenbits legt den Wertebereich der darstellbaren Zahlen fest (s.u.). Die Anzahl der Mantissenbits legt die Genauigkeit dieser Zahlen fest.
Die beiden letzten Beispiele demonstrieren ein minimales erweitertes Format.
Typ Größe 1+r+p Mantisse p Mant. bei NZ Exponent r Werte des Ex. bei NZ Biaswert B single 32 bit 23 bit 24 bit 8 bit 1 ≤ E ≤ 254 127 double 64 bit 52 bit 53 bit 11 bit 1 ≤ E ≤ 2046 1023 single extended > 42 bit > 30 bit > 31 bit > 10 bit double extended > 78 bit > 62 bit > 63 bit > 14 bit single extended, minimum 43 bit 31 bit 32 bit 11 bit 1 ≤ E ≤ 2046 1023 double extended, minimum 79 bit 63 bit 64 bit 15 bit 1 ≤ E ≤ 32766 16383
Für die angegebenen Formate ergibt sich die folgende Beschränkung des jeweiligen Zahlenbereichs für normalisierte Zahlen. beschreibt dabei den relativen Abstand zweier Gleitkommazahlen.
Typ Dezimalstellen Wertebereich single 2-23 ≈ 1,192·10-7 6–7 2-126 … ≈2128, etwa 1,175·10-38 … 3,403·1038 double 2-52 ≈ 2,220·10-16 15–16 2-1022 … ≈21024, etwa 2,225·10-308 … 1,798·10308 single extended, minimum 2-31 ≈ 4,657·10-10 9–10 2-1022 … ≈21024, etwa 2,225·10-308 … 1,798·10308 double extended, minimum 2-63 ≈ 1,084·10-19 18–19 2-16382 … ≈216384, etwa 3,362·10-4932 … 1,190·104932
Die Anordnung der Bits einer single zeigt die nachfolgende Abbildung. Die bei einer Rechenanlage konkrete Anordnung der Bits im Speicher kann von diesem Bild abweichen und hängt von der jeweiligen Bytereihenfolge (little/big endian) und weiteren Rechnereigenheiten ab.
Die Anordnung mit Vorzeichen – Exponent – Mantisse in genau dieser Reihenfolge bringt die dargestellten Gleitkommawerte in dieselbe Reihenfolge wie die durch dasselbe Bitmuster darstellbaren Signed-Integer-Werte. Damit können für die Vergleiche von Gleitkommazahlen dieselben Operationen wie für die Vergleiche von Signed-Integers verwendet werden. Kurz: die Gleitkommazahlen können lexikalisch sortiert werden.
Auch wenn in diesem Artikel hauptsächlich das Zahlenformat erörtert wird, liegt die Bedeutung der Norm IEEE 754 auch darin, dass für Gleitkommazahlen genaue Vorschriften für
- Rundung
- arithmetische Operationen
- Wurzelberechnung
- Konversionen
- Ausnahmebehandlung (Exception handling)
festgelegt wurden.
Beispiel Berechnung Gleitkommazahl
18,410 soll in eine Gleitkommazahl umgewandelt werden, dabei nutzen wir den Single IEEE-Standard
1. Berechnung des Exzesses
Exzess=(2^(n-1))-1 dabei ist n die Anzahl der Bits im Exponenten der Gleitkommazahl =(2^(8-1))-1 =(2^7)-1 =128-1 =127
2. Umwandlung der Dezimalzahl in eine duale Festkommazahl ohne Vorzeichen
18,4 18/2 = 9 Rest 0 (Least-Significant Bit) 9/2 = 4 Rest 1 4/2 = 2 Rest 0 2/2 = 1 Rest 0 1/2 = 0 Rest 1 (Most-Significant-Bit) = 10010 0,4*2 = 0,8 -0 (Most-Significant-Bit) 0,8*2 = 1,6 -1 0,6*2 = 1,2 -1 0,2*2 = 0,4 -0 0,4*2 = 0,8 -0 0,8*2 = 1,6 -1 (Least-Significant-Bit) * * * = 0,0110011001100110011... 18,4 = 10010,011001100110011...
3. Normalisieren
10010,011011011... * 10^0 = 1,0010011001100... * 10^4
4. Berechnung des dualen Exponenten
da 10^4 -> Exponent=4 Exponent+Exzess 4+127 = 131 131/2 = 65 Rest 1 (Least-Signficant-Bit) 65/2 = 32 Rest 1 32/2 = 16 Rest 0 16/2 = 8 Rest 0 8/2 = 4 Rest 0 4/2 = 2 Rest 0 2/2 = 1 Rest 0 1/2 = 0 Rest 1 (Most-Significant-Bit) = 10000011
5. Vorzeichen-Bit bestimmen
positiv -> 0 negativ -> 1 = 0
6. Die Fließkommazahl bilden
1 Bit Vorzeichen + 8 Bit Exponent + 23 Bit Mantisse 0 10000011 00100110011001100110011 -> die Vorkomma-Eins wird als Hidden Bit weggelassen, da dort immer eine 1 steht braucht man diese nicht speichern
Interpretation des Zahlenformats
Die Interpretation hängt vom Exponenten ab. Zur Erläuterung wird mit S der Wert des Vorzeichenbits (0 oder 1), mit E der Wert des Exponenten als nichtnegative ganze Zahl zwischen 0 und Emax = 11…111 = 2r−1, mit M der Wert der Mantisse als nichtnegative Zahl und mit B der Biaswert bezeichnet. Die Zahlen r und p bezeichnen die Anzahl der Exponentenbits und Mantissenbits.
Exponent E Mantisse M Bedeutung Salopp Bezeichnung E = 0 M = 0 (−1)S × 0 ±0 Null E = 0 M > 0 (−1)S × M / 2p × 21−B ±0,M × 21−B denormalisierte Zahl 0 < E < 2r−1 (−1)S × (1+M / 2p) × 2E−B ±1,M × 2E−B normalisierte Zahl E = 2r−1 M = 0 (−1)S × ∞ ±∞ Unendlich E = 2r−1 M > 0 NaN (NaNs oder NaNq) not a number unmögliche Zahl
- „Unendlich“
- Repräsentiert Zahlen, deren Betrag zu groß ist, um dargestellt zu werden. Es wird zwischen +„Unendlich“ und −„Unendlich“ unterschieden. Die Berechnung von 1,0/0,0 ergibt per Definition ebenfalls +„Unendlich“.
- „Keine Zahl“ (NaN)
- Damit werden ungültige (oder nicht definierte) Ergebnisse dargestellt, z. B. wenn versucht wurde, die Quadratwurzel aus einer negativen Zahl zu berechnen. Einige „unbestimmte Ausdrücke“ haben als Ergebnis „keine Zahl“, zum Beispiel 0,0/0,0 oder „Unendlich“ − „Unendlich“. Außerdem werden NaNs in verschiedenen Anwendungsbereichen benutzt, um „Kein Wert“ oder „Unbekannter Wert“ darzustellen. Insbesondere der Wert mit dem Bitmuster 111…111 wird oft für eine „nicht initialisierte Gleitkommazahl“ benutzt.
- Null
- Null repräsentiert die absolute Null. Auch Zahlen, die zu klein sind, um dargestellt zu werden (Unterlauf), werden auf Null gerundet. Ihr Vorzeichen bleibt dabei erhalten. Negative kleine Zahlen werden so zu −0,0 gerundet, positive Zahlen zu +0,0. Beim direkten Vergleich werden jedoch +0,0 und −0,0 als gleich angesehen.
- Denormalisierte Zahl
- Ist eine Zahl zu klein, um in normalisierter Form mit dem kleinsten von Null verschiedenen Exponenten gespeichert zu werden, so werden sie als „denormalisierte Zahl“ gespeichert. Ihre Interpretation ist nicht mehr ±1,mantisse·2exponent sondern ±0,mantisse·2de. de ist dabei der Wert des kleinsten „normalen“ Exponenten. Damit lässt sich die Lücke zwischen der kleinsten normalisierten Zahl und Null verkleinern. Denormalisierte Zahlen haben jedoch eine geringere Genauigkeit als normalisierte Zahlen, die Anzahl der signifikanten Stellen in der Mantisse nimmt zur Null hin ab.
Ist das Ergebnis (oder Zwischenergebnis) einer Rechnung kleiner als die kleinste darstellbare Zahl der verwendeten endlichen Arithmetik, so wird es i.A. auf Null gerundet; das nennt man Unterlauf der Gleitkommaarithmetik, englisch Underflow. Da dabei Information verloren geht, versucht man, Unterlauf nach Möglichkeit zu vermeiden. Die denormalisierten Zahlen in IEEE 754 bewirken einen allmählichen Unterlauf (englisch „gradual underflow“), indem „um die 0 herum“ 224 (für single) bzw. 253 (für double) Werte eingefügt werden, die alle denselben absoluten Abstand voneinander haben und ohne diese denormalisierten Werte nicht darstellbar wären, sondern zu Unterlauf führen müssten. - Normalisierte Zahl
- In allen anderen Fällen berechnet sich der Wert v der Zahl als v = (−1)s · (1, m0, m1, m2, …) · 2e0, e1, e2, … −a. Hierbei ist s das Vorzeichenbit, mi sind die Bits der Mantisse und ej die Bits des Exponenten. Der Wert a ist die Abweichung (engl.: bias), die aus der Tabelle oben entnommen werden kann.
Die Mantisse ist im wesentlichen die ersten n wesentlichen Ziffern der Binärdarstellung der normalisierten Zahl. Die erste wesentliche Ziffer ist die höchstwertige (d.h. am weitesten links stehende) Ziffer, die von 0 verschieden ist. Da eine von 0 verschiedene Ziffer im Binärsystem nur eine 1 sein kann, muss diese erste 1 nicht explizit abgespeichert werden; gemäß der Norm IEEE 754 werden nur die folgenden Ziffern gespeichert, die erste Ziffer ist eine implizite Ziffer oder ein implizites Bit (englisch „hidden bit“). Dadurch wird gewissermaßen 1 Bit Speicherplatz „gespart“.
Als darstellbarer Zahlenbereich ergibt sich:
- single: ±1,18·10−38 … ±3,40·10+38
- double: ±2,23·10−308 … ±1,80·10+308
Nichtzahlen – NaN
IEEE 754 fordert zwei Arten von Nichtzahlen: stille NaN (NaNq – quiet) und signalisierende NaN (NaNs – signalling). Beide stellen explizit keine Zahlen dar. Eine signalisierende NaN löst im Gegensatz zu einer stillen NaN eine Ausnahme (Trap) aus, wenn sie als Operand einer arithmetischen Operation auftritt.
IEEE 754 ermöglicht dem Anwender das Deaktivieren dieser Traps. In diesem Falle werden signalisierende NaN wie stille NaN behandelt.
Signalisierende NaN können genutzt werden, um uninitialisierten Rechnerspeicher zu füllen, so dass jedes Verwenden einer uninitialisierten Variable automatisch eine Ausnahme auslöst.
Stille NaN ermöglichen den Umgang mit Rechnungen, die kein Ergebnis erzeugen können etwa weil sie für die angegebenen Operanden nicht definiert sind. Beispiele sind die Division Null durch Null oder der Logarithmus aus einer negativen Zahl.
Stille und Signalisierende NaN unterscheiden sich im höchsten Mantissenbit. Bei stillen NaN ist dieses 1, bei signalisierenden NaN 0. Die übrigen Mantissenbits können zusätzliche Informationen enthalten, z.B. die Ursache der NaN. Dies kann bei der Ausnahmebehandlung hilfreich sein. Allerdings schreibt der Standard nicht fest, welche Informationen in den übrigen Mantissenbits enthalten sind. Die Auswertung dieser Bits ist daher plattformabhängig.
Das Vorzeichenbit hat bei NaN keine Bedeutung. Es ist nicht spezifiziert, welchen Wert das Vorzeichenbit bei zurückgegebenen NaN besitzt.
Rundungen
IEEE 754 unterscheidet zunächst zwischen binären Rundungen und binär-dezimalen Rundungen, bei denen geringere Qualitätsforderungen gelten.
Bei binären Rundungen muss zur nächstgelegenen darstellbaren Zahl gerundet werden. Wenn diese nicht eindeutig definiert ist (genau in der Mitte zwischen zwei darstellbaren Zahlen) muss in Richtung zur nächstgelegenen geraden Zahl gerundet werden. Damit wird die von Knuth beschriebene statistische Drift in längeren Rechnungen vermieden.
Eine zu IEEE 754 konforme Implementierung muss drei weitere vom Programmierer einstellbare Rundungen bereitstellen: Rundung gegen +Unendlich (immer aufrunden), Rundung gegen −Unendlich (immer abrunden) und Rundung gegen 0 (Ergebnis immer betragsmäßig verkleinern).
Operationen
Zu IEEE 754 konforme Implementierungen müssen Operationen für Arithmetik, Berechnung der Quadratwurzel, Konversionen und Vergleiche bereitstellen. Eine weitere Gruppe von Operationen wird im Anhang empfohlen, jedoch nicht verbindlich vorgeschrieben.
Arithmetik und Quadratwurzel
IEEE 754 verlangt von einer (Hardware- oder Software-)Implementierung exakt gerundete Ergebnisse für die Operationen Addition, Subtraktion, Multiplikation und Division zweier Operanden sowie der Operation Quadratwurzel eines Operanden. Das heißt, das ermittelte Ergebnis muss gleich demjenigen sein, das bei einer exakten Ausführung der entsprechenden Operation mit anschließender Rundung entsteht.
Weiter ist die Berechnung des Restes nach einer Division mit ganzzahligem Ergebnis gefordert. Diese Restberechnung ist definiert durch r = x − y * n, n ganzzahlig, abs (n−x/y) < 1/2 oder abs (n−x/y) = 1/2 und n gerade. Dieser Rest muss ohne Rundung exakt ermittelt werden.
Konversionen
Konversionen werden zwischen allen unterstützten Gleitkommaformaten gefordert. Bei einer Konversion in ein Gleitkommaformat mit kleinerer Genauigkeit muss wie schon unter Arithmetik beschrieben exakt gerundet werden.
Zu IEEE 754 konforme Implementierungen müssen Konversionen zwischen allen unterstützten Gleitkommaformaten und allen unterstützen ganzzahligen Formaten bereitstellen. Die ganzzahligen Formate werden in IEEE 754 jedoch nicht genauer definiert.
Bei jedem unterstützten Gleitkommaformat muss eine Operation existieren, die diese Gleitkommazahl in die exakt gerundete ganze Zahl im selben Gleitkommaformat konvertiert.
Schließlich müssen Konversionen zwischen dem binären Gleitkommaformat und einem Dezimalformat existieren, die genau beschriebenen Mindestqualitätsforderungen genügt.
Vergleiche
Gleitkommazahlen nach IEEE 754 müssen verglichen werden können. Die Norm definiert die notwendigen Vergleichsoperationen und für alle möglichen Sonderfälle (vor allem NaN, Unendlich und 0) die geforderten Ergebnisse. Gegenüber den „schulmathematischen“ Vergleichen (kleiner, gleich oder größer) kommt als mögliches Ergebnis nach IEEE 754 vor allem unordered (nicht anordbar) hinzu, wenn einer der Vergleichsoperanden NaN ist. Zwei NaN sind prinzipiell verschieden, auch wenn ihre Bitmuster übereinstimmen.
Empfohlene Operationen
Im Anhang der Norm werden zehn weitere Operationen empfohlen. Da sie in einer Implementierung im Grunde sowieso benötigt werden, läuft diese Empfehlung letztlich darauf hinaus, die Operationen an den Programmierer weiterzugeben. Diese Operationen sind (in C-Schreibweise): Copysign (x, y), Invertsign (x), Scalb (y, N), Logb (x), Nextafter (x, y), Finite (x), Isnan (x), x ≠ y, Unordered (x, y), Class (x). Die Details der Implementierung vor allem wieder bei den Sonderfällen NaN usw. sind ebenfalls vorgeschlagen.
Exceptions, Flags und Traps
Treten bei der Berechnung Ausnahmen (Exceptions) auf, werden Status-Flags gesetzt. Im Standard wird vorgeschrieben, dass der Benutzer diese Flags lesen und schreiben kann. Die Flags sind „sticky“: werden sie einmal gesetzt, bleiben sie so lange erhalten, bis sie explizit wieder zurückgesetzt werden. Das Überprüfen der Flags ist beispielsweise die einzige Möglichkeit, 1/0 (=Unendlich) von einem Überlauf zu unterscheiden.
Des weiteren wird im Standard empfohlen, Trap Handler zu ermöglichen: Tritt eine Ausnahme auf, wird der Trap Handler aufgerufen, anstatt das Status-Flag zu setzen. Es liegt in der Verantwortung solcher Trap Handler, das entsprechende Status-Flag zu setzen oder zu löschen.
Ausnahmen werden im Standard in 5 Kategorien eingeteilt: Überlauf, Unterlauf, Division durch Null, ungültige Operation und Ungenau. Für jede Klasse steht ein Status-Flag zur Verfügung.
Geschichtliches
In der 1960er und frühen 1970er Jahren hatte jeder Prozessor sein eigenes Format für Gleitkommazahlen und seine eigene FPU oder Gleitkommasoftware, mit der das jeweilige Format verarbeitet wurde. Dasselbe Programm konnte auf verschiedenen Rechnern unterschiedliche Resultate liefern. Die Qualität der verschiedenen Gleitkommaarithmetiken war logischerweise ebenfalls sehr unterschiedlich.
Intel plante um 1976 für seine Mikroprozessoren eine eigene FPU und wollte die bestmögliche Lösung für die zu implementierende Arithmetik. Unter der Federführung der IEEE begannen 1977 Treffen, um FPUs für Gleitkommaarithmetik für Mikroprozessoren zu normieren. Das zweite Treffen fand im November 1977 unter dem Vorsitz von Richard Delp in San Francisco statt. Einer der Teilnehmer war Prof. William Kahan.
Um 1980 wurde die Anzahl der Vorschläge für die Norm auf zwei reduziert: Der K-C-S Vorschlag (nach seinen Autoren Kahan, Coonen und Stone, 1977) setzte sich letztlich gegen die Alternative von DEC (F-Format, D-Format und G-Format) durch.
Ein bedeutender Meilenstein auf dem Weg zur Norm war die Diskussion über die Behandlung des Unterlaufs, der bis dahin von den meisten Programmierern vernachlässigt worden war.
Intel implementierte gleichzeitig mit der Entwicklung der Norm die Normvorschläge weitgehend in der Intel FPU 8087, die als Gleitkomma-Coprozessor zum 8088 Verwendung fand.
Die endgültige Norm wurde 1985 verabschiedet.
Seit 2001 wird über eine Revision der Norm unter der Bezeichnung IEEE 754r diskutiert.
Literatur
IEEE 754: reprinted in SIGPLAN Notices Vol. 22, Nr. 2, Feb. 1987
Siehe auch
- Potenz (Mathematik)
- Mantisse
- Minifloats – Hier wird u. a. die Arithmetik von IEEE 754 Gleitkommazahlen demonstriert
- einfache Genauigkeit
- doppelte Genauigkeit
- vierfache Genauigkeit
- Gleitkommazahlen in der Digitaltechnik
Weblinks
- IEEE 754 (PDF)
- Java-Applet zur Umrechnung zwischen Binär- und Dezimaldarstellung von IEEE 754-Gleitkommazahlen
- Zur Geschichte: An Interview with the Old Man of Floating-Point (Reminiscences elicited from William Kahan by Charles Severance)
- William Kahan: IEEE Standard 754 for Binary Floating-Point-Arithmetic, 1996
- David Goldberg: What Every Computer Scientist Should Know About Floating Point Arithmetic, 1991 (PDF)