Informationsgehalt

logarithmisches Maß der Menge an Informationen in einer Nachricht
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 19. Januar 2007 um 22:48 Uhr durch 217.231.247.126 (Diskussion) (Verbundwahrscheinlichkeit H(X,Y)). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Allgemein

Der Informationsgehalt einer Nachricht ist eine logarithmische Größe, die angibt, wieviel Information in dieser Nachricht übertragen wurde. Dieser Begriff wurde von Claude Shannon erstmals in seiner Informationstheorie formalisiert: Der Informationsgehalt eines Zeichens ist seine statistische Signifikanz. Er bezeichnet also die minimale Anzahl von Bits, die benötigt werden, um ein Zeichen (also eine Information) darzustellen oder zu übertragen. Wichtig ist dabei, dass dies nicht unbedingt der Anzahl der tatsächlich empfangenen Bits (der Datenmenge) entspricht, da der Informationsgehalt vom semantischen Kontext abhängig ist. Daher wird der Informationsgehalt mit einer anderen Einheit, dem Shannon (sh), gemessen.

Formal werden die zu übertragenden Informationen als Zeichen bezeichnet. Dabei steht nur ein endlicher Zeichenvorrat zur Verfügung, Zeichen können aber beliebig kombiniert werden. Die minimale Anzahl von Bits, die für die Darstellung oder Übertragung eines Zeichens benötigt werden, hängt nun von der Wahrscheinlichkeit ab, mit der ein Zeichen auftritt: für Zeichen, die häufig auftreten, braucht man weniger Bits als für Zeichen, die selten verwendet werden. Datenkompressionstechniken machen sich das zu Nutze, insbesondere die Entropiekodierung, die Arithmetische Kodierung und die Huffman-Kodierung. Ein ähnliches Verfahren wird zum Ausbalancieren von Binärbäumen verwendet.

 
Je kleiner die Auftrittswahrscheinlichkeit eines Zeiches ist, desto höher ist seine Information. Andersrum ist die Information eines Zeichens sehr gering, wenn es sehr oft vorkommt.
 
Falls beide (alle) Zeichen gleich oft vorkommen, wird der mögliche Informationsgehalt eines Zeichens minimal.

Der Informationsgehalt eines Zeichens ist definiert durch  .
  entspricht dabei der Anzahl der möglichen Zustände einer Nachrichtenquelle.

Im folgenden Text sei a=2, wodurch das Ergebnis in Bits geliefert wird. Analog zur Basis 2 lässt sich a für alle anderen Werte berechnen.

Die Anzahl der benötigten Bits (der Informationsgehalt I in Shannon) die mindestens nötig ist, um ein einzelnes Zeichen x mit der Auftretenswahrscheinlichkeit   zu kodieren, berechnet sich folgend:

    mit    

Grundsätzlich wird der Informationsgehalt für statistisch unabhängige (unvorhersehbare/zufällige) Ereignisse und statistisch abhängige (vorhersehbare/gebundene/kontext-abhängige) Ereignisse unterschiedlich berechnet.

Informationsgehalt statistisch unabhängiger Ereignisse

Sei   eine Folge von n statistisch unanhängig aufeinanderfolgenden Ereignissen. Der Informationsgehalt   berechnet sich dann aus der Summe der Informationsgehalte jedes einzelnen Zeichens   mit der Auftrittswahrscheinlichkeit  .

 

Ebenso lässt sich der Informationsgehalt mit der Entropie H(X) (mittlere Informationsgehalt eines Zeichens) berechnen.

 

Bei einer Gleichverteilung der Wahrscheinlichkeiten p=p(xi)=p(xi+1) für alle Zeichen xi aus dem Alphabet Z lässt sich die Gesamtinformation auch über die maximale Entropie bzw. die Alphabetsgröße |Z| berechnen:

   bzw.   

Bei der Gleichverteilung gilt immer:  

Der Informationsgehalt der beiden Quellen „01010101...“ und „10010110...“ ist aus der Betrachtung von statistisch unabhängigen Ereignissen nach obiger Formel gleich. Zu erkennen ist, dass die Zeichen erste den Quelle durch eine sich wiederholdende Struktur geordnet ist. Deshalb würde man intuitiv in ersten Kette weniger Information als in der zweiten Kette vermuten. Bei der Betrachtung als statistisch unabhängiges Ereignis wird jedes Zeichen einzeln betrachtet und nicht der eventuelle Zusammenhang mehrerer Zeichen berücksichtigt.

Eine andere Definition der Information eines Zeichens liefert die bedingte Entropie. Bei ihr wird das Auftreten vorangegangener Zeichen berücksichtigt wird. Die aufeinanderfolgenden Zeichen werden in diesem Fall als statistisch abhängige Ereignisse betrachtet.

Informationsgehalt statistisch abhängiger Ereignisse

Bei statistisch abhängigen Ereignissen kennt man den Kontext der Ereignisse genauer und kann daraus Schlussfolgerungen ziehen, die den Informationsgehalt beeinflussen. Dabei können meistens die folgenden Ereignisse durch Ausschlussverfahren und Bindungen ‚erraten‘ werden. Ein Beispiel für statistisch abhängige Ereignisse ist ein Text in der deutschen Sprache: das 'c' tritt meistens paarweise mit einem 'h' oder 'k' auf. Andere Buchstaben unterliegen ebenfalls solchen paarweisen Bindungen.

Hierzu wird ähnlich wie bei statistisch unabhängigen Ereignissen der durchschnittliche und kontextsensitive Informationsgehalt eines Zeichens mit der Anzahl der vorhandenen Zeichen multipliziert:

 

Die bedingte Entropie berechnet sich folgend:

 


Bedingte Entropie als Differenz von Quell-Information und Transinformation:

   

Interpretation: Seien X und Y zwei stationär abhänige Quellen. H(X) sei die stationär betrachtete Quell-Entropie. I(X; Y) ist die Transinformation, die Information die von X nach Y fließt, also die Menge an Information von der man von X auf Y schließen kann. Ist diese Information hoch, so ist auch die Abhängigkeit von X und Y hoch. Dem entsprechend ist die über X nach einer Beobachtung Y nicht so hoch, da man nicht sehr viel neue Information über Y erhält.


Bedingte Entropie als Gesamtinformation abzüglich der Entropie von H(Y):

   

Interpretation: Im statistisch abhänigen Fall zieht man von der Gesamtinformation (Verbundsentropie) die gemeinsame Information (= I(X;Y)) von X und Y ab. Außerdem soll auch die neue Information, die Y mit sich bringt nicht mit eingerechnet werden, denn man möchte am Ende nur die Menge an Information von X herausbekommen, die X alleine beinhaltet. Deshalb rechnet man: H(X|Y) = H(X,Y) - I(X;Y) - H(Y|X)

Bemerkung: Die Information von statistisch abhängigen Ereignissen ist immer kleiner gleich der von statistisch unabhängigen Ereignissen, da wie folgt gilt: H(X|Y) ≤ H(X)

Verbundwahrscheinlichkeit H(X,Y)

Gibt es   mögliche Ereignisse und   mögliche Ereignisse, so ist die Verbundwahrscheinlichkeit   die Wahrscheinlichkeit dafür, dass je ein Ereignis   paarweise mit einem Ereignis   auftritt.

Die Wahrscheinlichkeit, dass das Ereignis   paarweise mit dem Ereignis   auftritt ist  .

Mit der bedingten Wahrscheinlichkeit ergibt sich die Verbundwahrscheinlichkeit dann zu  .

Der mittlere Informationsgehalt der Verbundentropie je Ereignispaar statistisch abhängiger Ereignisse ist somit definiert durch:

 

Bemerkungen

Informationsgehalt analoger Signale

Der Informationsgehalt analoger Signale kann berechnet werden, indem die zeitkontinuierlichen Signale mit einem A/D-Wandler in diskrete Werte überführt werden. Dann gilt der gleiche Formalismus, wie oben angegeben.

Die enscheidenden Kenngrößen sind hier die Bandbreite und das Signal-Rausch-Verhältnis. Dies ist vor allem dann relevant, wenn man sich wie in der Nachrichtentechnik dafür interessiert, Information über ein analoges Signal zu transportieren, da ja ein Signal keinesfalls mehr Information transportieren kann als es enthält.

Beispiele für statistisch unabhängige Ereignisse

   für  a = 2

In den folgenden Beispielen sei die Basis vom Logarithmus 2. Somit erhält man als Ergebnis die Einheit Bit

Beispiel 1
An einer Quelle tritt ein Zeichen x mit der Wahrscheinlichkeit p(x)=0,0625 auf. Für die maximale Effizienz zur Übertragung in einem Kanal ist eine Information von I(p(x)) = I(0,0625) = 4 bit für jedes Zeichen x notwendig sind.
Beispiel 2
Gegeben sei eine Zeichenkette „Mississippi“. Sie besteht aus n = 11 Zeichen.
Alphabeth Z = {i,M,p,s} mit den Auftrittswahrscheinlichkeiten p(i)= 4/11; p(M)=1/11; p(p)=2/11; p(s)=4/11
Gesamtinformation:  
 
 
 
Darausfolgt die Gesamtbitanzahl von 21 bit die notwendig ist, um das Wort „Mississippi“ binär optimal zu kodieren.
Beispiel 3
Alphabet Z = {a, b}  mit  p(a) = 0,01 und  p(b) = 0,99. Die Zeichenkette bestehe aus 100 Zeichen.
I(p(a)) = 6,64 bit (seltenes Auftreten ⇒ hohe Information im Falle des Auftretens)
I(p(b)) = 0,01 bit (häufiges Auftreten ⇒ wenig Information im Falles des Auftretens)
Gesamtinformation: Iges = 1⋅I(p(a)) + 99⋅I(p(b)) = 8,07 bit
Damit folgt eine Gesamtinformation von 9 bit.

Man könnte auch sagen, dass der Informationsgehalt eines Zeichens umgekehrt proportional zum Logarithmus der Wahrscheinlichkeit ist, mit der man es erraten kann (der Entropie). Der Informationsgehalt ist also ein Maß für die maximale Effizienz, mit der eine Information übertragen werden kann.

Ein alternatives Maß für den Informationsgehalt einer Zeichenkette ist die Kolmogorov-Komplexität bzw. der algorithmische Informationsgehalt: er ist definiert als die Länge des kürzesten Programmes, das diese Zeichenkette erzeugen kann. Ein weiterer Ansatz ist die so genannte Algorithmische Tiefe, die besagt, wie aufwändig es ist, eine bestimmte Nachricht zu erzeugen. Gregory Chaitin ist ebenfalls über die Shannonsche Definition der Entropie einer Information hinausgegangen (siehe Algorithmische Informationstheorie).

In diesem Zusammenhang spielen auch die Kreuzentropie sowie die Kullback-Leibler-Divergenz als Maße für die durch eine schlechte Kodierung ausgelösten Verschwendungen von Bits eine Rolle.

Siehe auch

Entropie (Informationstheorie), Datenmenge, Negentropie, Bedeutsamkeit, Informationsqualität, Algorithmische Informationstheorie, Kolmogorov-Komplexität, Überraschung