Zum Inhalt springen

Verbundentropie

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 23. Mai 2004 um 20:10 Uhr durch Forbfruit (Diskussion | Beiträge). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Die Blockentropie oder Verbundentropie ist die Verallgemeinerung der Shannonentropie für eine multivariate Zufallsvariable.

Sei X eine multivariate Zufallsvariable (ein Zufallsvektor) Länge k und x eine Realisierung von X über einer Symbolmenge Z (beispielsweise eine DNA-Sequenz mit Z={A,G,C,T}). Sei weiterhin I eine Information (z.B. ein Text) der Länge n>k über der gleichen Symbolmenge Z. Betrachtet man nun eine Realisierung x als eine Folge von Symbolen xj aus z (genannt Block), dann gibt die Verbundwahrscheinlichkeit

an, wie groß die Wahrscheinlichkeit ist, dass ein bestimmter k-Zeichen-Block in I vorkommt. Die Menge aller möglichen Realisierungen bzw. Blöcke sei [X]k. Man kann darüber die Blockentropie definieren:


Die Menge [X]k wird in den meisten Fällen auch Realisierungen enthalten, die nicht in I vorkommen, also pk(x)=0. Die Anzahl aller möglichen Realisierungen |[X]k| ist gemäß Kombinatorik gegeben durch:

Bedingte Entropie

Die Unsicherheit eines Symbols xj eines k-Blocks ist:


Ebenso aus der Blockentropie abgeleitet ist die Entropie pro Zeitschritt oder bedingte Entropie bzw. Entropierate. Sie gibt an, wie groß die Unsicherheit ist, ein bestimmtes Symbol nach einer Kette von k vorhergehenden Symbolen erwarten zu können - anders ausgedrückt, mit welcher Sicherheit xk+1 vorherzusagen ist


mit


Der zweidimensionale Fall

Wenn das Auftreten eines Zeichens xi nur vom vorherigen Zeichen xj abhängt (wie etwa in der "101010..."-kette) erhält man aus

Fehler beim Parsen (SVG (MathML kann über ein Browser-Plugin aktiviert werden): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „http://localhost:6011/de.wikipedia.org/v1/“:): {\displaystyle H(X,Y) = \sum_i \sum_j p(x_i,y_j) \log p(x_i,y_j) }

und

den Ausdruck

	 

wobei xi den Zustand, d.h. die Folge der vorhergehenden Symbole, bezeichnet und p(yj|xi) ist die bedingte Wahrscheinlichkeit von yj gegeben xi. Die Verbundwahrscheinlichkeit von xi und yj, p(xi,yj) ist wiederum die Wahrscheinlichkeit des gemeinsamen Auftretens von xi und yj.

Es lautet also hier h1:

Quellentropie

Schließlich ist zu bemerken, dass die beiden vorgenannten Definitionen im Grenzübergang gleichwertig sind; man erhält einen Ausdruck, der die Entropie pro Symbol unabhängig von der Blocklänge beschreibt, die so genannte Quellentropie (source entropy):


Es gelten die Ungleichungen



Siehe auch: Kullback-Leibler Entropie, Zeitreihenanalyse