Kovarianz (Stochastik)

Maß für einen monotonen Zusammenhang zweier Zufallsvariablen mit gemeinsamer Wahrscheinlichkeitsfunktion
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 13. März 2022 um 00:44 Uhr durch Physikinger (Diskussion | Beiträge) (Änderung 221029837 von JonskiC rückgängig gemacht; Das ist wirklich ein völlig überflüssiger Hinweis, der keinem Leser irgendwie weiterhilft. Bitte Diskussionseite nutzen.). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Die Kovarianz (lateinisch con- = „mit-“ und Varianz (Streuung) von variare = „(ver)ändern, verschieden sein“, daher selten auch Mitstreuung[1]) ist in der Stochastik ein nichtstandardisiertes Zusammenhangsmaß für einen monotonen Zusammenhang zweier Zufallsvariablen mit gemeinsamer Wahrscheinlichkeitsverteilung. Der Wert dieser Kennzahl macht tendenzielle Aussagen darüber, ob hohe Werte der einen Zufallsvariablen eher mit hohen oder eher mit niedrigen Werten der anderen Zufallsvariablen einhergehen.

Die Kovarianz ist ein Maß für die Assoziation zwischen zwei Zufallsvariablen.

Definition

Sind   und   zwei reelle, integrierbare Zufallsvariablen, deren Produkt ebenfalls integrierbar ist, d. h., die Erwartungswerte  ,   und   existieren, dann heißt

 

die Kovarianz von   und  . Die Kovarianz ist also das Produkt der Differenzen je zwischen   und   und ihren Erwartungswerten. In der Statistik werden   und   als Abweichungen vom arithmetischen Mittelwert berechnet.[2]

Berechnung

Die empirische Berechnung der Kovarianz aus einer Datenreihe erfolgt gemäß ihrer Definition durch die Gleichung

 

mit den Messwerten   und   und deren Mittelwerten   und  . Wenn nur eine reduzierte Anzahl von Messerten vorliegt, kann die Kovarianz anhand dieser Stichprobe nur geschätzt werden. Die Unsicherheit der Mittelwerte führt dabei zu einer systematischen Verzerrung, welche jedoch mit der Formel der Stichprobenkovarianz (auch empirische Kovarianz)

 

ausgeglichen werden kann, womit die Schätzung zumindest erwartungstreu für die unbekannte Standardabweichung   bleibt. Optional kann mit der Formel

 

jedem Messwert ein individuelles Gewicht   zugeordnet werden. Dabei ist die Gewichtsnorm

 ,

zu verwenden, sofern mit den Gewichten relative Häufigkeiten beschrieben werden. Bei Gewichten, die inverse Messunsicherheiten repräsentieren, muss die Norm durch

 

ersetzt werden. Die Mittelwerte   und   werden dabei mit den jeweiligen Gewichten gebildet:

 ,  .

Eigenschaften und Rechenregeln

Interpretation der Kovarianz

 
Normalverteilungen mit unterschiedlicher Kovarianz

Die Kovarianz kann anhand dreier Wertebereiche qualitativ beschrieben werden:

  • Die Kovarianz ist positiv, wenn zwischen   und   ein Zusammenhang mit gleicher Tendenz besteht, d. h., hohe (niedrige) Werte von   gehen mit hohen (niedrigen) Werten von   einher.
  • Die Kovarianz ist hingegen negativ, wenn zwischen   und   ein Zusammenhang mit gegensinniger Tendenz besteht, d. h. hohe Werte der einen Zufallsvariablen gehen mit niedrigen Werten der anderen Zufallsvariablen einher und umgekehrt.
  • Ist das Ergebnis null, so besteht kein systematischer Zusammenhang zwischen   und  .

Zusammenhang von Kovarianz und Korrelation

Die Kovarianz ist zu zwei Eigenschaften der Daten proportional, der Stärke des Zusammenhangs und den Amplituden der Streuungen. Um den Zusammenhang isoliert zu betrachten und vergleichbar zu machen, kann die Kovarianz mithilfe der Standardabweichung durch den Korrelationskoeffizient standardisiert werden.

Durch die Umrechnung der Kovarianz in die Korrelation

 

wird der Wertebereich in das Intervall   projiziert. Dabei können folgende Fälle unterschieden werden:

  = 1  vollständig (positiv) korreliert
0 <   < 1  partiell (positiv) korreliert
  = 0  vollständig unkorreliert
−1 <   < 0  partiell antikorreliert
  = −1  vollständig antikorreliert

Existenz

Falls   und   quadratintegrierbar sind, also falls   und   gelten, so folgen aus der Cauchy-Schwarz-Ungleichung:

  und analog   und zusätzlich  .

Somit ist die geforderte Existenz der Erwartungswerte für quadratintegrierbare Zufallsvariablen erfüllt.

Verschiebungssatz

Zur oft einfacheren Berechnung der Kovarianz kann man auch den Verschiebungssatz als alternative Darstellung der Kovarianz anwenden.

Satz (Verschiebungssatz für die Kovarianz):

 

Beweis:

 

Beziehung zur Varianz

Satz: Die Kovarianz ist die Verallgemeinerung der Varianz, denn es gilt

 

Beweis:

 

Die Varianz ist demnach die Kovarianz einer Zufallsvariablen mit sich selbst.

Mit Hilfe der Kovarianzen lässt sich auch die Varianz einer Summe von quadratintegrierbaren Zufallsvariablen berechnen. Allgemein gilt

 

Speziell für die Summe zweier Zufallsvariablen gilt daher die Formel

 

Wie sich unmittelbar aus der Definition ergibt, ändert die Kovarianz das Vorzeichen, wenn eine der Variablen das Vorzeichen ändert:

 

Somit ergibt sich für die Differenz zweier Zufallsvariablen die Formel

 

Linearität, Symmetrie und Definitheit

Satz: Die Kovarianz ist eine positiv semidefinite symmetrische Bilinearform auf dem Vektorraum der quadratisch integrierbaren Zufallsvariablen.

Es gelten also die folgenden drei Sätze:

Satz (Bilinearität): Für   gilt:

 
 

Beweis:

 
 

Die Kovarianz ist offensichtlich invariant unter der Addition von Konstanten zu den Zufallsvariablen. In der zweiten Gleichung ist die Kovarianz wegen der Symmetrie auch im ersten Argument linear.

Satz (Symmetrie):

 

Beweis:

 

Satz (Positive Semidefinitheit):

 

Beweis:

 

Insgesamt folgt wie für jede positiv semidefinite symmetrische Bilinearform die Cauchy-Schwarzsche Ungleichung

 

Die Linearität der Kovarianz hat zur Folge, dass die Kovarianz vom Maßstab der Zufallsvariablen abhängt. So erhält man beispielsweise die zehnfache Kovarianz, wenn man anstatt   die Zufallsvariable   betrachtet. Insbesondere hängt der Wert der Kovarianz von den verwendeten Maßeinheiten der Zufallsvariablen ab. Da diese Eigenschaft die absoluten Werte der Kovarianz schwer interpretierbar macht, betrachtet man bei der Untersuchung auf einen linearen Zusammenhang zwischen   und   häufig stattdessen den maßstabsunabhängigen Korrelationskoeffizienten. Der maßstabsunabhängige Korrelationskoeffizient zweier Zufallsvariablen   und   ist die Kovarianz der standardisierten (auf die Standardabweichung bezogenen) Zufallsvariablen   und  :[3]

 .

Unkorreliertheit und Unabhängigkeit

Definition (Unkorreliertheit): Zwei Zufallsvariablen   und   heißen unkorreliert, wenn  .

Satz: Zwei stochastisch unabhängige Zufallsvariablen sind unkorreliert.

Beweis: Für stochastisch unabhängige Zufallsvariablen   und   gilt  , d. h.

 

Der Umkehrschluss gilt im Allgemeinen nicht. Ein Gegenbeispiel ist gegeben durch eine im Intervall   gleichverteilte Zufallsvariable   und  . Offenkundig sind   und   voneinander abhängig. Es gilt aber

 .

Stochastisch unabhängige Zufallsvariablen, deren Kovarianz existiert, sind also auch unkorreliert. Umgekehrt bedeutet Unkorreliertheit aber nicht zwingend, dass die Zufallsvariablen stochastisch unabhängig sind, denn es kann eine nichtmonotone Abhängigkeit bestehen, die die Kovarianz nicht erfasst.

Weitere Beispiele für unkorrelierte, aber stochastisch abhängige Zufallsvariablen:

  • Seien   und   Zufallsvariablen mit   und  
Dann gilt   und  ,  
Es folgt   und ebenfalls  , also  
Andererseits sind   und   wegen   nicht stochastisch unabhängig.
  • Seien die Zufallsvariablen   und   bernoulliverteilt mit Parameter   und unabhängig, dann sind   und   unkorreliert, aber nicht unabhängig.
Die Unkorreliertheit ist klar, denn  
Aber   und   sind nicht unabhängig, denn es ist  

Siehe auch

Literatur

Einzelnachweise

  1. Hansjochem Autrum, Erwin Bünning et al.: Ergebnisse Der Biologie., S. 88
  2. Rainer Diaz-Bone: Statistik für Soziologen. 5. Auflage. UVK Verlag, ISBN 978-3-8252-5210-6, 4.3.2, S87.
  3. Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, und Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2016, ISBN 978-3-662-50371-3, S. 326.