Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 13. März 2022 um 00:44 Uhr durch Physikinger(Diskussion | Beiträge)(Änderung 221029837 von JonskiC rückgängig gemacht; Das ist wirklich ein völlig überflüssiger Hinweis, der keinem Leser irgendwie weiterhilft. Bitte Diskussionseite nutzen.). Sie kann sich erheblich von der aktuellen Version unterscheiden.
Sind und zwei reelle, integrierbare Zufallsvariablen, deren Produkt ebenfalls integrierbar ist, d. h., die Erwartungswerte, und existieren, dann heißt
die Kovarianz von und . Die Kovarianz ist also das Produkt der Differenzen je zwischen und und ihren Erwartungswerten. In der Statistik werden und als Abweichungen vom arithmetischen Mittelwert berechnet.[2]
Berechnung
Die empirische Berechnung der Kovarianz aus einer Datenreihe erfolgt gemäß ihrer Definition durch die Gleichung
mit den Messwerten und und deren Mittelwerten und . Wenn nur eine reduzierte Anzahl von Messerten vorliegt, kann die Kovarianz anhand dieser Stichprobe nur geschätzt werden. Die Unsicherheit der Mittelwerte führt dabei zu einer systematischen Verzerrung, welche jedoch mit der Formel der Stichprobenkovarianz (auch empirische Kovarianz)
ausgeglichen werden kann, womit die Schätzung zumindest erwartungstreu für die unbekannte Standardabweichung bleibt. Optional kann mit der Formel
jedem Messwert ein individuelles Gewicht zugeordnet werden. Dabei ist die Gewichtsnorm
,
zu verwenden, sofern mit den Gewichten relative Häufigkeiten beschrieben werden. Bei Gewichten, die inverse Messunsicherheiten repräsentieren, muss die Norm durch
ersetzt werden. Die Mittelwerte und werden dabei mit den jeweiligen Gewichten gebildet:
, .
Eigenschaften und Rechenregeln
Interpretation der Kovarianz
Normalverteilungen mit unterschiedlicher Kovarianz
Die Kovarianz kann anhand dreier Wertebereiche qualitativ beschrieben werden:
Die Kovarianz ist positiv, wenn zwischen und ein Zusammenhang mit gleicher Tendenz besteht, d. h., hohe (niedrige) Werte von gehen mit hohen (niedrigen) Werten von einher.
Die Kovarianz ist hingegen negativ, wenn zwischen und ein Zusammenhang mit gegensinniger Tendenz besteht, d. h. hohe Werte der einen Zufallsvariablen gehen mit niedrigen Werten der anderen Zufallsvariablen einher und umgekehrt.
Ist das Ergebnis null, so besteht kein systematischer Zusammenhang zwischen und .
Die Kovarianz ist offensichtlich invariant unter der Addition von Konstanten zu den Zufallsvariablen. In der zweiten Gleichung ist die Kovarianz wegen der Symmetrie auch im ersten Argument linear.
Die Linearität der Kovarianz hat zur Folge, dass die Kovarianz vom Maßstab der Zufallsvariablen abhängt. So erhält man beispielsweise die zehnfache Kovarianz, wenn man anstatt
die Zufallsvariable betrachtet. Insbesondere hängt der Wert der Kovarianz von den verwendeten Maßeinheiten der Zufallsvariablen ab. Da diese Eigenschaft die absoluten Werte der Kovarianz schwer interpretierbar macht, betrachtet man bei der Untersuchung auf einen linearen Zusammenhang zwischen und häufig stattdessen den maßstabsunabhängigen Korrelationskoeffizienten. Der maßstabsunabhängige Korrelationskoeffizient zweier Zufallsvariablen und ist die Kovarianz der standardisierten (auf die Standardabweichung bezogenen) Zufallsvariablen und :[3]
.
Unkorreliertheit und Unabhängigkeit
Definition (Unkorreliertheit): Zwei Zufallsvariablen und heißen unkorreliert, wenn .
Beweis: Für stochastisch unabhängige Zufallsvariablen und gilt , d. h.
Der Umkehrschluss gilt im Allgemeinen nicht. Ein Gegenbeispiel ist gegeben durch eine im Intervall gleichverteilte Zufallsvariable und . Offenkundig sind und voneinander abhängig. Es gilt aber
.
Stochastisch unabhängige Zufallsvariablen, deren Kovarianz existiert, sind also auch unkorreliert. Umgekehrt bedeutet Unkorreliertheit aber nicht zwingend, dass die Zufallsvariablen stochastisch unabhängig sind, denn es kann eine nichtmonotone Abhängigkeit bestehen, die die Kovarianz nicht erfasst.
Weitere Beispiele für unkorrelierte, aber stochastisch abhängige Zufallsvariablen:
Seien und Zufallsvariablen mit und
Dann gilt und ,
Es folgt und ebenfalls , also
Andererseits sind und wegen nicht stochastisch unabhängig.
Seien die Zufallsvariablen und bernoulliverteilt mit Parameter und unabhängig, dann sind und unkorreliert, aber nicht unabhängig.