„Kovarianz (Stochastik)“ – Versionsunterschied
| [ungesichtete Version] | [gesichtete Version] |
Keine Bearbeitungszusammenfassung |
Tippfehler korrigiert Markierungen: Mobile Bearbeitung Bearbeitung von einer mobilen Anwendung Bearbeitung mit Android-App App-Bearbeitung eines Abschnitts im Quelltextmodus |
||
| (394 dazwischenliegende Versionen von mehr als 100 Benutzern, die nicht angezeigt werden) | |||
| Zeile 1: | Zeile 1: | ||
{{Dieser Artikel|behandelt |
{{Dieser Artikel|behandelt die Kovarianz von zwei Zufallsvariablen; zur Kovarianz einer Datenreihe oder Stichprobe siehe [[Stichprobenkovarianz]].}} |
||
Die '''Kovarianz''' ({{laS}} ''con-'' = „mit-“ und ''[[Varianz (Stochastik)|Varianz]] (Streuung)'' von ''variare'' = „(ver)ändern, verschieden sein“, daher selten auch ''Mitstreuung''<ref>[[Hansjochem Autrum]], [[Erwin Bünning]] et al.: [https://books.google.de/books?id=-sKmBgAAQBAJ&pg=PA88&dq=die+Mitstreuung+zwischen&hl=de&sa=X&ved=0ahUKEwiR7Pj8q_baAhWByKQKHeLcC9UQ6AEIJzAA#v=onepage&q=Mitstreuung%20zwischen&f=false ''Ergebnisse Der Biologie.''], S. 88</ref>) ist in der [[Stochastik]] ein [[Standardisierung (Statistik)|nichtstandardisiertes]] [[Zusammenhangsmaß]] für einen [[reelle monotone Funktion|monotonen]] Zusammenhang zweier [[Zufallsvariable]]n mit gemeinsamer [[Wahrscheinlichkeitsverteilung]]. Der Wert dieser [[Kennzahl]] gibt Auskunft darüber, ob hohe Werte der einen Zufallsvariablen eher mit hohen oder eher mit niedrigen Werten der anderen Zufallsvariablen einhergehen. |
|||
Die '''Kovarianz''' ist in der [[Statistik]] eine Maßzahl für den Zusammenhang zweier [[Zufallsvariablen]] <math>X</math> |
|||
und <math>Y</math>. Die Kovarianz ist positiv, wenn <math>X</math> und <math>Y</math> tendenziell einen gleichsinnigen linearen Zusammenhang besitzen, d.h. hohe Werte von <math>X</math> gehen mit hohen Werten von <math>Y</math> einher und niedrige mit niedrigen. Die Kovarianz ist hingegen negativ, wenn <math>X</math> und <math>Y</math> einen gegensinnigen linearen Zusammenhang aufweisen, d.h. hohe Werte der einen Zufallsvariablen gehen mit niedrigen Werten der anderen Zufallsvariablen einher. Ist dieser Zusammenhang stark, so erhält man einen betragsmäßig großen Wert, bei nur schwachem Zusammenhang erhält man einen Wert nahe bei 0. |
|||
Die Kovarianz ist ein Maß für die Assoziation, d. h., sie misst den Grad der (Un-)Abhängigkeit zweier metrischer Zufallsvariablen. |
|||
Die Kovarianz in ihrer "Rohform" ist als Maßzahl für den stochastischen Zusammenhang jedoch nur wenig anschaulich und auch schwer vergleichbar. Um einen Zusammenhang vergleichbar zu machen, muß die Kovarianz ''standardisiert'' werden. Man erhält dann die [[Korrelation]], deren Maßzahl sich zwischen +1 (perfekter linearer Zusammenhang), 0 (gar kein linearer Zusammenhang) und -1 (perfekter gegensätzlicher linearer Zusammenhang) bewegt. |
|||
== Definition == |
== Definition == |
||
Sind <math>X</math> und <math>Y</math> zwei reelle, integrierbare [[Zufallsvariable]]n, deren Produkt ebenfalls integrierbar ist, d. h., die [[Erwartungswert]]e <math>\operatorname{E}(X)</math>, <math>\operatorname {E}(Y)</math> und <math>\operatorname E(XY)</math> existieren, dann heißt |
|||
:<math>\operatorname{Cov}(X,Y) := \operatorname E\bigl[(X - \operatorname E(X)) \cdot (Y - \operatorname E(Y))\bigr]</math> |
|||
Sind <math>X</math> und <math>Y</math> zwei [[Zufallsvariable]]n mit existierenden [[Erwartungswert|Erwartungswerten]] <math>EX</math> bzw. <math>EY</math>, so heißt |
|||
die ''Kovarianz'' von <math>X</math> und <math>Y</math>. Die Kovarianz ist also das Produkt der Differenzen je zwischen <math>X</math> und <math>Y</math> und ihren Erwartungswerten. In der [[Statistik]] werden <math>\operatorname E(X)</math> und <math>\operatorname E(Y)</math> als arithmetische Mittelwerte berechnet.<ref>{{Literatur |Autor=Rainer Diaz-Bone |Titel=Statistik für Soziologen |Auflage=5. |Verlag=UVK Verlag |ISBN=9783825252106 |Kapitel=4.3.2 |Fundstelle=S87}}</ref> |
|||
== Berechnung == |
|||
:<math>\mbox{Cov}(X, Y) := E((X - EX)(Y - EY))</math> |
|||
Für die Berechnung oder Schätzung der Kovarianz aus zwei Datenreihen gibt es unterschiedliche Formeln, siehe [[Stichprobenkovarianz]]. |
|||
== Eigenschaften und Rechenregeln == |
|||
die '''Kovarianz''' von <math>X</math> und <math>Y</math>. |
|||
=== Interpretation der Kovarianz === |
|||
[[Datei:Varianz.gif|mini|Normalverteilungen zweier Variablen mit unterschiedlicher Kovarianz]] |
|||
Die Kovarianz kann anhand dreier Wertebereiche qualitativ beschrieben werden: |
|||
* Die Kovarianz ist positiv, wenn zwischen <math>X</math> und <math>Y</math> ein Zusammenhang mit gleicher Tendenz besteht, d. h., hohe (niedrige) Werte von <math>X</math> gehen mit hohen (niedrigen) Werten von <math>Y</math> einher. |
|||
* Die Kovarianz ist hingegen negativ, wenn zwischen <math>X</math> und <math>Y</math> ein Zusammenhang mit gegensinniger Tendenz besteht, d. h. hohe Werte der einen Zufallsvariablen gehen mit niedrigen Werten der anderen Zufallsvariablen einher und umgekehrt. |
|||
* Ist das Ergebnis null, so besteht kein linearer Zusammenhang zwischen <math>X</math> und <math>Y</math> (es kann dennoch ein systematischer Zusammenhang bestehen). |
|||
=== Zusammenhang von Kovarianz und Korrelation === |
|||
== Eigenschaften == |
|||
Die Kovarianz ist zu zwei Eigenschaften der Daten proportional, der [[Zusammenhangsmaß|Stärke des Zusammenhangs]] und den Amplituden beider Streuungen. Um den Zusammenhang isoliert zu betrachten und vergleichbar zu machen, kann die Kovarianz mithilfe der [[Standardabweichung (Wahrscheinlichkeitstheorie)|Standardabweichung]] durch den [[Korrelationskoeffizient]] [[Standardisierung (Statistik)|standardisiert]] werden. |
|||
Durch die Umrechnung der Kovarianz in die Korrelation |
|||
:<math>\rho_{xy}=\operatorname{Corr}(X,Y)=\frac{\operatorname{Cov}(X,Y)}{\operatorname{Std}(X)\operatorname{Std}(Y)}=\frac{\operatorname{Cov}(X,Y)}{\sqrt{\operatorname{Var}(X)\operatorname{Var}(Y)}}</math> |
|||
wird der Wertebereich in das Intervall <math>[-1, 1]</math> projiziert. Dabei können folgende Fälle unterschieden werden: |
|||
{| |
|||
| |
|||
|<math>\rho_{xy}</math> |
|||
| = 1 |
|||
| vollständig (positiv) korreliert |
|||
|- |
|||
| 0 < |
|||
|<math>\rho_{xy}</math> |
|||
| < 1 |
|||
| partiell (positiv) korreliert |
|||
|- |
|||
| |
|||
|<math>\rho_{xy}</math> |
|||
| = 0 |
|||
| vollständig unkorreliert |
|||
|- |
|||
| −1 < |
|||
|<math>\rho_{xy}</math> |
|||
| < 0 |
|||
| partiell antikorreliert |
|||
|- |
|||
| |
|||
|<math>\rho_{xy}</math> |
|||
| = −1 |
|||
| vollständig antikorreliert |
|||
|- |
|||
|} |
|||
=== Existenz === |
|||
Falls <math>X</math> und <math>Y</math> [[quadratintegrierbar]] sind, also falls <math>\operatorname{E}(|X|^2)=\operatorname{E}(X^2) < \infty</math> und <math>\operatorname{E}(|Y|^2)=\operatorname{E}(Y^2) < \infty</math> gelten, so folgen aus der [[Cauchy-Schwarz-Ungleichung]]: |
|||
: <math> \operatorname E(|X|)=\operatorname E(|X|\cdot1)\le\sqrt{\operatorname E(|X|^2)}<\infty</math> und analog <math> \operatorname E(|Y|)\le\sqrt{\operatorname E(|Y|^2)}<\infty</math> und zusätzlich <math>\operatorname{E}(|X\cdot Y|)\le\operatorname E(|X|\cdot |Y|)\le\sqrt{\operatorname E(|X|^2)\cdot\operatorname E(|Y|^2)}<\infty</math>. |
|||
Somit ist die geforderte Existenz der Erwartungswerte für quadratintegrierbare Zufallsvariablen erfüllt. |
|||
=== Verschiebungssatz === |
=== Verschiebungssatz === |
||
Zur oft einfacheren Berechnung der Kovarianz kann man auch den [[Verschiebungssatz (Statistik)|Verschiebungssatz]] als alternative Darstellung der Kovarianz anwenden. |
|||
'''Satz (Verschiebungssatz für die Kovarianz):''' |
|||
:<math>\operatorname{Cov}(X,Y) = \operatorname{E}(XY) - \operatorname{E}(X)\operatorname{E}(Y).</math> |
|||
''Beweis:'' |
|||
:<math>\begin{align} |
|||
\operatorname{Cov}(X,Y) &= \operatorname E\bigl[(X - \operatorname E(X)) \cdot (Y - \operatorname E(Y))\bigr]\\ |
|||
&= \operatorname E\bigl[(XY - X\operatorname E(Y) - Y\operatorname E(X) + \operatorname E(X)\operatorname E(Y))\bigr]\\ |
|||
&= \operatorname{E}(XY) - \operatorname{E}(X) \operatorname{E}(Y) - \operatorname{E}(Y) \operatorname{E}(X) + \operatorname{E}(X) \operatorname{E}(Y)\\ |
|||
&= \operatorname{E}(XY) - \operatorname{E}(X) \operatorname{E}(Y) \qquad \Box |
|||
\end{align}</math> |
|||
=== Beziehung zur Varianz === |
|||
{{Siehe auch|Gleichung von Bienayme}} |
|||
Wie aus der Definition direkt ersichtlich, gilt |
|||
<math>\operatorname{Var}(X)=\operatorname{Cov}(X,X).</math> |
|||
Damit ist die Kovarianz eine Verallgemeinerung der [[Varianz (Stochastik)|Varianz]]. |
|||
Mit Hilfe der Kovarianzen lässt sich auch die Varianz einer Summe von quadratintegrierbaren Zufallsvariablen berechnen. Allgemein gilt |
|||
:<math>\begin{align} |
|||
\operatorname{Var}\left(\sum_{i=1}^n X_i\right) &= \sum_{i,j=1}^n\operatorname{Cov}(X_i,X_j)\\ |
|||
&= \sum_{i=1}^n \operatorname{Var}(X_i) + \sum_{i,j=1, i\neq j}^n\operatorname{Cov}(X_i,X_j)\\ |
|||
&= \sum_{i=1}^n \operatorname{Var}(X_i) + 2\sum_{i=1}^{n-1}\sum_{j=i+1}^n\operatorname{Cov}(X_i,X_j). |
|||
\end{align}</math> |
|||
Speziell für die Summe zweier Zufallsvariablen gilt daher die Formel |
|||
:<math>\operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) + 2 \operatorname{Cov}(X,Y).</math> |
|||
Wie sich unmittelbar aus der Definition ergibt, ändert die Kovarianz das Vorzeichen, wenn eine der Variablen das Vorzeichen ändert: |
|||
:<math>\operatorname{Cov}(X,-Y) = -\operatorname{Cov}(X,Y)</math> |
|||
Somit ergibt sich für die Differenz zweier Zufallsvariablen die Formel |
|||
:<math>\operatorname{Var}(X-Y) = \operatorname{Var}(X+(-Y)) = \operatorname{Var}(X) + \operatorname{Var}(Y) - 2 \operatorname{Cov}(X,Y).</math> |
|||
=== Linearität, Symmetrie und Definitheit === |
|||
'''Satz:''' Die Kovarianz ist eine [[Definitheit|positiv semidefinite]] [[Bilinearform|symmetrische Bilinearform]] auf dem Vektorraum der quadratisch integrierbaren Zufallsvariablen. |
|||
Es gelten also die folgenden drei Sätze: |
|||
'''Satz (Bilinearität):''' Für Konstanten <math>a,b,c,d,e,f,g,h \in \mathbb{R}</math> und Zufallsvariablen <math>X,Y,Z,W</math>gilt: |
|||
:<math>\operatorname{Cov}(aX+b,cY+d) = ac\operatorname{Cov}(X,Y) \qquad und</math> |
|||
:<math>\operatorname{Cov}[X,(eY+f)+(gZ+h)] = e\operatorname{Cov}(X,Y) + g\operatorname{Cov}(X,Z).</math> |
|||
:<math>\operatorname{Cov}(aX+bY, cW+dZ) = ac\,\operatorname{Cov}(X,W)+ad\,\operatorname{Cov}(X,Z)+bc\,\operatorname{Cov}(Y,W)+bd\,\operatorname{Cov}(Y,Z)</math> |
|||
{{Klappbox|Beweis|hintergrundfarbe=hintergrundfarbe1|2= |
|||
Der [[Verschiebungssatz (Statistik)|Verschiebungssatz]] liefert eine alternative Darstellung der Kovarianz |
|||
:<math>\begin{align} |
|||
\operatorname{Cov}(aX+b,cY+d) &= \operatorname E\bigl[(aX+b - \operatorname E(aX+b)) \cdot (cY+d - \operatorname E(cY+d))\bigr]\\ |
|||
&= \operatorname E\bigl[(aX - a\operatorname E(X)) \cdot (cY - c\operatorname E(Y))\bigr]\\ |
|||
&= ac\operatorname E\bigl[(X - \operatorname E(X)) \cdot (Y - \operatorname E(Y))\bigr]\\ |
|||
&= ac\operatorname{Cov}(X,Y) |
|||
\end{align}</math> |
|||
:<math>\begin{align} |
|||
\operatorname{Cov}[X,(eY+f)+(gZ+h)] &= \operatorname E\bigl[(X - \operatorname E(X)) \cdot (eY+f+gZ+h - \operatorname E(eY+f+gZ+h))\bigr]\\ |
|||
&= \operatorname E\bigl[(X - \operatorname E(X)) \cdot (eY - e\operatorname E(Y) + gZ - g\operatorname E(Z))\bigr]\\ |
|||
&= \operatorname E\bigl[(X - \operatorname E(X)) \cdot e(Y - \operatorname E(Y)) + (X - \operatorname E(X)) \cdot g(Z - \operatorname E(Z))\bigr]\\ |
|||
&= e\operatorname E\bigl[(X - \operatorname E(X)) \cdot (Y - \operatorname E(Y))\bigr] + g\operatorname E\bigl[(X - \operatorname E(X)) \cdot (Z - \operatorname E(Z))\bigr]\\ |
|||
&= e\operatorname{Cov}(X,Y) + g\operatorname{Cov}(X,Z) \qquad \Box |
|||
\end{align}</math> |
|||
:Die dritte Zeile folgt aus den anderen Eigenschaften |
|||
:<math>\begin{align} |
|||
\operatorname{Cov}[aX+bY, cW+dZ] &= \operatorname{Cov}[aX,cW] + \operatorname{Cov}[aX,dZ]+\operatorname{Cov}[bY,cW] + \operatorname{Cov}[bY,dZ] \qquad \Box |
|||
\end{align}</math>}} |
|||
Die Kovarianz ist offensichtlich invariant unter der Addition von Konstanten zu den Zufallsvariablen. In der zweiten Gleichung ist die Kovarianz wegen der Symmetrie auch im ersten Argument linear. |
|||
:<math>\mbox{Cov}[X, Y] = E(XY) - E[X] E[Y]</math> |
|||
'''Satz (Symmetrie):''' |
|||
:<math>\operatorname{Cov}(X,Y) = \operatorname{Cov}(Y,X)</math> |
|||
''Beweis:'' |
|||
:<math>\mbox{Cov}(X, Y) = \mbox{Cov}(Y, X) </math> |
|||
:<math>\begin{align} |
|||
\operatorname{Cov}(X,Y) &= \operatorname E\bigl[(Y - \operatorname E(Y)) \cdot (X - \operatorname E(X))\bigr]\\ |
|||
&= \operatorname{Cov}(Y,X) \qquad \Box |
|||
\end{align}</math> |
|||
'''Satz (Positive Semidefinitheit):''' |
|||
=== Lineare Transformation === |
|||
:<math>\operatorname{Cov}(X,X) \geq 0.</math> |
|||
''Beweis:'' |
|||
Die Kovarianz der transformierten Zufallsvariablen <math>\tilde{X} = a_X X + b_X </math> und |
|||
<math>\ |
:<math>\operatorname{Cov}(X,X) = \operatorname{Var}(X) \geq 0 \qquad \Box</math> |
||
Insgesamt folgt wie für jede positiv semidefinite symmetrische Bilinearform die [[Cauchy-Schwarzsche Ungleichung]] |
|||
:<math>\mbox{Cov}(\tilde{X}, \tilde{Y}) = a_X a_Y \mbox{Cov}(Y, X) </math> |
|||
:<math>|\operatorname{Cov}(X,Y)| \leq \sqrt{\operatorname{Var}(X)}\cdot\sqrt{\operatorname{Var}(Y)}</math> |
|||
'''Beziehung zum Korrelationskoeffizienten''' |
|||
Diese Eigenschaft bedeutet, dass die Kovarianz vom Maßstab der Zufallsvariablen abhängt. |
|||
So erhält man beispielsweise die zehnfache Kovarianz, wenn man anstatt <math>X</math> |
|||
die Zufallsvariable <math>10 \, X</math> betrachtet. Dies ist eine Eigenschaft, welche die absoluten Werte |
|||
eines Zusammenhangsmaßes schwer interpretierbar macht, |
|||
deshalb betrachtet man häufig den maßstabsunabhängigen [[Korrelationskoeffizient]]en. |
|||
Die Linearität der Kovarianz hat zur Folge, dass die Kovarianz vom Maßstab der Zufallsvariablen abhängt. So erhält man beispielsweise die zehnfache Kovarianz, wenn man anstatt <math>X</math> |
|||
=== Unkorreliertheit === |
|||
die Zufallsvariable <math>10X</math> betrachtet. Insbesondere hängt der Wert der Kovarianz von den verwendeten Maßeinheiten der Zufallsvariablen ab. Da diese Eigenschaft die absoluten Werte der Kovarianz schwer interpretierbar macht, betrachtet man bei der Untersuchung auf einen linearen Zusammenhang zwischen <math>X</math> und <math>Y</math> häufig stattdessen den maßstabsunabhängigen Korrelationskoeffizienten. Der maßstabsunabhängige Korrelationskoeffizient zweier Zufallsvariablen <math>X</math> und <math>Y</math> ist die Kovarianz der ''[[Standardisierung (Statistik)|standardisierten]]'' (auf die Standardabweichung bezogenen) Zufallsvariablen <math>\tilde X = X/ \sigma_X</math> und <math>\tilde Y = Y/ \sigma_Y</math>:<ref>[[Ludwig Fahrmeir]], Rita Künstler, [[Iris Pigeot]], und [[Gerhard Tutz]]: ''Statistik. Der Weg zur Datenanalyse.'' 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/Heidelberg 2016, ISBN 978-3-662-50371-3, S. 326.</ref> |
|||
:<math>\operatorname{Cov}(\tilde X,\tilde Y)=\operatorname{Cov}(X/ \sigma_X, Y/ \sigma_Y)=\frac{1}{ \sigma_X \sigma_Y} \operatorname{Cov}(X,Y)=:\rho(X,Y)</math>. |
|||
Falls <math>\mbox{Cov}(X, Y) = 0</math>, so sind die Zufallsvariablen <math>X</math> und <math>Y</math> unkorreliert. |
|||
Unkorreliertheit bedeutet nicht zwingend, dass die Zufallsvariablen [[Stochastische Unabhängigkeit|stochastisch unabhängig]] sind, denn es können nichtlineare Abhängigkeitsstrukturen vorliegen, die die Kovarianz nicht erfassen kann. Dagegen gilt für zwei stochastisch unabhängige Zufallsvariablen <math>X</math> und <math>Y</math> immer <math>\mbox{Cov}(X,Y) = 0</math>. |
|||
=== Unkorreliertheit und Unabhängigkeit === |
|||
==Kovarianz zweier Merkmale einer Stichprobe== |
|||
'''Definition (Unkorreliertheit):''' Zwei Zufallsvariablen <math>X</math> und <math>Y</math> heißen unkorreliert, wenn <math>\operatorname{Cov}(X,Y) = 0</math>. |
|||
'''Satz:''' Zwei [[Stochastisch unabhängige Zufallsvariablen|stochastisch unabhängige]] Zufallsvariablen sind unkorreliert. |
|||
Es werden für zwei Zufallsvariablen X und Y in einer Stichprobe je n Werte x<sub>i</sub> und y<sub>i</sub> (i = 1, ..., n) erhoben. Man schätzt die Kovarianz der Zufallsvariablen mit der Stichproben-Kovarianz |
|||
''Beweis:'' Für stochastisch unabhängige Zufallsvariablen <math>X</math> und <math>Y</math> gilt <math>\operatorname{E}(XY) = \operatorname{E}(X)\operatorname{E}(Y)</math>, d. h. |
|||
:<math>\mbox{cov}_{xy} = \frac{1}{n-1}\sum_{i=1}^n{(x_i-\bar{x}) (y_i-\bar{y})}</math> |
|||
:<math>\begin{align} |
|||
\operatorname{E}(XY) - \operatorname{E}(X)\operatorname{E}(Y) &= 0\\ |
|||
\Longrightarrow\qquad\qquad\qquad \operatorname{Cov}(X,Y) &= 0. \qquad |
|||
\end{align}</math> |
|||
Der Umkehrschluss gilt im Allgemeinen nicht. Ein Gegenbeispiel ist gegeben durch eine im Intervall <math>[-1, 1]</math> [[Gleichverteilung|gleichverteilte]] Zufallsvariable <math>X</math> und <math>Y = X^2</math>. Offenkundig sind <math>X</math> und <math>Y</math> voneinander abhängig. Es gilt aber |
|||
mit |
|||
:<math> |
|||
\operatorname{Cov}(X,Y) = \operatorname{Cov}(X,X^2) |
|||
= \operatorname{E}(X^3) - \operatorname{E}(X)\operatorname{E}(X^2) |
|||
= 0 - 0 \cdot \operatorname{E}(X^2) |
|||
= 0 |
|||
</math>. |
|||
Stochastisch unabhängige Zufallsvariablen, deren Kovarianz existiert, sind also auch unkorreliert. Umgekehrt bedeutet Unkorreliertheit aber nicht zwingend, dass die Zufallsvariablen stochastisch unabhängig sind, denn es kann eine nichtmonotone Abhängigkeit bestehen, die die Kovarianz nicht erfasst. |
|||
:<math>\bar{x} = \frac{1}{n} \sum_{i=1}^n{x_i}</math>, |
|||
<math>\bar{y}</math> entsprechend. |
|||
Weitere Beispiele für unkorrelierte, aber stochastisch abhängige Zufallsvariablen: |
|||
Auch hier gilt analog zu oben der Verschiebungssatz |
|||
* Seien <math>X</math> und <math>Y</math> Zufallsvariablen mit <math>P(X=0, Y=1) = \tfrac{1}{2}</math> und <math>P(X=2,Y=0) = P(X=2,Y=2) = \tfrac{1}{4}.</math> |
|||
:Dann gilt <math>P(X=0)=P(X=2)=\tfrac{1}{2}</math> und <math>P(Y=0)=P(Y=2)=\tfrac{1}{4}</math>, <math>P(Y=1)=\tfrac{1}{2}.</math> |
|||
:Es folgt <math>\operatorname{E}(X) = \operatorname{E}(Y) = 1</math> und ebenfalls <math>\operatorname{E}(XY) = 1</math>, also <math>\operatorname{Cov}(X,Y)=0.</math> |
|||
:Andererseits sind <math>X</math> und <math>Y</math> wegen <math>P(X=0,Y=1) = \tfrac{1}{2} \neq \tfrac{1}{2} \cdot \tfrac{1}{2} = P(X=0) P(Y=1)</math> nicht stochastisch unabhängig. |
|||
* Seien die Zufallsvariablen <math>X</math> und <math>Y</math> [[Bernoulli-Verteilung|bernoulliverteilt]] mit Parameter <math>p</math> und unabhängig, dann sind <math>(X+Y)</math> und <math>(X-Y)</math> unkorreliert, aber nicht unabhängig. |
|||
:<math>\mbox{cov}_{xy} = \frac{1}{n-1} \left( \sum_{i=1}^n {(x_i \, y_i) - n \, \bar{x} \, \bar{y}} \right) .</math> |
|||
:Die Unkorreliertheit ist klar, denn <math>\operatorname{Cov}(X+Y,X-Y) = \operatorname{Cov}(X,X) - \operatorname{Cov}(X,Y) + \operatorname{Cov}(Y,X) - \operatorname{Cov}(Y,Y) = 0.</math> |
|||
:Aber <math>(X+Y)</math> und <math>(X-Y)</math> sind nicht unabhängig, denn es ist <math>P(X+Y=0, X-Y=1) = 0 \neq p(1-p)^3 = P(X+Y=0)P(X-Y=1).</math> |
|||
== Verallgemeinerungen == |
|||
Der Verschiebungssatz wird vor allem angewendet, wenn die Kovarianz von Hand ermittelt wird. Wird die Stichproben-Kovarianz mit dem Computer berechnet, sollte der Verschiebungssatz nicht gebraucht werden, weil das Multiplizieren der Datenwerte <math>x_i \, y_i</math> zu Rundungsfehlern führen kann. Dagegen sind die zentrierten Datenwerte <math>x_i-\bar{x}</math> und <math>y_i-\bar{y}</math> betragsmäßig deutlich kleiner. |
|||
Der [[Kovarianzoperator]] verallgemeinert die Kovarianz auf unendlich-dimensionale Räume. Er spielt eine wichtige Rolle in der [[Stochastische Analysis|stochastischen Analysis]] auf solchen Räumen und der Theorie der [[Stochastische Differentialgleichung|stochastischen partiellen Differentialgleichungen]]. |
|||
Die restlichen Eigenschaften ergeben sich ebenfalls analog zu oben. |
|||
== Kovarianz im Mehrdimensionalen == |
|||
{{Hauptartikel|Kovarianzmatrix}} |
|||
== Literatur == |
|||
''Siehe auch:'' [[Varianz]], [[Kovarianzmatrix]], [[Kontravarianz]] |
|||
* [[Norbert Henze]]: ''Stochastik für Einsteiger: Eine Einführung in die faszinierende Welt des Zufalls.'' 10. Auflage. Verlag Springer Spektrum, Wiesbaden 2013, ISBN 978-3-658-03076-6, Kapitel 21, {{DOI|10.1007/978-3-658-03077-3_21}}. |
|||
* Karl Bosch: ''Elementare Einführung in die Angewandte Statistik: Mit Aufgaben und Lösungen'', 9. erw. Auflage. Vieweg+Teubner Verlag 2010, ISBN 978-3-8348-1229-2, {{DOI|10.1007/978-3-8348-9705-3}}. |
|||
== Einzelnachweise == |
|||
[[en:Covariance]] |
|||
<references /> |
|||
[[es:Covarianza]] |
|||
[[it:covarianza]] |
|||
[[nl:Covariantie]] |
|||
[[no:Kovarians]] |
|||
[[su:Kovarian]] |
|||
[[Kategorie: |
[[Kategorie:Stochastik]] |
||
[[Kategorie:Statistik]] |
|||
Aktuelle Version vom 3. Dezember 2025, 19:55 Uhr
Die Kovarianz (lateinisch con- = „mit-“ und Varianz (Streuung) von variare = „(ver)ändern, verschieden sein“, daher selten auch Mitstreuung[1]) ist in der Stochastik ein nichtstandardisiertes Zusammenhangsmaß für einen monotonen Zusammenhang zweier Zufallsvariablen mit gemeinsamer Wahrscheinlichkeitsverteilung. Der Wert dieser Kennzahl gibt Auskunft darüber, ob hohe Werte der einen Zufallsvariablen eher mit hohen oder eher mit niedrigen Werten der anderen Zufallsvariablen einhergehen.
Die Kovarianz ist ein Maß für die Assoziation, d. h., sie misst den Grad der (Un-)Abhängigkeit zweier metrischer Zufallsvariablen.
Definition
[Bearbeiten | Quelltext bearbeiten]Sind und zwei reelle, integrierbare Zufallsvariablen, deren Produkt ebenfalls integrierbar ist, d. h., die Erwartungswerte , und existieren, dann heißt
die Kovarianz von und . Die Kovarianz ist also das Produkt der Differenzen je zwischen und und ihren Erwartungswerten. In der Statistik werden und als arithmetische Mittelwerte berechnet.[2]
Berechnung
[Bearbeiten | Quelltext bearbeiten]Für die Berechnung oder Schätzung der Kovarianz aus zwei Datenreihen gibt es unterschiedliche Formeln, siehe Stichprobenkovarianz.
Eigenschaften und Rechenregeln
[Bearbeiten | Quelltext bearbeiten]Interpretation der Kovarianz
[Bearbeiten | Quelltext bearbeiten]
Die Kovarianz kann anhand dreier Wertebereiche qualitativ beschrieben werden:
- Die Kovarianz ist positiv, wenn zwischen und ein Zusammenhang mit gleicher Tendenz besteht, d. h., hohe (niedrige) Werte von gehen mit hohen (niedrigen) Werten von einher.
- Die Kovarianz ist hingegen negativ, wenn zwischen und ein Zusammenhang mit gegensinniger Tendenz besteht, d. h. hohe Werte der einen Zufallsvariablen gehen mit niedrigen Werten der anderen Zufallsvariablen einher und umgekehrt.
- Ist das Ergebnis null, so besteht kein linearer Zusammenhang zwischen und (es kann dennoch ein systematischer Zusammenhang bestehen).
Zusammenhang von Kovarianz und Korrelation
[Bearbeiten | Quelltext bearbeiten]Die Kovarianz ist zu zwei Eigenschaften der Daten proportional, der Stärke des Zusammenhangs und den Amplituden beider Streuungen. Um den Zusammenhang isoliert zu betrachten und vergleichbar zu machen, kann die Kovarianz mithilfe der Standardabweichung durch den Korrelationskoeffizient standardisiert werden.
Durch die Umrechnung der Kovarianz in die Korrelation
wird der Wertebereich in das Intervall projiziert. Dabei können folgende Fälle unterschieden werden:
| = 1 | vollständig (positiv) korreliert | ||
| 0 < | < 1 | partiell (positiv) korreliert | |
| = 0 | vollständig unkorreliert | ||
| −1 < | < 0 | partiell antikorreliert | |
| = −1 | vollständig antikorreliert |
Existenz
[Bearbeiten | Quelltext bearbeiten]Falls und quadratintegrierbar sind, also falls und gelten, so folgen aus der Cauchy-Schwarz-Ungleichung:
- und analog und zusätzlich .
Somit ist die geforderte Existenz der Erwartungswerte für quadratintegrierbare Zufallsvariablen erfüllt.
Verschiebungssatz
[Bearbeiten | Quelltext bearbeiten]Zur oft einfacheren Berechnung der Kovarianz kann man auch den Verschiebungssatz als alternative Darstellung der Kovarianz anwenden.
Satz (Verschiebungssatz für die Kovarianz):
Beweis:
Beziehung zur Varianz
[Bearbeiten | Quelltext bearbeiten]Wie aus der Definition direkt ersichtlich, gilt Damit ist die Kovarianz eine Verallgemeinerung der Varianz.
Mit Hilfe der Kovarianzen lässt sich auch die Varianz einer Summe von quadratintegrierbaren Zufallsvariablen berechnen. Allgemein gilt
Speziell für die Summe zweier Zufallsvariablen gilt daher die Formel
Wie sich unmittelbar aus der Definition ergibt, ändert die Kovarianz das Vorzeichen, wenn eine der Variablen das Vorzeichen ändert:
Somit ergibt sich für die Differenz zweier Zufallsvariablen die Formel
Linearität, Symmetrie und Definitheit
[Bearbeiten | Quelltext bearbeiten]Satz: Die Kovarianz ist eine positiv semidefinite symmetrische Bilinearform auf dem Vektorraum der quadratisch integrierbaren Zufallsvariablen.
Es gelten also die folgenden drei Sätze:
Satz (Bilinearität): Für Konstanten und Zufallsvariablen gilt:
- Die dritte Zeile folgt aus den anderen Eigenschaften
Die Kovarianz ist offensichtlich invariant unter der Addition von Konstanten zu den Zufallsvariablen. In der zweiten Gleichung ist die Kovarianz wegen der Symmetrie auch im ersten Argument linear.
Satz (Symmetrie):
Beweis:
Satz (Positive Semidefinitheit):
Beweis:
Insgesamt folgt wie für jede positiv semidefinite symmetrische Bilinearform die Cauchy-Schwarzsche Ungleichung
Beziehung zum Korrelationskoeffizienten
Die Linearität der Kovarianz hat zur Folge, dass die Kovarianz vom Maßstab der Zufallsvariablen abhängt. So erhält man beispielsweise die zehnfache Kovarianz, wenn man anstatt die Zufallsvariable betrachtet. Insbesondere hängt der Wert der Kovarianz von den verwendeten Maßeinheiten der Zufallsvariablen ab. Da diese Eigenschaft die absoluten Werte der Kovarianz schwer interpretierbar macht, betrachtet man bei der Untersuchung auf einen linearen Zusammenhang zwischen und häufig stattdessen den maßstabsunabhängigen Korrelationskoeffizienten. Der maßstabsunabhängige Korrelationskoeffizient zweier Zufallsvariablen und ist die Kovarianz der standardisierten (auf die Standardabweichung bezogenen) Zufallsvariablen und :[3]
- .
Unkorreliertheit und Unabhängigkeit
[Bearbeiten | Quelltext bearbeiten]Definition (Unkorreliertheit): Zwei Zufallsvariablen und heißen unkorreliert, wenn .
Satz: Zwei stochastisch unabhängige Zufallsvariablen sind unkorreliert.
Beweis: Für stochastisch unabhängige Zufallsvariablen und gilt , d. h.
Der Umkehrschluss gilt im Allgemeinen nicht. Ein Gegenbeispiel ist gegeben durch eine im Intervall gleichverteilte Zufallsvariable und . Offenkundig sind und voneinander abhängig. Es gilt aber
- .
Stochastisch unabhängige Zufallsvariablen, deren Kovarianz existiert, sind also auch unkorreliert. Umgekehrt bedeutet Unkorreliertheit aber nicht zwingend, dass die Zufallsvariablen stochastisch unabhängig sind, denn es kann eine nichtmonotone Abhängigkeit bestehen, die die Kovarianz nicht erfasst.
Weitere Beispiele für unkorrelierte, aber stochastisch abhängige Zufallsvariablen:
- Seien und Zufallsvariablen mit und
- Dann gilt und ,
- Es folgt und ebenfalls , also
- Andererseits sind und wegen nicht stochastisch unabhängig.
- Seien die Zufallsvariablen und bernoulliverteilt mit Parameter und unabhängig, dann sind und unkorreliert, aber nicht unabhängig.
- Die Unkorreliertheit ist klar, denn
- Aber und sind nicht unabhängig, denn es ist
Verallgemeinerungen
[Bearbeiten | Quelltext bearbeiten]Der Kovarianzoperator verallgemeinert die Kovarianz auf unendlich-dimensionale Räume. Er spielt eine wichtige Rolle in der stochastischen Analysis auf solchen Räumen und der Theorie der stochastischen partiellen Differentialgleichungen.
Kovarianz im Mehrdimensionalen
[Bearbeiten | Quelltext bearbeiten]Literatur
[Bearbeiten | Quelltext bearbeiten]- Norbert Henze: Stochastik für Einsteiger: Eine Einführung in die faszinierende Welt des Zufalls. 10. Auflage. Verlag Springer Spektrum, Wiesbaden 2013, ISBN 978-3-658-03076-6, Kapitel 21, doi:10.1007/978-3-658-03077-3_21.
- Karl Bosch: Elementare Einführung in die Angewandte Statistik: Mit Aufgaben und Lösungen, 9. erw. Auflage. Vieweg+Teubner Verlag 2010, ISBN 978-3-8348-1229-2, doi:10.1007/978-3-8348-9705-3.
Einzelnachweise
[Bearbeiten | Quelltext bearbeiten]- ↑ Hansjochem Autrum, Erwin Bünning et al.: Ergebnisse Der Biologie., S. 88
- ↑ Rainer Diaz-Bone: Statistik für Soziologen. 5. Auflage. UVK Verlag, ISBN 978-3-8252-5210-6, 4.3.2, S87.
- ↑ Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, und Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/Heidelberg 2016, ISBN 978-3-662-50371-3, S. 326.