Bestimmtheitsmaß

Das Bestimmtheitsmaß (abk. $R^{2}$ oder $B$ , auch Determinationskoeffizient) ist ein Maß der Statistik für den erklärten Anteil der Variabilität (Varianz) einer abhängigen Variablen $Y$ durch ein statistisches Modell. Indirekt wird damit auch der Zusammenhang zwischen der abhängigen und der/den unabhängigen Variablen gemessen (siehe Fehlerreduktionsmaße) ^[1]^[2].

Nur im Fall eines linearen Regressionsmodells, d.h. $Y_{i}=b_{0}+b_{1}X_{i1}+...+b_{p}X_{ip}+U_{i}$ , gibt es eine eindeutige Definition: das Quadrat des multiplen Korrelationskoeffizienten. Ansonsten existieren meist mehrere unterschiedliche Definitionen (siehe Pseudo-Bestimmtheitsmaß).

Das Bestimmtheitsmaß $R^{2}$

Interpretation

Die Maßzahl $R^{2}$ ist der Prozentanteil der Variation von $Y$ (oder auch der Varianz von $Y$ , da gilt ${\mbox{Variation}}(Y)=n*Var(Y)$ ) von der durch die lineare Regression erklärt wird und liegt daher zwischen

0 (oder 0 %): kein linearer Zusammenhang und

1 (oder 100%): perfekter linearer Zusammenhang.

Ist $R^{2}=0$ , dann besteht das "beste" lineare Regressionsmodell nur aus der Konstanten $b_{0}$ , alle anderen Koeffizienten $b_{i}$ sind Null. Ist $R^{2}=1$ , dann lässt sich die Variable $Y$ vollständig durch das lineare Regressionmodell erklären.

Ist das Regressionsmodell nicht linear kann $R^{2}$ auch kleiner Null oder größer als Eins werden.

Konstruktion

Die Variation von $Y$ wird zerlegt in die Variation der Residuen (durch das Modell nicht erklärte Variation) und die Variation der Regresswerte (durch das Modell erklärte Variation):

$\underbrace {\sum _{i=1}^{n}(Y_{i}-{\bar {Y}})^{2}} _{\mbox{Variation von Y}}=\underbrace {\sum _{i=1}^{n}(Y_{i}-{\hat {Y}}_{i})^{2}} _{\mbox{Variation der Residuen}}+\underbrace {\sum _{i=1}^{n}({\hat {Y}}_{i}-{\bar {Y}})^{2}} _{\mbox{Variation der Regresswerte}}$

mit ${\bar {Y}}$ der Mittelwert der $Y$ 's, ${\hat {Y}}_{i}$ die geschätzten Regresswerte aus dem Regressionsmodell ( ${\hat {Y}}_{i}={\hat {b}}_{0}+{\hat {b}}_{0}X_{i1}+...+{\hat {b}}_{p}X_{ip}$ ).

Damit wird das Bestimmtheitsmaß $R^{2}$ definiert als:

$R^{2}=1-{\frac {\displaystyle \sum _{i=1}^{n}(Y_{i}-{\hat {Y}}_{i})^{2}}{\displaystyle \sum _{i=1}^{n}(Y_{i}-{\bar {Y}})^{2}}}=1-{\frac {\mbox{Variation der Residuen}}{\mbox{Variation von Y}}}={\frac {\mbox{Variation der Regresswerte}}{\mbox{Variation von Y}}}={\frac {\displaystyle \sum _{i=1}^{n}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\displaystyle \sum _{i=1}^{n}(Y_{i}-{\bar {Y}})^{2}}}$

In der Literatur findet man auch folgende Notation für die

Variation von $Y$ : $TSS=SS_{Total}$ (total sum of squares),
Variation der Residuen: $RSS=SS_{Residuen}$ (sum of squared residual) und
Variation der Regresswerte: $ESS=SS_{Regression}$ (estimated sum of squares).

Zusammenhang mit Korrelationskoeffizienten

Bei einer einfachen Regression (nur eine unabhängige Variable) entspricht $R^{2}$ dem Quadrat des Pearson'schen Korrelationskoeffizienten $R$ und lässt sich aus der Kovarianz $s_{xy}$ und den Einzelvarianzen $s_{x}^{2}$ und $s_{y}^{2}$ berechnen:

R^{2}={\frac {s_{xy}^{2}}{s_{x}^{2}s_{y}^{2}}}.

Bei einer multiplen Regression (mehr als eine unabhängige Variable) entspricht $R^{2}$ dem Quadrat des multiplen Korrelationskoeffizienten, also der Korrelation zwischen $Y$ und $b_{1}X_{1}+...+b_{p}X_{p}$ .

Grenzen und Kritik

Beispiele für Daten mit einem hohen und einem niedrigen Bestimmtheitsmaß.

Das Bestimmtheitsmaß zeigt zwar die Qualität der linearen Approximation, jedoch nicht, ob das Modell richtig spezifiziert wurde. Modelle, die mittels kleinster Quadrate geschätzt wurden, werden daher die höchsten $R^{2}$ erhalten. Übliche Mißverständnisse sind:
- Ein hohes $R^{2}$ erlaubt eine gute Vorhersage. Die rote Daten in der Grafik rechts legen nahe, dass sich die Richtung der Daten für höherere Wert von $X$ ändert.
- Ein hohes $R^{2}$ gibt an, dass die geschätzte Regressionslinie eine gute Approximation an die Daten darstellt; die rote Daten legen auch hier etwas anderes nahe.
- Ein $R^{2}$ nahe bei Null, zeigt an, dass es keinen Zusammenhang zwischen der abhängigen und den unabhängigen Variablen gibt. Die blauen Daten in der Grafik rechts zeigen einen deutlichen, allerdings nicht-linearen, Zusammenhang, obwohl $R^{2}$ Null ist.
Es sagt nichts darüber aus, ob die unabhängigen Variablen $X_{i}$ wirklich der Grund für die Änderungen in $Y$ sind. Z.B. gibt es tatsächlich einen Zusammenhang zwischen der Anzahl der Störche und der Anzahl der neugeborenen Kinder in einem Gebiet. Der Grund für den Zusammenhang ist jedoch, dass in einem mehr ländlichen Gebiet sowohl die Zahl der Störche als auch die Zahl der neugeborenen Kinder grösser ist als in einem mehr städtisch geprägten Gebiet. Korrekterweise müsste man statt einer Regression ${\mbox{Zahl der Kinder}}=b_{0}+b_{1}{\mbox{Zahl der Störche}}$ eine Regression ${\mbox{Zahl der Kinder}}=b_{0}+b_{1}{\mbox{Städtische Ausprägung}}$ durchführen.
Außerdem sagt es nichts über die statistische Signifikanz des ermittelten Zusammenhangs und der einzelnen Regressoren aus. Dazu muss zusätzlich ein Signifikanztest durchgeführt werden.
Es macht keine Aussage über Multikollinearität der unabhängigen Variablen $X_{i}$ .
Es macht keine Aussage, ob eine Transformation der Daten die Erklärungskraft der Regression verbessert.
Ein weiterer Nachteil liegt in der Empfindlichkeit gegenüber Trends: Sofern sich eine exogene Variable parallel zu einer erklärenden entwickelt, werden unabhängig von der wahren Erklärungskraft des Modells hohe $R^{2}$ ausgewiesen.

Das korrigierte Bestimmtheitsmaß ${\bar {R}}^{2}$

Definition

Das Bestimmtheitsmaß $R^{2}$ hat die Eigenschaft, dass es umso größer wird je größer die Zahl der unabhängigen Variablen ist. Und zwar unabhängig davon, ob weitere unabhängige Variablen wirklich einen Beitrag zur Erklärungskraft liefern. Daher ist es ratsam, das korrigierte Bestimmtheitsmaß (auch bereinigtes, adjustiertes oder angepasstes Bestimmtheitsmaß genannt) zu Rate zu ziehen. Es berechnet sich wie folgt

{\bar {R}}^{2}=1-(1-R^{2}){\frac {n-1}{n-p-1}}=R^{2}-(1-R^{2}){\frac {p}{n-p-1}}.

Hierbei wird die Erklärungskraft des Modells, repräsentiert durch $R^{2}$ , ausbalanciert mit der Komplexität des Modells, repräsentiert durch $p$ , die Anzahl der unabhängigen Variablen. Je komplexer das Modell ist, desto mehr "bestraft" ${\bar {R}}^{2}$ jede neu hinzugenommene unabhängige Variable.

Das angepasste Bestimmtheitsmaß ${\bar {R}}^{2}$ steigt nur, wenn $R^{2}$ ausreichend steigt, um den gegenläufigen Effekt des Quotienten ${\frac {n-1}{n-p-1}}$ auszugleichen und kann auch sinken. Auf diese Weise lässt sich ${\bar {R}}^{2}$ als Entscheidungskriterium bei der Auswahl zwischen zwei alternativen Modellspezifikationen (etwa einem restringierten und einem unrestringierten Modell) verwenden.

Das korrigierte Bestimmtheitsmaß ${\bar {R}}^{2}$ kann auch negative Werte annehmen und ist kleiner als das unbereinigte, außer falls $R^{2}=1\;$ , dann ist auch ${\bar {R}}^{2}=1$ .

Konstruktion

Aus der obigen Definition von $R^{2}$ folgt, dass

R^{2}=1-{\frac {\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}(Y_{i}-{\bar {Y}})^{2}}}.

Wir wissen jedoch, dass ${\frac {1}{n}}\sum _{i=1}^{n}({\hat {Y}}_{i}-{\bar {Y}})^{2}$ und ${\frac {1}{n}}\sum _{i=1}^{n}(Y_{i}-{\bar {Y}})^{2}$ keine unverzerrten Schätzer für die Varianzen sind. Setzt man oben und unten unverzerrte Schätzer ein, so erhält man das korrigierte Bestimmtheitsmaß:

{\bar {R}}^{2}=1-{\frac {\displaystyle {\frac {1}{n-p-1}}\sum _{i=1}^{n}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\displaystyle {\frac {1}{n-1}}\sum _{i=1}^{n}(Y_{i}-{\bar {Y}})^{2}}}

.

Pseudo-Bestimmtheitsmaß

Bei einem nominalen oder ordinalen Skalenniveau von $Y$ kann man weder ein lineares Regressionsmodell aufstellen noch eine Variation oder Varianz und damit ein $R^{2}$ berechnen. Mit Hilfe der Maximum-Likelihood-Schätzung lassen sich jedoch allgemeinere Regressionsmodelle schätzen. In solchen Modellen wird das sogenannte Pseudo-Bestimmtheitsmaß verwendet. Unter diesem Begriff wurden verschiedene Maße vorgeschlagen, darunter das unter Ökonomen am häufigsten verwendete von McFadden^[3] (mit $\ln L_{0}$ aus dem Modell mit lediglich einer Konstanten):

R_{McFadden}^{2}=1-{\ln L_{1} \over \ln L_{0}}.

Dabei ist $L_{1}$ der Wert der Likelihoodfunktion unter Kenntnis des Zusammenhanges zwischen $Y$ und $X_{i}$ (volles Regressionsmodell) und $L_{0}$ der Wert der Likelihoodfunktion ohne Kenntnis des Zusammenhanges zwischen $Y$ und $X_{i}$ (Nullmodell ohne $X_{i}$ ). Dieser Ansatz nutzt die Interpretation von $R^{2}$ als proportionales Fehlerreduktionsmaß aus. Weitere Maße sind die Maße von Cox und Snell^[4]

R_{CoxSnell}^{2}=1-\left({\frac {L_{0}}{L_{1}}}\right)^{2/n}

bzw., da gilt $R_{CoxSnell}^{2}<1$ , die Erweiterung von Nagelkerke^[5]

R_{Nagelkerke}^{2}={\frac {1-\left({\frac {L_{0}}{L_{1}}}\right)^{2/n}}{1-L_{0}^{2/n}}}.

Nagelkerke gab auch eine allgemeine Bedingungen für ein Pseudo-Bestimmtheitsmaß an:

Ein Pseudo-Bestimmtheitsmaß sollte mit dem Bestimmtheitsmaß $R^{2}$ übereinstimmen, wenn beide berechnet werden können.
Es soll ebenfalls maximiert werden mit der Maximum-Likelihood-Schätzung des Modells.
Es soll, zumindest asymptotisch, unabhängig vom Stichprobenumfang sein.
Die Interpretation sollte die durch das Modell erklärte Variabilität von $Y$ sein.
Es soll zwischen Null und Eins liegen. Bei einem Wert von Null sollte es keine Aussage über die Variabilität von $Y$ machen; bei einem Wert von Eins, sollte es die Variabilität von $Y$ mvollständig erklären.
Es sollte keine Maßeinheit besitzen.

Literatur

Neter, J., Kutner, M.H., Nachtsheim, C.J., Wasserman, W. (1996), Applied linear statistical models (Fourth edition), McGraw-Hill

Einzelnachweise

↑ Yule, G.U. (1897), On the theory of correlation, Journal of the Royal Statistical Society, 62, S. 249-295
↑ Pearson, K., Lee, A. (1897), On the Distribution of Frequency (Variation and Correlation) of the Barometric Height at Divers Stations, Philosophical Transactions of the Royal Society of London. Series A, Vol. 190, S. 423-469
↑ McFadden, D. (1974), Conditional logit analysis of qualitative choice behaviour, in: P. Zarembka (ed.), Frontiers in Econometrics, Academic Press, New York, S. 105-142.
↑ Cox, D.R., Snell, E.J. (1989), The Analysis of Binary Data (2. Auflage), Chapman and Hall, London.
↑ Nagelkerke, N.J.D. (1991), A Note on a General Definition of the Coefficient of Determination, Biometrika 78(3), S. 691–692.

[1] Yule, G.U. (1897), On the theory of correlation, Journal of the Royal Statistical Society, 62, S. 249-295

[2] Pearson, K., Lee, A. (1897), On the Distribution of Frequency (Variation and Correlation) of the Barometric Height at Divers Stations, Philosophical Transactions of the Royal Society of London. Series A, Vol. 190, S. 423-469

[3] McFadden, D. (1974), Conditional logit analysis of qualitative choice behaviour, in: P. Zarembka (ed.), Frontiers in Econometrics, Academic Press, New York, S. 105-142.

[4] Cox, D.R., Snell, E.J. (1989), The Analysis of Binary Data (2. Auflage), Chapman and Hall, London.

[nagelkerke91-5] Nagelkerke, N.J.D. (1991), A Note on a General Definition of the Coefficient of Determination, Biometrika 78(3), S. 691–692.

[1]

[2]

[3]

[4]

[5]

Bestimmtheitsmaß

Das Bestimmtheitsmaß R 2 {\displaystyle R^{2}}

Interpretation

Konstruktion

Zusammenhang mit Korrelationskoeffizienten

Grenzen und Kritik

Das korrigierte Bestimmtheitsmaß R ¯ 2 {\displaystyle {\bar {R}}^{2}}

Definition

Konstruktion

Pseudo-Bestimmtheitsmaß

Literatur

Einzelnachweise

Das Bestimmtheitsmaß $R^{2}$

Das korrigierte Bestimmtheitsmaß ${\bar {R}}^{2}$