Satz von Gauß-Markow

mathematischer Satz
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 14. November 2018 um 19:36 Uhr durch Trabeschaur (Diskussion | Beiträge) (Schätzbarkeitskriterium: Beispiel hinzugefügt). Sie kann sich erheblich von der aktuellen Version unterscheiden.

In der Stochastik ist der Satz von Gauß-Markow (auch Gauß-Markow-Theorem, Gauß-Markov-Theorem oder Gauß-Markoff-Theorem genannt) ein mathematischer Satz über die Klasse der linearen erwartungstreuen Schätzfunktionen. Er stellt eine theoretische Rechtfertigung der Methode der kleinsten Quadrate dar und ist nach den Mathematikern Carl Friedrich Gauß und Andrei Andrejewitsch Markow benannt. Allerdings hat Markow den –anfänglich wenig beachteten– Teil der Arbeit von Gauß lediglich wiederentdeckt. Da Markows eigener Beitrag minimal war, scheint es naheliegender, dass der Satz einfach Satz von Gauß heißen sollte. Diese Bezeichnung hat sich allerdings nicht durchgesetzt. Der Satz besagt, dass in einem linearen Regressionsmodell, in dem die Störgrößen einen Erwartungswert von Null und eine konstante Varianz haben sowie unkorreliert sind (Annahmen des klassischen linearen Regressionsmodells), der Kleinste-Quadrate-Schätzer – vorausgesetzt er existiert – ein minimalvarianter linearer erwartungstreuer Schätzer bzw. Beste Lineare Erwartungstreue Schätzfunktion, kurz BLES (englisch Best Linear Unbiased Estimator, kurz BLUE) ist. Minimalvariant bzw. „beste“ bedeutet in diesem Fall, dass er –innerhalb der Klasse der linearen erwartungstreuen Schätzer– die „kleinste“ Kovarianzmatrix aufweist. Die Störgrößen müssen nicht notwendigerweise normalverteilt sein. Sie müssen im Fall der verallgemeinerten Kleinste-Quadrate-Schätzung auch nicht unabhängig und identisch verteilt sein.

Formulierung des Satzes

In Worten lautet dieser Satz: Der Kleinste-Quadrate-Schätzer ist beste lineare erwartungstreue Schätzfunktion, wenn die zufälligen Störgrößen (die folgenden Formeln beziehen sich auf die einfache lineare Regression):[1]

 .
unabhängige Zufallsvariablen sind immer auch unkorreliert. Man spricht in diesem Zusammenhang auch von Abwesenheit von Autokorrelation.
  • im Mittel Null sind:  : Dies kann so interpretiert werden, dass angenommen wird dass das betrachtete Modell im Mittel dem wahren Modell entspricht.
  • eine endliche konstante Varianz haben (Homoskedastizität): 
wenn die Varianz der Residuen (und somit die Varianz der erklärten Variablen selbst) für alle Ausprägungen der Regressoren gleich ist, liegt Homoskedastizität bzw. Varianzhomogenität vor.

Alle oben genannten Annahmen über die Störgrößen lassen sich so zusammenfassen:

 ,

das heißt alle Störgrößen folgen der Verteilung   mit Erwartungswert   und der Varianz  . Hierbei ist die Verteilung anfangs nicht näher spezifiziert.

Diese Annahmen werden auch als Gauß-Markow-Annahmen bezeichnet. In der Ökonometrie wird der Satz von Gauß-Markow oft abweichend dargestellt und es werden weitere Annahmen getroffen.

Allgemeine Formulierung des Satzes von Gauß-Markow (regulärer Fall)

Als Ausgangslage betrachten wir ein typisches multiples lineares Regressionsmodell mit gegebenen Daten   für   statistische Einheiten und   Regressoren. Der Zusammenhang zwischen der abhängigen Variablen und den unabhängigen Variablen kann wie folgt dargestellt werden

 .

In Matrixnotation auch

 

mit  . In kompakter Schreibweise

 .

Hier stellt   einen Vektor von unbekannten Parametern dar (bekannt als Regressionskoeffizienten), die mithilfe der Daten geschätzt werden müssen. Des Weiteren wird angenommen, dass die Störgrößen im Mittel Null sind:  , was bedeutet, dass wir davon ausgehen können, dass unser Modell im Mittel korrekt ist. Hierbei nimmt man von der Datenmatrix   an, dass sie vollen (Spalten-)Rang hat, das heißt, es gilt   bzw.  . Insbesondere ist dann   eine reguläre, also invertierbare Matrix. Deshalb spricht man hier vom regulären Fall (s. Überschrift). Ferner erwartet man für die Kovarianzmatrix der Störgrößen, dass   gilt. Die Gauß-Markow-Annahmen lassen sich im multiplen Fall also zusammenfassen als

 

wobei der Erwartungswert der Störgrößen der Nullvektor   und die Kovarianzmatrix den Erwartungswert des dyadischen Produkts der Störgrößen

  darstellt.

Diese Annahme ist die Homoskedastizitätsannahme im multiplen Fall. Durch obige Spezifikation des linearen Modells erhält man damit für den Zufallsvektor  

 .[2]

Durch diese Annahmen erhält man:

  1. Dass der Kleinste-Quadrate-Schätzer für den wahren Parametervektor  , der   lautet, ein minimalvarianter linearer erwartungstreuer Schätzer ist.
  2. Dass die Kovarianzmatrix des Kleinste-Quadrate-Schätzers   ist.
  3. Dass die geschätzte Varianz der Störgrößen   ein erwartungstreuer Schätzer für die unbekannte Varianz der Störgrößen   ist.

Minimalvarianter linearer erwartungstreuer Schätzer

Minimalvarianter

Der minimalvariante, bzw. „der Beste“ Schätzer zeichnet sich dadurch aus, dass er die „kleinste“ Kovarianzmatrix (bzgl. der Loewner-Halbordnung) aufweist (ist somit minimalvariant). Ein Schätzer der diese Eigenschaft aufweist wird deshalb auch minimalvarianter oder effizienter Schätzer genannt. Bei zusätzlicher Annahme von Erwartungstreue spricht man auch vom minimalvarianten erwartungstreuen Schätzer.

Jeder Schätzer aus der Klasse der linearen erwartungstreuen Schätzer lässt sich darstellen als

  (Linearität)

mit der  -Matrix  . Ein Beispiel für ein Schätzer diese Klasse ist der Kleinste-Quadrate-Schätzer  .

Die Eigenschaft der Erwartungstreue besagt, dass

 .

Unter den oben genannten Voraussetzungen gilt dann, für alle   Vektoren  , die Ungleichung:

  (Effizienzeigenschaft),

wobei   der Kleinste-Quadrate-Schätzer ist, also der Schätzer der mittels der Kleinste-Quadrate-Schätzung ermittelt wurde. Diese Effizienzeigenschaft kann auch umgeschrieben werden in

 

oder

 .[3]

Diese Eigenschaft wird positiv semidefinit genannt (siehe auch Kovarianzmatrix als Effizienzkriterium). Wenn also obige Ungleichung zutrifft, dann kann man sagen, dass   besser ist als  .

Linearität

Für den Kleinste-Quadrate-Schätzer gilt, dass er ebenfalls linear ist

 .

Die obige Ungleichung besagt, dass nach dem Satz von Gauß-Markow  , BLUE (Best Linear Unbiased Estimator) bzw. ein minimalvarianter linearer erwartungstreuer Schätzer ist, das heißt in der Klasse der linearen erwartungstreuen Schätzern ist er derjenige Schätzer, der die kleinste Varianz bzw. Kovarianzmatrix besitzt. Für diese Eigenschaft der Schätzfunktion   braucht keine Verteilungsinformation der Störgröße vorzuliegen. Eine Steigerung der BLUE-Eigenschaft stellt die sogenannte BUE-Eigenschaft (engl. Best Unbiased Estimator) dar, bei der eine Beschränkung auf lineare Schätzer nicht gegeben ist. Oft stellt der Maximum-Likelihood-Schätzer eine Lösung dar, die BUE ist. Tatsächlich ist der Kleinste-Quadrate-Schätzer   bei normalverteilten Störgrößen ein Maximum-Likelihood-Schätzer und mit dem Satz von Lehmann-Scheffé kann die BUE-Eigenschaft nachgewiesen werden.

Beweis

Gegeben, dass der wahre datengenerierende Prozess durch ein lineares Modell beschrieben wird, gilt es den Kleinste-Quadrate-Schätzer mit allen anderen linearen Schätzern zu vergleichen. Um einen Vergleich anstellen zu können beschränkt man sich in der Analyse auf die Klasse der linearen und erwartungstreuen Schätzer. Jeder beliebige Schätzer dieser Klasse, neben dem Kleinste-Quadrate Schätzer  , kann dargestellt werden als

  mit  .

Falls   erhält man den Kleinste-Quadrate-Schätzer  . Die Klasse aller linearen Schätzer ist somit gegeben durch

 , wobei die Matrix   gegeben ist durch  

Nun gilt es Restriktionen für   zu finden die sicherstellen, dass   erwartungstreu ist. Ebenfalls muss die Kovarianzmatrix von   gefunden werden. Der Erwartungswert von   ergibt

 

D. h.   ist dann und nur dann erwartungstreu, wenn  , also gilt  , da die Datenmatrix stets als fest und von Null verschieden angenommen wird.

Es folgt für die Kovarianzmatrix von  :

 

Daraus folgt

 [4]

Diese Matrix wird immer positiv semidefinit sein, – unabhängig wie   definiert ist – da eine Matrix multipliziert mit ihrer eigenen transponierten immer positiv semidefinit ist.

Singulärer Fall, schätzbare Funktionen

Wir betrachten nun den sog. singulären Fall, d.h. es gilt  . Dann ist auch   nicht von vollem Rang, also nicht invertierbar. Der oben angegebene Kleinste-Quadrate-Schätzer   existiert nicht. Man sagt,   ist nicht schätzbar bzw. nicht identifizierbar.

Der singuläre Fall tritt dann ein, wenn  , oder wenn nur in   verschiedenen Regressoreinstellungen beobachtet wird, oder wenn lineare Abhängigkeiten in der Datenmatrix   vorliegen.

Sei nun  . Dann sind bestenfalls  -dimensionale Linearformen   schätzbar, wobei   eine  -Matrix ist.

Schätzbarkeitskriterium

  mit einer  -Matrix   ist schätzbar genau dann, wenn es eine  -Matrix   gibt, so dass   gilt, d.h. wenn jeder Zeilenvektor von   eine Linearkombination der Zeilenvektoren von   ist. Siehe z.B.[5]

Wesentlich eleganter kann das Schätzbarkeitskriterium mit Pseudoinversen formuliert werden. Dabei heißt   Pseudoinverse von  , wenn   gilt.

  mit einer  -Matrix   ist schätzbar genau dann, wenn  . Dabei ist   eine beliebige Pseudoinverse von  . Siehe z.B.[6]

Beispiel

Für die quadratische Regressionsgleichung   wurden   Beobachtungen bei   durchgeführt. Damit ergibt sich

 .

Dann ist

 

schätzbar, weil die Zeilenvektoren von   Linearkombinationen der Zeilenvektoren von   sind. Beispielsweise ist der zweite Zeilenvektor von   gleich der Differenz aus drittem und erstem Zeilenvektor von  .

Hingegen ist

 

nicht schätzbar, weil sich keiner der Zeilenvektoren von   als Linearkombination der der Zeilenvektoren von   darstellen lässt.

Satz von Gauß-Markow im singulären Fall

Sei   schätzbar. Dann ist

 

bester linearer erwartungstreuer Schätzer für  , wobei   eine beliebige Pseudoinverse zu   ist.

Der Schätzer   kann auch ohne Pseudoinverse ausgedrückt werden:

 

Dabei ist   eine beliebige Lösung des Normalgleichungssystems  .

Verallgemeinerte Kleinste-Quadrate-Schätzung

Die verallgemeinerte Kleinste-Quadrate-Schätzung (VKQ-Schätzung), die von Aitken[7] entwickelt wurde, erweitert der Satz von Gauß-Markow auf den Fall, bei dem der Vektor der Störgrößen eine nichtskalare Kovarianzmatrix hat, d. h. es gilt  .[8] Der VKQ-Schätzer ist ebenfalls BLUE.

Siehe auch

Literatur

  • George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T.C. Lee. Introduction to the Theory and Practice of Econometrics. John Wiley & Sons, New York, Chichester, Brisbane, Toronto, Singapore, ISBN 978-0471624141, second edition 1988

Einzelnachweise

  1. Ludwig von Auer: Ökonometrie. Eine Einführung. Springer, ISBN 978-3-642-40209-8, 6. durchges. u. aktualisierte Aufl. 2013, S. 49.
  2. George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T.C. Lee. Introduction to the Theory and Practice of Econometrics. John Wiley & Sons, New York, Chichester, Brisbane, Toronto, Singapore, ISBN 978-0471624141, second edition 1988, S. 202.
  3. George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T.C. Lee. Introduction to the Theory and Practice of Econometrics. John Wiley & Sons, New York, Chichester, Brisbane, Toronto, Singapore, ISBN 978-0471624141, second edition 1988, S. 203.
  4. George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T.C. Lee. Introduction to the Theory and Practice of Econometrics. John Wiley & Sons, New York, Chichester, Brisbane, Toronto, Singapore, ISBN 978-0471624141, second edition 1988, S. 205.
  5. C. R. Rao, H. Toutenburg, Shalabh, C. Heumann: Linear Models and Generalizations, Springer-Verlag 2008 (third edition)
  6. F. Pukelsheim: Optimal Design of Experiments, Wiley, New York 1993
  7. A. C. Aitken: On Least Squares and Linear Combinations of Observations. In: Proceedings of the Royal Society of Edinburgh. 55. Jahrgang, 1935, S. 42–48.
  8. David S. Huang: Regression and Econometric Methods. John Wiley & Sons, New York 1970, ISBN 0-471-41754-8, S. 127–147 (google.com).