Dieser Artikel wurde auf der Qualitätssicherungsseite des Portals Mathematik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Mathematik auf ein akzeptables Niveau zu bringen.
Bitte hilf mit, die Mängel dieses Artikels zu beseitigen, und beteilige dich bitte an der Diskussion! (Artikel eintragen) |
Der Goldfeld-Quandt-Test ist ein statistischer Test zum Nachweis von Heteroskedastizität (Nicht-konstante Varianz) bei der Regressionsanalyse. Der Test basiert auf dem Vergleich zweier Stichprobenhälften. Er wurde benannt nach Stephen Goldfeld and Richard E. Quandt.[1]
Vorgehen
Die Stichprobe wird in zwei Teile bzgl. einer Variablen geteilt; siehe Grafik. Die beiden Teile müssen disjunmkt sein (also keine Beobachtung darf in beiden Teilen sein), muss aber nicht die gesamte Stichprobe umfassen. In der Grafik ist z.B. der Mittelteil der Beobachtungen in keinem Teil (grau). Für beide Teile wird eine Regression geschätzt und die Varianz der Residuen berechner. Bei Vorliegen von Heteroskedastiztät weist ein Teil der Stichprobe eine hohe Rsidualvarianz (rot) auf, während ein anderer Teil eine niedrige Residualvarianz (blau) aufweist.
Danach wird für jeden Teil die Stichprobenvarianz der Residuen für i=1,2 bestimmt (mit ) und der Prüfwert mittels einem kritischen Wert aus der F-Verteilung verglichen.
Mathematische Formulierung
Voraussetzung
Im klassischen Regressionsmodell gilt bzw. mit und . Der Test reagiert sensitiv auf Verletzungen der Normalverteilung der Residuen.
Hypothesen und Teststatistik
Die Hypothesen lauten
- (Homoskedastizität) vs. (Heteroskedastizität).
Die Verteilung der Teststatistik ergibt sich als
mit die Anzahl der Beobachtungen in der ten Teil und die Anzahl der geschätzen Regressionsparammeter sowie
- .
Die Nullhypothese (Homoskedastizität) wird verworfen, wenn der Prüfwert größer als der kritische Wert aus der F-Verteilung mit und Freiheitsgraden.
Beispiel
Variable | Bedeutung |
---|---|
medv | Mittlerer Kaufpreis in 1000 US$ |
lstat | Anteil Unterschichtbevölkerung |
rm | Durchschnittliche Raumzahl |
dis | Gewichtete Entfernung zu den fünf wichtigsten Beschäftigtenzentren |
Für das Beispiel wurden lineare Regressionen mit dem Boston Housing Datensatz durchgeführt. Für jeden der 506 Bezirke wurden die rechts stehenden Variablen erhoben und eine lineare Regression durchgeführt:
- .
Plottet man die Residuen gegen die Variable dis (Grafik oben) so sieht man, dass die Varianz der Residuen abnimmt, wenn die Werte von dis zunehmen. Man teilt die Daten nun in zwei Teile: den roten und den blauen Teil. Dann fittet man zwei Regressionsmodelle und berechnet die Summe der quadrierten Residuen.
Rot Blau
Dann ergibt sich der Prüfwert zu und der kritische Wert für ein Signifikanzniveau aus der F-Verteilung mit 108 und 45 Freiheitsgraden zu . Da der Prüfwert größer ist als der kritische Wert muß die Nullhypothese der Homoskedastizität abgelehnt werden.
Einzelnachweise
Literatur
Griffiths, William E. / Hill, R. Carter / Judge, George G.: Learning and Practicing Econometrics, 1. Auflage, 1993, Seite 494 ff., ISBN 0471513644