„Lineare Paneldatenmodelle“ – Versionsunterschied
[gesichtete Version] | [gesichtete Version] |
SEM (Diskussion | Beiträge) |
SEM (Diskussion | Beiträge) Keine Bearbeitungszusammenfassung |
||
Zeile 1: | Zeile 1: | ||
{{Dieser Artikel| behandelt Fixed-Effects und Random-Effects-Modelle in Verbindung mit Paneldaten. Für die bei der Metanalyse verwedenten gleichnamigen Modelle siehe [[Fixed-Effect- und Random-Effects-Modelle (Metaanalyse)]]}} |
|||
Als '''Fixed-Effects-''' und '''Random-Effects-Modelle''' bezeichnet man verfeinerte Verfahren der linearen [[Regressionsanalyse]], die in Verbindung mit [[Paneldaten]] verwendet werden können (siehe auch [[Paneldatenanalyse]]). Die beiden Modelle erlauben eine im Vergleich zur [[Methode der kleinsten Quadrate]] bessere [[Schätzmethode (Statistik)|Schätzung]], wenn neben den beobachteten erklärenden Variablen individuelle, über Zeit konstante [[Heterogenität (Naturwissenschaft)|Heterogenität]] besteht. |
Als '''Fixed-Effects-''' und '''Random-Effects-Modelle''' bezeichnet man verfeinerte Verfahren der linearen [[Regressionsanalyse]], die in Verbindung mit [[Paneldaten]] verwendet werden können (siehe auch [[Paneldatenanalyse]]). Die beiden Modelle erlauben eine im Vergleich zur [[Methode der kleinsten Quadrate]] bessere [[Schätzmethode (Statistik)|Schätzung]], wenn neben den beobachteten erklärenden Variablen individuelle, über Zeit konstante [[Heterogenität (Naturwissenschaft)|Heterogenität]] besteht. |
||
* Im Random-Effects-Modell wird davon ausgegangen, dass diese Heterogenität [[Exogenität|exogen]] ist. Vergleicht man den Random-Effects-Schätzer mit der Methode der kleinsten Quadrate, so sind beide Schätzer [[Konsistenz (Statistik)|konsistent]], der Random-Effects-Schätzer ist jedoch zusätzlich noch [[Effizienz (Statistik)|effizient]]. |
* Im Random-Effects-Modell wird davon ausgegangen, dass diese Heterogenität [[Exogenität|exogen]] ist. Vergleicht man den Random-Effects-Schätzer mit der Methode der kleinsten Quadrate, so sind beide Schätzer [[Konsistenz (Statistik)|konsistent]], der Random-Effects-Schätzer ist jedoch zusätzlich noch [[Effizienz (Statistik)|effizient]]. |
Version vom 19. Dezember 2011, 13:09 Uhr
Als Fixed-Effects- und Random-Effects-Modelle bezeichnet man verfeinerte Verfahren der linearen Regressionsanalyse, die in Verbindung mit Paneldaten verwendet werden können (siehe auch Paneldatenanalyse). Die beiden Modelle erlauben eine im Vergleich zur Methode der kleinsten Quadrate bessere Schätzung, wenn neben den beobachteten erklärenden Variablen individuelle, über Zeit konstante Heterogenität besteht.
- Im Random-Effects-Modell wird davon ausgegangen, dass diese Heterogenität exogen ist. Vergleicht man den Random-Effects-Schätzer mit der Methode der kleinsten Quadrate, so sind beide Schätzer konsistent, der Random-Effects-Schätzer ist jedoch zusätzlich noch effizient.
- Das Fixed-Effects-Modell und die dafür entwickelten Schätzer dagegen erlauben sogar dann eine konsistente Schätzung, wenn die unbeobachtete Heterogenität endogen ist.
Kleinste-Quadrate-Schätzung in Paneldaten
In Paneldatensätzen werden Variablen von der gleichen Beobachtungseinheit für mehrere Zeitperioden erhoben, sodass insgesamt Beobachtungen zur Verfügung stehen. Ein grundsätzliches Modell könnte hierbei wie folgt aussehen:[1]
wobei einen Vektor darstellt, der die erklärenden Variablen enthält; und sind die zu erklärenden Koeffizienzen und stellt einen Fehlerterm dar. Dieses Modell kann so nicht geschätzt werden, da es zu viele zu schätzende Koeffizienten enthält.[2] Die klassische Kleinste-Quadrat-Schätzung (auch OLS-Schätzung für ordinary least squares) nimmt deswegen vereinfachend an, dass alle Koeffizienten über die Zeit und über Individuen konstant sind:[3]
Dieses Modell ist, wenn es auf Paneldaten angewandt wird, auch als Pooled OLS bekannt. Damit der Effekt der erklärenden Variablen auf konsistent geschätzt werden kann, muss darüber hinaus angenommen werden, dass die erklärenden Variablen und die Fehlerterme unkorreliert sind:[4]
Random- und Fixed-Effects-Modelle erlauben es, von der Annahme ausschließlich konstanter Koeffizienten abzuweichen und ein Modell der Form
zu schätzen. Dieses Modell wird auch als Modell mit Individuen-spezifischen Effekten (individual-specific effects model)[5] oder Modell für unbeobachtete Effekte (unobserved effects model)[6] bezeichnet. Die Terme sind unter anderem als "unbeobachtete Heterogenität", "latente Variable" oder "individuelle Heterogenität" bekannt.[7] Der Unterschied zwischen Random- und Fixed-Effects-Modell besteht in der unterstellten Korrelation zwischen den erklärenden Variablen und der unbeobachteten Heterogenität.
Random-Effects-Modell
Grundgedanke
Das Random-Effects-Modell (zur Abgrenzung manchmal auch random intercept model[8] genannt) macht die Annahme, dass die unbeobachtete Heterogenität orthogonal zu den erklärenden Variablen steht:
wobei einen -dimensionalen Vektor darstellt. Darüber hinaus muss auch strikte Exogenität des Fehlerterms angenommen werden:
Unter diesen Annahmen kann die individuelle Heterogenität als ein weiterer Fehlerterm gesehen werden, d.h. das zu schätzende Modell kann umgeschrieben werden als
mit
Aufgrund der obigen Annahmen ist dann für .[10] Das Random-Effects-Modell erfüllt also die Anforderung, dass der Fehlerterm der Regression und die erklärenden Variablen unkorreliert sind. Aus diesem Grund würde eine klassische Kleinste-Quadrate-Schätzung zu konsistenten Schätzern für führen. Aufgrund der individuellen Heterogenität erfüllt das Random-Effects-Modell allerdings die Annahme der Unkorreliertheit der Fehlerterme nicht. Selbst wenn
und
Konstanten sind und die idiosynkratischen Fehlerterme unkorreliert sind (, ), wird zwischen den zusammengesetzten Fehlertermen des gleichen Individuums für verschiedene Zeitpunkte eine Korrelation bestehen:
Aus diesem Grund wird die Varianz-Kovarianzmatrix eine -Matrix sein, gegeben durch
wobei die einzelnen Diagonalelemente gegeben sind durch -Matrizen
ist also keine Diagonalmatrix, sondern eine Blockdiagonalmatrix. Die besondere Struktur mit nur zwei Parametern ( und ) wird auch als Random-Effects-Struktur bezeichnet.[12] Eine Matrix mit der Random-Effects-Struktur erfüllt die für den Satz von Gauß-Markov zentrale Annahme der Unkorreliertheit der Fehleterme (die eine diagonale Varianz-Kovarianzmatrix mit konstantem Diagonalelement erfordert) nicht. Die gewöhnliche Kleinste-Quadrat-Schätzung (OLS) ist im Random-Effects-Modell deswegen nicht notwendigerweise effizient. Darüber hinaus sind die auf Basis der normalen OLS-Schätzung geschätzten Standardfehler nicht korrekt (da dabei die Korrelation über Zeit ignoriert wird). Für Inferenz und Hypothesentests müssten die Standardfehler also angepasst werden.[13]
Der Random-Effects-Schätzer
Der Random-Effects-Schätzer („RE estimator“) schafft an dieser Stelle Abhilfe. Konkret handelt es sich dabei um den auf das Random-Effects-Modell angewandten „Feasible Generalised Least Squares“-Schätzer. Hierbei wird das zugrunde liegende Modell zunächst mit einer normalen OLS-Regression geschätzt, die, wie oben ausgeführt, zu konsistenten Schätzern führt. Auf Basis dieser OLS-Regression und ihrer Residuen können dann konsistente Schätzer und berechnet[14] und mit ihnen eine geschätzte Varianz-Kovarianzmatrix konstruiert werden. wird dann benutzt, um das zugrundeliegende Modell zu transformieren:
Anschließend wird dieses transformierte Modell wieder mit einer OLS-Schätzung geschätzt, woraus sich der FGLS bzw. RE-Schätzer ergibt:
Der Random-Effects-Schätzer als Mitglied der FGLS-Familie weist auch die gleichen wünschenswerten Eigenschaften wie andere FGLS-Schätzer auf: Er ist asymptotisch äquivalent zum GLS-Schätzer und deswegen asymptotisch effizient.[16] Zur einfachen Implementierung des RE-Schätzers kann bei modernen Statistik-Programmen wie z.B. Stata auf bereits programmierte Routinen zurückgegriffen werden.
Beispiel und potentielle Probleme des Random-Effects-Schätzers

Das Random-Effects-Modell erlaubt, wie beschrieben, die Schätzung eines Modelles mit individueller Heterogenität, sofern diese nicht mit den anderen erklärenden Variablen korreliert ist. Falls jedoch , so ist der Random-Effects-Schätzer (genau wie der normale OLS-Schätzer) inkonsistent. Ein intuitives Beispiel für die damit einhergehende Problematik kann in der Arbeitsökonomik gefunden werden: Eine wichtige Frage in diesem Teilbereich der Ökonomie ist, welche Einfluss Bildung auf das Einkommen einer Person hat.[17] Eine mögliche Regression wäre also
wobei einen Vektor mit zusätzlichen Kontrollvariablen wie Alter, Erfahrung u.ä. darstellt. wird hierbei alle Effekte auffangen, die bei einem Individuum über Zeit konstant sind und nicht in die Regression mit aufgenommen werden können. Ein Beispiel hierfür ist die Fähigkeit („ability“) der beobachteten Individuen. Die Konsistenz des Random-Effects-Schätzers erfordert also, dass die Fähigkeit einer Person nicht mit ihrer Bildung korreliert ist- eine Annahme, die wohl eher nicht erfüllt sein wird. Hier wird ersichtlich, dass die zugrunde liegenden Annahmen des RE-Schätzers sehr stark und insbesondere in mikroökonometrischen Analysen oft verletzt sind. Der RE-Schäzer wird dort deswegen eher selten verwedent.[18]
Weitere konsistente Schätzer im Random-Effects-Modell
Wie eingangs ausgeführt, führt eine normale OLS-Schätzung im Random-Effects-Modell nicht zur effizienten Schätzung und erfordert eine Anpassung der Standardfehler. Unter den Random-Effects-Annahmen ist OLS aber nach wie vor konsistent. Ein weiterer konsistenter Schätzer im Random-Effects-Modell ist der sogenannte „Between-Schätzer“. Dabei wird durch Bildung von Mittelwerten eine Art Querschnittsstruktur erzeugt:
wobei alle Mittelwerte über die Zeit berechnet wurden, also z.B. . Berechnet wird der Between-Schätzer dann durch eine OLS-Schätzung des in Mittelwerten ausgedrückten Modelles. Er ist konsistent, falls und der zusammengesetzte Fehlerterm unkorreliert sind. Im Random-Effects-Modell ist dies aufgrund der Orthogonalitätsannahme
der Fall und der Between-Schätzer folglich konsistent.[19]
Fixed-Effects-Modelle
Der Fixed-Effects/Within-Schätzer
Das Fixed-Effects-Modell (kurz FE-Modell) und darauf aufbauende Schätzer ermöglichen es, auch dann die kausalen Effekte der erklärenden Variablen konsistent zu schätzen, wenn die individuelle, zeitkonstante Heterogenität mit den erklärenden Variablen korreliert ist. Ziel ist es, Veränderungen innerhalb von Individuen-Merkmalen über die Zeit zu messen (daher auch Within-Schätzer genannt). Effekte zwischen Personen werden ignoriert (das Gegenteil macht der Between-Schätzer). Das zugrundeliegende Modell sei wiederum
Weiterhin gelte die Annahme der strikten Exogenität in Bezug auf , d.h.
Im Gegensatz zum Random-Effects-Modell kann jedoch sein. Trifft dies zu, so ist
und eine gewöhnliche OLS- oder RE-Schätzung wird in diesem Fall nicht konsistent sein.
Eine Abhilfe ist der sogenannte Fixed-Effects-Schätzer (manchmal auch Within Estimator[20]). Die Idee hierbei ist, die über die Zeit konstante, individuums-spezifische Heterogenität dadurch zu eliminieren, dass von jeder Beobachtung der individuums-spezifische Durchschnitt über die Zeitperioden subtrahiert wird. Das zu schätzende Modell wird also zu
wobei (und analog für die anderen Variablen) gilt. Da gilt, fällt die individuums-spezifische Heterogenität (der „fixe Effekt“) aus dem Modell heraus.[21] Der FE-Schätzer ergibt sich dann durch eine gewöhnliche OLS-Schätzung des transformierten Modelles. Der FE- oder Within-Schätzer ist konsistent: Da , ist im transformierten Modell , d.h. die Fehlerterme und ihre Zeitmittelwerte sind nicht mit den erklärenden Variablen und ihren Zeitmittelwerten korreliert. Unter der Annahme, dass die Fehlerterme für eine Beobachtungseinheit über die Zeit hinweg eine konstante Varianz haben und nicht miteinander korreliert sind, ist der Within-Schätzer auch effizient.[22]
Weiter kann gezeigt werden, dass der Within-Schätzer asymptotisch normalverteilt ist. Unter der Annahme von Homoskedastie und keiner Autokorrelation der Fehlerterme kann die asymptotische Varianz des Schätzers berechnet werden als
Dabei ist die Varianz des Fehlerterms u, . Zur Schätzung der Varianz wird dann lediglich noch ein konsistenter Schätzer der Fehlertermvarianz benötigt. Ein solcher ist gegeben durch
Falls von der Homoskedastie-Annahme abgewichen werden soll, kann die Varianz auch durch einen „robusten“ Schätzer geschätzt werden. Dieser ist im Falle des Within-Schätzers
[23]. Auf Basis der geschätzten Varianz können dann Hypothesentests durchgeführt und Konfidenzintervalle berechnet werden.
Alternativen zum Within-Schätzer
Anstatt der geschilderten Transformation des Modells durch Subtraktion der individuellen Durchschnitte über die Zeit, können auch andere Schätzer verwendet werden. Der sogenannte Least Squares Dummy Variable-Schätzer beispielsweise fügt den erklärenden Variablen des Modells noch Dummy-Variablen für jede Beobachtungseinheit hinzu; anschließend wird eine gewöhnliche OLS-Schätzung dieses erweiterten Modells durchgeführt. Mithilfe des Frisch-Waugh-Lovell-Theorems lässt sich zeigen, dass die daraus resultierenden Schätzer für die -Koeffizienten identisch zu denen des FE-Schätzers sind. Darüber hinaus ergibt die LSDV-Regression auch Schätzungen für die individuellen Terme . Diese sind allerdings nur dann konsistent, wenn die Anzahl der Zeitperioden groß ist.[24]
Eine weitere Möglichkeit, das Problem der individuellen Heterogenität mit Hilfe von Paneldaten zu umgehen, ist die Differenzenbildung, die zum First-Differences-Schätzer führt. Dabei wird von jeder Beobachtung die zeitlich eine Periode vorhergehende Beobachtung abgezogen:
Da die individuelle Heterogenität als über die Zeit konstant angenommen wird, fällt sie hierbei heraus, und das Modell in Differenzen kann durch eine normale OLS-Schätzung geschätzt werden. Falls angenommen wird, dass die Fehlerterme in der Regression homoskedastisch und über die Zeit unkorreliert ist, ist der Within-Schätzer effizienter als der First-Differences-Schätzer. Unter der schwächeren Annahme, dass die ersten Differenzen der Fehlerterme über die Zeit unkorreliert sind, ist dagegen der First-Differences-Schätzer effizienter.[25]
Potentielle Probleme
Ein weit verbreitetes Problem bei Schätzern im Fixed-Effects-Modell besteht, falls die zugrunde liegenden Daten mit einem Messfehler erhoben wurden. Fehlerbehaftete Datenerhebungen sind auch in normalen OLS-Schätzungen auf Basis von Querschnittsdaten ein Problem, das zu inkonsistenter Schätzung führen kann. In einem Modell in Abweichungen vom Mittelwert kann sich diese Fehlerbehaftung noch verstärken.[26] Als Beispiel hierfür kann eine Studie des amerikanischen Ökonomen Richard B. Freeman aus dem Jahr 1984 genannt werden. Zu dieser Zeit wurden Fixed-Effects-Schätzungen oft verwendet, um den kausalen Effekt einer Gewerkschaftsmitgliedschaft auf den Verdienst eines Arbeitnehmers zu schätzen. Die zugrundeliegende Argumentation war, dass Arbeitnehmer, die einer Gewerkschaft beitreten, sich auch in anderen, unbeobachtbaren Eigenschaften von den Arbeitnehmern unterscheiden, die nicht Mitglied einer Gewerkschaft sind. Aufgrund dieser vermuteten systematischen Unterschiede boten sich Paneldaten und Fixed-Effects-Schätzer geradezu an. Freemans Ergebnisse zeigten jedoch, dass die Fixed-Effects-Ergebnisse aufgrund von fehlerbehafteten Datenerhebungen nach unten verzerrt sind, während gewöhnliche OLS-Schätzungen auf Basis von Querschnittsdaten nach oben verzerrt sind; beide Techniken ermöglichen in diesem Fall also keine konsistente Schätzung, jedoch können die Fixed-Effects-Ergebnisse als untere Grenze, die OLS-Ergebnisse als obere Grenze für den zugrundeliegenden Effekt angesehen werden.[27]
Eine mögliche Abhilfe für Probleme aufgrund von fehlerbehafteten Datenerhebungen ist das Anwenden einer Instrumentvariablenstrategie.[28] Wenn es zum Beispiel zwei Messungen einer Variablen gibt, kann eine hiervon als Instrument für die zweite Messung verwendet werden, was dann eine konsistente Schätzung des Effektes der doppelt gemessenen Variablen erlaubt.[29]
Ein weiteres Problem ist, dass die Berechnung auf Basis von Abweichungen vom Mittelwert nicht nur die unbeobachtbare individuelle Heterogenität bereinigt, sondern auch einen Teil der Variation in den erklärenden Variablen entfernt – es wird also sowohl „gute“ als auch „schlechte“ Variation aus dem Modell entfernt.[30] Am deutlichsten wird dies bei erklärenden Variablen, die über die Zeit konstant sind: Diese werden vom Within-Schätzer oder dem Differenzen-Schätzer komplett aus der Schätzgleichung entfernt.[31]
In sogenannten dynamischen Paneldatenmodellen ist die erklärte Variable in zeitverzögerter Form zugleich erklärte Variable, z.B. als
In einem solchen Modell ist auch mit dem Within-Schätzer keine konsistente Schätzung möglich. Da und korreliert sind, ist auch mit korreliert, sodass im transformierten Modell des Within-Schätzers eine Korrelation zwischen den transformierten erklärten Variablen und den transformierten Fehlertermen besteht.[32] In solchen Fällen muss deswegen auf dynamische Panel-Schätzverfahren zurückgegriffen werden.
Vergleich von Fixed-Effects- und Random-Effects-Modell
Die Entscheidung, ob der Random-Effects-Schätzer oder der Fixed-Effects/Within-Schätzer (oder ein verwandter) angewandt werden soll, hängt von der Natur des zu Grunde liegenden Modells ab. Falls das zu Grunde liegende Modell die Fixed-Effects-Struktur (also eine Korrelation zwischen individueller Heterogenität und erklärenden Variablen) aufweist, so ist der Within-Schätzer konsistent und der Random-Effects-Schätzer inkonsistent. Besteht dagegen eine Random-Effects-Struktur, so sind sowohl Within- als auch Random-Effects-Schätzer konsistent, aber der Random-Effects-Schätzer ist effizienter, hat also eine kleinere Varianz und erlaubt damit eine genauere Schätzung. Für die Entscheidung, welches Modell vorliegt, besteht die Möglichkeit des Hausman-Testes. Dabei werden die Unterschiede zwischen den beiden Schätzern verglichen; fallen diese statistisch betrachtet groß aus, so wird dies als Anzeichen für das Vorliegen eines Fixed-Effects-Modell angesehen.[33]
Weblinks
- Fixed and random effects models
- Distinguishing Between Random and Fixed: Variables, Effects, and Coefficients
- How to Conduct a Meta-Analysis: Fixed and Random Effect Models
Literatur
- Joshua D. Angrist und Jörn-Steffen Pischke: Mostly Harmless Econometrics: An Empiricist's Companion, Princeton University Press, 2008
- A. Colin Cameron und Pravin K. Trivedi: Microeconometrics- Methods and Applications, Cambridge University Press, 2005, ISBN 0521848059, insb. Kapitel 21
- Ronald Christensen: Plane Answers to Complex Questions: The Theory of Linear Models. Third Auflage. Springer, New York 2002, ISBN 0-387-95361-2.
- FAQ:What is the between estimator? Abgerufen am 5. Oktober 2011.
- FAQ: Fixed-, between-, and random-effects and xtreg. Abgerufen am 5. Oktober 2011.
- Jeffrey M. Wooldridge: Econometric Analysis of Cross Section and Panel Data: Second Edition, Cambridge: MIT Press, 2002, insb. Kapitel 10
Einzelnachweise
- ↑ Cameron & Trivedi, 2005, S.698
- ↑ Es müssten schon alleine verschiedene alphas geschätzt werden, und dazu noch verschiedene betas.
- ↑ Cameron & Trivedi, 2005, S.699
- ↑ Cameron & Trivedi, 2005, S. 702
- ↑ Cameron & Trivedi, 2005, S. 700
- ↑ Wooldridge, 2002, S. 251
- ↑ Wooldridge, 2002, S. 251
- ↑ Cameron & Trivedi, 2005, S. 700
- ↑ Wooldridge, 2002, S. 257
- ↑ Wooldridge, 2002, S. 258
- ↑ Wooldridge, 2002, S. 258f.
- ↑ Wooldridge, 2002, S. 259
- ↑ Cameron & Trivedi, 2005, S.703
- ↑ Für die genaue Berechnung siehe Wooldridge, 2002, S. 260f.
- ↑ Cameron & Trivedi, 2005, S. 81f.
- ↑ Wooldridge, 2002, S. 260
- ↑ Für einen Überblick hierzu, siehe u.a. David Card: Estimating the Return to Schooling: Progress on Some Persistent Econometric Problems, Econometrica, 69.5, September 2001, S. 1127–1160
- ↑ Cameron & Trivedi, 2002, S. 702
- ↑ Cameron & Trivedi, 2005, S. 703
- ↑ Cameron & Trivedi, 2005, S. 726
- ↑ Cameron & Trivedi, 2005, S.726
- ↑ Wooldridge, 2002, S. 269f.
- ↑ Cameron & Trivedi, 2005, S. 727
- ↑ Cameron & Trivedi, 2005, S. 732f.
- ↑ Wooldridge, 2002, S. 279–281
- ↑ Angrist & Pischke, 2009, S. 225
- ↑ Richard B. Freeman: Longitudinal Analyses of the Effects of Trade Unions, Journal of Labor Economics, 2.1, Januar 1984, S. 1–26
- ↑ Angrist & Pischke, 2009, S. 226f.
- ↑ Für Beispiele hiefür siehe z.B. Orley Ashenfelter & Alan B. Krueger: Estimates of the Economic Returns to Schooling from a New Sample of Twins, American Economic Review, 84.5, 1994, S. 1157–1173 oder Andreas Ammermüller & Jörn-Steffen Pischke: Peer Effects in European Primary Schools: Evidence from the Progress in International Reading Literacy Study, Journal of Labor Economics, 27.3, 2009, S. 315–348
- ↑ Angrist & Pischke, 2009, S. 226
- ↑ Wooldridge, 2002, S. 266
- ↑ Cameron & Trivedi, 2005, S. 763f.
- ↑ Wooldridge, 2002, S. 288