Regressionsanalyse

Die Regressionsanalyse ist eine Sammlungen von statistischen Analyseverfahren. Ziel ist es, Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen festzustellen.

Geschichte

Die früheste Form der Regression war die Methode_der_kleinsten_Quadrate (frz.: méthode des moindres carrés), veröffentlicht von Legendre in 1805,^[1] und von Gauss im Jahr 1809.^[2] Legendre und Gauss verwendeten beide die Methode, um die Umlaufbahnen der Planeten um die Sonne anhand von astronomischen Beobachtungen zu bestimmen. Gauss veröffentlichte eine Weiterentwicklung der Theorie der kleinsten Quadrate im Jahr 1821,^[3] die eine Version des Gauss–Markov theorems enthielt.

Der Begriff "Regression" wurde im 19. Jahrhundert geprägt von Francis Galton, einem Cousin von Charles Darwin. Er beschrieb damit ein biologisches Phänomen, bekannt als Regression_zur_Mitte wonach Nachfahren großer Eltern dazu tendieren, durchschnittlich groß zu werden. ^[4] ^[5] Für Galton hatte Regression nur diese biologische Bedeutung.^[6]^[7]. Seine Arbeit wurde jedoch später in einen allgemeineren statistischen Kontext gesetzt durch Udny Yule und Karl Pearson. ^[8] ^[9]. In den Arbeiten von Yule und Pearson wurde davon ausgegangen, dass die gemeinsame Verteilung der unabhängigen und der abhängigen Variablen normalverteilt ist. Diese Annahme konnte von R.A. Fisher später abgeschwächt werden. ^[10] ^[11] ^[12]. Fisher arbeitete mit der Voraussetzung, dass die bedingte Verteilung der abhängigen Variable normalverteilt ist, die gemeinsame Verteilung jedoch nicht notwendigerweise. In dieser Hinsicht war Fishers Ansatz ähnlicher zu Gauss' Formulierung von 1821.

Regressionsverfahren sind weiterhin ein aktives Forschungsgebiet. In den letzten Jahrzehnten wurden Methoden entwickelt u.a. für robuste Regression, nicht-parametrische Regression, Bayessche Ansätze, Regression bei fehlenden Daten und Regression mit fehlerbehafteten unabhängigen Variablen.

Grundbegriffe

Deskriptive Regression

Im Falle einer deskriptiven Regression wird angenommen, dass die Zusammenhänge zwischen $x$ und den Beobachtungen $Y$ deterministisch sind, also nicht vom Zufall abhängen. Dieser Fall lässt sich als $Y=f(x)$ darstellen, wobei die Funktion $f$ nicht oder nicht vollständig bekannt ist. Bei diesen deskriptiven Verfahren wird vor allem Wert auf den numerischen Aspekt der Regression gelegt. Das typische Instrument zur Analyse ist dabei die Methode der kleinsten Quadrate.

Wahrscheinlichkeitstheoretische Regression

Im Falle der wahrscheinlichkeitstheoretisch basierten Regression sind die beobachteten Variablen mit einem zufälligen Fehler $\varepsilon$ behaftet, dieser Fall wird durch $Y=f(x)+\varepsilon \;$ modelliert. Die „wahren“ Zusammenhänge zwischen $Y$ und $f(x)$ sind demnach nicht bekannt und müssen geschätzt oder prognostiziert werden. Entsprechend wird dieses statistische Regressionsmodell anhand von Schätz- und Testverfahren analysiert. Dennoch liegen der wahrscheinlichkeitstheoretisch basierten Regressionsanalyse immer die numerischen Verfahren der deskriptiven Regression zu Grunde.

In diesem Artikel soll vor allem auf die wahrscheinlichkeitstheoretisch basierte lineare Regression eingegangen werden.

Variablenbezeichnung

In der Regressionsanalyse unterscheidet man zwischen interessierenden und erklärenden Variablen.

Die interessierende Variable $Y\;$ wird Kriterium, abhängige Variable, Response-Variable, endogene Variable, Regressand oder Zielvariable und
die erklärenden Variablen $x\;$ werden unabhängige Variablen, Prädiktor-Variablen, exogene Variable, Regressoren oder Kovariablen genannt.

Es ist a priori nicht klar, welche Variablen erklärend und welche interessierend sind. Typischerweise wählt man diejenige Variable als Response, die eine natürliche Variabilität aufweist. Das Ziel der Regression ist es somit zu bestimmen, wie die interessierende Variable (Response) von den erklärenden Variablen (Kovariablen) abhängt.

Ein einfaches Beispiel ist die Darstellung des Körpergewichts in kg (hier: $Y$ ) in Abhängigkeit von der Körpergröße in cm (hier: $x$ ). Man sieht, dass der Response $Y$ und die Kovariable $x$ nicht vertauschbar sind, da die Körpergröße nicht durch Gewichtszunahme ansteigt.

Zusammenhangsarten zwischen Variablen

Man verwendet zur Beschreibung eines Zusammenhangs zwischen der abhängigen Variable $Y$ und der (oder den) unabhängigen Variablen $x$ unterschiedliche Funktionen. Diese unterscheiden sich in ihrer Komplexität. Lineare Funktionen, das heißt durch Geraden gegebene Funktionen, sind dabei die einfachsten funktionalen Zusammenhänge. In diesem Fall wird angenommen, dass das interessierende Merkmal $Y$ gut durch eine lineare Kombination anderer Merkmale $x$ erklärt werden kann (lineare Regression). Die Gewichtung der Einflüsse der erklärenden Merkmale wird dabei aus Daten geschätzt. Ein lineares Regressionsmodell hat den Vorteil, dass es zum Beispiel mittels kleinster Quadrate exakt berechnet werden kann. Betrachtet man den Fall mit nur einer unabhängigen Variablen, so spricht man von linearer Einfachregression.

Nichtlineare Systeme müssen dagegen meist näherungsweise gelöst werden. Häufig können diese Regressionsmodelle dann nicht mehr wahrscheinlichkeitstheoretisch analysiert werden. Solche Regressionen sind beispielsweise die Geometrische Regression, Exponentielle Regression oder Potenzielle Regression. Bei der Logarithmischen Regression, welche nicht mit der Logistischen Regression zu verwechseln ist, arbeitet man, wie der Name bereits vermuten lässt, mit folgendem Ansatz für die Regression:

Y=\beta _{0}+\beta _{1}\log {x}+\varepsilon \;

.

Die gängigen Statistik-Software-Pakete bieten diese Berechnungen heute automatisiert.

Dies kann für den Fall mit mehreren exogenen Variablen erweitert werden, wobei diese wiederum von mehreren abhängigen Variablen erklärt werden. Die abhängigen Variablen der einen Gleichung können hierbei als erklärende Variablen in einer anderen Gleichung erscheinen. $Y$ und $X$ werden dann durch Vektoren dargestellt (Ökonometrisches Modell).

Einfache Lineare Regression

Ein Spezialfall von Regressionsmodellen sind lineare Modelle. Hierbei spricht man von der einfachen linearen Regression, und die Daten liegen in der Form $(y_{i},x_{i}),i=1,\ldots ,n$ vor. Als Modell wählt man

Y_{i}=\beta _{0}+\beta _{1}x_{i}+\varepsilon _{i}\;,

man nimmt somit einen linearen Zusammenhang zwischen $x_{i}$ und $Y_{i}$ an. Die Daten $y_{i}$ werden als Realisierungen der Zufallsvariablen $Y_{i}$ angesehen, die $x_{i}$ sind nicht stochastisch, sondern Messstellen. Ziel der Regressionsanalyse ist in diesem Fall die Bestimmung der unbekannten Parameter $\beta _{0}$ und $\beta _{1}$ .

Annahmen

Damit die Regressionsschätzungen inferentiell analysiert werden können, müssen für das lineare Regressionsmodell bestimmte Annahmen erfüllt sein:

1. Bezüglich der Störgröße $\varepsilon _{i}$

Der Zufallsvektor ${\underline {\varepsilon }}=(\varepsilon _{1},\ldots ,\varepsilon _{n})^{T}$ ist verteilt mit dem Erwartungswertvektor $0$ , d.h. $\operatorname {E} ({\underline {\varepsilon }})=0$ .
Die Zufallsvariablen $\varepsilon _{i}$ sind stochastisch unabhängig voneinander d. h. $\Sigma _{\varepsilon }={\mbox{Cov}}({\underline {\varepsilon }})=\sigma ^{2}I_{n}\;$ , wobei $I_{n}$ die $n$ dimensionale Einheitsmatrix bezeichnet. Dies kann man genauer auch schreiben als

{\mbox{Cov}}(\varepsilon _{i},\varepsilon _{j})=\delta _{ij}\sigma ^{2},i=1,\ldots ,n\;

,

wobei

\delta _{ij}

das Kronecker-Delta bezeichnet. Hierbei gilt

\delta _{ij}={\begin{cases}1&{\mbox{falls}}\ i=j\\0&{\mbox{sonst}}\end{cases}}

,

das heißt die Fehler sind unkorreliert mit homogener Varianz.

2. Die Datenmatrix ${\underline {X}}$ , welche im Abschnitt zur multiplen Regression explizit angegeben ist, ist fest vorgegeben.

3. Die Datenmatrix ${\underline {X}}$ hat den Rang $(p+1)$ .

In der ersten Annahme haben also alle $\varepsilon _{i}$ die gleiche Varianz (Homoskedastizität) und sie sind paarweise unkorreliert. Man interpretiert dies so, dass die Störgröße keinerlei Information enthalten darf und nur zufällig streut. Deshalb kann $Y$ nur durch Informationen aus ${\underline {X}}$ erklärt werden.
Die zweite Annahme hält ${\underline {X}}$ konstant.
Die dritte Annahme ist für eine eindeutige Lösung des Regressionsproblems erforderlich.

Beispiel

Hier wird die einfache lineare Regression anhand eines Beispiels dargestellt.

Eine renommierte Sektkellerei möchte einen hochwertigen Rieslingsekt auf den Markt bringen. Für die Festlegung des Abgabepreises soll zunächst eine Preis-Absatz-Funktion ermittelt werden. Dazu wurde in $n=6$ Geschäften ein Testverkauf durchgeführt. Man erhielt sechs Wertepaare mit dem Ladenpreis $x$ (in Euro) einer Flasche und die verkaufte Menge $y$ an Flaschen:

Laden	i	1	2	3	4	5	6
Preis einer Flasche	$x_{i}$	20	16	15	16	13	10
verkaufte Menge	$y_{i}$	0	3	7	4	6	10

Als Streudiagramm von Preis und abgesetzter Menge an Sektflaschen ergibt sich folgende Grafik.

Berechnung der Regressionsgeraden

Man geht von folgendem statistischen Modell aus:

Man betrachtet zwei Variablen $Y$ und $x$ , die vermutlich ungefähr in einem linearen Zusammenhang

Y\approx \alpha +\beta x

stehen. Auf die Vermutung des linearen Zusammenhangs kommt man, wenn man das obige Streudiagramm betrachtet, dort erkennt man, dass die eingetragenen Punkte nahezu auf einer Linie liegen. Im Weiteren sind $x$ als unabhängige und $Y$ als abhängige Variable definiert. Es existieren von $x$ und $y$ je $n$ Beobachtungen $x_{i}$ und $y_{i}$ , wobei $i$ von 1 bis $n$ geht. Der funktionale Zusammenhang $Y=f(x)$ zwischen $x$ und $Y$ kann nicht exakt festgestellt werden, da $\alpha +\beta x$ von einer Störgröße $\varepsilon$ überlagert wird. Diese Störgröße ist als Zufallsvariable (der Grundgesamtheit) konzipiert, die nichterfassbare Einflüsse (menschliches Verhalten oder Messungenauigkeiten oder ähnliches) darstellt. Es ergibt sich also das Modell

Y=\alpha +\beta x+\varepsilon \;

oder genauer

y_{i}=\alpha +\beta x_{i}+\varepsilon _{i}\,.

Da $\alpha$ und $\beta$ nicht bekannt sind, kann $y$ nicht in die Komponenten $\alpha +\beta x$ und $\varepsilon$ zerlegt werden. Des Weiteren soll eine mathematische Schätzung für die Parameter $\alpha$ und $\beta$ durch $a$ und $b$ gefunden werden, damit ergibt sich

y_{i}=a+bx_{i}+e_{i}\,

mit dem Residuum $e_{i}$ der Stichprobe. Das Residuum gibt die Differenz zwischen der Regressionsgerade $a+bx_{i}$ und den Messwerten $y_{i}$ an. Des Weiteren bezeichnet man mit ${\hat {y}}_{i}$ den Schätzwert für $y_{i}$ und es gilt

{\hat {y}}_{i}=a+bx_{i}

und somit kann man das Residuum schreiben als

e_{i}=y_{i}-{\hat {y}}_{i}

.

Es gibt verschiedene Möglichkeiten, die Gerade zu schätzen. Man könnte eine Gerade so durch den Punkteschwarm legen, dass die Quadratsumme der Residuen, also der senkrechten Abweichungen $e_{i}$ der Punkte von dieser Ausgleichsgeraden minimiert wird. Trägt man die wahre unbekannte und die geschätzte Regressionsgerade in einer gemeinsamen Grafik ein, dann ergibt sich folgende Abbildung.

Wahre unbekannte und geschätzte Regressionsgerade

Diese herkömmliche Methode ist die Minimum-Quadrat-Methode oder Methode der kleinsten Quadrate. Man minimiert die summierten Quadrate der Residuen,

RSS=SS_{\mathrm {Res} }=\sum _{i=1}^{n}e_{i}^{2}=\sum _{i=1}^{n}(y_{i}-(a+bx_{i}))^{2}\rightarrow \mathrm {min!}

bezüglich $a$ und $b$ . Durch partielles Differenzieren und Nullsetzen der Ableitungen erster Ordnung erhält man ein System von Normalgleichungen.

Die gesuchten Regressionskoeffizienten sind die Lösungen

b={\frac {{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}={\frac {SS_{xy}}{SS_{xx}}}

und

a={\bar {y}}-b{\bar {x}}

mit ${\bar {x}}$ als arithmetischem Mittel der $x$ -Werte und ${\bar {y}}$ als arithmetischem Mittel der $y$ -Werte. $SS_{xy}$ stellt die empirische Kovarianz zwischen den $x_{i}$ und $y_{i}$ dar. $SS_{xx}$ bezeichnet die empirische Varianz der $x_{i}$ . Man nennt diese Schätzungen auch Kleinste-Quadrate-Schätzer (KQ) oder Ordinary Least Squares-Schätzer (OLS).

Für das folgende Zahlen-Beispiel ergibt sich ${\bar {x}}=15$ und ${\bar {y}}=5$ . Somit erhält man die Schätzwerte für $a$ und $b$ durch einfaches Einsetzen in obige Formeln. Zwischenwerte in diesen Formeln sind in folgender Tabelle dargestellt.

$i$	Flaschenpreis $x_{i}$	verkaufte Menge $y_{i}$	$x_{i}-{\bar {x}}$	$y_{i}-{\bar {y}}$	$(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})$	$(x_{i}-{\bar {x}})(x_{i}-{\bar {x}})$	$(y_{i}-{\bar {y}})(y_{i}-{\bar {y}})$	${\hat {y}}_{i}$
1	20	0	5	-5	-25	25	25	0,09
2	16	3	1	-2	-2	1	4	4,02
3	15	7	0	2	0	0	4	5,00
4	16	4	1	-1	-1	1	1	4,02
5	13	6	-2	1	-2	4	1	6,96
6	10	10	-5	5	-25	25	25	9,91
Total	90	30	0	0	-55	56	60	30,00

Es ergibt sich in dem Beispiel

b={\frac {-55}{56}}=-0{,}98\;

und

a=5-(-0{,}98)\cdot 15=19{,}73\;

.

Die geschätzte Regressionsgerade lautet somit

{\hat {y}}_{i}=19{,}73+(-0{,}98)\cdot x_{i}\;

,

so dass man vermuten kann, dass bei jedem Euro mehr der Absatz im Durchschnitt um ungefähr eine Flasche sinkt.

Multiple Regression

Im folgenden wird ausgehend von der einfachen linearen Regression die multiple Regression eingeführt. Der Response $Y$ hängt linear von mehreren fest vorgegebenen Kovariablen $x_{1},\ldots ,x_{p}$ ab, somit erhält man die Form

Y=\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+\dotsb +\beta _{p}x_{p}+\varepsilon \

wobei $\varepsilon$ wieder die Störgröße repräsentiert. $\varepsilon$ ist eine Zufallsvariable und daher ist $Y$ als lineare Transformation von $\varepsilon$ ebenfalls eine Zufallsvariable. Es liegen für die $x_{j}$ , wobei $j=1,\ldots ,p$ , und $Y$ je $n$ viele Beobachtungen vor, so dass sich für die Beobachtungen $i$ , wobei $i=1,\ldots ,n$ , das Gleichungssystem

Y_{i}=\beta _{0}+\beta _{1}x_{i1}+\beta _{2}x_{i2}+\dotsb +\beta _{p}x_{ip}+\varepsilon _{i}

ergibt. $p$ gibt somit die Anzahl der Kovariablen oder die Dimension des Kovariablenvektors ${\underline {x}}=(x_{i1},\ldots ,x_{ip})^{T}$ an. In der einfachen linearen Regression wurde nur der Fall $p=1$ betrachtet, ausgehend davon wird nun die multiple Regression als Verallgemeinerung dessen mit $p\geq 2$ präsentiert. Als stichprobentheoretischer Ansatz wird jedes Stichprobenelement $\varepsilon _{i}$ als eine eigene Zufallsvariable interpretiert und ebenso jedes $Y_{i}$ .

Da es sich hier um ein lineares Gleichungssystem handelt, können die Elemente des Systems in Matrix-Schreibweise zusammengefasst werden. Man erhält die $(n\times 1)$ Spaltenvektoren der abhängigen Variablen $Y$ und der Störgröße $\varepsilon$ als Zufallsvektoren und den $((p+1)\times 1)$ Spaltenvektor der Regressionskoeffizienten $\beta _{j}$ , wobei $j=0,\ldots ,p$ ,

{\underline {Y}}={\begin{pmatrix}Y_{1}\\Y_{2}\\\vdots \\Y_{i}\\\vdots \\Y_{n}\end{pmatrix}}\in \mathbb {R} ^{n\times 1}\;,

{\underline {\varepsilon }}={\begin{pmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{i}\\\vdots \\\varepsilon _{n}\end{pmatrix}}\in \mathbb {R} ^{n\times 1}\;

und

{\underline {\beta }}={\begin{pmatrix}\beta _{0}\\\beta _{1}\\\beta _{2}\\\vdots \\\beta _{j}\\\vdots \\\beta _{p}\end{pmatrix}}\in \mathbb {R} ^{(p+1)\times 1}\;

.

Die Datenmatrix ${\underline {X}}$ lautet in ausgeschriebener Form

{\underline {X}}={\begin{pmatrix}1&x_{11}&x_{12}&\cdots &x_{1j}&\cdots &x_{1p}\\1&x_{21}&x_{22}&\cdots &x_{2j}&\cdots &x_{2p}\\\vdots &&\vdots &\ddots &&\ddots &\vdots \\1&x_{i1}&x_{i2}&\cdots &x_{ij}&\cdots &x_{ip}\\\vdots &&\vdots &\ddots &&\ddots &\vdots \\1&x_{n1}&x_{n2}&\cdots &x_{nj}&\cdots &x_{np}\end{pmatrix}}\in \mathbb {R} ^{(n\times (p+1))}

.

Die Einsen in der ersten Spalte gehören zum Absolutglied $\beta _{0}$ . Des Weiteren trifft man, wie bereits im Abschnitt zur einfachen linearen Regression erwähnt, die Annahmen

\operatorname {E} ({\underline {\varepsilon }})=0\

und

{\mbox{Cov}}({\underline {\varepsilon }})=\sigma ^{2}I_{n}

.

Somit gilt für ${\underline {Y}}$

\operatorname {E} ({\underline {Y}})={\underline {X}}{\underline {\beta }}

und

{\mbox{Cov}}({\underline {Y}})=\sigma ^{2}I_{n}

.

Ferner lässt sich das Gleichungssystem nun erheblich einfacher darstellen als

{\underline {Y}}={\underline {X}}{\underline {\beta }}+{\underline {\varepsilon }}

.

Schätzung der Regressionskoeffizienten

Auch im multiplen linearen Regressionsmodell wird die Quadratsumme der Residuen nach der Methode der kleinsten Quadrate minimiert. Man erhält als Lösung eines Minmierungsproblems den Vektor der geschätzten Regressionskoeffizienten als

{\underline {b}}={\begin{pmatrix}b_{0}\\b_{1}\\b_{2}\\\vdots \\b_{j}\\\vdots \\b_{p}\end{pmatrix}}=({\underline {X}}^{T}{\underline {X}})^{-1}{\underline {X}}^{T}{\underline {Y}}

.

Dieser Schätzer ist nach dem Gauß-Markow-Theorem der BLUE (Best Linear Unbiased Estimator), also der beste (erwartungstreu mit kleinster Varianz) lineare unverzerrte Schätzer. Für die Eigenschaften der Schätzfunktion ${\underline {b}}$ muss also keine Verteilungsinformation der Störgröße vorliegen.

Man erhält mit Hilfe des Minimum-Quadrat-Schätzers ${\underline {b}}$ das Gleichungssystem

{\underline {Y}}={\underline {X}}{\underline {b}}+{\underline {e}}={\hat {\underline {Y}}}+{\underline {e}}\;,

wobei ${\underline {e}}$ der Vektor der Residuen und ${\hat {\underline {Y}}}$ die Schätzung für ${\underline {Y}}$ ist. Das Interesse der Analyse liegt vor allem in der Schätzung ${\hat {\underline {Y}}}_{0}$ oder in der Prognose der abhängigen Variablen ${\underline {Y}}$ für ein gegebenes Tupel von ${\underline {x}}_{0}$ . Diese berechnet sich als

{\hat {\underline {Y}}}_{0}=b_{0}+b_{1}x_{01}+b_{2}x_{02}+\dotsb +b_{p}x_{0p}={\underline {x}}_{0}^{T}{\underline {b}}

.

Ausgewählte Schätzfunktionen

Die Schätzwerte der $Y_{i}$ berechnen sich als

{\hat {\underline {Y}}}={\underline {Xb}}={\underline {X}}({\underline {X}}^{T}{\underline {X}})^{-1}{\underline {X}}^{T}{\underline {Y}}

,

wobei man dies auch kürzer als

{\hat {\underline {Y}}}={\underline {H}}{\underline {Y}}

mit

{\underline {H}}\in \mathbb {R} ^{n\times n}

schreiben kann. Die Matrix ${\underline {H}}$ ist idempotent und maximal vom Rang $p+1$ . Sie wird auch Hat-Matrix genannt, weil sie ${\underline {Y}}$ den „Hut“ aufsetzt.

Die Residuen werden ermittelt als

{\underline {e}}={\underline {Y}}-{\hat {\underline {Y}}}={\underline {Y}}-{\underline {Xb}}={\underline {Y}}-{\underline {H}}{\underline {Y}}=(I_{n}-{\underline {H}}){\underline {Y}}

,

wobei $(I_{n}-{\underline {H}})$ mit ${\underline {H}}$ vergleichbare Eigenschaften hat.

Die Prognose ${\underline {\hat {Y}}}_{0}$ wird ermittelt als

{\underline {\hat {Y}}}_{0}=(1,x_{01},\ldots ,x_{0p})({\underline {X}}^{T}{\underline {X}})^{-1}{\underline {X}}^{T}{\underline {Y}}

.

Da ${\underline {X}}$ fest vorgegeben ist, kann man alle diese Variablen als lineare Transformation von ${\underline {Y}}$ und damit von ${\underline {\varepsilon }}$ darstellen, und deshalb können auch ihr Erwartungswertvektor und ihre Kovarianzmatrix unproblematisch ermittelt werden.

Die Quadratsumme $SS_{\mathrm {Res} }$ (von engl. „residual sum of squares“) der Residuen ergibt in Matrix-Notation

SS_{\mathrm {Res} }={\underline {e}}^{T}{\underline {e}}={\underline {Y}}^{T}(I_{n}-{\underline {H}})^{T}(I_{n}-{\underline {H}}){\underline {Y}}={\underline {Y}}^{T}(I_{n}-{\underline {H}}){\underline {Y}}

.

Dies kann ferner auch geschrieben werden als

SS_{\mathrm {Res} }={\underline {e}}^{T}{\underline {e}}=||Y-{\hat {Y}}||_{2}^{2}=\sum \limits _{i=1}^{n}(Y_{i}-{\hat {Y}}_{i})^{2}

.

Die Varianz wird mit Hilfe der Residuen geschätzt, und zwar als mittlere Quadratsumme der Residuen

s^{2}={\hat {\sigma }}^{2}={\frac {SS_{\mathrm {Res} }}{(n-p)}}={\frac {\sum \limits _{i=1}^{n}(Y_{i}-{\hat {Y}}_{i})^{2}}{(n-p)}}\;

.

Schätzen und Testen

Für die inferentielle Regression (Schätzen und Testen) wird noch die Information über die Verteilung der Störgröße $\varepsilon$ gefordert. Zusätzlich zu den bereits weiter oben aufgeführten Annahmen hat man hier als weitere Annahme:

4. Die Störgröße $\varepsilon _{i}$ ist normalverteilt.

Zusammen mit der 1. Annahme erhält man für die Verteilung des Vektors der Störgröße:

{\underline {\varepsilon }}\sim {\mathcal {N}}({\underline {0}},\sigma ^{2}I_{n})

,

wobei ${\underline {0}}$ den Nullvektor bezeichnet. Hier sind unkorrelierte Zufallsvariablen auch stochastisch unabhängig. Da die interessierenden Schätzer zum größten Teil lineare Transformationen von ${\underline {\varepsilon }}$ sind, sind sie ebenfalls normalverteilt mit den entsprechenden Parametern. Ferner ist die Quadratsumme der Residuen als nichtlineare Transformation χ²-verteilt mit $n-p$ Freiheitsgraden.

Beweisskizze: Sei

{\underline {w}}={\underline {Y}}-{\underline {X}}{\underline {\beta }}

,

damit erhält man

{\underline {w}}^{T}(I_{n}-{\underline {H}}){\underline {w}}/\sigma ^{2}=({\underline {Y}}-{\underline {X}}{\underline {\beta }})^{T}(I_{n}-{\underline {H}})(I_{n}-{\underline {H}})({\underline {Y}}-{\underline {X}}{\underline {\beta }})/\sigma ^{2}

={\underline {Y}}^{T}(I_{n}-{\underline {H}}){\underline {Y}}/\sigma ^{2}

=SS_{\mathrm {Res} }/\sigma ^{2}\sim \chi _{n-p}^{2}

.

Wobei

(I_{n}-{\underline {H}}){\underline {X}}=0

und der Satz von Cochran verwendet wurde.

Ferner gilt ebenso

SS_{\mathrm {Reg} }/\sigma ^{2}\sim \chi _{n-1}^{2}

.

Betrachte hierzu auch den Artikel Bestimmtheitsmaß.

Güte des Regressionsmodells

Hat man eine Regression ermittelt, ist man auch an der Güte dieser Regression interessiert. Häufig verwendet wird als Maß für die Güte das Bestimmtheitsmaß $R^{2}$ . Generell gilt, je näher der Wert des Bestimmtheitsmaßes bei 1 liegt, desto größer ist die Güte der Regression. Ist das Bestimmtheitsmaß klein, kann man seine Signifikanz durch die Hypothese H₀: R² = 0 mit der Prüfgröße

F={\frac {SS_{\mathrm {Reg} }/(p+1)}{SS_{\mathrm {Res} }/(n-p-1)}}={\frac {{\frac {SS_{\mathrm {Reg} }}{SS_{\mathrm {Total} }}}/(p+1)}{{\frac {SS_{\mathrm {Res} }}{SS_{\mathrm {Total} }}}/(n-p-1)}}={\frac {R^{2}/(p+1)}{(1-R^{2})/(n-p-1)}}\sim F_{p+1,n-p-1}

testen. F ist F-verteilt mit p+1 und n-p-1 Freiheitsgraden. Überschreitet die Prüfgröße bei einem Signifikanzniveau α den kritischen Wert $F(1-\alpha ;p+1;n-p-1)$ , das (1-α)-Quantil der F-Verteilung mit p+1 und n-p-1 Freiheitsgraden, wird H₀ abgelehnt. R² ist dann ausreichend groß, $X$ trägt also vermutlich genügend viel Information zur Erklärung von $Y$ bei. Die Residualanalyse, bei der man die Residuen über den unabhängigen Variablen aufträgt, gibt Aufschluss über

die Richtigkeit des angenommenen linearen Zusammenhangs,
mögliche Ausreißer,
Homoskedastizität, Heteroskedastizität.

Ein Ziel bei der Residualanalyse ist es, dass man die Voraussetzung der unbeobachteten Residuen $\varepsilon _{i}$ überprüft. Hierbei ist es wichtig zu beachten, dass

e_{i}\neq \varepsilon _{i}

gilt. $e_{i}$ ist mit der Formel $e_{i}=y_{i}-{\hat {y}}_{i}$ berechenbar. Im Gegensatz hierzu ist die Störgröße $\varepsilon _{i}$ nicht berechenbar oder beobachtbar. Nach den oben getroffenen Annahmen soll für das Modell gelten

\operatorname {Var} (\varepsilon _{i})=\sigma ^{2}\;

,

es liegt somit eine Varianzhomogenität vor. Dieses Phänomen wird auch als Homoskedastie bezeichnet und ist auf die Residuen übertragbar. Dies bedeutet, dass wenn man die unabhängigen Variablen $x$ gegen die Residuen $e$ aufträgt, dass dann keine systematischen Muster erkennbar sein sollten.

In der folgenden Grafik werden die unabhängigen Variablen $x$ gegen die Residuen $e$ geplottet.

In dieser Grafik sieht man, dass kein erkennbares Muster in den Residuen vorliegt. Somit ist die Annahme der Varianzhomogenität erfüllt. Anschließend werden zwei Grafiken aufgeführt, bei denen diese Annahme nicht erfüllt ist.


Beispiel 2 zur Residualanalyse	Beispiel 3 zur Residualanalyse

Bei der linken Abbildung erkennt man ein Muster, welches an die Sinus-Funktion erinnert. Somit wäre hier eine Daten-Transformation in der Form

a\sin(tx_{i}+c)\;

denkbar. Bei der rechten Abbildung erkennt man ein Muster, welches die Form einer Parabel annimmt. Somit wäre hier eine Daten-Transformation in der Form

a(x_{i}-c)^{2}\;

angebracht.

Beitrag der einzelnen Regressoren zur Erklärung von y

Man ist daran interessiert, ob man einzelne Parameter oder Kovariablen aus dem Regressionsmodell entfernen kann. Dies ist dann möglich, falls ein Parameter $\beta _{j}$ gleich Null ist, somit testet man die Nullhypothese H₀: β_j = 0. Das heißt man testet, ob der $j$ -te Parameter gleich Null ist, falls dies der Fall ist, kann die zugehörige $j$ -te Kovariable $X_{j}$ aus dem Modell entfernt werden. Der Vektor b ist als lineare Transformation von $Y$ verteilt wie

{\underline {b}}\sim {\mathcal {N}}\left({\underline {\beta }};\sigma ^{2}{({\underline {X}}^{T}{\underline {X}})}^{-1}\right)

.

Wenn man die Varianz der Störgröße schätzt, erhält man für die geschätzte Kovarianzmatrix

{\underline {S}}=se(b_{j})^{2}({\underline {X}}^{T}{\underline {X}})^{-1}

.

Die geschätzte Varianz se(b_j)² eines Regressionskoeffizienten b_j steht als j-tes Diagonalelement in der geschätzten Kovarianzmatrix. Es ergibt sich die Prüfgröße

t_{j}={\frac {b_{j}}{se(b_{j})}}\sim t_{n-p}

,

die t-verteilt ist mit n-p Freiheitsgraden. Ist $|t_{j}|$ größer als der kritische Wert t(1-α/2; n-p), dem (1-α/2)-Quantil der t-Verteilung mit n-p Freiheitsgraden, wird die Hypothese abgelehnt. Somit wird die Kovariable X_j im Modell beibehalten und der Beitrag des Regressors X_j zur Erklärung von Y ist signifikant groß.

Prognose

Ermittelt man einen Prognosewert, möchte man möglicherweise wissen, in welchem Intervall sich die prognostizierten Werte mit einer festgelegten Wahrscheinlichkeit bewegen. Man wird also ein Konfidenzintervall für den durchschnittlichen Prognosewert E(Y₀) ermitteln. Es ergibt sich als Varianz der Prognose

\operatorname {Var} ({\underline {\hat {Y}}}_{0})=\sigma ^{2}(1;x_{01};x_{02};\ldots )({\underline {X}}^{T}{\underline {X}})^{-1}{\begin{pmatrix}1\\x_{01}\\x_{02}\\\vdots \end{pmatrix}}=\sigma ^{2}{\underline {x}}_{0}^{T}({\underline {X}}^{T}{\underline {X}})^{-1}{\underline {x}}_{0}

.

Man erhält dann als (1-α)-Konfidenzintervall für den durchschnittlichen Prognosewert mit geschätzter Varianz

[{\underline {\hat {Y}}}_{0}-s\cdot t_{1-\alpha /2;n-p}\;;\;{\underline {\hat {Y}}}_{0}+s\cdot t_{1-\alpha /2;n-p}]

.

Speziell für den Fall der einfachen linearen Regression ergibt das

\left[{\underline {\hat {Y}}}_{0}-t_{1-\alpha /2;n-p}\cdot s\cdot {\sqrt {1+{\frac {1}{n}}+{\frac {(x_{0}-{\bar {x}})^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}}\;;\;{\underline {\hat {Y}}}_{0}+t_{1-\alpha /2;n-p}\cdot s\cdot {\sqrt {1+{\frac {1}{n}}+{\frac {(x_{0}-{\bar {x}})^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}}\right]

Speziell aus dieser Form des Konfidenzintervalls erkennt man sofort, dass das Konfidenzintervall breiter wird, wenn die exogene Prognosevariable x₀ sich vom „Zentrum“ der Daten entfernt. Schätzungen der endogenen Variablen sollten also im Beobachtungsraum der Daten liegen, sonst werden sie sehr unzuverlässig.

Beispiel

Zur Illustration der multiplen Regression wird im folgenden Beispiel untersucht, wie die abhängige Variable Y: Bruttowertschöpfung (in Preisen von 95; bereinigt, Mrd. Euro) von den unabhängigen Variablen „Bruttowertschöpfung nach Wirtschaftsbereichen Deutschland (in jeweiligen Preisen; Mrd. EUR)“ abhängt. Die Daten sind im Artikel Regressionsanalyse/Datensatz angegeben. Da man in der Regel die Berechnung eines Regressionsmodells am Computer durchführt, wird in diesem Beispiel exemplarisch dargestellt, wie eine multiple Regression mit der Statistik-Software R durchgeführt werden kann.

Variable	Beschreibung der Variablen
BWSb95	Bruttowertschöpfung in Preisen von 95 (bereinigt)
BBLandFF	Bruttowertschöpfung von Land- und Forstwirtschaft, Fischerei
BBProdG	Bruttowertschöpfung des produzierenden Gewerbes ohne Baugewerbe
BBBau	Bruttowertschöpfung im Baugewerbe
BBHandGV	Bruttowertschöpfung von Handel, Gastgewerbe und Verkehr
BBFinVerm	Bruttowertschöpfung durch Finanzierung, Vermietung und Unternehmensdienstleister
BBDienstÖP	Bruttowertschöpfung von öffentlichen und privaten Dienstleistern

Zunächst lässt man sich ein Streudiagramm ausgeben, in diesem erkennt man, dass die gesamte Wertschöpfung offensichtlich mit den Wertschöpfungen der wirtschaftlichen Bereiche positiv korreliert ist. Dies erkennt man daran, dass die Datenpunkte in der ersten Spalte der Grafik in etwa auf einer Geraden mit einer positiven Steigung liegen. Auffällig ist, dass die Wertschöpfung im Baugewerbe negativ mit den anderen Sektoren korreliert. Dies erkennt man daran, dass in der vierten Spalte die Datenpunkte näherungsweise auf einer Geraden mit einer negativen Steigung liegen.

In einem ersten Schritt gibt man das Modell mit allen Kovariablen in R ein

lm(BWSb95~BBLandFF+BBProdG+BBBau+BBHandGV+BBFinVerm+BBDienstÖP)

Anschließend lässt man sich in R ein Summary des Modells mit allen Kovariablen ausgeben, dann erhält man folgende Auflistung.

Residuals:
    Min      1Q  Median      3Q     Max 
-1.5465 -0.8342 -0.1684  0.5747  1.5564 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 145.6533    30.1373   4.833 0.000525 ***
BBLandFF      0.4952     2.4182   0.205 0.841493    
BBProdG       0.9315     0.1525   6.107 7.67e-05 ***
BBBau         2.1671     0.2961   7.319 1.51e-05 ***
BBHandGV      0.9697     0.3889   2.494 0.029840 *  
BBFinVerm     0.1118     0.2186   0.512 0.619045    
BBDienstÖP    0.4053     0.1687   2.402 0.035086 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 1.222 on 11 degrees of freedom
Multiple R-Squared: 0.9889,     Adjusted R-squared: 0.9828 
F-statistic: 162.9 on 6 and 11 DF,  p-value: 4.306e-10

Der Test auf Güte des gesamten Regressionsmodells ergibt eine Prüfgröße von F = 162.9. Diese Prüfgröße hat einen p-Wert von $4.306\cdot 10^{-10}$ , somit ist die Anpassung signifikant gut.

Die Analyse der einzelnen Beiträge der Variablen (Tabelle Coefficients) des Regressionsmodells ergibt bei einem Signifikanzniveau von 0.05, dass die Variablen BBLandFF und BBFinVerm offensichtlich die Variable BWSB95 nur unzureichend erklären können. Dies erkennt man daran, dass die zugehörigen t-Werte zu diesen beiden Variablen verhältnismäßig klein sind, und somit die Hypothese, dass die Koeffizienten dieser Variablen Null sind, nicht verworfen werden kann.

Die Variablen BBHandGV und BBDienstÖP sind gerade noch signifikant. Besonders stark korreliert ist Y (in diesem Beispiel also BWSb95) mit den Variablen BBProdG und BBBau, was man an den zugehörigen hohen t-Werten erkennen kann.

Im nächsten Schritt werden die insignifikanten Kovariablen BBLandFF und BBFinVerm aus dem Modell entfernt.

lm(BWSb95~BBProdG+BBBau+BBHandGV+BBDienstÖP)

Anschließend lässt man sich wiederum ein Summary des Modells ausgeben, dann erhält man folgende Auflistung.

Residuals:
     Min       1Q   Median       3Q      Max 
-1.34447 -0.96533 -0.05579  0.82701  1.42914 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 158.00900   10.87649  14.528 2.05e-09 ***
BBProdG       0.93203    0.14115   6.603 1.71e-05 ***
BBBau         2.03613    0.16513  12.330 1.51e-08 ***
BBHandGV      1.13213    0.13256   8.540 1.09e-06 ***
BBDienstÖP    0.36285    0.09543   3.802   0.0022 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 1.14 on 13 degrees of freedom
Multiple R-Squared: 0.9886,     Adjusted R-squared: 0.985 
F-statistic: 280.8 on 4 and 13 DF,  p-value: 1.783e-12

Dieses Modell liefert eine Prüfgröße von F = 280.8. Diese Prüfgröße hat einen p-Wert von $1.783\cdot 10^{-12}$ , somit ist die Anpassung besser als im ersten Modell. Dies ist vor allem darauf zurückzuführen, dass in dem jetzigen Modell alle Kovariablen signifikant sind.

Spezielle Anwendungen der Regressionsanalyse

Spezielle Anwendungen der Regressionsanalyse beziehen sich auch auf die Analyse von diskreten und im Wertebereich eingeschränkten abhängigen Variablen. Hierbei kann unterschieden werden nach Art der abhängigen Variablen und Art der Einschränkung des Wertebereichs. Im Folgenden werden die Regressionsmodelle, die an dieser Stelle angewandt werden können, aufgeführt. Nähere Angaben hierzu finden sich bei Frone (1997)^[13] sowie Long (1997) ^[14].

Modelle für unterschiedliche Arten abhängiger Variablen (Generalisierte Lineare Modelle):

Binär: logistische Regression und Probit-Regression
Ordinal: ordinale logistische Regression und ordinale Probit-Regression
Absolut: Poisson-Regression, negative binomiale Regression
Nominal: multinomiale logistische Regression

Modelle für unterschiedliche Arten eingeschränkter Wertebereiche:

zensiert: Tobit-Modell
trunkiert: trunkierte Regression
stichproben-selegiert: (sample-selected) stichproben-selegierte Regression

Anwendung in der Ökonometrie

Für quantitative Wirtschaftsanalysen im Rahmen der Regressionsanalyse, beispielsweise der Ökonometrie, sind besonders geeignet:

Wachstumsfunktionen, wie zum Beispiel das Gesetz des organischen Wachstums oder die Zinseszinsrechnung,
Abschwingfunktionen, wie zum Beispiel die hyperbolische Verteilungsfunktion oder die Korachsche Preisfunktion,
Schwanenhalsfunktionen, wie zum Beispiel die im Rahmen der logistischen Regression verwendete logistische Funktion, die Johnson-Funktion oder die Potenzexponentialfunktion,
degressive Saturationsfunktionen, wie zum Beispiel die Gompertz-Funktion oder die Törnquist-Funktion.

Literatur

↑ A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes (1805). “Sur la Méthode des moindres quarrés” erscheint als Anhang.
↑ C.F. Gauss. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809)
↑ C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823)
↑ Robert G. Mogull: Second-Semester Applied Statistics. Kendall/Hunt Publishing Company, 2004, ISBN 0-7575-1181-3, S. 59.
↑ Francis Galton: Kinship and Correlation (reprinted 1989). In: Statistical Science. 4. Jahrgang, Nr. 2, 1989 (jstor.org).
↑ Francis Galton. "Typical laws of heredity", Nature 15 (1877), 492-495, 512-514, 532-533. (Galton uses the term "reversion" in this paper, which discusses the size of peas.)
↑ Francis Galton. Presidential address, Section H, Anthropology. (1885) (Galton verwendet den Begriff "Regression" in diesem Artikel, welcher die Größe von Menschen untersucht.)
↑ G. Udny Yule: On the Theory of Correlation. In: J. Royal Statist. Soc. 1897, S. 812–54 (jstor.org).
↑ Karl Pearson, Yule, G.U.; Blanchard, Norman; Lee,Alice: The Law of Ancestral Heredity. In: Biometrika. 1903 (jstor.org).
↑ R.A. Fisher: The goodness of fit of regression formulae, and the distribution of regression coefficients. In: J. Royal Statist. Soc. 85. Jahrgang, 1922, S. 597–612.
↑ Ronald A. Fisher: Statistical Methods for Research Workers. Twelfth Auflage. Oliver and Boyd, 1954 (yorku.ca).
↑ John Aldrich: Fisher and Regression. In: Statistical Science. 20. Jahrgang, Nr. 4, 2005, S. 401–417 (jstor.org).
↑ Frone, M.R. (1997). Regression models for discrete and limited dependent variables. Research Methods Forum No. 2. online
↑ Long, J. S. (1997). Regression models for categorical and limited dependent variables. Thousand Oaks, CA: Sage.

Siehe auch

Literatur

Draper, Norman R. und Smith Harry: Applied Regression Analysis, 1998, New York: Wiley
Fahrmeir, Ludwig/ Kneib, Thomas/ Lang, Stefan: Regression: Modelle, Methoden und Anwendungen, Springer Verlag Berlin Heidelberg New York 2007, ISBN 978-3-540-33932-8.
Opfer, Gerhard: Numerische Mathematik für Anfänger, 2. Auflage, 1994, Vieweg Verlag
Oppitz, Volker/Nollau, Volker: Taschenbuch Wirtschaftlichkeitsrechnung, Carl Hanser Verlag 2003, 400 S., ISBN 3-446-22463-7
Oppitz, Volker Gabler Lexikon Wirtschaftlichkeitsberechnung, Gabler-Verlag 1995, 629 S., ISBN 3-409-19951-9
Schönfeld, Peter: Methoden der Ökonometrie, Berlin, Frankfurt, 1969
Urban, Dieter/ Mayerl, Jochen: Regressionsanalyse: Theorie, Technik und Anwendung, 2. überarb. Auflage, 2006, Wiesbaden: VS Verlag, ISBN 3-531-33739-4
Zeidler E. (Hrsg.): Taschenbuch der Mathematik (bekannt als Bronstein und Semendjajew), Stuttgart, Leipzig, Wiesbaden 2003
Backhaus, K./ Erichson, B./ Plinke, W./ Weiber, R.: Multivariate Analysemethoden - Eine anwendungsorientierte Einführung. 12. Auflage, Berlin et al. 2008'

Weblinks

Wikibooks: Einführung in die Regressionsrechnung – Lern- und Lehrmaterialien

[Legendre-1] A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes (1805). “Sur la Méthode des moindres quarrés” erscheint als Anhang.

[Gauss-2] C.F. Gauss. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809)

[Gauss2-3] C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823)

[4] Robert G. Mogull: Second-Semester Applied Statistics. Kendall/Hunt Publishing Company, 2004, ISBN 0-7575-1181-3, S. 59.

[5] Francis Galton: Kinship and Correlation (reprinted 1989). In: Statistical Science. 4. Jahrgang, Nr. 2, 1989 (jstor.org).

[6] Francis Galton. "Typical laws of heredity", Nature 15 (1877), 492-495, 512-514, 532-533. (Galton uses the term "reversion" in this paper, which discusses the size of peas.)

[7] Francis Galton. Presidential address, Section H, Anthropology. (1885) (Galton verwendet den Begriff "Regression" in diesem Artikel, welcher die Größe von Menschen untersucht.)

[8] G. Udny Yule: On the Theory of Correlation. In: J. Royal Statist. Soc. 1897, S. 812–54 (jstor.org).

[9] Karl Pearson, Yule, G.U.; Blanchard, Norman; Lee,Alice: The Law of Ancestral Heredity. In: Biometrika. 1903 (jstor.org).

[10] R.A. Fisher: The goodness of fit of regression formulae, and the distribution of regression coefficients. In: J. Royal Statist. Soc. 85. Jahrgang, 1922, S. 597–612.

[FisherR1954Statistical-11] Ronald A. Fisher: Statistical Methods for Research Workers. Twelfth Auflage. Oliver and Boyd, 1954 (yorku.ca).

[12] John Aldrich: Fisher and Regression. In: Statistical Science. 20. Jahrgang, Nr. 4, 2005, S. 401–417 (jstor.org).

[13] Frone, M.R. (1997). Regression models for discrete and limited dependent variables. Research Methods Forum No. 2. online

[14] Long, J. S. (1997). Regression models for categorical and limited dependent variables. Thousand Oaks, CA: Sage.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]