Zum Inhalt springen

Methode der kleinsten Quadrate

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 8. September 2004 um 22:58 Uhr durch Philipendula (Diskussion | Beiträge) (Multikollinearität doch rausgeschmissen, hat ja mit der polynomialen Regression eigentlich nix zu tun.). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Die Methode der kleinsten Quadrate (auch kleinsten Fehlerquadrate oder englisch: Least Squares) dient dazu, im Rahmen einer Ausgleichsrechnung (Ausgleich zwischen den Messwerten und den erwarteten Rechenwerten) den Wert von Parametern so zu bestimmen, dass die Summe der Fehlerquadrate (Quadrat der Differenz zwischen dem Messwert und dem erwarteten Rechenwert) minimiert wird. Werden Elemente der Stochastik mit eingebracht, spricht man von Regressionsanalyse. Hier nennt man das Verfahren auch Kleinste-Quadrate-Schätzer, während in der Physik der Begriff Fitting verwandt wird. Die Fülle an Begriffen demonstriert die Bedeutung und Verbreitung der Methode.

Angewandt als Systemidentifikation ist die Methode der kleinsten Quadrate in Verbindung mit Modellversuchen für Ingenieure ein Ausweg aus der paradoxen Situation, dass man etwas berechnen muss, was man gar nicht berechnen kann.

Anpassung von beobachteten y-Werten an eine logistische Funktion


Das Verfahren

Eine Modellkurve ym soll n empirischen Daten yi angepasst werden. Die Modellkurve wird aus q verschiedenen gegebenen Variablen tj erzeugt. Für die optimale Anpassung werden bestimmte p viele Modellparameter xk (k = 1, ...,p) gesucht. Es liegen zu jeder gegebenen Variablen tj ebenfalls je n viele Datenwerte tij (i = 1, ..., n; j = 1, ...,q) vor. Üblicherweise ist die Anzahl der Datenpunkte größer als die Anzahl der Parameter, so dass sich ein überbestimmtes Gleichungssystem ergibt. Es wird nun angenommen, daß die Messfehler oder auch Residuen yj - ymj normalverteilt mit gleicher Varianz sind. Dies führt letztendlich auf folgendes Kriterium: Die Summe der quadratischen Abweichungen zwischen Kurve und Daten (Quadratsumme der Residuen) muss minimiert werden, in Formelschreibweise

Es geht also darum, die euklidische Norm des Differenzvektors zu minimieren. Dieser Ansatz wurde von Carl Friedrich Gauß entwickelt und er nutzte ihn, um die Bahn des Asteroiden Ceres zu bestimmen, der daraufhin wiedergefunden werden konnte.

Wie genau dieses Minimierungsproblem gelöst wird, hängt von der Art der Modellfunktion ab. Werden stochastische Elemente in die Modellierung mit einbezogen, spricht man von Regression. In der Praxis spricht man häufig auch von Regression, wenn es sich um eine rein empirischen Anpassung ohne stochastische Analyse handelt.


Lineare Modellfunktion

Ein Spezialfall der Modellfunktion ist die lineare Form. Der einfachste lineare Ansatz ist ym = x0 + x1t. Wir erhalten in Matrixschreibweise

Für die resultierende Ausgleichsgerade dieses einfachen (aber durchaus relevanten) Beispiels lassen sich die Lösungen für die Parameter direkt angeben als

und

mit als arithmetischem Mittel der t-Werte, y entsprechend.

Hat man mehrere unabhängige Modellvariablen t1 ... tq, erhält man eine lineare Funktion der Art

,

was das lineare Gleichungssystem

ergibt. Fasst man die tij zur Datenmatrix A, die Parameter xj zum Parametervektor x und die Beobachtungen yi zum Vektor b zusammen, kann man das lineare Gleichungssystem auch in der bekannten Weise darstellen als

bzw. .

Man erhält hier ein lineares Ausgleichsproblem der Form

.

Die partiellen Ableitungen bezüglich der xj und Nullsetzen derselben ergeben ein lineares System von Normalgleichungen

das bei Regularität der ((q+1)x(q+1))-Matrix auf der linken Seite numerisch gelöst werden kann, beispielsweise mittels Cholesky-Zerlegung oder dem CG-Verfahren. Häufig ist dies keine empfehlenswerte Herangehensweise, da beide Verfahren von der Kondition der Matrix stark beeinflußt werden. Ist schon A schlecht konditioniert, so ist quadratisch schlecht konditioniert. Eine stabilere Alternative bietet die QR-Zerlegung mittels des Householder-Verfahrens, ausgehend vom Minimierungsproblem und nicht den Normalgleichungen.

In der statistischen Regressionsanalyse spricht man bei mehreren gegebenen Variablen tj von multipler Regression. Der Ansatz ist auch als OLS (ordinary least squares) bekannt, im Gegensatz zu generalised least squares bei Residuen, die von der Verteilungsannahme abweichen. Dagegen liegen bei multivariater Regression für jede Beobachtung i (i=1, ...,n) r viele y-Werte vor, so dass statt eines Vektors eine (nxr)-Matrix Y vorliegt. Die linearen Regressionsmodelle sind in der Statistik wahrscheinlichkeitstheoretisch intensiv erforscht worden. Besonders in der Ökonometrie werden beispielsweise komplexe rekursiv definierte lineare Strukturgleichungen analysiert, um volkswirtschaftliche Systeme zu modellieren.


Anforderungen an die Daten

Strenggenommen ist die Normalverteilungsannahme für die abhängige Variable y nicht zwingend notwendig. Es sollen lediglich keine Ausreißer vorliegen.

Numerische Probleme ergeben sich vor allem durch Multikollinearität und Ausreißer.

Multikollinearität

Multikollinearität entsteht, wenn die Messreihen zweier unabhängiger Variablen ti und tj sehr hoch korreliert sind, also fast linear abhängig sind. In diesem Fall wird die Determinante von ATA sehr klein und die Lösungswerte werden unplausibel groß. Die Norm der Inversen wird umgekehrt ebenfalls sehr groß, die Kondition von ATA ebenfalls. Die Normalgleichungen sind dann numerisch schwer zu lösen. Häufig tritt Multikollineartät auf, wenn das Regressionsmodell durch zu viele Regressoren überbestimmt ist. Neben numerischen Alternativen können auch mit Hilfe statistischer Tests die Variablen auf ihre Erklärungswerte für das Modell hin überprüft werden und gegebenenfalls entfernt werden.

Man kann bei sehr vielen in Frage kommenden Regressoren auch schrittweise eine Variablen-Selektion durchführen:

  • Bei der vorwärts gerichteten Regression (Forward Regression) wird zuerst der Regressor in das Modell aufgenommen, der den größten Beitrag zur Erklärung von y liefert, also etwa die Quadratsumme der Residuen minimiert. Dann wird unter den verbliebenen potentiellen Regressoren der Regressor ausgewählt, dessen Beitrag zum bestehenden Modell maximal ist, usw. Das Verfahren wird beendet, wenn der zusätzliche maximale Beitrag eines Regressors statistisch insignifikant wird. Wird statt eines Tests eine kritische Genauigkeit verwendet, könnte man auch sagen, bis sich die Genauigkeit der Anpassung nicht mehr steigern lässt. Wenn das statistische Material nicht umfangreich genug ist kann es vorkommen, dass die Abhängigkeit der Genauigkeit von der Anzahl der Ansatzfunktionen nicht glatt, sondern rauh gegen einen Grenzwert konvergiert - daraus ergeben sich weitere Verbesserungsmöglichkeiten des Verfahrens.
  • Bei der rückwärts gerichteten Regression (Backward Regression) werden zunächst alle Regressoren in das Regressionsmodell aufgenommen. Es wird dann der Regressor aus dem Modell entfernt, dessen Weglassen die Quadratsumme der Residuen am wenigsten reduziert. Dann wird der nächste Regressor entfernt usw. Das Verfahren stoppt, wenn der Beitrag des nächsten potentiellen Eliminationskandidaten zur Erklärung von y signifikant hoch wird, bzw. bis die Genauigkeit einen festgelegten Schwellwert unterschreitet.
Im allgemeinen ist die Vorwärts-Elimination der Rückwärts-Elimination vorzuziehen, weil die Kreuzproduktmatrix ATA bei sehr vielen Regressoren häufig schon pathologisch ist und für die Eliminationsrechnung keine sinnvollen Ergebnisse liefert.

Ausreißer

Als Ausreißer sind Datenwerte definiert, die "untypisch weit von der Masse der Daten entfernt sind". Diese Werte beeinflussen die Berechnungen derart stark, dass sich sogar die Vorzeichen von errechneten Parametern umdrehen. Es gibt hier alternative Ausreißer-resistente Berechnungsverfahren wie gewichtete Regression oder das Drei-Gruppen-Verfahren. Bei der gewichteten Regression werden etwa die Ausreißer der abhängigen Variablen y mit 0 und die unproblematischen Werte mit 1 gewichtet, was die Unterdrückung des Ausreißers bedingt. Dieser Algorithmus nach Mosteller und Tukey (1977) wird als "bisquare weighting" bezeichnet (??). Denkbar wäre auch, die Gewichtung je nach Stärke des Ausreißers abzustufen. Im übrigen können auch Ausreißer in den Regressoren die Ergebnisse der Ausgleichsrechnung stark beeinträchtigen. Man spricht hier von Werten mit großer Hebelkraft (High Leverage Value).

Nichtlineare Modellfunktionen

Mit dem Aufkommen leistungsfähiger Rechner gewinnt insbesondere die nichtlineare Regression an Bedeutung. Hier gibt es verschiedene Modelle und verschiedene Lösungsmöglichkeiten. Im allgemeinen ergibt sich bei nichtlinearen Modellfunktionen durch die partielle Differentiation ein System von Normalgleichungen, das nicht mehr analytisch gelöst werden kann. Eine numerische Lösung kann hier hier iterativ mittels des Gauß-Newton-Verfahrens erfolgen. Aktuelle Programme arbeiten häufig mit dem Algorithmus nach Marquart, der sich bei größerer Abweichung der Schätzwerte als toleranter erweist.

Nichtlineare Regression ermöglicht in Prinzip die Anpassung von Daten an jede Gleichung der Form y = f(x). Da diese Gleichungen Kurven definieren, werden die Begriffe nichtlineare Regression und "curve fitting" zumeist synonym gebraucht.

Etwa nur multiplikativ wäre ein Modell der Art

bei dem auch die Residuen e mit t variieren. Hier könnte man mit Logarithmieren das System in eine additive Struktur überführen und dann die Parameter errechnen. In der Wachstumstheorie wird beispielsweise dieser Ansatz angewendet.

Häufig verwendet für die Approximation einer Funktionen y werden auch Ausgleichspolynome der Art

.

Werden für die Potenzen die Zahlenwerte verwendet, ergibt sich wieder ein lineares Gleichungssystem, das wie oben gelöst werden kann.


Beispiel einer polynomialen Ausgleichskurve

Tabelle T1: Ergebnisse der Kleinst-Quadrate-Schätzung mit 4 gegebenen Datenvariablen tj

Als Ergebnisse der Mikrozensus-Befragung im Mai 2003 durch das statistische Bundesamt sind die durchschnittlichen Gewichte von Männern nach Altersklassen gegeben (Quelle:© Statistisches Bundesamt, Wiesbaden 2004). Für die Analyse wurden die Altersklassen wurden durch die Klassenmitten ersetzt. (Die Zahlen sind im Artikel Streudiagramm aufgeführt)

Das Streudiagramm lässt auf eine annähernde quadratische Beziehung der Art y = x0 + x1t2 schließen. Es wird ein polynomialer Ansatz der Form

Tabelle T2: Ergebnisse der Kleinst-Quadrate-Schätzung mit 3 gegebenen Datenvariablen tj

versucht. Eine Anpassungsrechnung mit Hilfe des Statistik-Programms Minitab ergab die Tabelle T1. Es sind alle Parameter xj statistisch signifikant, d.h. die Daten aller t j können einen deutlichen Beitrag zur Erklärung von y leisten. Das Bestimmtheitsmaß (R-Sq) beträgt 99,8%, man könnte also sagen, dass 99,8% der Information von y durch die Daten erklärt werden. Die Daten von t j sind allerdings hochkorreliert. Es wurde daher t 3 und damit der Modellparameter x 3 aus dem Modell entfernt. Die Ergebnisse einer Regression ohne t 3 sind in der Tabelle T2 aufgeführt. Das Bestimmtheitsmaß ist lediglich auf 98,6% gesunken, also hat t3 nur einen zusätzlichen Beitrag zur Erklärung von y von 1,3%. Das Streudiagramm mit den beobachteten und geschätzten y-Werten zeigt, dass die Anpassung gelungen ist.

Streudiagramm: Durchschnittliches Gewicht von Männern nach Alter (Quelle der Daten:© Statistisches Bundesamt, Wiesbaden 2004)
Streudiagramm von y und geschätztem y

Beispiel einer Ausgleichskurve als Quotient

Hier soll das Problem anhand eines einfachen Beispiels (multiplikative Verknüpfung: Geschwindigkeitsgleichung erläutert werden.

Ein Objekt bewegt sich auf einer ebenen geraden Strecke mit konstanter Geschwindigkeit. Gesucht sei die wahrscheinliche Geschwindigkeit oder die wahrscheinliche Zeit pro Wegeinheit (mit ). Auch hier wird das nichtlineare System in ein lineares überführt.

Es werden die folgenden Werte gemessen:

Formelzeichen
Messwert gemessene Entfernung gemessene Zeit Entfernung Zeit Entfernung²
Einheit Kilometer Sekunden KilometerSekunden Kilometer²
1 2,1 5,1 10,71 4,41
2 1,9 4,9 9,31 3,61
3 1,985 5,15 10,2275 3,940225
Summen 5,985 15,15 30,24275 11,960225

Die Summe der Fehlerquadrate ist dann:

Die erste Ableitung der obigen Gleichung nach , die gleich Null gesetzt wird, um das Minimum zu suchen, lautet:

Diese Gleichung wird nach T aufgelöst:

Man muss also die Summe der Produkte tm und sm durch die Summe der Quadrate der gemessenen Entfernungen teilen. Das Ergebnis hat die Einheit Zeit/Weg (hier 2,5286 Sekunden/Kilometer) bzw. der Kehrwert davon ist die Gesuchte Geschwindigkeit v mit der Einheit Weg/Zeit (hier 0,3955 Kilometer/Sekunde).


Beispiel der Fourieranalyse

Auch die Fourieranalyse ist eine Form der Linearisierung einer nichtlinearen Modellfunktion. Die Ansatzfunktionen sind der Cosinus und Sinus der Grundfrequenz und ihrer Vielfachen. Man setzt an

Der mittlere quadratische Fehler wird nach jedem einzelnen Fourierkoeffizienten differenziert, und dieser Ausdruck ist jeweils null:

Daraus ergeben sich die bekannten Definitionsgleichungen der Fourierkoeffizienten.

Beispiel aus der Enzymkinetik einer nicht linearisierbaren Modellfunktion

Ein Beispiel für Regressionsmodelle, die in keiner Weise linearisierbar sind, ist die Enzymkinetik. Hier ist allerdings zu fordern, dass nur y (Reaktionsgeschwindigkeit) und nicht x (Substratkonzentration) einem Fehler unterliegt. Die vertraute Lineweaver-Burk-Beziehung ist zwar eine algebraisch korrekte Umformung der Michaelis-Menten-Gleichung v = Vmax x [S] / (Km + [S]), ihre Anwendung liefert aber nur korrekte Ergebnisse, wenn die Messwerte fehlerfrei sind. Dies ergibt sich aus der Tatsache, dass sich die Realität nur mit einer erweiterten Michaelis-Menten-Beziehung

mit ei als Fehlerparameter, beschreiben lässt. Diese Gleichung lässt sich nicht mehr linearisieren, also muss hier die Lösung iterativ ermittelt werden.

Bei nichtlinearen Gesetzmäßigkeiten ergibt sich eine Komplikation dadurch, dass die zu optimierenden Parameter nicht direkt ermittelt werden können: alle Kalkulationen gehen zwangsläufig von Schätzwerten aus, so dass jede nichtlineare Regressionsanalyse ein iteratives Verfahren darstellt. Ob diese Schätzwerte vernünftig waren, zeigt sich im nachhinein dadurch, dass verschiedene Anfangsschätzungen zum gleichen Endergebnis führen.


Siehe auch Konfidenzintervall, Bestimmtheitsmaß, Korrelationskoeffizient, Signifikanztest


Literatur

  • Draper, Norman R. und Smith Harry: Applied Regression Analysis, Ort1998
  • Opfer, Gerhard: Numerische Mathematik für Anfänger, 2. Auflage, 1994, Vieweg Verlag
  • Schönfeld, Peter: Methoden der Ökonometrie, Berlin, Frankfurt, 1969
  • Zeidler E. (Hrsg.): Taschenbuch der Mathematik (bekannt als Bronstein und Semendjajew), Stuttgart, Leipzig, Wiesbaden 2003