Methode der kleinsten Quadrate

statistische Methode
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 23. Juni 2009 um 09:55 Uhr durch Syrcro (Diskussion | Beiträge) (Änderungen von Syrcro (Diskussion) rückgängig gemacht und letzte Version von Seewolf wiederhergestellt). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Die Methode der kleinsten Quadrate (englisch: method of least squares) ist das mathematische Standardverfahren zur Ausgleichungsrechnung. Bei dem Verfahren wird durch eine Datenpunktwolke eine Kurve gelegt, die möglichst nahe an den Datenpunkten verläuft. Die Daten können physikalische Messwerte, wirtschaftliche Größen oder Ähnliches repräsentieren. Die Kurve wird aus einer problemangepassten Familie von Funktionen ausgewählt. Diese Kurven sind in der Regel parameterabhängig, und so bestimmt die Methode der kleinsten Quadrate die optimalen Parameter numerisch, indem die Summe der quadratischen Abweichungen der Modellkurven von den beobachteten Punkten minimiert wird.

Messpunkte und deren Abstand zu einer nach der Methode der kleinsten Quadrate bestimmten Funktion. Hier wurde eine logistische Funktion als Modellkurve gewählt.

In der Beispielgrafik sind Datenpunkte eingetragen. In einem ersten Schritt wird eine Funktionenklasse ausgewählt, die zu dem Problem und den Daten passen sollte, hier eine logistische Funktion. Deren Parameter werden nun so bestimmt, dass die Summe der Quadrate der senkrechten Abweichungen e der Beobachtungen y von der Kurve minimiert wird.

In der Stochastik wird die Methode der kleinsten Quadrate meistens als Schätzmethode in der Regressionsanalyse benutzt, wo sie auch als Kleinste-Quadrate-Schätzung bezeichnet wird. Die Bezeichnungen Ausgleichsrechung oder das englische Fitting werden häufig von den Anwendern synonym gebraucht. Die Fülle an Bezeichnungen demonstriert die Bedeutung und Verbreitung der Methode.

Angewandt als Systemidentifikation ist die Methode der kleinsten Quadrate in Verbindung mit Modellversuchen für Ingenieure ein Ausweg aus der paradoxen Situation, Modellparameter für unbekannte Gesetzmäßigkeiten zu bestimmen.

Geschichtliches

 
Carl Friedrich Gauß

Am Neujahrstag 1801 entdeckte der italienische Astronom Giuseppe Piazzi den Asteroiden Ceres. 40 Tage lang konnte er die Bahn verfolgen, dann verschwand Ceres hinter der Sonne. Im Laufe des Jahres versuchten viele Wissenschaftler anhand von Piazzis Beobachtungen die Bahn zu schätzen (die Lösung der nichtlinearen Kepler-Gleichungen ist sehr schwierig). Die meisten Rechnungen waren unbrauchbar; als einzige war diejenige des damals 24-jährigen Carl Friedrich Gauß genau genug, um dem deutschen Astronomen Franz Xaver von Zach zu ermöglichen, im darauffolgenden Dezember den Asteroiden wiederzufinden. Gauß erlangte dadurch Weltruhm.

Die Grundlagen seines Verfahrens hatte er schon 1795 im Alter von 18 Jahren entwickelt. Basis war eine Idee von Pierre-Simon Laplace, die Beträge von Fehlern aufzusummieren, so dass sich die Fehler zu Null addieren. Gauß nahm statt dessen die Fehlerquadrate und konnte die künstliche Zusatzanforderung an die Fehler weglassen. Unabhängig davon entwickelte der Franzose Adrien-Marie Legendre dieselbe Methode erstmalig im Jahre 1806 am Schluss eines kleinen Werkes über die Berechnung der Kometenbahnen und veröffentlichte eine zweite Abhandlung darüber im Jahr 1810. Von ihm stammt der Name méthode des moindres carrés (Methode der kleinsten Quadrate).

1809 publizierte Gauß dann im zweiten Band seines himmelsmechanischen Werkes Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium sein Verfahren. Dabei erwähnte er, dass er es schon vor Legendre entdeckt und benutze habe, was zu einem Prioritätsstreit zwischen den beiden führte. Gauß benutzte dann das Verfahren intensiv bei seiner Vermessung des Königreichs Hannover durch Triangulation und erzielte erhebliche Fortschritte beim effizienten Lösen der auftretenden Minimierungsprobleme.

1829 konnte Gauß eine Begründung liefern, wieso sein Verfahren im Vergleich zu den anderen so erfolgreich war: Die Methode der kleinsten Quadrate ist in einer breiten Hinsicht optimal, also besser als andere Methoden. Die genaue Aussage ist als der Satz von Gauß-Markow bekannt, da die Arbeit von Gauß wenig Beachtung fand und schließlich im 20. Jahrhundert von Andrei Andrejewitsch Markow wiederentdeckt und bekannt gemacht wurde.

Der französische Vermessungsoffizier André-Louis Cholesky entwickelte während des Ersten Weltkrieges die Cholesky-Zerlegung, die gegenüber den Lösungsverfahren von Gauß nochmal einen erheblichen Effizienzgewinn darstellte. In den 1960er Jahren entwickelte Gene Golub die Idee, die auftretenden linearen Gleichungssysteme mittels QR-Zerlegung zu lösen.

Das Verfahren

Häufig ist für ein gegebenes Problem keine formelhafte Beschreibung zur Hand: Man interessiert sich für eine abhängige Variable  , deren Zustandekommen von einer vorgegebenen Variablen   oder auch von mehreren Variablen   bis   abhängen kann. So hängt die Dehnung einer Feder nur von der aufgebrachten Kraft ab, der Gewinn eines Unternehmens jedoch von mehreren Faktoren wie Umsatz, den verschiedenen Kosten oder dem Eigenkapital. Um Informationen über die Art des Zusammenhangs zu erhalten, werden zu jeweils n jeweils gegebenen Werten der unabhängigen Variablen   entsprechende Beobachtungswerte   erhoben. Die  -Werte sollen dann mit einer Modellfunktion

 ,

die von den   Variablen   sowie von   Funktionsparametern abhängt, approximiert werden. Im Allgemeinen sollen aus methodischen Gründen mehr Datenpunkte als Parameter vorliegen.

Für die Wahl dieser Modellfunktion geht man von einem vermuteten Funktionstyp aus (beispielsweise einer Parabel oder einer Exponentialfunktion), was im Fall einer unabhängigen Variablen   meistens unproblematisch ist. Die Parameter   dienen zur Anpassung des gewählten Funktionstyps an den beobachteten Wert  . So müsste bei der gemessenen Dehnung einer Feder die gegebene Variable Kraft durch den Parameter Federkonstante relativiert werden. Ziel ist es nun, die Parameter so zu wählen, dass die Modellfunktion die Daten bestmöglich approximiert.

Zunächst ist nicht klar, wie die Güte verschiedener Approximationen beurteilen werden soll. Gauß und Legendre hatten die Idee, Annahmen über die Messfehler zu machen. Diese sollten im Durchschnitt Null sein. Jeder Messfehler sollte die gleiche Varianz haben und von jedem anderen Messfehler stochastisch unabhängig sein. Man verlangt damit, dass in den Messfehlern keinerlei systematische Information mehr steckt, sie sollen also rein zufällig um Null schwanken. Außerdem sollten die Messfehler normalverteilt sein, was zum einen wahrscheinlichkeitstheoretische Vorteile hat und zum anderen garantiert, dass Ausreißer in   so gut wie ausgeschlossen sind.

Das Kriterium zur Bestimmung der Approximation sollte dieses also berücksichtigen und so gewählt werden, dass große Abweichungen der Modellfunktion von den Daten viel stärker bestraft werden als kleine. Es sollen diejenigen Parameter ausgewählt werden, bei denen die Summe der Quadrate der Abweichungen zwischen den entsprechenden  -Werten der Modellkurve   und den Daten   (die Quadratsumme der Residuen oder auch Fehlerquadratsumme) minimal wird im Vergleich zu anderen Wahlen der Parameter, in Formelschreibweise

 

Äquivalent geht es darum, die euklidische Norm des Differenzvektors zu minimieren:

 

Wie genau dieses Minimierungsproblem gelöst wird, hängt von der Art der Modellfunktion ab. Häufig kann man mit Hilfe eines Streudiagramms zwischen   und y schon Rückschlüsse auf den Funktionstyp ziehen.

Lineare Modellfunktion

Der zweidimensionale Fall

Ein Spezialfall der Modellfunktion ist die lineare Form, bei der die Parameter   linear eingehen. Der einfachste Ansatz ist hier

 

Man erhält in Matrixschreibweise

 

Für die resultierende Ausgleichsgerade dieses einfachen, aber relevanten Beispiels lassen sich die Lösungen für die Parameter direkt angeben als

  und  

mit   als arithmetischem Mittel der  -Werte,   entsprechend. Die Lösung für   kann mit Hilfe des Verschiebungssatzes auch als

 

angegeben werden.

Beispiel

 
Streudiagramm von Längen und Breiten von 10 zufällig ausgewählten Kriegsschiffe

Folgendes Beispiel soll das Approximieren der linearen Funktion   zeigen. Es wurden zufällig 10 Kriegsschiffe ausgewählt und bezüglich mehrerer Merkmale darunter Länge (m) und Breite (m) analysiert. Es soll nun untersucht werden, ob die Breite eines Kriegsschiffs möglicherweise durch die Länge erklärt werden kann.

Das Streudiagramm zeigt, dass zwischen Länge und Breite eines Schiffs offensichtlich ein ausgeprägter linearer Zusammenhang besteht.

Es soll nun nach der Methode der kleinsten Quadrate eine Ausgleichsgerade errechnet werden. In der folgenden Tabelle sind die Daten zusammen mit den Zwischenergebnissen aufgeführt.

Nummer Länge (m) Breite (m) ti − t yi − y
i ti yi ti* yi* ti*yi* ti*ti* yi*yi*
1 208 21,6 40,2 3,19 128,238 1616,04 10,1761
2 152 15,5 −15,8 −2,91 45,978 249,64 8,4681
3 113 10,4 −54,8 −8,01 438,948 3003,04 64,1601
4 227 31,0 59,2 12,59 745,328 3504,64 158,5081
5 137 13,0 −30,8 −5,41 166,628 948,64 29,2681
6 238 32,4 70,2 13,99 982,098 4928,04 195,7201
7 178 19,0 10,2 0,59 6,018 104,04 0,3481
8 104 10,4 −63,8 −8,01 511,038 4070,44 64,1601
9 191 19,0 23,2 0,59 13,688 538,24 0,3481
10 130 11,8 −37,8 −6,61 249,858 1428,84 43,6921
Σ 1678 184,1 0,0 0,00 3287,820 20391,60 574,8490

Man erhält nun analog zum oben angegebenen Fall zunächst

 

und entsprechend

 .

Damit bestimmt man x1 als

 

so dass man sagen könnte, mit jedem Meter Länge wächst ein Kriegsschiff im Durchschnitt etwa 16 Zentimeter in die Breite. Das Absolutglied x0 erhalten wir aus

 

wobei eine inhaltliche Interpretation aus stochastischen Gründen unterbleiben sollte. Die Anpassung der Punkte ist recht gut, es werden etwa 92 Prozent der Information in Breite mit Hilfe des Merkmals Länge erklärt.

Mehrere Variablen

Besitzt die Modellfunktion mehrere unabhängige Modellvariablen  , erhält man eine lineare Funktion der Form

 

die auf das lineare Gleichungssystem

 

führt. Indem man die   zur Datenmatrix  , die Parameter   zum Parametervektor   und die Beobachtungen   zum Vektor   zusammenfasst, kann man das lineare Gleichungssystem in Matrixform darstellen.

  bzw.  .

Der kleinste-Quadrate-Ansatz führt dann wieder wie oben auf ein lineares Ausgleichsproblem der Form

 .

Polynomiale Modellfunktion

 
Datensatz mit approximierenden Polynomen

Häufig werden für die Approximation einer Funktion   auch Ausgleichspolynome der Form

 

eingesetzt. Werden für die Potenzen die Zahlenwerte verwendet, ergibt sich wieder wie oben ein lineares Gleichungssystem.

Beispiel einer polynomialen Ausgleichskurve

 
Tabelle T1: Ergebnisse der Kleinst-Quadrate-Schätzung mit 4 gegebenen Datenvariablen tj

Als Ergebnisse der Mikrozensus-Befragung im Mai 2003 durch das statistische Bundesamt sind die durchschnittlichen Gewichte von Männern nach Altersklassen gegeben (Quelle:© Statistisches Bundesamt, Wiesbaden 2004). Für die Analyse wurden die Altersklassen durch die Klassenmitten ersetzt (Die Zahlen sind im Artikel Streudiagramm aufgeführt). Es soll die Abhängigkeit der Variablen Gewicht (y) von der Variablen Alter (t) analysiert werden.

Das Streudiagramm lässt auf eine annähernd parabolische Beziehung zwischen t und y schließen, welche sich häufig gut durch ein Polynom annähern lässt. Es wird ein polynomialer Ansatz der Form

 
 
Tabelle T2: Ergebnisse der Kleinst-Quadrate-Schätzung mit 3 gegebenen Datenvariablen tj

versucht. Eine Anpassungsrechnung mit Hilfe des Statistik-Programms Minitab ergab die (ins Deutsche übersetzte) Tabelle T1. Es sind alle Parameter xj statistisch signifikant, d.h. die Daten aller t j können einen deutlichen Beitrag zur Erklärung von y leisten. Das Bestimmtheitsmaß (R2) beträgt 99,8 %, man könnte also sagen, dass 99,8 % der Information von y durch die Daten erklärt werden. Die Daten von t j sind allerdings hochkorreliert. Es wurde daher t3 und damit der Modellparameter x3 aus dem Modell entfernt. Die Ergebnisse einer Regression ohne t3 sind in der (ins Deutsch übersetzten) Tabelle T2 aufgeführt. Das Bestimmtheitsmaß ist lediglich auf 98,6 % gesunken, also hat t3 nur einen zusätzlichen Beitrag zur Erklärung von y von 1,3 %. Das Streudiagramm mit den beobachteten und geschätzten y-Werten zeigt, dass die Anpassung gelungen ist.

 
Streudiagramm: Durchschnittliches Gewicht von Männern nach Alter (Quelle der Daten: Statistisches Bundesamt, Wiesbaden 2004)
 
Streudiagramm von y und geschätztem y

Lösung des Minimierungsproblems

Das Minimierungsproblem   hat immer eine Lösung. Hat die Matrix   vollen Rang, so ist sie sogar eindeutig. Die partiellen Ableitungen bezüglich der   und Nullsetzen derselben zum Bestimmen des Minimums ergeben ein lineares System von Normalgleichungen (auch Normalengleichungen)

 

das bei Regularität der  -Matrix auf der linken Seite eindeutig lösbar ist. Ferner hat die Systemmatrix   die Eigenschaft, positiv definit zu sein, ihre Eigenwerte sind also alle positiv. Zusammen mit der Symmetrie von   kann dies beim Einsatz von numerischen Verfahren zur Lösung ausgenutzt werden: beispielsweise mit der Cholesky-Zerlegung oder dem CG-Verfahren. Da beide Methoden von der Kondition der Matrix stark beeinflusst werden, ist dies manchmal keine empfehlenswerte Herangehensweise: Ist schon A schlecht konditioniert, so ist   quadratisch schlecht konditioniert. Eine stabilere Alternative bietet die QR-Zerlegung mit Householdertransformationen, ausgehend vom ursprünglichen Minimierungsproblem und nicht den Normalgleichungen.

Ferner lässt sich das Minimierungsproblem mit einer Singulärwertzerlegung gut analysieren. Diese motivierte auch den Ausdruck der Pseudoinversen, einer Verallgemeinerung der normalen Inversen einer Matrix.

In der statistischen Regressionsanalyse spricht man bei mehreren gegebenen Variablen   von multipler Regression. Der Ansatz ist auch als OLS (ordinary least squares) bekannt, im Gegensatz zu GLS (generalised least squares), dem verallgemeinerten Regressionsmodell bei Residuen, die von der Verteilungsannahme wie Unkorreliertheit und Homoskedastie abweichen. Dagegen liegen bei multivariater Regression für jede Beobachtung       viele  -Werte vor, so dass statt eines Vektors eine  -Matrix   vorliegt. Die linearen Regressionsmodelle sind in der Statistik wahrscheinlichkeitstheoretisch intensiv erforscht worden. Besonders in der Ökonometrie werden beispielsweise komplexe rekursiv definierte lineare Strukturgleichungen analysiert, um volkswirtschaftliche Systeme zu modellieren.

Anforderungen an die Daten

Strenggenommen ist die Normalverteilungsannahme für die abhängige Variable   nicht zwingend notwendig. Es sollen lediglich keine Ausreißer vorliegen. Diese verursachen numerische Probleme, ebenso wie Multikollinearität.

Multikollinearität

Multikollinearität entsteht, wenn die Messreihen zweier gegebener Variablen ti und tj sehr hoch korreliert sind, also fast linear abhängig sind. In diesem Fall wird die Determinante von   sehr klein und die Lösungswerte werden unplausibel groß. Die Norm der Inversen wird umgekehrt ebenfalls sehr groß, die Kondition von   ist stark beeinträchtigt. Die Normalgleichungen sind dann numerisch schwer zu lösen. Häufig tritt Multikollinearität auf, wenn das Regressionsmodell durch zu viele Regressoren überbestimmt ist. Neben numerischen Alternativen können auch mit Hilfe statistischer Tests die Variablen auf ihre Erklärungswerte für das Modell hin überprüft werden und gegebenenfalls entfernt werden.

Man kann bei sehr vielen in Frage kommenden Regressoren auch schrittweise eine Variablen-Selektion durchführen:

  • Bei der vorwärts gerichteten Regression (Forward Regression) wird zuerst der Regressor in das Modell aufgenommen, der den größten Beitrag zur Erklärung von y liefert, also etwa die Quadratsumme der Residuen minimiert. Dann wird unter den verbliebenen potentiellen Regressoren der Regressor ausgewählt, dessen Beitrag zum bestehenden Modell maximal ist, usw. Das Verfahren wird beendet, wenn der zusätzliche maximale Beitrag eines Regressors statistisch insignifikant wird. Wird statt eines Tests eine kritische Genauigkeit verwendet, könnte man auch sagen, bis sich die Genauigkeit der Anpassung nicht mehr steigern lässt. Wenn das statistische Material nicht umfangreich genug ist kann es vorkommen, dass die Abhängigkeit der Genauigkeit von der Anzahl der Ansatzfunktionen nicht glatt, sondern rau gegen einen Grenzwert konvergiert – daraus ergeben sich weitere Verbesserungsmöglichkeiten des Verfahrens.
  • Bei der rückwärts gerichteten Regression (Backward Regression) werden zunächst alle Regressoren in das Regressionsmodell aufgenommen. Es wird dann der Regressor aus dem Modell entfernt, dessen Weglassen die Quadratsumme der Residuen am wenigsten reduziert. Dann wird der nächste Regressor entfernt usw. Das Verfahren stoppt, wenn der Beitrag des nächsten potentiellen Eliminationskandidaten zur Erklärung von y signifikant hoch wird, bzw. bis die Genauigkeit einen festgelegten Schwellenwert unterschreitet.
Im allgemeinen ist die Vorwärts-Elimination der Rückwärts-Elimination vorzuziehen, weil die Kreuzproduktmatrix   bei sehr vielen Regressoren häufig schon pathologisch ist und für die Eliminationsrechnung keine sinnvollen Ergebnisse liefert.

Auch mit Ridge-Regression kann Multikollinearität abgeholfen werden. Typischerweise sind bei multikollinearen Kreuzproduktmatrizen   die Hauptdiagonalelemente zu klein. Man addiert hier iterativ kleine Beträge auf die Hauptdiagonale, bis sich die Matrix stabilisiert hat. Mit Hilfe eines Konditionierungskriteriums, etwa der Eigenwerte, kann dieser Prozess kontrolliert werden. Ob dieses Verfahren sinnvolle Ergebnisse liefert, muss wohl fallweise untersucht werden.

Ausreißer

Als Ausreißer sind Datenwerte definiert, die „untypisch weit von der Masse der Daten entfernt sind“. Diese Werte beeinflussen die Berechnung der Parameter stark. Es gibt hier alternative Ausreißer-resistente Berechnungsverfahren wie gewichtete Regression oder das Drei-Gruppen-Verfahren. Bei der gewichteten Regression werden etwa die Ausreißer der abhängigen Variablen y mit 0 und die unproblematischen Werte mit 1 gewichtet, was die Unterdrückung des Ausreißers bedingt. Dieser Algorithmus nach Mosteller und Tukey (1977) wird als „biweighting“ bezeichnet. Denkbar wäre auch, die Gewichtung je nach Stärke des Ausreißers abzustufen. Im übrigen können auch Ausreißer in den Regressoren die Ergebnisse der Ausgleichsrechnung stark beeinträchtigen. Man spricht hier von Werten mit großer Hebelkraft (High Leverage Value).

 
Korrelierte Residuen:
In den Residuen ist noch eine Schwingungskomponente, die man ev. mit dem Ansatz y = x0 + x1t + x2sin(t) einbinden könnte.
 
Verschiedene Varianz der Residuen:
Die linken Residuen schwanken schwächer als die rechten. Vermutlich sind zwei verschiedene Populationen gemischt worden.
 
Ausreißer von y:
Der Wert zieht die Gerade nach oben

Probleme mit Nebenbedingungen

Häufig sind Zusatzinformationen an die Parameter bekannt, die durch Nebenbedingungen formuliert werden, die dann in Gleichungs- oder Ungleichungsform vorliegen. Gleichungen tauchen beispielsweise auf, wenn bestimmte Datenpunkte interpoliert werden sollen. Ungleichungen tauchen häufiger auf, in der Regel in der Form von Intervallen für einzelne Parameter. Im Einführungsbeispiel wurde die Federkonstante erwähnt, diese ist immer größer Null und kann für den konkret betrachteten Fall immer nach oben abgeschätzt werden.

Im Gleichungsfall können diese bei einem sinnvoll gestellten Problem genutzt werden, um das ursprüngliche Minimierungsproblem in eines niedrigerer Dimension umzuformen, dessen Lösung die Nebenbedingungen automatisch erfüllt.

Schwieriger ist der Ungleichungsfall. Hier ergibt sich bei linearen Ungleichungen das Problem

  mit  ,  

wobei die Ungleichungen komponentenweise gemeint sind. Dieses Problem ist als Konvexes Optimierungsproblem eindeutig lösbar und kann beispielsweise mit Methoden zur Lösung solcher angegangen werden.

Quadratische Ungleichungen ergeben sich beispielsweise bei der Nutzung einer Tychonow-Regularisierung zur Lösung von Integralgleichungen. Die Lösbarkeit ist hier nicht immer gegeben. Die numerische Lösung kann beispielsweise mit speziellen QR-Zerlegungen erfolgen.

Nichtlineare Modellfunktionen

Mit dem Aufkommen leistungsfähiger Rechner gewinnt insbesondere die nichtlineare Regression an Bedeutung. Hierbei gehen die Parameter nichtlinear in die Funktion ein. Nichtlineare Modellierung ermöglicht im Prinzip die Anpassung von Daten an jede Gleichung der Form  . Da diese Gleichungen Kurven definieren, werden die Begriffe nichtlineare Regression und „curve fitting“ zumeist synonym gebraucht.

Manche nichtlineare Probleme lassen sich durch geeignete Substitution in lineare überführen und sich dann wie oben lösen. Ein multiplikatives Modell von der Form

 

bei dem auch die Residuen   mit   variieren, lässt sich beispielsweise durch Logarithmieren in ein additives System überführen. Dessen Parameter können dann berechnet werden. Dieser Ansatz findet unter Anderem in der Wachstumstheorie Anwendung.

Im Allgemeinen ergibt sich bei nichtlinearen Modellfunktionen ein Problem der Form

 

mit einer nichtlinearen Funktion  . Partielle Differentiation ergibt dann ein System von Normalgleichungen, das nicht mehr analytisch gelöst werden kann. Eine numerische Lösung kann hier iterativ mit dem Gauß-Newton-Verfahren erfolgen. Jenes hat allerdings das Problem, dass die Konvergenz des Verfahrens nicht gesichert ist.

Aktuelle Programme arbeiten häufig mit einer Variante, dem Levenberg-Marquardt-Algorithmus. Bei diesem Verfahren ist zwar die Konvergenz ebenfalls nicht gesichert, jedoch wird durch eine Regularisierung die Monotonie der Näherungsfolge garantiert. Zudem ist das Verfahren bei größerer Abweichung der Schätzwerte toleranter als die Ursprungsmethode. Beide Verfahren sind mit dem Newton-Verfahren verwandt und konvergieren meist quadratisch, in jedem Schritt verdoppelt sich also die Zahl der korrekten Nachkommastellen.

Wenn die Differenziation auf Grund der Komplexität der Zielfunktion zu aufwändig ist, stehen eine Reihe anderer Verfahren als Ausweichlösung zu Verfügung, die keine Ableitungen benötigen, siehe bei Methoden der lokalen nichtlinearen Optimierung.

Beispiel aus der Enzymkinetik einer nicht linearisierbaren Modellfunktion

Ein Beispiel für Regressionsmodelle, die voll nichtlinear sind, ist die Enzymkinetik. Hier ist zu fordern, dass nur y (Reaktionsgeschwindigkeit) und nicht x (Substratkonzentration) einem Fehler unterliegt und damit x als Variable genutzt werden kann. Die Lineweaver-Burk-Beziehung ist zwar eine algebraisch korrekte Umformung der Michaelis-Menten-Gleichung v = Vmax x [S] / (Km + [S]), ihre Anwendung liefert aber nur korrekte Ergebnisse, wenn die Messwerte fehlerfrei sind. Dies ergibt sich aus der Tatsache, dass sich die Realität nur mit einer erweiterten Michaelis-Menten-Beziehung

 

mit   als Fehlerparameter, beschreiben lässt. Diese Gleichung lässt sich nicht mehr linearisieren, also muss hier die Lösung iterativ ermittelt werden.

Literatur

  • Åke Björk: Numerical Methods for Least Squares Problems. SIAM, Philadelphia 1996, ISBN 0898713609
  • Norman R. Draper, Harry Smith: Applied Regression Analysis. Wiley-Interscience, New York 1998, ISBN 0471170828
  • Walter Großmann: Grundzüge der Ausgleichsrechnung. Springer Verlag, Berlin Heidelberg New York 1969 (3. erw. Aufl.), ISBN 3540044957
  • R. J. Hanson, C. L. Lawson: Solving least squares problems. SIAM, Philadelphia 1995, ISBN 0898713560
  • Frederick Mosteller, John W. Tukey: Data Analysis and Regression – a second course in statistics. Addison-Wesley, Reading MA 1977, ISBN 020104854X
  • Gerhard Opfer: Numerische Mathematik für Anfänger. Eine Einführung für Mathematiker, Ingenieure und Informatiker. Vieweg, Braunschweig 2002 (4. Aufl.), ISBN 3528372656
  • Volker Oppitz, Volker Nollau: Taschenbuch Wirtschaftlichkeitsrechnung. Carl Hanser, München 2003, ISBN 3446224637
  • Volker Oppitz: Gabler Lexikon Wirtschaftlichkeitsberechnung. Gabler, Wiesbaden 1995, ISBN 3409199519
  • Josef Schira: Statistische Methoden der VWL und BWL. Pearson Studium, München 2003, ISBN 3827370418
  • Peter Schönfeld: Methoden der Ökonometrie. 2 Bd. Vahlen, Berlin-Frankfurt 1969–1971.
  • E. Zeidler (Hrsg.): Taschenbuch der Mathematik. Begründet v. I.N. Bronstein, K.A. Semendjajew. Teubner, Stuttgart-Leipzig-Wiesbaden 2003, ISBN 3817120052

Frei verfügbare Implementierungen des Levenberg-Marquardt-Algorithmus finden sich unter

Wikibooks: Einführung in die Regressionsrechnung – Lern- und Lehrmaterialien