„Methode der kleinsten Quadrate“ – Versionsunterschied
[ungesichtete Version] | [gesichtete Version] |
Multikollinearität doch rausgeschmissen, hat ja mit der polynomialen Regression eigentlich nix zu tun. |
Linkvorschlag-Funktion: 1 Link hinzugefügt. |
||
(989 dazwischenliegende Versionen von mehr als 100 Benutzern, die nicht angezeigt werden) | |||
Zeile 1: | Zeile 1: | ||
{{Dieser Artikel|behandelt die numerischen Aspekte dieser Methode. Für eine stochastische Sichtweise siehe [[Lineare Einfachregression]] und [[Multiple lineare Regression]].}} |
|||
Die '''Methode der kleinsten Quadrate''' (auch kleinsten Fehlerquadrate oder englisch: '''Least Squares''') dient dazu, im Rahmen einer [[Ausgleichsrechnung]] (Ausgleich zwischen den [[Messwert]]en und den erwarteten Rechenwerten) den Wert von [[Parameter]]n so zu bestimmen, dass die Summe der Fehlerquadrate (Quadrat der Differenz zwischen dem Messwert und dem erwarteten Rechenwert) minimiert wird. Werden Elemente der Stochastik mit eingebracht, spricht man von [[Regressionsanalyse]]. Hier nennt man das Verfahren auch ''Kleinste-Quadrate-Schätzer'', während in der [[Physik]] der Begriff ''Fitting'' verwandt wird. Die Fülle an Begriffen demonstriert die Bedeutung und Verbreitung der Methode. |
|||
Die '''Methode der kleinsten Quadrate''' (kurz: '''MKQ''') oder '''KQ-Methode''' ({{enS}} ''method of least squares'' oder lediglich ''least squares'', kurz: ''LS''); zur Abgrenzung von daraus abgeleiteten Erweiterungen wie z. B. der [[Verallgemeinerte Methode der kleinsten Quadrate|verallgemeinerten Methode der kleinsten Quadrate]] oder der [[Zweistufige Kleinste-Quadrate-Schätzung|zweistufigen Methode der kleinsten Quadrate]] auch mit dem Zusatz „gewöhnliche“ bezeichnet, d. h. '''gewöhnliche Methode der kleinsten Quadrate''' ({{enS}} ''ordinary least squares'', kurz: ''OLS''; veraltet ''Methode der kleinsten [[Abweichungsquadratsumme]]'') ist das [[Mathematik|mathematische]] Standardverfahren zur [[Ausgleichungsrechnung]]. |
|||
Dabei wird zu einer [[Streudiagramm|Menge von Datenpunkten]] eine [[Funktion (Mathematik)|Funktion]] bestimmt, die möglichst nahe an den Datenpunkten verläuft und somit die Daten bestmöglich zusammenfasst. Die am häufigsten verwendete Funktion ist die [[Gerade]], die dann [[Ausgleichsgerade]] genannt wird. Um die Methode anwenden zu können, muss die Funktion mindestens einen [[Parameter (Mathematik)|Parameter]] enthalten. Diese Parameter werden dann durch die Methode bestimmt, so dass, wenn die Funktion mit den Datenpunkten verglichen und der Abstand zwischen Funktionswert und Datenpunkt quadriert wird, die Summe dieser quadrierten Abstände möglichst gering wird. Die Abstände werden dann [[Residuum (Numerische Mathematik)|Residuen]] genannt. |
|||
Angewandt als [[Systemidentifikation]] ist die Methode der kleinsten Quadrate |
|||
in Verbindung mit [[Modellversuch]]en für Ingenieure ein Ausweg aus der paradoxen Situation, ''dass man etwas berechnen muss, was man gar nicht berechnen kann''. |
|||
Typischerweise werden mit dieser Methode reale Daten, etwa physikalische oder wirtschaftliche [[Messwert]]e, untersucht. Diese Daten beinhalten oft unvermeidbare [[Messfehler]] und [[Rauschen (Physik)|Schwankungen]]. Unter der Annahme, dass die gemessenen Werte nahe an den zugrunde liegenden „[[Wahrer Wert|wahren Werten]]“ liegen und zwischen den Messwerten ein bestimmter Zusammenhang besteht, kann die Methode verwendet werden, um eine Funktion zu finden, die diesen Zusammenhang der Daten möglichst gut beschreibt. Die Methode kann auch umgekehrt verwendet werden, um verschiedene Funktionen zu testen und dadurch einen unbekannten Zusammenhang in den Daten zu beschreiben. |
|||
[[Bild:LogistischeFunktion.png|450px|thumb|Anpassung von beobachteten y-Werten an eine logistische Funktion]] |
|||
[[Datei:MDKQ1.svg|mini|320px|Messpunkte und deren Abstand von einer nach der Methode der kleinsten Quadrate bestimmten Funktion. Hier wurde eine [[logistische Funktion]] als Modellkurve gewählt.]] |
|||
In der Beispielgrafik sind Datenpunkte und eine Ausgleichsfunktion eingetragen. Es wird eine allgemeine Funktion (die ''Modellfunktion'') ausgewählt, die zur Fragestellung und den Daten passen sollte, hier eine [[logistische Funktion]]. Deren Parameter werden nun so bestimmt, dass die [[Summe der Abweichungsquadrate]] <math>e</math> der Beobachtungen <math>y</math> von den Werten der Funktion [[Optimierung (Mathematik)|minimiert]] wird. In der Grafik ist die Abweichung <math>e</math> an der Stelle <math>x</math> als senkrechter Abstand der Beobachtung <math>y</math> von der Kurve zu erkennen. |
|||
In der [[Stochastik]] wird die Methode der kleinsten Quadrate meistens als [[Regressionsanalyse|regressionsanalytische]] [[Schätzmethode (Statistik)|Schätzmethode]] benutzt, wo sie auch als '''Kleinste-Quadrate-Schätzung''' bzw. '''gewöhnliche Kleinste-Quadrate-Schätzung''' bezeichnet wird. Da die Kleinste-Quadrate-Schätzung die [[Residuenquadratsumme]] minimiert, ist es dasjenige Schätzverfahren, welches das [[Bestimmtheitsmaß]] maximiert. Angewandt als [[Systemidentifikation]] ist die Methode der kleinsten Quadrate in Verbindung mit [[Modellversuch]]en z. B. für Ingenieure ein Ausweg aus der paradoxen Situation, Modellparameter für unbekannte Gesetzmäßigkeiten zu bestimmen. |
|||
==Das Verfahren== |
|||
== Geschichte == |
|||
Eine ''Modellkurve'' ''y''<sub>m</sub> soll ''n'' empirischen Daten ''y<sub>i</sub>'' angepasst werden. Die Modellkurve wird aus q verschiedenen gegebenen Variablen t<sub>j</sub> erzeugt. Für die optimale Anpassung werden bestimmte p viele [[Modellparameter]] ''x<sub>k</sub>'' (k = 1, ...,p) gesucht. Es liegen zu jeder gegebenen Variablen t<sub>j</sub> ebenfalls je n viele Datenwerte t<sub>ij</sub> (i = 1, ..., n; j = 1, ...,q) vor. Üblicherweise ist die Anzahl der Datenpunkte größer als die Anzahl der Parameter, so dass sich ein überbestimmtes Gleichungssystem ergibt. Es wird nun angenommen, daß die [[Messfehler]] oder auch Residuen y<sub>j</sub> - y<sub>mj</sub> [[Normalverteilung|normalverteilt]] mit gleicher [[Varianz]] sind. Dies führt letztendlich auf folgendes Kriterium: Die Summe der quadratischen Abweichungen zwischen Kurve und Daten (Quadratsumme der Residuen) muss minimiert werden, in Formelschreibweise |
|||
[[Datei:Carl Friedrich Gauss.jpg|mini|[[Carl Friedrich Gauß]]]] |
|||
[[Datei:Ceres-Beobachtung von Piazzi.png|mini|Piazzis Beobachtungen veröffentlicht in der [[Monatliche Correspondenz|Monatlichen Correspondenz]] vom September 1801]] |
|||
Am Neujahrstag 1801 entdeckte der italienische Astronom [[Giuseppe Piazzi]] den Zwergplaneten [[(1) Ceres|Ceres]]. 40 Tage lang konnte er die Bahn verfolgen, dann verschwand Ceres hinter der Sonne. Im Laufe des Jahres versuchten viele Wissenschaftler erfolglos, anhand von Piazzis Beobachtungen die Bahn zu berechnen – unter der Annahme einer Kreisbahn, denn nur für solche konnten damals die [[Bahnelement]]e aus beobachteten Himmelspositionen mathematisch ermittelt werden. |
|||
<math> \min_{\vec{x}} { \sum_{i=1}^{n}[y_i - y_m(t_{1i} \cdots t_{qi}; x_1 ... x_p)]^2} = \min_{\vec{x}}\| \vec{y}_{m} ( \vec{x} ) - \vec{y} \|_{2} \ . </math> |
|||
Der 24-jährige [[Carl Friedrich Gauß]] schaffte es, die Bahn mit Hilfe einer neuen indirekten Methode der [[Bahnbestimmung]] und seiner Ausgleichsrechnungen auf Basis der ''Methode der kleinsten Quadrate'' (wenn auch noch nicht so bezeichnet) so zu berechnen, dass [[Franz Xaver von Zach]] ihn am 7. Dezember 1801 und – bestätigt – am 31. Dezember 1801 wiederfinden konnte. [[Heinrich Wilhelm Olbers]] bestätigte dies unabhängig von Zach durch Beobachtung am 1. und 2. Januar 1802.<ref>{{ANNO|gas|23|01|1802|1|Göttingen}}</ref> |
|||
Es geht also darum, die euklidische [[Normierter Raum|Norm]] des Differenzvektors zu minimieren. Dieser Ansatz wurde von [[Carl Friedrich Gauß]] entwickelt und er nutzte ihn, um die Bahn des Asteroiden [[Ceres (Asteroid)|Ceres]] zu bestimmen, der daraufhin wiedergefunden werden konnte. |
|||
Das Problem der Wiederauffindung der Ceres als solches lag darin, dass durch die Beobachtungen weder der ''Ort,'' ein Stück der ''Bahn,'' noch die ''Entfernung'' bekannt sind, sondern nur die ''Richtungen'' der Beobachtung. Dies führt auf die Suche einer [[Ellipse]] und nicht nach einem Kreis, wie ihn Gauß’ Konkurrenten ansetzten.<ref>{{ADB|8|430|445|Gauß: Karl Friedrich G.|[[Moritz Cantor]]|ADB:Gauß, Carl Friedrich}}, hier S. 436.</ref> Einer der Brennpunkte der Ellipse ist bekannt (die [[Sonne]] selbst), und die Bögen der Bahn der Ceres zwischen den Richtungen der Beobachtung werden nach dem [[Zweites Keplersches Gesetz|zweiten Keplerschen Gesetz]] durchlaufen, das heißt, die Zeiten verhalten sich wie die vom Leitstrahl überstrichenen Flächen. Außerdem ist für die rechnerische Lösung bekannt, dass die Beobachtungen selbst von einem Kegelschnitt im Raum ausgehen, der Erdbahn selbst. |
|||
Wie genau dieses Minimierungsproblem gelöst wird, hängt von der Art der Modellfunktion ab. Werden stochastische Elemente in die Modellierung mit einbezogen, spricht man von [[Regressionsanalyse|Regression]]. In der Praxis spricht man häufig auch von Regression, wenn es sich um eine rein empirischen Anpassung ohne stochastische Analyse handelt. |
|||
Im Grundsatz führt das Problem auf eine Gleichung achten Grades, deren triviale Lösung die Erdbahn selbst ist. Durch umfangreiche Nebenbedingungen und (später) die von Gauß entwickelte ''Methode der kleinsten Quadrate'' gelang es dem 24-Jährigen, für die Bahn der Ceres für den 25. November bis 31. Dezember 1801 den von ihm berechneten Ort anzugeben. Damit konnte Zach am letzten Tag der Vorhersage Ceres wiederfinden. Der Ort lag nicht weniger als 7° (d. h. 13,5 [[Vollmondbreite]]n) östlich der Stelle, wo die anderen Astronomen Ceres vermutet hatten, was nicht nur Zach, sondern auch Olbers gebührend würdigten.<ref name="Karlson">Paul Karlson: ''Zauber der Zahlen.'' Ullstein-Verlag, Berlin–West. Neunte, überarbeitete und erweiterte Auflage, 1967, S. 390 f.</ref> |
|||
Seine ersten Berechnungen waren zwar noch ohne die ''Methode der kleinsten Quadrate'', erst als nach der Wiederentdeckung von Ceres viele neue Daten vorlagen, benutzte er diese für eine genauere Bestimmung der Bahnelemente, ohne aber Details seiner Methode allgemein offenzulegen.<ref>A. Abdulle, [[Gerhard Wanner (Mathematiker)|Gerhard Wanner]]: ''200 years of least square methods''. In: ''Elemente der Mathematik'', Band 57, 2002, S. 45–60, [[doi:10.1007/PL00000559]].</ref> Piazzis Ruf, der aufgrund seiner nicht zu einer Kreisbahn passen wollenden Bahnpunkte stark gelitten hatte, war ebenfalls wiederhergestellt.<ref>Vgl. {{ADB|8|430|445|Gauß: Karl Friedrich G.|[[Moritz Cantor]]|ADB:Gauß, Carl Friedrich}}, S. 436.</ref> |
|||
==Lineare Modellfunktion== |
|||
Eine Vorgängermethode der Methode der kleinsten Quadrate stellt die [[Median-Regression|Methode der kleinsten absoluten Abweichungen]] dar, die 1760 von [[Rugjer Josip Bošković]] entwickelt wurde. Die Grundlagen der Methode der kleinsten Quadrate hatte Gauß schon 1795 im Alter von 18 Jahren entwickelt. Zugrundeliegend war eine Idee von [[Pierre-Simon Laplace]], die Abweichungen der Messwerte vom erwarteten Wert so aufzusummieren, dass die Summe über all diese sogenannten Fehler null ergab. Im Unterschied zu dieser Methode verwendete Gauß statt der Fehler die Fehlerquadrate und konnte so auf die Nullsummen-Anforderung verzichten. Unabhängig von Gauß entwickelte der Franzose [[Adrien-Marie Legendre]] dieselbe Methode, veröffentlichte diese als Erster im Jahr 1805, am Schluss eines kleinen Werkes über die Berechnung der Kometenbahnen,<ref>Adrien-Marie Legendre: [https://books.google.de/books?id=PRcOAAAAQAAJ&printsec=frontcover&hl=de#v=onepage&q=&f=false ''Nouvelles méthodes pour la détermination des orbites des comètes.''] Paris 1805, S. 72–80 (Anhang): ''Sur la Méthode des moindres quarrés.''</ref> und veröffentlichte eine zweite Abhandlung darüber im Jahr 1810. Seine Darstellung war überaus klar und einfach. Von Legendre stammt auch die Bezeichnung ''Méthode des moindres carrés'' (Methode der kleinsten Quadrate). |
|||
Ein Spezialfall der Modellfunktion ist die lineare Form. Der einfachste lineare Ansatz ist y<sub>m</sub> = x<sub>0</sub> + x<sub>1</sub>t. Wir erhalten in Matrixschreibweise |
|||
1809 publizierte Gauß dann im zweiten Band seines himmelsmechanischen Werkes ''Theoria motus corporum coelestium in sectionibus conicis solem ambientium'' („Theorie der Bewegung der Himmelskörper, welche in Kegelschnitten die Sonne umlaufen“) das Verfahren<ref>Carl Friedrich Gauß: [https://books.google.de/books?id=ORUOAAAAQAAJ&printsec=frontcover&hl=de#v=onepage&q=&f=false ''Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium'']. Göttingen 1809; Carl Haase (Übers.): [https://books.google.de/books?id=hjIDAAAAQAAJ&printsec=frontcover&hl=de#v=onepage&q=&f=false ''Theorie der Bewegung der Himmelskörper, welche in Kegelschnitten die Sonne umlaufen.''] Hannover 1865.</ref> inklusive der Normalengleichungen, sowie das [[Gaußsches Eliminationsverfahren|Gaußsche Eliminationsverfahren]] und das [[Gauß-Newton-Verfahren]],<ref>[https://mathshistory.st-andrews.ac.uk/HistTopics/Matrices_and_determinants/ Matrices and determinants].</ref> womit er weit über Legendre hinausging. Darin bezeichnete er die Methode der kleinsten Quadrate als seine Entdeckung und behauptete, diese schon im Jahr 1795 (also vor Legendre) entdeckt und angewandt zu haben, was diesen nachhaltig verärgerte. Legendre beschwerte sich darüber in einem langen Brief an Gauß, welchen dieser unbeantwortet ließ.<ref>Abgedruckt in Gauß, Werke, Band X/1, S. 380.</ref> Gauß verwies nur gelegentlich auf einen Eintrag in seinem mathematischen Tagebuch vom 17. Juni 1798 (dort findet sich der kryptische Satz in Latein: „Calculus probabilitatis contra La Place defensus“ [„Kalkül der Wahrscheinlichkeit gegen Laplace verteidigt“] und sonst nichts).<ref>Abdulle, Wanner: ''Elemente der Mathematik''. Band 57, 2002, S. 51. Mit Faksimileabdruck des Tagebucheintrags.</ref> Laplace beurteilte die Sache so, dass Legendre die Erstveröffentlichung tätigte, Gauß die Methode aber zweifelsfrei schon vorher kannte, selbst nutzte und auch anderen Astronomen brieflich mitteilte.<ref>Laplace, zitiert nach Herman Goldstine: ''A history of numerical analysis''. Springer, 1977, S. 209.</ref> Die Methode der kleinsten Quadrate wurde nach ihrer Veröffentlichung schnell das Standardverfahren zur Behandlung von astronomischen oder geodätischen Datensätzen. |
|||
:<math>\min_{x_0,x_1}\|\begin{pmatrix}1 & t_1 \\ \vdots & \vdots \\ 1 & t_n \end{pmatrix} |
|||
\begin{pmatrix} x_0\\ x_1\end{pmatrix} - \begin{pmatrix} y_1 \\ \vdots \\ y_{n}\end{pmatrix}\|_{2} = \min_x\|Ax-b\|_2,</math> |
|||
Gauß nutzte das Verfahren intensiv bei seiner [[Gaußsche Landesaufnahme|Vermessung des Königreichs Hannover]] durch [[Triangulation (Geodäsie)|Triangulation]]. 1821 und 1823 erschien die zweiteilige Arbeit sowie 1826 eine Ergänzung zur ''Theoria combinationis observationum erroribus minimis obnoxiae'' („Theorie der den kleinsten Fehlern unterworfenen Kombination der Beobachtungen“),<ref>Carl Friedrich Gauß: [https://books.google.de/books?id=ZQ8OAAAAQAAJ&printsec=frontcover&hl=de#v=onepage&q=&f=false ''Theoria combinationis observationum erroribus minimis obnoxiae.''] 2 Teile. Göttingen 1821–1823 (Commentationes Societatis Regiae Scientiarum Gottingensis recentiores, classis mathematicae, Band 5.); ''Supplementum Theoria combinationis observationum erroribus minimis obnoxiae.'' Göttingen 1826/28 (Commentationes Societatis Regiae Scientiarum Gottingensis recentiores, classis mathematicae, Band 6.). Anton Börsch Paul Simon (Hrsg.): ''Abhandlungen zur Methode der kleinsten Quadrate von Carl Friedrich Gauss. In deutscher Sprache.'' Berlin 1887, {{archive.org|abhandlungenmet00gausrich|Blatt=n5}}.</ref> in denen Gauß den Erfolg der Methode der kleinsten Quadrate damit begründete, dass dieses im Vergleich zu anderen Verfahren der Ausgleichungsrechnung in einer breiten Hinsicht optimal ist. Die mathematische Formulierung dieser Aussage ist als [[Satz von Gauß-Markow]] bekannt, benannt nach [[Andrei Andrejewitsch Markow (Mathematiker, 1856)|Andrei Andrejewitsch Markow]], der diesen anfänglich wenig beachteten Teil der Arbeit Gauß’ im 20. Jahrhundert wiederentdeckt und bekannt gemacht hatte (siehe auch [[Satz von Gauß-Markow#Geschichte]]). Die ''Theoria Combinationis'' enthält ferner Methoden zum effizienten Lösen [[Lineares Gleichungssystem|linearer Gleichungssysteme]], wie das [[Gauß-Seidel-Verfahren]] und die [[LR-Zerlegung]], die einen wesentlichen Fortschritt zum damaligen mathematischen Kenntnisstand darstellen.<ref>Pete Stewart: [https://netlib.org/na-digest-html/91/v91n26.html#4 ''Maybe We Should Call It “Lagrangian Elimination”''.] NA Digest Sunday, 21. Juni 1991, June 30, 1991 Volume 91, Issue 26.</ref> |
|||
Für die resultierende Ausgleichsgerade dieses einfachen (aber durchaus relevanten) Beispiels lassen sich die Lösungen für die Parameter direkt angeben als |
|||
Der französische Vermessungsoffizier [[André-Louis Cholesky]] entwickelte während des [[Erster Weltkrieg|Ersten Weltkriegs]] die [[Cholesky-Zerlegung]], die gegenüber den Lösungsverfahren von Gauß nochmal einen erheblichen Effizienzgewinn darstellte. In den 1960er Jahren entwickelte [[Gene Golub]] die Idee, die auftretenden linearen Gleichungssysteme mittels [[QR-Zerlegung]] zu lösen. |
|||
:<math>x_1 = \frac{\sum_{i=1}^n t_iy_i - \bar t \bar y}{\sum_{i=1}^n t_i^2- (\bar t)^2}</math> und <math>x_0 = \bar y - b \bar t </math> |
|||
== Das Verfahren == |
|||
mit <math>\bar t </math> als arithmetischem Mittel der t-Werte, y entsprechend. |
|||
=== Voraussetzungen === |
|||
Man betrachtet eine abhängige Größe <math>y</math>, die von einer Variablen <math>x</math> oder auch von mehreren Variablen beeinflusst wird. So hängt die Dehnung einer [[Feder (Technik)|Feder]] nur von der aufgebrachten Kraft ab, die Profitabilität eines Unternehmens jedoch von mehreren Faktoren wie [[Erlös|Umsatz]], den verschiedenen [[Kosten]] oder dem [[Eigenkapital]]. Zur Vereinfachung der Notation wird im Folgenden die Darstellung auf eine Variable <math>x</math> beschränkt. Der Zusammenhang zwischen <math>y</math> und den Variablen wird über eine Modellfunktion <math>f</math>, beispielsweise eine [[Parabel (Mathematik)|Parabel]] oder eine [[Exponentialfunktion]] |
|||
: <math>y(x) = f(x;\alpha_1,\dotsc,\alpha_m)</math>, |
|||
Hat man mehrere unabhängige Modellvariablen t<sub>1</sub> ... t<sub>q</sub>, erhält man eine lineare Funktion der Art |
|||
die von <math>x</math> sowie von <math>m</math> Funktionsparametern <math>\alpha_j</math> abhängt, modelliert. Diese Funktion entstammt entweder der Kenntnis des Anwenders oder einer mehr oder weniger aufwendigen Suche nach einem Modell, eventuell müssen dazu verschiedene Modellfunktionen angesetzt und die Ergebnisse verglichen werden. Ein einfacher Fall auf Basis bereits vorhandener Kenntnis ist beispielsweise die Feder, denn hier ist das [[Hookesches Gesetz|Hookesche Gesetz]] und damit eine [[lineare Funktion]] mit der [[Federkonstante]]n als einzigem Parameter Modellvoraussetzung. In schwierigeren Fällen wie dem des Unternehmens muss der Wahl des Funktionstyps jedoch ein komplexer [[Mathematisches Modell|Modellierungsprozess]] vorausgehen. |
|||
:<math>y_m(t_1, ... t_q;x_0, x_1, \cdots, x_q )= x_0 + x_1 t_1 + \cdots + x_q t_q </math>, |
|||
Um Informationen über die Parameter und damit die konkrete Art des Zusammenhangs zu erhalten, werden zu jeweils <math>n</math> gegebenen Werten <math>x_i</math> der unabhängigen Variablen <math>x</math> entsprechende Beobachtungswerte <math>y_i</math> <math>(i = 1,\dotsc, n)</math> erhoben. Die Parameter <math>\alpha_j</math> dienen zur Anpassung des gewählten Funktionstyps an diese beobachteten Werte <math>y_i</math>. Ziel ist es nun, die Parameter <math>\alpha_j</math> so zu wählen, dass die Modellfunktion die Daten bestmöglich approximiert. |
|||
was das lineare Gleichungssystem |
|||
Gauß und Legendre hatten die Idee, [[Wahrscheinlichkeitsverteilung|Verteilungsannahmen]] über die Messfehler dieser Beobachtungswerte zu machen. Sie sollten im Durchschnitt Null sein, eine gleichbleibende [[Varianz (Stochastik)|Varianz]] haben und von jedem anderen Messfehler [[Stochastisch unabhängige Ereignisse|stochastisch unabhängig]] sein. Man verlangt damit, dass in den Messfehlern keinerlei systematische Information mehr steckt, sie also rein zufällig um Null schwanken. Außerdem sollten die Messfehler [[Normalverteilung|normalverteilt]] sein, was zum einen [[Wahrscheinlichkeitstheorie|wahrscheinlichkeitstheoretische]] Vorteile hat und zum anderen garantiert, dass [[Ausreißer]] in <math>y</math> so gut wie ausgeschlossen sind. |
|||
:<math> \begin{matrix} |
|||
x_0 + x_1 t_{11} + \cdots + x_j t_{1j}+ \cdots +x_q t_{1q} = y_1\\ |
|||
Um unter diesen Annahmen die Parameter <math>\alpha_j</math> zu bestimmen, ist es im Allgemeinen notwendig, dass deutlich mehr Datenpunkte als Parameter vorliegen, es muss also <math>n>m</math> gelten. |
|||
x_0 + x_1 t_{21} + \cdots + x_j t_{2j}+ \cdots +x_q t_{2q} = y_2\\ |
|||
\vdots \\ |
|||
=== Minimierung der Summe der Fehlerquadrate === |
|||
x_0 + x_1 t_{i1} + \cdots + x_j t_{ij}+ \cdots +x_q t_{iq}= y_i\\ |
|||
{{Siehe auch|Empirische Risikominimierung}} |
|||
\vdots\\ |
|||
Das Kriterium zur Bestimmung der Approximation sollte so gewählt werden, dass große Abweichungen der Modellfunktion von den Daten stärker gewichtet werden als kleine. Sofern keine Lösung ganz ohne Abweichungen möglich ist, dann ist der Kompromiss mit der insgesamt geringsten Abweichung das beste allgemein gültige Kriterium. |
|||
x_0 + x_1 t_{n1} + \cdots + x_j t_{nj}+ \cdots +x_q t_{nq}= y_n |
|||
Dazu wird die Summe der Fehlerquadrate, die auch Fehlerquadratsumme (genauer: [[Residuenquadratsumme]]) heißt, als die Summe der quadrierten Differenzen zwischen den Werten der Modellkurve <math>f(x_i)</math> und den Daten <math>y_i</math> definiert. |
|||
In Formelschreibweise mit den Parametern <math>\vec{\alpha} = (\alpha_1, \alpha_2, \dots, \alpha_m) \in \mathbb{R}^m</math> und <math>\vec{f} = (f(x_1,\vec{\alpha}), \dots, f(x_n,\vec{\alpha})) \in \mathbb{R}^n</math> ergibt sich |
|||
: <math>\sum_{i=1}^{n}(f(x_i, \vec{\alpha}) - y_i)^2 = \| \vec{f} - \vec{y} \|_2^2.</math> |
|||
Es sollen dann diejenigen Parameter <math>\alpha_j</math> ausgewählt werden, bei denen die Summe der quadrierten Anpassungsfehler minimal wird: |
|||
: <math> \min_{\vec{\alpha}} \| \vec{f} - \vec{y} \|_2^2.</math> |
|||
Wie genau dieses [[Optimierung (Mathematik)|Minimierungsproblem]] gelöst wird, hängt von der Art der Modellfunktion ab. |
|||
Wird die Fehlerquadratsumme für einen externen Datensatz vorhergesagt, so spricht man von der [[PRESS-Statistik]] ({{enS}} ''predictive residual sum of squares''). |
|||
=== Zusammenhang mit dem zentralen Grenzwertsatz === |
|||
Selbst wenn die Fehlerterme nicht normalverteilt sind, folgt aus dem [[Zentraler Grenzwertsatz|zentralen Grenzwertsatz]] oft, dass der Schätzer der [[bedingte Erwartung|bedingten Erwartung]] <math>f(x,\alpha)=\hat{E}[Y|x]</math> approximativ normalverteilt ist, solange die [[Stichprobe]] hinreichend groß ist. Aus diesem Grund ist die Verteilung des Fehlerterms bei großen Stichprobenumfängen oft kein gravierendes Problem in der Regressionsanalyse. Speziell ist es häufig nicht wichtig, ob der Fehlerterm einer Normalverteilung folgt, es sei denn es liegen beispielsweise folgende Punkte vor<ref>Applied Regression Analysis and Generalized Linear Models, John Fox, 2015, ISBN 978-1-4833-2131-8, [https://www.google.de/books/edition/Applied_Regression_Analysis_and_Generali/3wrwCQAAQBAJ?hl=de&gbpv=1&pg=PT212 Google Books]</ref>: |
|||
* die Stichprobengröße ist klein |
|||
* die Verteilung der Fehler ist eine [[Heavy-tailed-Verteilung]], welche zur Erzeugung von Daten führt, welche weit weg von den anderen Daten liegen (Stichproben aus den Heavy tails werden dann oft als [[Ausreißer]] interpretiert) |
|||
* Multimodale Fehlerverteilungen |
|||
* große [[Schiefe (Statistik)|Schiefe]] der Fehlerverteilung |
|||
== Lineare Modellfunktion == |
|||
[[Lineare Funktion|Lineare]] Modellfunktionen sind [[Linearkombination]]en aus beliebigen, im Allgemeinen nicht-linearen Basisfunktionen. Für solche Modellfunktionen lässt sich das Minimierungsproblem auch analytisch über einen Extremwertansatz ohne iterative Annäherungsschritte lösen. Zunächst werden einige einfache Spezialfälle und Beispiele gezeigt. |
|||
=== Spezialfall einer einfachen linearen Ausgleichsgeraden === |
|||
==== Herleitung und Verfahren ==== |
|||
Eine einfache Modellfunktion mit zwei linearen Parametern stellt das [[Polynom]] erster Ordnung |
|||
: <math>f(x) = \alpha_0 + \alpha_1 x</math> |
|||
dar. Gesucht werden zu <math>n</math> gegebenen Messwerten <math>(x_1, y_1), \dotsc, (x_n, y_n)</math> die Koeffizienten <math>\alpha_0</math> und <math>\alpha_1</math> der bestangepassten Geraden. Die Abweichungen <math>r_i</math> zwischen der gesuchten Geraden und den jeweiligen Messwerten |
|||
: <math> \begin{matrix} |
|||
r_1 =& \alpha_0 +& \alpha_1 x_{1} - y_1\\ |
|||
r_2 =& \alpha_0 +& \alpha_1 x_{2} - y_2\\ |
|||
\vdots & \vdots & \vdots \\ |
|||
r_n =& \alpha_0 +& \alpha_1 x_{n} - y_n\\ |
|||
\end{matrix} |
\end{matrix} |
||
</math> |
</math> |
||
nennt man Anpassungsfehler oder [[Residuum (Numerische Mathematik)|Residuen]]. Gesucht sind nun die Koeffizienten <math>\alpha_0</math> und <math>\alpha_1</math> mit der kleinsten Summe der Fehlerquadrate |
|||
ergibt. Fasst man die t<sub>ij</sub> zur Datenmatrix A, die Parameter x<sub>j</sub> zum Parametervektor x und die Beobachtungen y<sub>i</sub> zum Vektor b zusammen, kann man das lineare Gleichungssystem auch in der bekannten Weise darstellen als |
|||
: <math> \min_{\alpha_0,\alpha_1} \sum_{i=1}^n r_i^2</math>. |
|||
:<math> \begin{pmatrix} |
|||
1 & t_{11} & \cdots & t_{1j} \cdots & t_{1q}\\ |
|||
1 & t_{21} & \cdots & t_{2j} \cdots & t_{2q}\\ |
|||
\vdots \\ |
|||
1 & t_{i1} & \cdots & t_{ij} \cdots & t_{iq}\\ |
|||
\vdots\\ |
|||
1 & t_{n1} & \cdots & t_{nj} \cdots & t_{nq} |
|||
\end{pmatrix} |
|||
\cdot |
|||
\begin{pmatrix} |
|||
x_0\\ |
|||
x_1\\ |
|||
x_2\\ |
|||
\vdots \\ |
|||
x_j\\ |
|||
\vdots\\ |
|||
x_q |
|||
\end{pmatrix} |
|||
= |
|||
\begin{pmatrix} |
|||
y_1\\ |
|||
y_2\\ |
|||
\vdots \\ |
|||
y_i\\ |
|||
\vdots\\ |
|||
y_n |
|||
\end{pmatrix} |
|||
</math> bzw. <math>Ax = b</math>. |
|||
Der große Vorteil des Ansatzes mit diesem Quadrat der Fehler wird sichtbar, wenn man diese Minimierung mathematisch durchführt: Die Summenfunktion wird als Funktion der beiden Variablen <math>\alpha_0</math> und <math>\alpha_1</math> aufgefasst (die eingehenden Messwerte sind dabei numerische Konstanten), dann die [[Differentialrechnung|Ableitung]] (genauer: [[partielle Ableitung]]en) der Funktion nach diesen Variablen (also <math>\alpha_0</math> und <math>\alpha_1</math>) gebildet und von dieser Ableitung schließlich die [[Nullstelle]] gesucht. Es ergibt sich das [[Lineares Gleichungssystem|lineare Gleichungssystem]] |
|||
Man erhält hier ein '''lineares Ausgleichsproblem''' der Form |
|||
:<math> |
:<math> |
||
\begin{align} |
|||
\textstyle n \cdot \alpha_0 + \left(\sum\limits_{i=1}^n x_i \right) \alpha_1 &= \textstyle\sum\limits_{i=1}^n y_i \\ |
|||
\textstyle\left(\sum\limits_{i=1}^n x_i \right) \alpha_0 + \left(\sum\limits_{i=1}^n x_i^2 \right) \alpha_1 &= \textstyle\sum\limits_{i=1}^n x_i y_i |
|||
\end{align} |
|||
</math> |
|||
mit der Lösung |
|||
Die partiellen Ableitungen bezüglich der x<sub>j</sub> und Nullsetzen derselben ergeben ein lineares System von Normalgleichungen |
|||
: <math>\alpha_1 = \frac{\sum\nolimits_{i=1}^{n} x_i( |
|||
:<math>A^TAx=A^Tb \;,</math> |
|||
y_i - \overline y)}{\sum\nolimits_{i=1}^{n} (x_i - \overline x)^2} = \frac{\sum\nolimits_{i=1}^{n} (x_i - \overline x)(y_i - \overline y)}{\sum\nolimits_{i=1}^{n} (x_i - \overline x)^2}= \frac{SP_{xy}}{SQ_{x}}</math> und <math>\;\alpha_0 = \overline y - \alpha_1 \overline x</math>, |
|||
wobei <math>SP_{xy}</math> die [[Summe der Abweichungsquadrate#Verallgemeinerung|Summe der Abweichungsprodukte]] zwischen <math>x</math> und <math>y</math> darstellt, und <math>SQ_{x}</math> die [[Summe der Abweichungsquadrate]] von <math>x</math> darstellt. Dabei ist <math>\textstyle\overline x = \frac{1}{n}\sum\nolimits_{i=1}^{n} x_i</math> das [[Arithmetisches Mittel|arithmetische Mittel]] der <math>x</math>-Werte, <math>\overline y </math> entsprechend. Die Lösung für <math>\alpha_1</math> kann mit Hilfe des [[Verschiebungssatz (Statistik)|Verschiebungssatzes]] auch in nicht-[[Zentrierung (Statistik)|zentrierter]] Form |
|||
das bei [[Reguläre Matrix|Regularität]] der ((q+1)x(q+1))-Matrix auf der linken Seite [[Numerische Mathematik|numerisch]] gelöst werden kann, beispielsweise mittels [[Cholesky-Zerlegung]] oder dem [[CG-Verfahren]]. Häufig ist dies keine empfehlenswerte Herangehensweise, da beide Verfahren von der [[Kondition (Mathematik)|Kondition]] der Matrix stark beeinflußt werden. Ist schon A schlecht konditioniert, so ist <math>A^TA</math> quadratisch schlecht konditioniert. Eine [[Stabilität|stabilere]] Alternative bietet die [[QR-Zerlegung]] mittels des Householder-Verfahrens, ausgehend vom Minimierungsproblem und nicht den Normalgleichungen. |
|||
: <math>\alpha_1 = \frac{\sum_{i=1}^n (x_i y_i) - n \overline{x} \overline{y}}{\left( \sum_{i=1}^n x_i^2 \right) - n \overline{x}^2}</math> |
|||
In der statistischen Regressionsanalyse spricht man bei mehreren gegebenen Variablen t<sub>j</sub> von multipler Regression. Der Ansatz ist auch als OLS (''ordinary least squares'') bekannt, im Gegensatz zu ''generalised least squares'' bei Residuen, die von der Verteilungsannahme abweichen. Dagegen liegen bei multivariater Regression für jede Beobachtung i (i=1, ...,n) r viele y-Werte vor, so dass statt eines Vektors eine (nxr)-Matrix Y vorliegt. Die linearen Regressionsmodelle sind in der Statistik wahrscheinlichkeitstheoretisch intensiv erforscht worden. |
|||
Besonders in der [[Ökonometrie]] werden beispielsweise komplexe rekursiv definierte lineare Strukturgleichungen analysiert, um volkswirtschaftliche Systeme zu modellieren. |
|||
angegeben werden. Diese Ergebnisse können auch mit Funktionen einer reellen Variablen, also ohne partielle Ableitungen, hergeleitet werden.<ref>H. Wirths: ''Beziehungshaltige Mathematik in Regression und Korrelation''. In: ''Stochastik in der Schule'', 1991, Heft 1, S. 34–53</ref> |
|||
Aus der Lösung von <math>\alpha_0</math> wird zudem eine Eigenschaft der linearen Ausgleichsgerade ersichtlich: Die Ausgleichsgerade verläuft stets durch den Punkt <math>(\overline x, \overline y)</math>. Das ist hilfreich, falls die Ausgleichsgerade sehr steil oder gar senkrecht verläuft und der Achsenabschnitt dadurch sehr groß wird oder gar nicht berechnet werden kann. In diesem Fall kann dieser Punkt als Stützpunkt einer Vektordarstellung der Ausgleichsgerade verwendet werden. |
|||
===Anforderungen an die Daten=== |
|||
==== Beispiel mit einer Ausgleichsgeraden ==== |
|||
Strenggenommen ist die Normalverteilungsannahme für die abhängige Variable ''y'' nicht zwingend notwendig. Es sollen lediglich keine Ausreißer vorliegen. |
|||
In diesem Beispiel wird eine Ausgleichsgerade der Form <math>f(x) = \alpha_0 + \alpha_1 x</math> berechnet, um den Zusammenhang zwischen zwei Merkmalen eines Datensatzes darzustellen. Der Datensatz besteht aus Länge und Breite von zehn [[Kriegsschiff]]en (siehe [[Portal:Statistik/Datensätze#Übersicht Datensätze|Kriegsschiffsdaten]]). Es soll versucht werden, die Breite mit der Länge in Bezug zu setzen. Die Daten werden in der folgenden Tabelle in den ersten drei Spalten wiedergegeben. Die weiteren Spalten beziehen sich auf Zwischenergebnisse zur Berechnung der Ausgleichsgeraden. Die Variable <math>x_i</math> soll dabei die Länge des Kriegsschiffs <math>i</math> bezeichnen und <math>y_i</math> dessen Breite. Gesucht ist die Gerade <math>f(x) = y = \alpha_0 + \alpha_1 x</math> für die, wenn die bekannten Werte <math>x_i</math> eingesetzt werden, die Funktionswerte <math>f(x_i) = \tilde y_i</math> möglichst nahe an den bekannten Werten <math>y_i</math> liegen. |
|||
{| class="wikitable centered" cellpadding="4" cellspacing="0" style="text-align:right" |
|||
Numerische Probleme ergeben sich vor allem durch Multikollinearität und Ausreißer. |
|||
! Kriegsschiff |
|||
! Länge (m) |
|||
! Breite (m) |
|||
! <math>(x_i- \overline x)</math> |
|||
! <math>(y_i- \overline y)</math> |
|||
| |
|||
| |
|||
| |
|||
| |
|||
|- |
|||
! <math>i</math> |
|||
! <math>x_i</math> |
|||
! <math>y_i</math> |
|||
! <math>x_i^*</math> |
|||
! <math>y_i^*</math> |
|||
! <math>x_i^* \cdot y_i^*</math> |
|||
! <math>(x_i^*)^2</math> |
|||
! <math>f(x_i)</math> |
|||
! <math>f(x_i)-y_i</math> |
|||
|- |
|||
| 1 |
|||
| 208 |
|||
| 21,6 |
|||
| 40,2 |
|||
| 3,19 |
|||
| 128,24 |
|||
| 1616,04 |
|||
| 24,88 |
|||
| 3,28 |
|||
|- |
|||
| 2 |
|||
| 152 |
|||
| 15,5 |
|||
| −15,8 |
|||
| −2,91 |
|||
| 45,98 |
|||
| 249,64 |
|||
| 15,86 |
|||
| 0,36 |
|||
|- |
|||
| 3 |
|||
| 113 |
|||
| 10,4 |
|||
| −54,8 |
|||
| −8,01 |
|||
| 438,95 |
|||
| 3003,04 |
|||
| 9,57 |
|||
| −0,83 |
|||
|- |
|||
| 4 |
|||
| 227 |
|||
| 31,0 |
|||
| 59,2 |
|||
| 12,59 |
|||
| 745,33 |
|||
| 3504,64 |
|||
| 27,95 |
|||
| −3,05 |
|||
|- |
|||
| 5 |
|||
| 137 |
|||
| 13,0 |
|||
| −30,8 |
|||
| −5,41 |
|||
| 166,63 |
|||
| 948,64 |
|||
| 13,44 |
|||
| 0,44 |
|||
|- |
|||
| 6 |
|||
| 238 |
|||
| 32,4 |
|||
| 70,2 |
|||
| 13,99 |
|||
| 982,10 |
|||
| 4928,04 |
|||
| 29,72 |
|||
| −2,68 |
|||
|- |
|||
| 7 |
|||
| 178 |
|||
| 19,0 |
|||
| 10,2 |
|||
| 0,59 |
|||
| 6,02 |
|||
| 104,04 |
|||
| 20,05 |
|||
| 1,05 |
|||
|- |
|||
| 8 |
|||
| 104 |
|||
| 10,4 |
|||
| −63,8 |
|||
| −8,01 |
|||
| 511,04 |
|||
| 4070,44 |
|||
| 8,12 |
|||
| −2,28 |
|||
|- |
|||
| 9 |
|||
| 191 |
|||
| 19,0 |
|||
| 23,2 |
|||
| 0,59 |
|||
| 13,69 |
|||
| 538,24 |
|||
| 22,14 |
|||
| 3,14 |
|||
|- |
|||
| 10 |
|||
| 130 |
|||
| 11,8 |
|||
| −37,8 |
|||
| −6,61 |
|||
| 249,86 |
|||
| 1428,84 |
|||
| 12,31 |
|||
| 0,51 |
|||
|- style="font-weight: bold; border-top: 2px solid black;" |
|||
| Summe Σ |
|||
| 1678 |
|||
| 184,1 |
|||
| |
|||
| |
|||
| 3287,82 |
|||
| 20391,60 |
|||
| |
|||
| |
|||
|} |
|||
Die Ausgleichsgerade wird durch die Koeffizienten <math>\alpha_0</math> und <math>\alpha_1</math> bestimmt, die wie oben angegeben berechnet werden mit |
|||
====Multikollinearität==== |
|||
: <math>\alpha_1 = \frac{\sum\nolimits_{i=1}^{n} (x_i - \overline x)(y_i - \overline y)}{\sum\nolimits_{i=1}^{n} (x_i - \overline x)^2} = \frac{SP_{xy}}{SQ_{x}}</math> |
|||
Multikollinearität entsteht, wenn die Messreihen zweier unabhängiger Variablen t<sub>i</sub> und t<sub>j</sub> sehr hoch korreliert sind, also fast linear abhängig sind. In diesem Fall wird die Determinante von A<sup>T</sup>A sehr klein und die Lösungswerte werden unplausibel groß. Die Norm der Inversen wird umgekehrt ebenfalls sehr groß, die Kondition von A<sup>T</sup>A ebenfalls. Die Normalgleichungen sind dann numerisch schwer zu lösen. Häufig tritt Multikollineartät auf, wenn das Regressionsmodell durch zu viele Regressoren überbestimmt ist. Neben numerischen Alternativen können auch mit Hilfe statistischer Tests die Variablen auf ihre Erklärungswerte für das Modell hin überprüft werden und gegebenenfalls entfernt werden. |
|||
: <math>\alpha_0 = \overline y - \alpha_1 \overline x</math> |
|||
Man kann bei sehr vielen in Frage kommenden Regressoren auch schrittweise eine Variablen-Selektion durchführen: |
|||
Die Konstanten <math>\overline x</math> und <math>\overline y</math> sind jeweils die [[Arithmetisches Mittel|Mittelwerte]] der <math>x</math>- und <math>y</math>-Messwerte, also |
|||
* Bei der '''vorwärts gerichteten Regression''' (Forward Regression) wird zuerst der Regressor in das Modell aufgenommen, der den größten Beitrag zur Erklärung von y liefert, also etwa die Quadratsumme der Residuen minimiert. Dann wird unter den verbliebenen potentiellen Regressoren der Regressor ausgewählt, dessen Beitrag zum bestehenden Modell maximal ist, usw. Das Verfahren wird beendet, wenn der zusätzliche maximale Beitrag eines Regressors statistisch insignifikant wird. Wird statt eines Tests eine kritische Genauigkeit verwendet, könnte man auch sagen, bis sich die Genauigkeit der Anpassung nicht mehr steigern lässt. Wenn das statistische Material nicht umfangreich genug ist kann es vorkommen, dass die Abhängigkeit der Genauigkeit von der Anzahl der Ansatzfunktionen nicht glatt, sondern rauh gegen einen Grenzwert konvergiert - daraus ergeben sich weitere Verbesserungsmöglichkeiten des Verfahrens. |
|||
: <math>\overline x = \frac {\sum\nolimits_{i=1}^{n} x_i}{n} = \frac {1678}{10} = 167{,}8</math> |
|||
* Bei der '''rückwärts gerichteten Regression''' (Backward Regression) werden zunächst alle Regressoren in das Regressionsmodell aufgenommen. Es wird dann der Regressor aus dem Modell entfernt, dessen Weglassen die Quadratsumme der Residuen am wenigsten reduziert. Dann wird der nächste Regressor entfernt usw. Das Verfahren stoppt, wenn der Beitrag des nächsten potentiellen Eliminationskandidaten zur Erklärung von y signifikant hoch wird, bzw. bis die Genauigkeit einen festgelegten Schwellwert unterschreitet. |
|||
: <math>\overline y = \frac {184,1}{10} = 18{,}41</math> |
|||
:Im allgemeinen ist die Vorwärts-Elimination der Rückwärts-Elimination vorzuziehen, weil die Kreuzproduktmatrix A<sup>T</sup>A bei sehr vielen Regressoren häufig schon pathologisch ist und für die Eliminationsrechnung keine sinnvollen Ergebnisse liefert. |
|||
Als erster Zwischenschritt kann nun für jedes Kriegsschiff die Abweichung vom Mittelwert berechnet werden: <math>x_i^* = (x_i - \overline x)</math> und <math>\;y_i^* = (y_i - \overline y)</math> – diese Werte sind in der vierten und fünften Spalte der oberen Tabelle eingetragen. Die Formel für <math>\alpha_1</math> vereinfacht sich dadurch zu |
|||
====Ausreißer==== |
|||
: <math>\alpha_1 = \frac{\sum\nolimits_{i=1}^{n} x_i^* \cdot y_i^*}{\sum\nolimits_{i=1}^{n} (x_i^*)^2} </math> |
|||
Als Ausreißer sind Datenwerte definiert, die "untypisch weit von der Masse der Daten entfernt sind". Diese Werte beeinflussen die Berechnungen derart stark, dass sich sogar die Vorzeichen von errechneten Parametern umdrehen. Es gibt hier alternative Ausreißer-resistente Berechnungsverfahren wie gewichtete Regression oder das Drei-Gruppen-Verfahren. Bei der gewichteten Regression werden etwa die Ausreißer der abhängigen Variablen y mit 0 und die unproblematischen Werte mit 1 gewichtet, was die Unterdrückung des Ausreißers bedingt. Dieser Algorithmus nach Mosteller und [[John Wilder Tukey|Tukey]] (1977) wird als "bisquare weighting" bezeichnet (??). Denkbar wäre auch, die Gewichtung je nach Stärke des Ausreißers abzustufen. Im übrigen können auch Ausreißer in den Regressoren die Ergebnisse der Ausgleichsrechnung stark beeinträchtigen. Man spricht hier von Werten mit großer Hebelkraft (High Leverage Value). |
|||
Als zweiter Zwischenschritt können die Produkte <math>x_i^* \cdot y_i^*</math> und <math>(x_i^*)^2</math> für jedes Kriegsschiff berechnet werden. Diese Werte sind in der sechsten und siebten Spalte der Tabelle eingetragen und lassen sich nun einfach aufsummieren. Damit kann <math>\alpha_1</math> berechnet werden als |
|||
==Nichtlineare Modellfunktionen== |
|||
: <math>\alpha_1 = \frac{3287{,}82} {20391{,}60} = 0{,}1612</math> |
|||
Mit dem Aufkommen leistungsfähiger Rechner gewinnt insbesondere die nichtlineare Regression an Bedeutung. |
|||
Hier gibt es verschiedene Modelle und verschiedene Lösungsmöglichkeiten. Im allgemeinen ergibt sich bei nichtlinearen Modellfunktionen durch die partielle Differentiation ein System von Normalgleichungen, das nicht mehr analytisch gelöst werden kann. Eine numerische Lösung kann hier hier iterativ mittels des [[Gauß-Newton-Verfahren]]s erfolgen. Aktuelle Programme arbeiten häufig mit dem Algorithmus nach [[Marquart]], der sich bei größerer Abweichung der Schätzwerte als toleranter erweist. |
|||
Der Wert von <math>\alpha_1</math> kann bereits interpretiert werden: Mit der Annahme, dass die Daten in einem linearen Zusammenhang stehen und durch unsere berechnete Ausgleichsgerade beschrieben werden können, steigt die Breite eines Kriegsschiffes um ca. 0,16 Meter für jeden ganzen Meter, um den es länger ist. |
|||
[[Nichtlineare Regression]] ermöglicht in Prinzip die Anpassung von Daten an jede Gleichung der Form y = f(x). Da diese Gleichungen Kurven definieren, werden die Begriffe nichtlineare Regression und "curve fitting" zumeist synonym gebraucht. |
|||
Der Achsenabschnitt <math>\alpha_0</math> ist dann |
|||
Etwa nur multiplikativ wäre ein Modell der Art |
|||
:<math> y |
: <math>\alpha_0 = \overline y - \alpha_1 \overline x = 18{,}41 - 0{,}1612 \cdot 167{,}8 = -8{,}6451</math> |
||
[[Datei:MDKQ2.svg|mini|320px|Streudiagramm von Längen und Breiten von zehn zufällig ausgewählten Kriegsschiffen mit eingezeichneter linearer Ausgleichsfunktion]] |
|||
bei dem auch die Residuen e mit t variieren. Hier könnte man mit Logarithmieren das System in eine additive Struktur überführen und dann die Parameter errechnen. In der Wachstumstheorie wird beispielsweise dieser Ansatz angewendet. |
|||
Die Gleichung der Ausgleichsgerade lautet somit <math>f(x) = -8{,}6451 + 0{,}1612 x</math> |
|||
Häufig verwendet für die Approximation einer Funktionen y werden auch Ausgleichspolynome der Art |
|||
Zur Veranschaulichung können die Daten als [[Streudiagramm]] aufgezeichnet und die Ausgleichsgerade eingefügt werden. Das Diagramm legt nahe, dass für unsere Beispieldaten zwischen Länge und Breite eines Kriegsschiffs tatsächlich ein linearer Zusammenhang besteht. Die Anpassung der Punkte ist recht gut. Als Maß kann auch die Abweichung <math>f(x_i) - y_i</math> der durch die Gerade vorhergesagten Werte <math>f(x_i)</math> von den gemessenen Werten <math>y_i</math> betrachtet werden. Die entsprechenden Werte sind in der achten und neunten Spalte der Tabelle eingetragen. Die Abweichung beträgt im Mittel 2,1 m. Auch das [[Bestimmtheitsmaß]], als normierter [[Koeffizient]], ergibt einen Wert von ca. 92,2 % (100 % würde einer mittleren Abweichung von 0 m entsprechen); zur Berechnung siehe das [[Bestimmtheitsmaß#Beispiele|Beispiel zum Bestimmtheitsmaß]]. |
|||
:<math> y \approx x_0 + x_1 t + x_2 t^2+ ...+ x_q t^q</math>. |
|||
Allerdings bedeutet der negative Achsenabschnitt <math>\alpha_0</math>, dass in unserem linearen Modell ein Kriegsschiff mit einer Länge von 0 Metern eine negative Breite besitzt – oder Kriegsschiffe erst ab einer gewissen Mindestlänge zu existieren beginnen. Verglichen mit der Realität ist das natürlich falsch, was bei der Beurteilung einer statistischen Analyse berücksichtigt werden kann. Wahrscheinlich ist, dass das Modell nur für den Bereich gültig ist, für den tatsächlich Messwerte vorliegen (in diesem Fall für Kriegsschiffslängen zwischen 100 m und 240 m) und außerhalb des Bereiches eine lineare Funktion nicht mehr geeignet ist, um die Daten darzustellen. |
|||
Werden für die Potenzen die Zahlenwerte verwendet, ergibt sich wieder ein lineares Gleichungssystem, das wie oben gelöst werden kann. |
|||
=== Einfache polynomiale Ausgleichskurven === |
|||
[[Datei:MDKQ3.svg|mini|320px|Streudiagramm: Durchschnittliches Gewicht von Männern nach Alter mit parabelförmiger Modellfunktion]] |
|||
[[Datei:MDKQ anim.gif|mini|320px|Datensatz mit approximierenden Polynomen]] |
|||
Allgemeiner als eine lineare Ausgleichsgerade sind Ausgleichs[[polynom]]e |
|||
===Beispiel einer polynomialen Ausgleichskurve=== |
|||
: <math> y(x) \approx \alpha_0 + \alpha_1 x + \alpha_2 x^2 + \dotsb + \alpha_q x^q</math>, |
|||
die nun anhand eines Beispiels illustriert werden (auch solche Ausgleichspolynomansätze lassen sich – zusätzlich zur iterativen Lösung – analytisch über einen Extremwertansatz lösen). |
|||
Als Ergebnisse der [[Mikrozensus]]-Befragung durch das [[Statistisches Bundesamt|statistische Bundesamt]] sind die [[Mittelwert|durchschnittlichen]] Gewichte von Männern nach Altersklassen gegeben (Quelle: Statistisches Bundesamt, Wiesbaden 2009). Für die Analyse wurden die Altersklassen durch die Klassenmitten ersetzt. Es soll die Abhängigkeit der Variablen Gewicht (<math>y</math>) von der Variablen Alter (<math>x</math>) analysiert werden. |
|||
[[Bild:VierVariablen.png|450px|thumb|Tabelle T1: Ergebnisse der Kleinst-Quadrate-Schätzung mit 4 gegebenen Datenvariablen t<sub>j</sub>]] |
|||
Das Streudiagramm lässt auf eine annähernd parabolische Beziehung zwischen <math>x</math> und <math>y</math> schließen, welche sich häufig gut durch ein Polynom annähern lässt. Es wird ein polynomialer Ansatz der Form |
|||
Als Ergebnisse der [[Mikrozensus]]-Befragung im Mai 2003 durch das [[Statistisches Bundesamt|statistische Bundesamt]] sind die [[Mittelwert|durchschnittlichen]] Gewichte von Männern nach Altersklassen gegeben (Quelle:© Statistisches Bundesamt, Wiesbaden 2004). Für die Analyse wurden die Altersklassen wurden durch die Klassenmitten ersetzt. (Die Zahlen sind im Artikel [[Streudiagramm]] aufgeführt) |
|||
Das Streudiagramm lässt auf eine annähernde quadratische Beziehung der Art y = x<sub>0</sub> + x<sub>1</sub>t<sup>2</sup> schließen. Es wird ein polynomialer Ansatz der Form |
|||
:<math> y \approx |
: <math> y(x) \approx \alpha_0 + \alpha_1 x + \alpha_2 x^2 + \alpha_3 x^3 + \alpha_4 x^4</math> |
||
versucht. Als Lösung ergibt sich das Polynom 4. Grades |
|||
[[Bild:DreiVariablen.png|450px|thumb|Tabelle T2: Ergebnisse der Kleinst-Quadrate-Schätzung mit 3 gegebenen Datenvariablen t<sub>j</sub>]] |
|||
: <math> y(x) \approx 47{,}86 + 2{,}2 x -0{,}04809 x^2 + 0{,}0004935 x^3 -0{,}000002148 x^4</math>. |
|||
versucht. Eine Anpassungsrechnung mit Hilfe des Statistik-Programms Minitab ergab die Tabelle T1. Es sind alle Parameter x<sub>j</sub> statistisch signifikant, d.h. die Daten aller t<sup> j</sup> können einen deutlichen Beitrag zur Erklärung von y leisten. Das Bestimmtheitsmaß (R-Sq) beträgt 99,8%, man könnte also sagen, dass 99,8% der Information von y durch die Daten erklärt werden. Die Daten von t<sup> j</sup> sind allerdings hochkorreliert. Es wurde daher t<sup> 3</sup> und damit der Modellparameter x<sup> 3</sup> aus dem Modell entfernt. Die Ergebnisse einer Regression ohne t<sup> 3</sup> sind in der Tabelle T2 aufgeführt. Das Bestimmtheitsmaß ist lediglich auf 98,6% gesunken, also hat t<sup>3</sup> nur einen zusätzlichen Beitrag zur Erklärung von y von 1,3%. Das Streudiagramm mit den beobachteten und geschätzten y-Werten zeigt, dass die Anpassung gelungen ist. |
|||
Die Messpunkte weichen im Mittel ([[Empirische Standardabweichung|Standardabweichung]]) 0,19 kg von der Modellfunktion ab. Reduziert man den Grad des Polynoms auf 3, erhält man die Lösung |
|||
{| |
|||
|[[Bild:Scatterplot.png|320px|thumb|Streudiagramm: Durchschnittliches Gewicht von Männern nach Alter (Quelle der Daten:© Statistisches Bundesamt, Wiesbaden 2004)]] |
|||
|[[Bild:AlterGewicht.png|400px|thumb|Streudiagramm von y und geschätztem y]] |
|||
|} |
|||
: <math> y(x) \approx 54{,}22 + 1{,}515 x -0{,}0226 x^2 + 0{,}0001002 x^3 </math> |
|||
===Beispiel einer Ausgleichskurve als Quotient=== |
|||
mit einer mittleren Abweichung von 0,22 kg und beim Polynomgrad 2 die Lösung |
|||
Hier soll das Problem anhand eines einfachen Beispiels (multiplikative Verknüpfung: Geschwindigkeitsgleichung <math>v=s/t</math> erläutert werden. |
|||
: <math> y(x) \approx 61{,}42 + 0{,}9397 x -0{,}008881 x^2</math> |
|||
Ein Objekt bewegt sich auf einer ebenen geraden Strecke mit konstanter Geschwindigkeit. Gesucht sei die wahrscheinliche Geschwindigkeit <math>v=s/t</math> oder die wahrscheinliche Zeit pro Wegeinheit <math>t=s/v=T\cdot s</math> (mit <math>T=t/s</math>). Auch hier wird das nichtlineare System in ein lineares überführt. |
|||
mit einer mittleren Abweichung von 0,42 kg. Wie zu erkennen ist, ändern sich beim Wegfallen der höheren Terme die Koeffizienten der niedrigeren Terme. Die Methode versucht, das Beste aus jeder Situation herauszuholen. Entsprechend werden die fehlenden höheren Terme mit Hilfe der niedrigeren Terme so gut wie möglich ausgeglichen, bis das mathematische Optimum erreicht ist. Mit dem Polynom zweiten Grades (Parabel) wird der Verlauf der Messpunkte noch sehr gut beschrieben (siehe Abbildung). |
|||
Es werden die folgenden Werte gemessen: |
|||
=== Spezialfall einer linearen Ausgleichsfunktion mit mehreren Variablen === |
|||
{||border=4 |
|||
Ist die Modellfunktion ein mehrdimensionales Polynom erster Ordnung, besitzt also statt nur einer Variablen <math>x</math> mehrere unabhängige Modellvariablen <math>x_1, \ldots, x_N</math>, erhält man eine lineare Funktion der Form |
|||
!Formelzeichen ||<math>s_m</math>||<math>t_m</math>||<math>t_m \cdot s_m</math>||<math>s_m^2</math> |
|||
: <math>f(x_1,\dotsc,x_N;\alpha_0, \alpha_1, \dotsc, \alpha_N )= \alpha_0 + \alpha_1 x_1 + \dotsb + \alpha_N x_N</math>, |
|||
|- |
|||
die auf die Residuen |
|||
!Messwert||gemessene Entfernung||gemessene Zeit||Entfernung <math>\cdot</math> Zeit||Entfernung² |
|||
: <math> \begin{matrix} |
|||
|- |
|||
r_1 =& \alpha_0 + \alpha_1 x_{1,1} + &\dotsb \;\;+ \alpha_j x_{j,1}+ &\dotsb \;\;+\alpha_N x_{N,1} - y_1\\ |
|||
!Einheit||Kilometer ||Sekunden||Kilometer<math>\cdot</math>Sekunden||Kilometer² |
|||
r_2 =& \alpha_0 + \alpha_1 x_{1,2} + &\dotsb \;\;+ \alpha_j x_{j,2}+ &\dotsb \;\;+\alpha_N x_{N,2} - y_2\\ |
|||
|- |
|||
\vdots & \vdots & \vdots & \vdots\\ |
|||
!1||2,1||5,1||10,71||4,41 |
|||
r_i =& \alpha_0 + \alpha_1 x_{1,i} + &\dotsb \;\;+ \alpha_j x_{j,i}+ &\dotsb \;\;+\alpha_N x_{N,i} - y_i\\ |
|||
|- |
|||
\vdots & \vdots & \vdots & \vdots\\ |
|||
!2||1,9||4,9||9,31||3,61 |
|||
r_n =& \alpha_0 + \alpha_1 x_{1,n} + &\dotsb \;\;+ \alpha_j x_{j,n}+ &\dotsb \;\;+\alpha_N x_{N,n} - y_n\\ |
|||
|- |
|||
\end{matrix} |
|||
!3||1,985||5,15||10,2275||3,940225 |
|||
</math> |
|||
|- |
|||
!Summen||5,985||15,15||30,24275||11,960225 |
|||
|- |
|||
|} |
|||
führt und über den Minimierungsansatz |
|||
Die Summe der Fehlerquadrate <math>S_{\rm sq}</math> ist dann: |
|||
: <math> \min_{\alpha} \sum_{i=1}^n r_i^2</math> |
|||
<math>S_\mathrm{sq} = \sum_{i=1}^{3} (t_{mi}-t_{i})^{2} = \sum_{i=1}^{3} (t_{mi}-T \cdot s_{mi})^{2}=\sum_{i=1}^{3}(t_{mi}^{2}-2\cdot t_{mi} \cdot T \cdot s_{mi}+(T*s_{mi})^{2}) </math> |
|||
gelöst werden kann. |
|||
Die erste Ableitung der obigen Gleichung nach <math>T</math>, die gleich Null gesetzt wird, um das Minimum zu suchen, lautet: |
|||
=== Der allgemeine lineare Fall === |
|||
<math>dS_\mathrm{sq}/dT = \sum_{i=1}^{3}(-2 \cdot t_{mi} \cdot s_{mi}+2 \cdot s_{mi}^{2} \cdot T)=0</math> |
|||
[[Datei:MDKQ 3D.svg|mini|340px|Zweidimensionale Polynomfläche zweiter Ordnung mit 3 × 3 = 9 Basisfunktionen:<br />f(x<sub>1</sub>, x<sub>2</sub>) = <math>\alpha</math><sub>0</sub> + <math>\alpha</math><sub>1</sub>x<sub>1</sub><sup>1</sup> + <math>\alpha</math><sub>2</sub>x<sub>1</sub><sup>2</sup> + <math>\alpha</math><sub>3</sub>x<sub>2</sub><sup>1</sup> + <math>\alpha</math><sub>4</sub>x<sub>1</sub><sup>1</sup>x<sub>2</sub><sup>1</sup> + <math>\alpha</math><sub>5</sub>x<sub>1</sub><sup>2</sup>x<sub>2</sub><sup>1</sup> + <math>\alpha</math><sub>6</sub>x<sub>2</sub><sup>2</sup> + <math>\alpha</math><sub>7</sub>x<sub>1</sub><sup>1</sup>x<sub>2</sub><sup>2</sup> + <math>\alpha</math><sub>8</sub>x<sub>1</sub><sup>2</sup>x<sub>2</sub><sup>2</sup>]] |
|||
Im Folgenden soll der allgemeine Fall von beliebigen linearen Modellfunktionen mit beliebiger Dimension gezeigt werden. Zu einer gegebenen Messwertfunktion |
|||
Diese Gleichung wird nach T aufgelöst: |
|||
:<math>y(x_1, x_2, \dots, x_N)</math> |
|||
<math>T = \sum_{i=1}^{3}(2 \cdot t_{mi} \cdot s_{mi})/\sum_{i=1}^{3}(2 \cdot s_{mi}^{2})</math> |
|||
mit <math>N</math> unabhängigen Variablen sei eine optimal angepasste lineare Modellfunktion |
|||
Man muss also die Summe der Produkte t<sub>m</sub> und s<sub>m</sub> durch die Summe der Quadrate der gemessenen Entfernungen teilen. Das Ergebnis hat die [[Maßeinheit|Einheit]] Zeit/Weg (hier 2,5286 Sekunden/Kilometer) bzw. der Kehrwert davon ist die Gesuchte Geschwindigkeit v mit der Einheit Weg/Zeit (hier 0,3955 Kilometer/Sekunde). |
|||
:<math>f(x_1, x_2, \dots, x_N; \alpha_1, \alpha_2, \dots, \alpha_m) = \sum_{j=1}^{m}\alpha_j\varphi_j(x_1, x_2, \dots, x_N)</math> |
|||
gesucht, deren quadratische Abweichung dazu minimal sein soll. <math>x_i</math> sind dabei die Funktionskoordinaten, <math>\alpha_j</math> die zu bestimmenden linear eingehenden Parameter und <math>\varphi_j</math> beliebige zur Anpassung an das Problem gewählte linear unabhängige Funktionen. |
|||
===Beispiel der Fourieranalyse=== |
|||
Bei <math>n</math> gegebenen Messpunkten |
|||
Auch die [[Fourieranalyse]] ist eine Form der Linearisierung einer nichtlinearen Modellfunktion. Die Ansatzfunktionen sind der Cosinus und Sinus der Grundfrequenz und ihrer Vielfachen. Man setzt an |
|||
:<math>(x_{1,1},x_{2,1},\dots ,x_{N,1};y_1),(x_{1,2},x_{2,2},\dots ,x_{N,2};y_2),\dots ,(x_{1,n},x_{2,n},\dots ,x_{N,n};y_n)</math> |
|||
:<math> |
|||
f(t) \approx |
|||
erhält man die Anpassungsfehler |
|||
A_0 |
|||
+ A_1 \cos(\omega\,t) + B_1 \sin(\omega\,t) |
|||
: <math> \begin{matrix} |
|||
+ A_2\cos(2\omega\,t) + B_2 \sin(2\omega\,t) + \ldots |
|||
r_1 =& \alpha_1 \varphi_1(x_{1,1},\dots, x_{N,1})\;\; + &\alpha_2 \varphi_2(x_{1,1},\dots, x_{N,1})+ &\cdots \;\;\; + \alpha_m\varphi_m(x_{1,1},\dots, x_{N,1}) - y_1\\ |
|||
r_2 =& \alpha_1 \varphi_1(x_{1,2},\dots, x_{N,2}) \;\;+ &\alpha_2 \varphi_2(x_{1,2},\dots, x_{N,2})+ &\cdots \;\;\; + \alpha_m\varphi_m(x_{1,2},\dots, x_{N,2}) - y_2\\ |
|||
\vdots & \vdots & \vdots & \vdots\\ |
|||
r_i =& \alpha_1 \varphi_1(x_{1,i},\dots, x_{N,i}) \;\;+ &\alpha_2 \varphi_2(x_{1,i},\dots, x_{N,i})+ &\cdots \;\;\; + \alpha_m\varphi_m(x_{1,i},\dots, x_{N,i}) - y_i\\ |
|||
\vdots & \vdots & \vdots & \vdots\\ |
|||
r_n =& \alpha_1 \varphi_1(x_{1,n},\dots, x_{N,n})\;\; + &\alpha_2 \varphi_2(x_{1,n},\dots, x_{N,n})+ &\cdots \;\;\; + \alpha_m\varphi_m(x_{1,n},\dots, x_{N,n}) - y_n\\ |
|||
\end{matrix} |
|||
</math> |
</math> |
||
Der mittlere quadratische Fehler wird nach jedem einzelnen Fourierkoeffizienten |
|||
oder in Matrixschreibweise |
|||
differenziert, und dieser Ausdruck ist jeweils null: |
|||
:<math> |
|||
: <math> |
|||
\frac{\partial}{\partial A_j} |
|||
r=A\alpha-y, |
|||
\left( |
|||
A_0 |
|||
+ A_1 \cos(\omega\,t) + B_1 \sin(\omega\,t) |
|||
+ A_2\cos(2\omega\,t) + B_2 \sin(2\omega\,t) + \ldots |
|||
\quad - \quad y(t) |
|||
\right)^2 |
|||
= 0 |
|||
</math> |
</math> |
||
wobei der [[Vektor]] <math>r\in\R^n</math> die <math>r_i</math> zusammenfasst, die [[Matrix (Mathematik)|Matrix]] <math>A\in\R^{n\times m}</math> die Basisfunktionswerte <math>A_{ij}:=\varphi_j(x_{1,i},\dots, x_{N,i})</math>, der Parametervektor <math>\alpha\in\R^m</math> die Parameter <math>\alpha_j</math> und der Vektor <math>y\in\R^n</math> die Beobachtungen <math>y_i</math>, wo <math>n\geq m</math>. |
|||
:<math> |
|||
\frac{\partial}{\partial B_j} |
|||
Der [[Bester Schätzer|beste Schätzer]] wird durch die Lösung des Minimierungsproblems bestimmt. |
|||
\left( |
|||
Das Minimierungsproblem, das sich mithilfe der [[Euklidische Norm|euklidischen Norm]] durch |
|||
A_0 |
|||
+ A_1 \cos(\omega\,t) + B_1 \sin(\omega\,t) |
|||
:<math>\min_{\alpha} \sum_{i=1}^n r_i^2 = \min_\alpha\|f(\alpha)-y\|^2_2 =\min_{\alpha}\|A\alpha-y\|_2^2</math> |
|||
+ A_2\cos(2\omega\,t) + B_2 \sin(2\omega\,t) + \ldots |
|||
\quad - \quad y(t) |
|||
formulieren lässt, kann im ''regulären'' Fall (d. h. <math>A</math> hat vollen [[Spaltenrang]], somit ist <math>A^TA</math> [[Reguläre Matrix|regulär]] und damit invertierbar) mit der Formel |
|||
\right)^2 |
|||
= 0 |
|||
: <math>\hat{\alpha}=(A^TA)^{-1}A^Ty</math> |
|||
eindeutig analytisch gelöst werden (siehe nächster Abschnitt). |
|||
Im generalisierten Fall der gewichteten kleinsten Quadrate muss zudem noch die inverse [[Kovarianzmatrix]] <math>V^{-1}</math> berücksichtigt werden |
|||
: <math>\hat{\alpha}=(A^TV^{-1}A)^{-1}A^TV^{-1}y.</math> |
|||
Im ''singulären'' Fall, wenn <math>A</math> nicht von vollem Rang ist, ist das Normalgleichungssystem nicht eindeutig lösbar, d. h. der Parameter <math>\alpha</math> nicht [[Identifizierbarkeit|identifizierbar]] (siehe [[Satz von Gauß-Markow#Singulärer Fall, schätzbare Funktionen]]). |
|||
Jedoch ist in vielen praktischen Anwendungen die Modellfunktionen <math>y(x_1, x_2, \dots, x_N)</math> nicht analytisch bekannt, sondern kann nur für verschiedene diskrete Werte <math>(x_1, x_2, \dots, x_N)</math> bestimmt werden. In diesem Fall kann die Modellfunktion mithilfe einer [[Lineare Regression|linearen Regression]] näherungsweise bestimmt werden, und der beste Schätzer wird direkt mit der Gleichung des linearen Template Fits<ref>{{Literatur | Titel=The Linear Template Fit | Autor=D. Britzger | Sammelwerk=Eur. Phys. J. C | Band=82 | Jahr=2022 |Seiten=731 | DOI=10.1140/epjc/s10052-022-10581-w | arXiv=2112.01548}}</ref> bestimmt: |
|||
: <math> \hat{\alpha} = \left((Y\tilde{M})^\mathsf{T} V^{-1} Y\tilde{M}\right)^{-1}(Y\tilde{M})^\mathsf{T}V^{-1}(d-Y\bar{m}).</math> |
|||
Dabei ist <math>\mathbf{Y}</math> die Matrix mit den bekannten Werten der Modellfunktion (Template Matrix) für alle <math>\boldsymbol{x}</math>, und der Vektor <math>\mathbf{d}</math> bezeichnet die [[Zufallsvariable]]n (bspw. eine Messung). Die Matrix <math>\mathbf{\tilde{M}}</math> und der Vektor <math>\mathbf{\tilde{m}}</math> werden mithilfe der Stützstellen <math>\mathbf{x}</math> (zusammengefasst in der Matrix <math>Y</math>) berechnet. |
|||
=== Lösung des Minimierungsproblems === |
|||
==== Herleitung und Verfahren ==== |
|||
Das Minimierungsproblem ergibt sich, wie im allgemeinen linearen Fall gezeigt, als |
|||
:<math>\min_\alpha\|A\alpha-y\|_2^2 = \min_\alpha(A\alpha -y)^T(A\alpha-y) = \min_\alpha (\alpha^TA^TA\alpha - 2y^TA\alpha + y^Ty).</math> |
|||
Dieses Problem ist immer lösbar. Hat die Matrix <math>A</math> vollen [[Rang (Lineare Algebra)|Rang]], so ist die Lösung sogar eindeutig. Zum Bestimmen des extremalen Punktes ergibt Nullsetzen der [[Partielle Ableitung|partiellen Ableitungen]] bezüglich der <math>\alpha_j</math>, |
|||
: <math>\nabla \|A\alpha-y\|_2^2=2(A\alpha-y)^TA,</math> |
|||
ein lineares System von ''Normalgleichungen'' (auch ''Gaußsche Normalgleichungen'' oder ''Normalengleichungen'') |
|||
: <math>A^TA\alpha=A^Ty,</math> |
|||
welches die Lösung des Minimierungsproblems liefert und im Allgemeinen numerisch gelöst werden muss. Hat <math>A</math> vollen Rang und ist <math>n\geq m</math>, so ist die Matrix <math>A^TA</math> positiv definit, so dass es sich beim gefundenen Extremum in der Tat um ein Minimum handelt.<ref>Hans R. Schwarz, Norbert Köckler: ''Numerische Mathematik.'' 7. überarb. Auflage. Teubner, 2009, [[doi:10.1007/978-3-8348-9282-9]], ISBN 978-3-8348-9282-9, S. 141, Kapitel 3.6 (Gauß-Approximation), Satz 3.23.</ref> Damit kann das Lösen des Minimierungsproblems auf das Lösen eines Gleichungssystems reduziert werden. Im einfachen Fall einer Ausgleichsgeraden kann dessen Lösung, wie gezeigt wurde, sogar direkt als einfache Formel angegeben werden. |
|||
Alternativ lassen sich die Normalgleichungen in der Darstellung |
|||
: <math>A^TA\alpha-A^Ty= \begin{pmatrix} |
|||
\left\langle \varphi_1,\varphi_1\right\rangle & \left\langle \varphi_1,\varphi_2\right\rangle & \cdots & \left\langle \varphi_1,\varphi_m\right\rangle \\ |
|||
\left\langle \varphi_2,\varphi_1\right\rangle & \left\langle \varphi_2,\varphi_2\right\rangle & \cdots & \left\langle \varphi_2,\varphi_m\right\rangle \\ |
|||
\vdots & \vdots & \ddots & \vdots \\ |
|||
\left\langle \varphi_m,\varphi_1\right\rangle & \left\langle \varphi_m,\varphi_2\right\rangle & \cdots & \left\langle \varphi_m,\varphi_m\right\rangle \\ |
|||
\end{pmatrix} |
|||
\begin{pmatrix} |
|||
\alpha_{1} \\ |
|||
\alpha_{2} \\ |
|||
\vdots \\ |
|||
\alpha_{m} |
|||
\end{pmatrix} - |
|||
\begin{pmatrix} |
|||
\left\langle y,\varphi_1\right\rangle \\ |
|||
\left\langle y,\varphi_2\right\rangle \\ |
|||
\vdots \\ |
|||
\left\langle y,\varphi_m\right\rangle \\ |
|||
\end{pmatrix} = 0. |
|||
</math> |
</math> |
||
Daraus ergeben sich die bekannten Definitionsgleichungen der Fourierkoeffizienten. |
|||
ausschreiben, wobei <math>\left\langle \cdot,\cdot\right\rangle</math> das [[Standardskalarprodukt]] symbolisiert und auch als Integral des Überlapps der Basisfunktionen verstanden werden kann. Die Basisfunktionen <math>\varphi_i</math> sind als Vektoren <math>\vec{\varphi_i} = (\varphi_i(x_{1,1},\dots,x_{N,1}), \varphi_i(x_{1,2},\dots,x_{N,2}), \ldots, \varphi_i(x_{1,n},\dots,x_{N,n}))</math> zu lesen mit den <math>n</math> diskreten Stützstellen am Ort der Beobachtungen <math>y = \vec y = (y_1, y_2, \ldots,y_n)</math>. |
|||
===Beispiel aus der Enzymkinetik einer nicht linearisierbaren Modellfunktion=== |
|||
Ferner lässt sich das Minimierungsproblem mit einer [[Singulärwertzerlegung]] gut analysieren. Diese motivierte auch den Ausdruck der [[Pseudoinverse]]n, einer Verallgemeinerung der normalen [[Inverse Matrix|Inversen einer Matrix]]. Diese liefert dann eine Sichtweise auf nichtquadratische lineare Gleichungssysteme, die einen nicht stochastisch, sondern algebraisch motivierten Lösungsbegriff erlaubt. |
|||
Ein Beispiel für Regressionsmodelle, die in keiner Weise linearisierbar sind, ist die Enzymkinetik. Hier ist allerdings zu fordern, dass nur y (Reaktionsgeschwindigkeit) und nicht x (Substratkonzentration) einem Fehler unterliegt. Die vertraute [[Enzymkinetik|Lineweaver-Burk-Beziehung]] ist zwar eine algebraisch korrekte Umformung der [[Michaelis-Menten-Theorie|Michaelis-Menten-Gleichung]] v = Vmax x [S] / (Km + [S]), ihre Anwendung liefert aber nur korrekte Ergebnisse, wenn die Messwerte fehlerfrei sind. Dies ergibt sich aus der Tatsache, dass sich die Realität nur mit einer erweiterten Michaelis-Menten-Beziehung |
|||
==== Numerische Behandlung der Lösung ==== |
|||
:<math>\nu_i = \frac{V\max\left[S_i\right]}{Km+\left[S_i\right]}(1+e_i)\ \boldsymbol{\nu}_i</math> |
|||
Zur numerischen Lösung des Problems gibt es zwei Wege. Zum einen können die Normalgleichungen |
|||
<!-- [[bild:Enzkin-frm2.png]] --> |
|||
mit ''e''<sub>''i''</sub> als Fehlerparameter, beschreiben lässt. Diese Gleichung lässt sich nicht mehr linearisieren, also muss hier die Lösung iterativ ermittelt werden. |
|||
: <math>A^TA\alpha=A^Ty</math> |
|||
Bei nichtlinearen Gesetzmäßigkeiten ergibt sich eine Komplikation dadurch, dass die zu optimierenden Parameter nicht direkt ermittelt werden können: alle Kalkulationen gehen zwangsläufig von Schätzwerten aus, so dass jede nichtlineare Regressionsanalyse ein iteratives Verfahren darstellt. Ob diese Schätzwerte vernünftig waren, zeigt sich im nachhinein dadurch, dass verschiedene Anfangsschätzungen zum gleichen Endergebnis führen. |
|||
gelöst werden, die eindeutig lösbar sind, falls die Matrix <math>A</math> vollen Rang hat. Ferner hat die [[Produktsummenmatrix]] <math>A^TA</math> die Eigenschaft, [[Definitheit|positiv definit]] zu sein, ihre [[Eigenwertproblem|Eigenwerte]] sind also alle positiv. Zusammen mit der [[Symmetrische Matrix|Symmetrie]] von <math>A^TA</math> kann dies beim Einsatz von [[Numerische Mathematik|numerischen]] Verfahren zur Lösung ausgenutzt werden: beispielsweise mit der [[Cholesky-Zerlegung]] oder dem [[CG-Verfahren]]. Da beide Methoden von der [[Kondition (Mathematik)|Kondition]] der Matrix stark beeinflusst werden, ist dies manchmal keine empfehlenswerte Herangehensweise: Ist schon <math>A</math> schlecht konditioniert, so ist <math>A^TA</math> quadratisch schlecht konditioniert. Dies führt dazu, dass Rundungsfehler so weit verstärkt werden können, dass sie das Ergebnis unbrauchbar machen. Durch [[Regularisierung]]smethoden kann die Kondition allerdings verbessert werden. |
|||
Eine Methode ist die sog. ''Ridge-Regression'', die auf Hoerl und Kennard (1970) zurückgeht.<ref>A.E. Hoerl and R.W. Kennard: ''Ridge regression: Biased estimation for nonorthogonal problems'', Technometrics 12 (1970), 55-82.</ref> Das englische Wort ridge heißt so viel wie Grat, Riff, Rücken. Hier wird anstelle der schlecht konditionierten Matrix <math>A^TA</math> die besser konditionierte Matrix <math>A^TA+\delta I_m</math> benutzt. Dabei ist <math>I_m</math> die <math>m</math>-dimensionale [[Einheitsmatrix]]. Die Kunst besteht in der geeigneten Wahl von <math>\delta</math>. Zu kleine <math>\delta</math> erhöhen die Kondition nur wenig, zu große <math>\delta</math> führen zu verzerrter Anpassung. |
|||
Siehe auch |
|||
Konfidenzintervall, Bestimmtheitsmaß, Korrelationskoeffizient, Signifikanztest |
|||
Zum anderen liefert das ursprüngliche Minimierungsproblem eine [[Stabilität (Numerik)|stabilere]] Alternative, da es bei kleinem Wert des Minimums eine Kondition in der Größenordnung der Kondition von <math>A</math>, bei großen Werten des Quadrats der Kondition von <math>A</math> hat. Um die Lösung zu berechnen, wird eine [[QR-Zerlegung]] verwendet, die mit [[Householdertransformation]]en oder [[Givens-Rotation]]en erzeugt wird. Grundidee ist, dass [[orthogonale Transformation]]en die euklidische Norm eines Vektors nicht verändern. Damit ist |
|||
:<math>\|A\alpha-y\|_2 = \|Q(A\alpha-y)\|_2</math> |
|||
==Literatur== |
|||
für jede [[orthogonale Matrix]] <math>Q</math>. Zur Lösung des Problems kann also eine QR-Zerlegung von <math>A</math> berechnet werden, wobei man die rechte Seite direkt mittransformiert. Dies führt auf eine Form |
|||
*Draper, Norman R. und Smith Harry: Applied Regression Analysis, ''Ort''1998 |
|||
*Opfer, Gerhard: ''Numerische Mathematik für Anfänger'', 2. Auflage, 1994, Vieweg Verlag |
|||
*Schönfeld, Peter: Methoden der Ökonometrie, Berlin, Frankfurt, 1969 |
|||
*Zeidler E. (Hrsg.): Taschenbuch der Mathematik (bekannt als ''Bronstein und Semendjajew''), Stuttgart, Leipzig, Wiesbaden 2003 |
|||
:<math>\|R\alpha-Q^T y\|_2</math> |
|||
mit <math>R=\begin{pmatrix} \tilde{R} \\ 0 \end{pmatrix},</math> wobei <math>\tilde{R} \in \mathbb{R}^{m\times m}</math> eine rechte obere [[Dreiecksmatrix]] ist. Die Lösung des Problems ergibt sich somit durch die Lösung des Gleichungssystems |
|||
:<math>\tilde{R}\begin{pmatrix} \alpha_1 \\ \vdots \\ \alpha_m\end{pmatrix}=\begin{pmatrix} (Q^T y)_1 \\ \vdots \\ (Q^T y)_m \end{pmatrix}.</math> |
|||
Die Norm des Minimums ergibt sich dann aus den restlichen Komponenten der transformierten rechten Seite <math>(Qy)_{m+1}, \dots, (Qy)_n,</math> da die dazugehörigen Gleichungen aufgrund der Nullzeilen in <math>R</math> nie erfüllt werden können. |
|||
In der statistischen [[Regressionsanalyse]] spricht man bei mehreren gegebenen Variablen <math>x_1, \ldots , x_n</math> von [[Multiple lineare Regression|multipler linearer Regression]]. Der gebräuchlichste Ansatz ein multiples lineares Modell zu schätzen ist als die ''gewöhnliche Kleinste-Quadrate-Schätzung'' bzw. ''gewöhnliche Methode der kleinsten Quadrate'' ({{enS}} ''ordinary least squares'', kurz ''OLS'') bekannt. Im Gegensatz zur gewöhnlichen KQ-Methode wird die ''[[verallgemeinerte Methode der kleinsten Quadrate]]'', kurz ''VMKQ'' ({{enS}} ''generalised least squares'', kurz ''GLS'') bei einem [[Verallgemeinerte Kleinste-Quadrate-Schätzung#Das verallgemeinerte lineare Regressionsmodell (VLR)|verallgemeinerten linearen Regressionsmodell]] verwendet. Bei diesem Modell weichen die [[Fehlerterme]] von der Verteilungsannahme wie Unkorreliertheit und/oder [[Homoskedastizität]] ab. Dagegen liegen bei [[Multivariate Verfahren|multivariater]] Regression für jede Beobachtung <math>i</math> <math>(i=1, \dots, n)</math> <math>r</math> viele <math>y</math>-Werte vor, so dass statt eines Vektors eine <math>n \times r</math>-Matrix <math>Y</math> vorliegt (siehe [[Allgemeines lineares Modell]]). Die linearen Regressionsmodelle sind in der Statistik wahrscheinlichkeitstheoretisch intensiv erforscht worden. Besonders in der [[Ökonometrie]] werden beispielsweise komplexe [[rekursiv]] definierte lineare [[Strukturgleichung]]en analysiert, um [[volkswirtschaft]]liche Systeme zu modellieren. |
|||
=== Probleme mit Nebenbedingungen === |
|||
Häufig sind Zusatzinformationen an die Parameter bekannt, die durch Nebenbedingungen formuliert werden, die dann in Gleichungs- oder Ungleichungsform vorliegen. Gleichungen tauchen beispielsweise auf, wenn bestimmte Datenpunkte interpoliert werden sollen. Ungleichungen tauchen häufiger auf, in der Regel in der Form von Intervallen für einzelne Parameter. Im Einführungsbeispiel wurde die Federkonstante erwähnt, diese ist immer größer Null und kann für den konkret betrachteten Fall immer nach oben abgeschätzt werden. |
|||
Im Gleichungsfall können diese bei einem sinnvoll gestellten Problem genutzt werden, um das ursprüngliche Minimierungsproblem in eines einer niedrigeren Dimension umzuformen, dessen Lösung die Nebenbedingungen automatisch erfüllt. |
|||
Schwieriger ist der Ungleichungsfall. Hier ergibt sich bei linearen Ungleichungen das Problem |
|||
: <math>\min_\alpha \|\vec{f}-\vec{y}\|_2\;</math> mit <math>\;l \leq C\alpha\leq u</math>, <math>C \in \mathbb{R}^{n\times n},</math> |
|||
wobei die Ungleichungen komponentenweise gemeint sind. Dieses Problem ist als [[Konvexe Optimierung|konvexes]] und [[Quadratisches Programm|quadratisches Optimierungsproblem]] eindeutig lösbar und kann beispielsweise mit Methoden zur Lösung solcher angegangen werden. |
|||
Quadratische Ungleichungen ergeben sich beispielsweise bei der Nutzung einer [[Tychonow-Regularisierung]] zur Lösung von [[Integralgleichung]]en. Die Lösbarkeit ist hier nicht immer gegeben. Die numerische Lösung kann beispielsweise mit speziellen [[QR-Zerlegung]]en erfolgen. |
|||
== Nichtlineare Modellfunktionen == |
|||
=== Grundgedanke und Verfahren === |
|||
Mit dem Aufkommen leistungsfähiger Rechner gewinnt insbesondere die nichtlineare Regression an Bedeutung. Hierbei gehen die Parameter nichtlinear in die Funktion ein. Nichtlineare Modellierung ermöglicht im Prinzip die Anpassung von Daten an jede Gleichung der Form <math>y = f(\alpha)</math>. Da diese Gleichungen [[Kurve (Mathematik)|Kurven]] definieren, werden die Begriffe nichtlineare Regression und „curve fitting“ zumeist synonym gebraucht. |
|||
Manche nichtlineare Probleme lassen sich durch geeignete Substitution in lineare überführen und sich dann wie oben lösen. Ein multiplikatives Modell von der Form |
|||
: <math> y = \alpha_0 \cdot x^{\alpha_1}</math> |
|||
lässt sich beispielsweise durch [[Logarithmus|Logarithmieren]] in ein additives System überführen. Dieser Ansatz findet unter anderem in der [[Wachstumstheorie]] Anwendung. |
|||
Im Allgemeinen ergibt sich bei nichtlinearen Modellfunktionen ein Problem der Form |
|||
: <math>\min_\alpha\|f(\alpha)-y\|_2,</math> |
|||
mit einer nichtlinearen Funktion <math>f</math>. Partielle Differentiation ergibt dann ein System von Normalgleichungen, das nicht mehr analytisch gelöst werden kann. Eine numerische Lösung kann hier iterativ mit dem [[Gauß-Newton-Verfahren]] erfolgen. |
|||
Aktuelle Programme arbeiten häufig mit einer Variante, dem [[Levenberg-Marquardt-Algorithmus]]. Dabei wird durch eine [[Lineare Regression#Regularisierung der Regression|Regularisierung]] die [[Monotone Funktionenfolge|Monotonie]] der Näherungsfolge garantiert. Zudem ist das Verfahren bei größerer Abweichung der Schätzwerte toleranter als die Ursprungsmethode. Beide Verfahren sind mit dem [[Newton-Verfahren]] verwandt und konvergieren unter geeigneten Voraussetzungen (der Startpunkt ist genügend nahe beim lokalen Optimum) meist [[Konvergenzgeschwindigkeit|quadratisch]], in jedem Schritt verdoppelt sich also die Zahl der korrekten Nachkommastellen. |
|||
Wenn die Differentiation auf Grund der Komplexität der Zielfunktion zu aufwendig ist, stehen eine Reihe anderer Verfahren als Ausweichlösung zur Verfügung, die keine Ableitungen benötigen, siehe bei [[Optimierung (Mathematik)#Methoden der lokalen nichtlinearen Optimierung ohne Nebenbedingungen|Methoden der lokalen nichtlinearen Optimierung]]. |
|||
=== Beispiel aus der Enzymkinetik einer nicht linearisierbaren Modellfunktion === |
|||
Ein Beispiel für Regressionsmodelle, die voll nichtlinear sind, ist die [[Enzymkinetik]]. Hier ist zu fordern, dass „nur“ <math>y</math> (Reaktionsgeschwindigkeit) und nicht <math>\alpha</math> (Substratkonzentration) einem Fehler unterliegt und damit <math>\alpha</math> als Variable genutzt werden kann. Die [[Enzymkinetik|Lineweaver-Burk-Beziehung]] ist zwar eine algebraisch korrekte Umformung der [[Michaelis-Menten-Theorie|Michaelis-Menten-Gleichung]] <math> v = V_\mathrm{max}\cdot [S] / (K_m + [S])</math>, ihre Anwendung liefert aber nur korrekte Ergebnisse, wenn die Messwerte fehlerfrei sind. Dies ergibt sich aus der Tatsache, dass sich die Realität nur mit einer erweiterten Michaelis-Menten-Beziehung |
|||
: <math>\nu_i = \frac{V_\max\left[S_i\right]}{K_m+\left[S_i\right]}(1+e_i)\ \boldsymbol{\nu}_i</math> |
|||
<!-- [[Datei:Enzkin-frm2.png]] --> |
|||
mit <math>e_i</math> als Fehlerparameter, beschreiben lässt. Diese Gleichung lässt sich nicht mehr linearisieren, also muss hier die Lösung iterativ ermittelt werden. |
|||
== Fehlverhalten bei Nichterfüllung der Voraussetzungen == |
|||
Die Methode der kleinsten Quadrate erlaubt es, unter bestimmten Voraussetzungen die wahrscheinlichsten aller Modellparameter zu berechnen. Dazu muss ein korrektes Modell gewählt worden sein, eine ausreichende Menge Messwerte vorliegen und die Abweichungen der Messwerte gegenüber dem Modellsystem müssen eine [[Normalverteilung]] bilden. In der Praxis kann die Methode jedoch auch bei Nichterfüllung dieser Voraussetzungen für diverse Zwecke eingesetzt werden. Dennoch sollte beachtet werden, dass die Methode der kleinsten Quadrate unter bestimmten ungünstigen Bedingungen völlig unerwünschte Ergebnisse liefern kann. Beispielsweise sollten keine [[Ausreißer]] in den Messwerten vorliegen, da diese das Schätzergebnis [[Verzerrung (Statistik)|verzerren]]. Außerdem ist [[Multikollinearität]] zwischen den zu schätzenden Parametern ungünstig, da diese numerische Probleme verursacht. Im Übrigen können auch [[Regressor]]en, die weit von den anderen entfernt liegen, die Ergebnisse der Ausgleichsrechnung stark beeinflussen. Man spricht hier von Werten mit großer Hebelkraft ({{enS}} ''High Leverage Value''). |
|||
=== Multikollinearität === |
|||
Das Phänomen der [[Multikollinearität]] entsteht, wenn die Messreihen zweier gegebener Variablen <math>x_i</math> und <math>x_j</math> sehr hoch [[Korrelation|korreliert]] sind, also fast linear abhängig sind. Im linearen Fall bedeutet dies, dass die [[Determinante]] der Normalgleichungsmatrix <math>A^TA</math> sehr klein und die Norm der Inversen umgekehrt sehr groß ist; die [[Kondition (Mathematik)|Kondition]] von <math>A^TA</math> ist also stark beeinträchtigt. Die Normalgleichungen sind dann numerisch schwer zu lösen. Die Lösungswerte können [[Plausibilität|unplausibel]] groß werden, und bereits kleine Änderungen in den Beobachtungen bewirken große Änderungen in den Schätzwerten. |
|||
=== Ausreißer === |
|||
[[Datei:MDKQ4.svg|mini|320px|''Ausreißer von y:''<br /> Der Wert zieht die Gerade nach oben]] |
|||
Als [[Ausreißer]] sind Datenwerte definiert, die „nicht in eine [[Messreihe]] passen“. Diese Werte beeinflussen die Berechnung der Parameter stark und verfälschen das Ergebnis. Um dies zu vermeiden, müssen die Daten auf fehlerhafte Beobachtungen untersucht werden. Die entdeckten Ausreißer können beispielsweise aus der Messreihe ausgeschieden werden oder es sind alternative ausreißerresistente Berechnungsverfahren wie gewichtete Regression oder das Drei-Gruppen-Verfahren anzuwenden. |
|||
Im ersten Fall wird nach der ersten Berechnung der Schätzwerte durch [[Statistischer Test|statistische Tests]] geprüft, ob Ausreißer in einzelnen Messwerten vorliegen. Diese Messwerte werden dann ausgeschieden und die Schätzwerte erneut berechnet. Dieses Verfahren eignet sich dann, wenn nur wenige Ausreißer vorliegen. |
|||
Bei der gewichteten Regression werden die abhängigen Variablen <math>y</math> in Abhängigkeit von ihren [[Residuum (Numerische Mathematik)|Residuen]] gewichtet. Ausreißer, d. h. Beobachtungen mit großen Residuen, erhalten ein geringes Gewicht, das je nach Größe des Residuums abgestuft sein kann. Beim Algorithmus nach [[Frederick Mosteller|Mosteller]] und [[John W. Tukey|Tukey]] (1977), der als „biweighting“ bezeichnet wird, werden unproblematische Werte mit 1 und Ausreißer mit 0 gewichtet, was die Unterdrückung des Ausreißers bedingt. Bei der gewichteten Regression sind in der Regel mehrere [[Iteration]]sschritte erforderlich, bis sich die Menge der erkannten Ausreißer nicht mehr ändert. |
|||
=== Heteroskedastische Fehler === |
|||
Liegen heteroskedastische Fehler vor, so liefert die Minimierung des Mittelwertes der kleinsten Quadrate keinen [[Effizienz (Statistik)|effizienten Schätzer]] des (bedingten) Mittelwertes, obwohl dieser immer noch unverzerrt ist<ref>The SAGE Encyclopedia of Research Design, ISBN 978-1-0718-1210-5, Seite 1291, [https://www.google.de/books/edition/The_SAGE_Encyclopedia_of_Research_Design/KbdbEAAAQBAJ?hl=de&gbpv=1&dq=least%20squares%20is%20inefficient%20with%20heteroscedastic%20errors%20inefficient%20but%20unbiased&pg=PT1291 Google books]</ref>. Die Minimierung der Gaussschen Negativen Log-Likelihood kann in diesem Fall eine Alternative sein. |
|||
== Verallgemeinerte Kleinste-Quadrate-Modelle == |
|||
Weicht man die starken Anforderungen im Verfahren an die Fehlerterme auf, erhält man so genannte [[Verallgemeinerte Kleinste-Quadrate-Schätzung|verallgemeinerte Kleinste-Quadrate-Ansätze]]. Wichtige Spezialfälle haben dann wieder eigene Namen, etwa die ''[[Verallgemeinerte Kleinste-Quadrate-Schätzung#Gewichtete kleinste Quadrate (GKQ)|gewichtete Methode der kleinsten Quadrate]]'' ({{enS}} ''weighted least squares'', kurz ''WLS''), bei denen die Fehler zwar weiter als unkorreliert angenommen werden, aber nicht mehr von gleicher Varianz. Dies führt auf ein Problem der Form |
|||
:<math>\|D(A\alpha-y)\|_2,</math> |
|||
wobei ''D'' eine [[Diagonalmatrix]] ist. Variieren die Varianzen stark, so haben die entsprechenden Normalgleichungen eine sehr große [[Kondition (Mathematik)|Kondition]], weswegen das Problem direkt gelöst werden sollte. |
|||
Nimmt man noch weiter an, dass die Fehler in den Messdaten auch in der Modellfunktion berücksichtigt werden sollten, ergeben sich die „totalen kleinsten Quadrate“ in der Form |
|||
:<math>\min_{E, r}\|(E, r)\|_F, (A+E)\alpha = b+r,</math> |
|||
wobei <math>E</math> der Fehler im Modell und <math>r</math> der Fehler in den Daten ist.<ref>Sabine Van Huffel, Joos Vandewalle: ''The Total Least Squares Problem: Computational Aspects and Analysis.'' SIAM Publications, Philadelphia PA 1991, ISBN 0-89871-275-0.</ref><ref>Martin Plesinger: ''The Total Least Squares Problem and Reduction of Data in AX ≈ B.'' {{Webarchiv |url=http://www.fp.tul.cz/~plesinger/my_publications/doctoral_thesis/thesis.pdf |text=Dissertation. |format=PDF; 1,6 MB |wayback=20120724080908}} TU Liberec und ICS Prague, 2008.</ref> |
|||
Schließlich gibt es noch die Möglichkeit, keine Normalverteilung zugrunde zu legen. Dies entspricht beispielsweise der Minimierung nicht in der euklidischen Norm, sondern der [[Summennorm]]. Solche Modelle sind Themen der [[Regressionsanalyse]]. |
|||
== Literatur == |
|||
* Åke Björck: ''Numerical Methods for Least Squares Problems.'' SIAM, Philadelphia 1996, ISBN 0-89871-360-9. |
|||
* Walter Großmann: ''Grundzüge der Ausgleichsrechnung.'' 3. erw. Auflage. Springer Verlag, Berlin / Heidelberg / New York 1969, ISBN 3-540-04495-7. |
|||
* Richard J. Hanson, Charles L. Lawson: ''Solving least squares problems.'' SIAM, Philadelphia 1995, ISBN 0-89871-356-0. |
|||
* [[Frederick Mosteller]], [[John W. Tukey]]: ''Data Analysis and Regression – a second course in statistics.'' Addison-Wesley, Reading MA 1977, ISBN 0-201-04854-X. |
|||
* Gerhard Opfer: ''Numerische Mathematik für Anfänger. Eine Einführung für Mathematiker, Ingenieure und Informatiker.'' 4. Auflage. Vieweg, Braunschweig 2002, ISBN 3-528-37265-6. |
|||
* Peter Schönfeld: ''Methoden der Ökonometrie.'' 2 Bände. Vahlen, Berlin/Frankfurt 1969–1971. |
|||
* Eberhard Zeidler (Hrsg.): ''Taschenbuch der Mathematik.'' Begründet v. I.N. Bronstein, K.A. Semendjajew. Teubner, Stuttgart/Leipzig/Wiesbaden 2003, ISBN 3-8171-2005-2. |
|||
* T. Strutz: ''Data Fitting and Uncertainty (A practical introduction to weighted least squares and beyond).'' 2nd edition. Springer Vieweg, 2016, ISBN 978-3-658-11455-8. |
|||
== Weblinks == |
== Weblinks == |
||
{{Wikibooks|Beweisarchiv: Stochastik: Statistik: Eindeutigkeit der Methode der kleinsten Fehlerquadrate|Beweis zur Methode der kleinsten Fehlerquadrate|suffix=-}} |
|||
*[[http://www.fundus-biologie.de/docs/all/biostat.doc Biostatistik]] |
|||
{{Wikibooks|Statistik: Regressionsanalyse|Einführung in die Regressionsrechnung}} |
|||
* [http://www.innovation.uni-trier.de/multivariate/Verfahren.htm#Regressionsanalyse Verfahren der Regressionsanalyse] |
|||
* [http://www.innovation.uni-trier.de/multivariate/Problemstellungen1.htm#Problemstellung%20Regressionsanalyse Problemstellungen der Regressionsanalyse] |
|||
== Einzelnachweise == |
|||
[[en:regression analysis]] |
|||
<references /> |
|||
{{Lesenswert|27. August 2009|63815092}} |
|||
[[Kategorie:Numerische Mathematik]] |
|||
[[Kategorie:Statistik]] |
|||
[[Kategorie:Numerische Mathematik]] |
|||
[[en:Least squares]] |
|||
[[Kategorie:Methode der kleinsten Quadrate| ]] |
|||
[[ja:最小二乗法]] |
|||
[[Kategorie:Schätztheorie]] |
|||
[[sv:Minsta kvadratmetoden]] |
|||
[[Kategorie:Regressionsanalyse]] |
|||
[[Kategorie:Carl Friedrich Gauß]] |
Aktuelle Version vom 27. Juni 2025, 15:03 Uhr
Die Methode der kleinsten Quadrate (kurz: MKQ) oder KQ-Methode (englisch method of least squares oder lediglich least squares, kurz: LS); zur Abgrenzung von daraus abgeleiteten Erweiterungen wie z. B. der verallgemeinerten Methode der kleinsten Quadrate oder der zweistufigen Methode der kleinsten Quadrate auch mit dem Zusatz „gewöhnliche“ bezeichnet, d. h. gewöhnliche Methode der kleinsten Quadrate (englisch ordinary least squares, kurz: OLS; veraltet Methode der kleinsten Abweichungsquadratsumme) ist das mathematische Standardverfahren zur Ausgleichungsrechnung.
Dabei wird zu einer Menge von Datenpunkten eine Funktion bestimmt, die möglichst nahe an den Datenpunkten verläuft und somit die Daten bestmöglich zusammenfasst. Die am häufigsten verwendete Funktion ist die Gerade, die dann Ausgleichsgerade genannt wird. Um die Methode anwenden zu können, muss die Funktion mindestens einen Parameter enthalten. Diese Parameter werden dann durch die Methode bestimmt, so dass, wenn die Funktion mit den Datenpunkten verglichen und der Abstand zwischen Funktionswert und Datenpunkt quadriert wird, die Summe dieser quadrierten Abstände möglichst gering wird. Die Abstände werden dann Residuen genannt.
Typischerweise werden mit dieser Methode reale Daten, etwa physikalische oder wirtschaftliche Messwerte, untersucht. Diese Daten beinhalten oft unvermeidbare Messfehler und Schwankungen. Unter der Annahme, dass die gemessenen Werte nahe an den zugrunde liegenden „wahren Werten“ liegen und zwischen den Messwerten ein bestimmter Zusammenhang besteht, kann die Methode verwendet werden, um eine Funktion zu finden, die diesen Zusammenhang der Daten möglichst gut beschreibt. Die Methode kann auch umgekehrt verwendet werden, um verschiedene Funktionen zu testen und dadurch einen unbekannten Zusammenhang in den Daten zu beschreiben.

In der Beispielgrafik sind Datenpunkte und eine Ausgleichsfunktion eingetragen. Es wird eine allgemeine Funktion (die Modellfunktion) ausgewählt, die zur Fragestellung und den Daten passen sollte, hier eine logistische Funktion. Deren Parameter werden nun so bestimmt, dass die Summe der Abweichungsquadrate der Beobachtungen von den Werten der Funktion minimiert wird. In der Grafik ist die Abweichung an der Stelle als senkrechter Abstand der Beobachtung von der Kurve zu erkennen.
In der Stochastik wird die Methode der kleinsten Quadrate meistens als regressionsanalytische Schätzmethode benutzt, wo sie auch als Kleinste-Quadrate-Schätzung bzw. gewöhnliche Kleinste-Quadrate-Schätzung bezeichnet wird. Da die Kleinste-Quadrate-Schätzung die Residuenquadratsumme minimiert, ist es dasjenige Schätzverfahren, welches das Bestimmtheitsmaß maximiert. Angewandt als Systemidentifikation ist die Methode der kleinsten Quadrate in Verbindung mit Modellversuchen z. B. für Ingenieure ein Ausweg aus der paradoxen Situation, Modellparameter für unbekannte Gesetzmäßigkeiten zu bestimmen.
Geschichte
[Bearbeiten | Quelltext bearbeiten]

Am Neujahrstag 1801 entdeckte der italienische Astronom Giuseppe Piazzi den Zwergplaneten Ceres. 40 Tage lang konnte er die Bahn verfolgen, dann verschwand Ceres hinter der Sonne. Im Laufe des Jahres versuchten viele Wissenschaftler erfolglos, anhand von Piazzis Beobachtungen die Bahn zu berechnen – unter der Annahme einer Kreisbahn, denn nur für solche konnten damals die Bahnelemente aus beobachteten Himmelspositionen mathematisch ermittelt werden.
Der 24-jährige Carl Friedrich Gauß schaffte es, die Bahn mit Hilfe einer neuen indirekten Methode der Bahnbestimmung und seiner Ausgleichsrechnungen auf Basis der Methode der kleinsten Quadrate (wenn auch noch nicht so bezeichnet) so zu berechnen, dass Franz Xaver von Zach ihn am 7. Dezember 1801 und – bestätigt – am 31. Dezember 1801 wiederfinden konnte. Heinrich Wilhelm Olbers bestätigte dies unabhängig von Zach durch Beobachtung am 1. und 2. Januar 1802.[1]
Das Problem der Wiederauffindung der Ceres als solches lag darin, dass durch die Beobachtungen weder der Ort, ein Stück der Bahn, noch die Entfernung bekannt sind, sondern nur die Richtungen der Beobachtung. Dies führt auf die Suche einer Ellipse und nicht nach einem Kreis, wie ihn Gauß’ Konkurrenten ansetzten.[2] Einer der Brennpunkte der Ellipse ist bekannt (die Sonne selbst), und die Bögen der Bahn der Ceres zwischen den Richtungen der Beobachtung werden nach dem zweiten Keplerschen Gesetz durchlaufen, das heißt, die Zeiten verhalten sich wie die vom Leitstrahl überstrichenen Flächen. Außerdem ist für die rechnerische Lösung bekannt, dass die Beobachtungen selbst von einem Kegelschnitt im Raum ausgehen, der Erdbahn selbst.
Im Grundsatz führt das Problem auf eine Gleichung achten Grades, deren triviale Lösung die Erdbahn selbst ist. Durch umfangreiche Nebenbedingungen und (später) die von Gauß entwickelte Methode der kleinsten Quadrate gelang es dem 24-Jährigen, für die Bahn der Ceres für den 25. November bis 31. Dezember 1801 den von ihm berechneten Ort anzugeben. Damit konnte Zach am letzten Tag der Vorhersage Ceres wiederfinden. Der Ort lag nicht weniger als 7° (d. h. 13,5 Vollmondbreiten) östlich der Stelle, wo die anderen Astronomen Ceres vermutet hatten, was nicht nur Zach, sondern auch Olbers gebührend würdigten.[3]
Seine ersten Berechnungen waren zwar noch ohne die Methode der kleinsten Quadrate, erst als nach der Wiederentdeckung von Ceres viele neue Daten vorlagen, benutzte er diese für eine genauere Bestimmung der Bahnelemente, ohne aber Details seiner Methode allgemein offenzulegen.[4] Piazzis Ruf, der aufgrund seiner nicht zu einer Kreisbahn passen wollenden Bahnpunkte stark gelitten hatte, war ebenfalls wiederhergestellt.[5]
Eine Vorgängermethode der Methode der kleinsten Quadrate stellt die Methode der kleinsten absoluten Abweichungen dar, die 1760 von Rugjer Josip Bošković entwickelt wurde. Die Grundlagen der Methode der kleinsten Quadrate hatte Gauß schon 1795 im Alter von 18 Jahren entwickelt. Zugrundeliegend war eine Idee von Pierre-Simon Laplace, die Abweichungen der Messwerte vom erwarteten Wert so aufzusummieren, dass die Summe über all diese sogenannten Fehler null ergab. Im Unterschied zu dieser Methode verwendete Gauß statt der Fehler die Fehlerquadrate und konnte so auf die Nullsummen-Anforderung verzichten. Unabhängig von Gauß entwickelte der Franzose Adrien-Marie Legendre dieselbe Methode, veröffentlichte diese als Erster im Jahr 1805, am Schluss eines kleinen Werkes über die Berechnung der Kometenbahnen,[6] und veröffentlichte eine zweite Abhandlung darüber im Jahr 1810. Seine Darstellung war überaus klar und einfach. Von Legendre stammt auch die Bezeichnung Méthode des moindres carrés (Methode der kleinsten Quadrate).
1809 publizierte Gauß dann im zweiten Band seines himmelsmechanischen Werkes Theoria motus corporum coelestium in sectionibus conicis solem ambientium („Theorie der Bewegung der Himmelskörper, welche in Kegelschnitten die Sonne umlaufen“) das Verfahren[7] inklusive der Normalengleichungen, sowie das Gaußsche Eliminationsverfahren und das Gauß-Newton-Verfahren,[8] womit er weit über Legendre hinausging. Darin bezeichnete er die Methode der kleinsten Quadrate als seine Entdeckung und behauptete, diese schon im Jahr 1795 (also vor Legendre) entdeckt und angewandt zu haben, was diesen nachhaltig verärgerte. Legendre beschwerte sich darüber in einem langen Brief an Gauß, welchen dieser unbeantwortet ließ.[9] Gauß verwies nur gelegentlich auf einen Eintrag in seinem mathematischen Tagebuch vom 17. Juni 1798 (dort findet sich der kryptische Satz in Latein: „Calculus probabilitatis contra La Place defensus“ [„Kalkül der Wahrscheinlichkeit gegen Laplace verteidigt“] und sonst nichts).[10] Laplace beurteilte die Sache so, dass Legendre die Erstveröffentlichung tätigte, Gauß die Methode aber zweifelsfrei schon vorher kannte, selbst nutzte und auch anderen Astronomen brieflich mitteilte.[11] Die Methode der kleinsten Quadrate wurde nach ihrer Veröffentlichung schnell das Standardverfahren zur Behandlung von astronomischen oder geodätischen Datensätzen.
Gauß nutzte das Verfahren intensiv bei seiner Vermessung des Königreichs Hannover durch Triangulation. 1821 und 1823 erschien die zweiteilige Arbeit sowie 1826 eine Ergänzung zur Theoria combinationis observationum erroribus minimis obnoxiae („Theorie der den kleinsten Fehlern unterworfenen Kombination der Beobachtungen“),[12] in denen Gauß den Erfolg der Methode der kleinsten Quadrate damit begründete, dass dieses im Vergleich zu anderen Verfahren der Ausgleichungsrechnung in einer breiten Hinsicht optimal ist. Die mathematische Formulierung dieser Aussage ist als Satz von Gauß-Markow bekannt, benannt nach Andrei Andrejewitsch Markow, der diesen anfänglich wenig beachteten Teil der Arbeit Gauß’ im 20. Jahrhundert wiederentdeckt und bekannt gemacht hatte (siehe auch Satz von Gauß-Markow#Geschichte). Die Theoria Combinationis enthält ferner Methoden zum effizienten Lösen linearer Gleichungssysteme, wie das Gauß-Seidel-Verfahren und die LR-Zerlegung, die einen wesentlichen Fortschritt zum damaligen mathematischen Kenntnisstand darstellen.[13]
Der französische Vermessungsoffizier André-Louis Cholesky entwickelte während des Ersten Weltkriegs die Cholesky-Zerlegung, die gegenüber den Lösungsverfahren von Gauß nochmal einen erheblichen Effizienzgewinn darstellte. In den 1960er Jahren entwickelte Gene Golub die Idee, die auftretenden linearen Gleichungssysteme mittels QR-Zerlegung zu lösen.
Das Verfahren
[Bearbeiten | Quelltext bearbeiten]Voraussetzungen
[Bearbeiten | Quelltext bearbeiten]Man betrachtet eine abhängige Größe , die von einer Variablen oder auch von mehreren Variablen beeinflusst wird. So hängt die Dehnung einer Feder nur von der aufgebrachten Kraft ab, die Profitabilität eines Unternehmens jedoch von mehreren Faktoren wie Umsatz, den verschiedenen Kosten oder dem Eigenkapital. Zur Vereinfachung der Notation wird im Folgenden die Darstellung auf eine Variable beschränkt. Der Zusammenhang zwischen und den Variablen wird über eine Modellfunktion , beispielsweise eine Parabel oder eine Exponentialfunktion
- ,
die von sowie von Funktionsparametern abhängt, modelliert. Diese Funktion entstammt entweder der Kenntnis des Anwenders oder einer mehr oder weniger aufwendigen Suche nach einem Modell, eventuell müssen dazu verschiedene Modellfunktionen angesetzt und die Ergebnisse verglichen werden. Ein einfacher Fall auf Basis bereits vorhandener Kenntnis ist beispielsweise die Feder, denn hier ist das Hookesche Gesetz und damit eine lineare Funktion mit der Federkonstanten als einzigem Parameter Modellvoraussetzung. In schwierigeren Fällen wie dem des Unternehmens muss der Wahl des Funktionstyps jedoch ein komplexer Modellierungsprozess vorausgehen.
Um Informationen über die Parameter und damit die konkrete Art des Zusammenhangs zu erhalten, werden zu jeweils gegebenen Werten der unabhängigen Variablen entsprechende Beobachtungswerte erhoben. Die Parameter dienen zur Anpassung des gewählten Funktionstyps an diese beobachteten Werte . Ziel ist es nun, die Parameter so zu wählen, dass die Modellfunktion die Daten bestmöglich approximiert.
Gauß und Legendre hatten die Idee, Verteilungsannahmen über die Messfehler dieser Beobachtungswerte zu machen. Sie sollten im Durchschnitt Null sein, eine gleichbleibende Varianz haben und von jedem anderen Messfehler stochastisch unabhängig sein. Man verlangt damit, dass in den Messfehlern keinerlei systematische Information mehr steckt, sie also rein zufällig um Null schwanken. Außerdem sollten die Messfehler normalverteilt sein, was zum einen wahrscheinlichkeitstheoretische Vorteile hat und zum anderen garantiert, dass Ausreißer in so gut wie ausgeschlossen sind.
Um unter diesen Annahmen die Parameter zu bestimmen, ist es im Allgemeinen notwendig, dass deutlich mehr Datenpunkte als Parameter vorliegen, es muss also gelten.
Minimierung der Summe der Fehlerquadrate
[Bearbeiten | Quelltext bearbeiten]Das Kriterium zur Bestimmung der Approximation sollte so gewählt werden, dass große Abweichungen der Modellfunktion von den Daten stärker gewichtet werden als kleine. Sofern keine Lösung ganz ohne Abweichungen möglich ist, dann ist der Kompromiss mit der insgesamt geringsten Abweichung das beste allgemein gültige Kriterium.
Dazu wird die Summe der Fehlerquadrate, die auch Fehlerquadratsumme (genauer: Residuenquadratsumme) heißt, als die Summe der quadrierten Differenzen zwischen den Werten der Modellkurve und den Daten definiert.
In Formelschreibweise mit den Parametern und ergibt sich
Es sollen dann diejenigen Parameter ausgewählt werden, bei denen die Summe der quadrierten Anpassungsfehler minimal wird:
Wie genau dieses Minimierungsproblem gelöst wird, hängt von der Art der Modellfunktion ab.
Wird die Fehlerquadratsumme für einen externen Datensatz vorhergesagt, so spricht man von der PRESS-Statistik (englisch predictive residual sum of squares).
Zusammenhang mit dem zentralen Grenzwertsatz
[Bearbeiten | Quelltext bearbeiten]Selbst wenn die Fehlerterme nicht normalverteilt sind, folgt aus dem zentralen Grenzwertsatz oft, dass der Schätzer der bedingten Erwartung approximativ normalverteilt ist, solange die Stichprobe hinreichend groß ist. Aus diesem Grund ist die Verteilung des Fehlerterms bei großen Stichprobenumfängen oft kein gravierendes Problem in der Regressionsanalyse. Speziell ist es häufig nicht wichtig, ob der Fehlerterm einer Normalverteilung folgt, es sei denn es liegen beispielsweise folgende Punkte vor[14]:
- die Stichprobengröße ist klein
- die Verteilung der Fehler ist eine Heavy-tailed-Verteilung, welche zur Erzeugung von Daten führt, welche weit weg von den anderen Daten liegen (Stichproben aus den Heavy tails werden dann oft als Ausreißer interpretiert)
- Multimodale Fehlerverteilungen
- große Schiefe der Fehlerverteilung
Lineare Modellfunktion
[Bearbeiten | Quelltext bearbeiten]Lineare Modellfunktionen sind Linearkombinationen aus beliebigen, im Allgemeinen nicht-linearen Basisfunktionen. Für solche Modellfunktionen lässt sich das Minimierungsproblem auch analytisch über einen Extremwertansatz ohne iterative Annäherungsschritte lösen. Zunächst werden einige einfache Spezialfälle und Beispiele gezeigt.
Spezialfall einer einfachen linearen Ausgleichsgeraden
[Bearbeiten | Quelltext bearbeiten]Herleitung und Verfahren
[Bearbeiten | Quelltext bearbeiten]Eine einfache Modellfunktion mit zwei linearen Parametern stellt das Polynom erster Ordnung
dar. Gesucht werden zu gegebenen Messwerten die Koeffizienten und der bestangepassten Geraden. Die Abweichungen zwischen der gesuchten Geraden und den jeweiligen Messwerten
nennt man Anpassungsfehler oder Residuen. Gesucht sind nun die Koeffizienten und mit der kleinsten Summe der Fehlerquadrate
- .
Der große Vorteil des Ansatzes mit diesem Quadrat der Fehler wird sichtbar, wenn man diese Minimierung mathematisch durchführt: Die Summenfunktion wird als Funktion der beiden Variablen und aufgefasst (die eingehenden Messwerte sind dabei numerische Konstanten), dann die Ableitung (genauer: partielle Ableitungen) der Funktion nach diesen Variablen (also und ) gebildet und von dieser Ableitung schließlich die Nullstelle gesucht. Es ergibt sich das lineare Gleichungssystem
mit der Lösung
- und ,
wobei die Summe der Abweichungsprodukte zwischen und darstellt, und die Summe der Abweichungsquadrate von darstellt. Dabei ist das arithmetische Mittel der -Werte, entsprechend. Die Lösung für kann mit Hilfe des Verschiebungssatzes auch in nicht-zentrierter Form
angegeben werden. Diese Ergebnisse können auch mit Funktionen einer reellen Variablen, also ohne partielle Ableitungen, hergeleitet werden.[15]
Aus der Lösung von wird zudem eine Eigenschaft der linearen Ausgleichsgerade ersichtlich: Die Ausgleichsgerade verläuft stets durch den Punkt . Das ist hilfreich, falls die Ausgleichsgerade sehr steil oder gar senkrecht verläuft und der Achsenabschnitt dadurch sehr groß wird oder gar nicht berechnet werden kann. In diesem Fall kann dieser Punkt als Stützpunkt einer Vektordarstellung der Ausgleichsgerade verwendet werden.
Beispiel mit einer Ausgleichsgeraden
[Bearbeiten | Quelltext bearbeiten]In diesem Beispiel wird eine Ausgleichsgerade der Form berechnet, um den Zusammenhang zwischen zwei Merkmalen eines Datensatzes darzustellen. Der Datensatz besteht aus Länge und Breite von zehn Kriegsschiffen (siehe Kriegsschiffsdaten). Es soll versucht werden, die Breite mit der Länge in Bezug zu setzen. Die Daten werden in der folgenden Tabelle in den ersten drei Spalten wiedergegeben. Die weiteren Spalten beziehen sich auf Zwischenergebnisse zur Berechnung der Ausgleichsgeraden. Die Variable soll dabei die Länge des Kriegsschiffs bezeichnen und dessen Breite. Gesucht ist die Gerade für die, wenn die bekannten Werte eingesetzt werden, die Funktionswerte möglichst nahe an den bekannten Werten liegen.
Kriegsschiff | Länge (m) | Breite (m) | ||||||
---|---|---|---|---|---|---|---|---|
1 | 208 | 21,6 | 40,2 | 3,19 | 128,24 | 1616,04 | 24,88 | 3,28 |
2 | 152 | 15,5 | −15,8 | −2,91 | 45,98 | 249,64 | 15,86 | 0,36 |
3 | 113 | 10,4 | −54,8 | −8,01 | 438,95 | 3003,04 | 9,57 | −0,83 |
4 | 227 | 31,0 | 59,2 | 12,59 | 745,33 | 3504,64 | 27,95 | −3,05 |
5 | 137 | 13,0 | −30,8 | −5,41 | 166,63 | 948,64 | 13,44 | 0,44 |
6 | 238 | 32,4 | 70,2 | 13,99 | 982,10 | 4928,04 | 29,72 | −2,68 |
7 | 178 | 19,0 | 10,2 | 0,59 | 6,02 | 104,04 | 20,05 | 1,05 |
8 | 104 | 10,4 | −63,8 | −8,01 | 511,04 | 4070,44 | 8,12 | −2,28 |
9 | 191 | 19,0 | 23,2 | 0,59 | 13,69 | 538,24 | 22,14 | 3,14 |
10 | 130 | 11,8 | −37,8 | −6,61 | 249,86 | 1428,84 | 12,31 | 0,51 |
Summe Σ | 1678 | 184,1 | 3287,82 | 20391,60 |
Die Ausgleichsgerade wird durch die Koeffizienten und bestimmt, die wie oben angegeben berechnet werden mit
Die Konstanten und sind jeweils die Mittelwerte der - und -Messwerte, also
Als erster Zwischenschritt kann nun für jedes Kriegsschiff die Abweichung vom Mittelwert berechnet werden: und – diese Werte sind in der vierten und fünften Spalte der oberen Tabelle eingetragen. Die Formel für vereinfacht sich dadurch zu
Als zweiter Zwischenschritt können die Produkte und für jedes Kriegsschiff berechnet werden. Diese Werte sind in der sechsten und siebten Spalte der Tabelle eingetragen und lassen sich nun einfach aufsummieren. Damit kann berechnet werden als
Der Wert von kann bereits interpretiert werden: Mit der Annahme, dass die Daten in einem linearen Zusammenhang stehen und durch unsere berechnete Ausgleichsgerade beschrieben werden können, steigt die Breite eines Kriegsschiffes um ca. 0,16 Meter für jeden ganzen Meter, um den es länger ist.
Der Achsenabschnitt ist dann

Die Gleichung der Ausgleichsgerade lautet somit
Zur Veranschaulichung können die Daten als Streudiagramm aufgezeichnet und die Ausgleichsgerade eingefügt werden. Das Diagramm legt nahe, dass für unsere Beispieldaten zwischen Länge und Breite eines Kriegsschiffs tatsächlich ein linearer Zusammenhang besteht. Die Anpassung der Punkte ist recht gut. Als Maß kann auch die Abweichung der durch die Gerade vorhergesagten Werte von den gemessenen Werten betrachtet werden. Die entsprechenden Werte sind in der achten und neunten Spalte der Tabelle eingetragen. Die Abweichung beträgt im Mittel 2,1 m. Auch das Bestimmtheitsmaß, als normierter Koeffizient, ergibt einen Wert von ca. 92,2 % (100 % würde einer mittleren Abweichung von 0 m entsprechen); zur Berechnung siehe das Beispiel zum Bestimmtheitsmaß.
Allerdings bedeutet der negative Achsenabschnitt , dass in unserem linearen Modell ein Kriegsschiff mit einer Länge von 0 Metern eine negative Breite besitzt – oder Kriegsschiffe erst ab einer gewissen Mindestlänge zu existieren beginnen. Verglichen mit der Realität ist das natürlich falsch, was bei der Beurteilung einer statistischen Analyse berücksichtigt werden kann. Wahrscheinlich ist, dass das Modell nur für den Bereich gültig ist, für den tatsächlich Messwerte vorliegen (in diesem Fall für Kriegsschiffslängen zwischen 100 m und 240 m) und außerhalb des Bereiches eine lineare Funktion nicht mehr geeignet ist, um die Daten darzustellen.
Einfache polynomiale Ausgleichskurven
[Bearbeiten | Quelltext bearbeiten]

Allgemeiner als eine lineare Ausgleichsgerade sind Ausgleichspolynome
- ,
die nun anhand eines Beispiels illustriert werden (auch solche Ausgleichspolynomansätze lassen sich – zusätzlich zur iterativen Lösung – analytisch über einen Extremwertansatz lösen).
Als Ergebnisse der Mikrozensus-Befragung durch das statistische Bundesamt sind die durchschnittlichen Gewichte von Männern nach Altersklassen gegeben (Quelle: Statistisches Bundesamt, Wiesbaden 2009). Für die Analyse wurden die Altersklassen durch die Klassenmitten ersetzt. Es soll die Abhängigkeit der Variablen Gewicht () von der Variablen Alter () analysiert werden.
Das Streudiagramm lässt auf eine annähernd parabolische Beziehung zwischen und schließen, welche sich häufig gut durch ein Polynom annähern lässt. Es wird ein polynomialer Ansatz der Form
versucht. Als Lösung ergibt sich das Polynom 4. Grades
- .
Die Messpunkte weichen im Mittel (Standardabweichung) 0,19 kg von der Modellfunktion ab. Reduziert man den Grad des Polynoms auf 3, erhält man die Lösung
mit einer mittleren Abweichung von 0,22 kg und beim Polynomgrad 2 die Lösung
mit einer mittleren Abweichung von 0,42 kg. Wie zu erkennen ist, ändern sich beim Wegfallen der höheren Terme die Koeffizienten der niedrigeren Terme. Die Methode versucht, das Beste aus jeder Situation herauszuholen. Entsprechend werden die fehlenden höheren Terme mit Hilfe der niedrigeren Terme so gut wie möglich ausgeglichen, bis das mathematische Optimum erreicht ist. Mit dem Polynom zweiten Grades (Parabel) wird der Verlauf der Messpunkte noch sehr gut beschrieben (siehe Abbildung).
Spezialfall einer linearen Ausgleichsfunktion mit mehreren Variablen
[Bearbeiten | Quelltext bearbeiten]Ist die Modellfunktion ein mehrdimensionales Polynom erster Ordnung, besitzt also statt nur einer Variablen mehrere unabhängige Modellvariablen , erhält man eine lineare Funktion der Form
- ,
die auf die Residuen
führt und über den Minimierungsansatz
gelöst werden kann.
Der allgemeine lineare Fall
[Bearbeiten | Quelltext bearbeiten]
f(x1, x2) = 0 + 1x11 + 2x12 + 3x21 + 4x11x21 + 5x12x21 + 6x22 + 7x11x22 + 8x12x22
Im Folgenden soll der allgemeine Fall von beliebigen linearen Modellfunktionen mit beliebiger Dimension gezeigt werden. Zu einer gegebenen Messwertfunktion
mit unabhängigen Variablen sei eine optimal angepasste lineare Modellfunktion
gesucht, deren quadratische Abweichung dazu minimal sein soll. sind dabei die Funktionskoordinaten, die zu bestimmenden linear eingehenden Parameter und beliebige zur Anpassung an das Problem gewählte linear unabhängige Funktionen.
Bei gegebenen Messpunkten
erhält man die Anpassungsfehler
oder in Matrixschreibweise
wobei der Vektor die zusammenfasst, die Matrix die Basisfunktionswerte , der Parametervektor die Parameter und der Vektor die Beobachtungen , wo .
Der beste Schätzer wird durch die Lösung des Minimierungsproblems bestimmt. Das Minimierungsproblem, das sich mithilfe der euklidischen Norm durch
formulieren lässt, kann im regulären Fall (d. h. hat vollen Spaltenrang, somit ist regulär und damit invertierbar) mit der Formel
eindeutig analytisch gelöst werden (siehe nächster Abschnitt). Im generalisierten Fall der gewichteten kleinsten Quadrate muss zudem noch die inverse Kovarianzmatrix berücksichtigt werden
Im singulären Fall, wenn nicht von vollem Rang ist, ist das Normalgleichungssystem nicht eindeutig lösbar, d. h. der Parameter nicht identifizierbar (siehe Satz von Gauß-Markow#Singulärer Fall, schätzbare Funktionen).
Jedoch ist in vielen praktischen Anwendungen die Modellfunktionen nicht analytisch bekannt, sondern kann nur für verschiedene diskrete Werte bestimmt werden. In diesem Fall kann die Modellfunktion mithilfe einer linearen Regression näherungsweise bestimmt werden, und der beste Schätzer wird direkt mit der Gleichung des linearen Template Fits[16] bestimmt:
Dabei ist die Matrix mit den bekannten Werten der Modellfunktion (Template Matrix) für alle , und der Vektor bezeichnet die Zufallsvariablen (bspw. eine Messung). Die Matrix und der Vektor werden mithilfe der Stützstellen (zusammengefasst in der Matrix ) berechnet.
Lösung des Minimierungsproblems
[Bearbeiten | Quelltext bearbeiten]Herleitung und Verfahren
[Bearbeiten | Quelltext bearbeiten]Das Minimierungsproblem ergibt sich, wie im allgemeinen linearen Fall gezeigt, als
Dieses Problem ist immer lösbar. Hat die Matrix vollen Rang, so ist die Lösung sogar eindeutig. Zum Bestimmen des extremalen Punktes ergibt Nullsetzen der partiellen Ableitungen bezüglich der ,
ein lineares System von Normalgleichungen (auch Gaußsche Normalgleichungen oder Normalengleichungen)
welches die Lösung des Minimierungsproblems liefert und im Allgemeinen numerisch gelöst werden muss. Hat vollen Rang und ist , so ist die Matrix positiv definit, so dass es sich beim gefundenen Extremum in der Tat um ein Minimum handelt.[17] Damit kann das Lösen des Minimierungsproblems auf das Lösen eines Gleichungssystems reduziert werden. Im einfachen Fall einer Ausgleichsgeraden kann dessen Lösung, wie gezeigt wurde, sogar direkt als einfache Formel angegeben werden.
Alternativ lassen sich die Normalgleichungen in der Darstellung
ausschreiben, wobei das Standardskalarprodukt symbolisiert und auch als Integral des Überlapps der Basisfunktionen verstanden werden kann. Die Basisfunktionen sind als Vektoren zu lesen mit den diskreten Stützstellen am Ort der Beobachtungen .
Ferner lässt sich das Minimierungsproblem mit einer Singulärwertzerlegung gut analysieren. Diese motivierte auch den Ausdruck der Pseudoinversen, einer Verallgemeinerung der normalen Inversen einer Matrix. Diese liefert dann eine Sichtweise auf nichtquadratische lineare Gleichungssysteme, die einen nicht stochastisch, sondern algebraisch motivierten Lösungsbegriff erlaubt.
Numerische Behandlung der Lösung
[Bearbeiten | Quelltext bearbeiten]Zur numerischen Lösung des Problems gibt es zwei Wege. Zum einen können die Normalgleichungen
gelöst werden, die eindeutig lösbar sind, falls die Matrix vollen Rang hat. Ferner hat die Produktsummenmatrix die Eigenschaft, positiv definit zu sein, ihre Eigenwerte sind also alle positiv. Zusammen mit der Symmetrie von kann dies beim Einsatz von numerischen Verfahren zur Lösung ausgenutzt werden: beispielsweise mit der Cholesky-Zerlegung oder dem CG-Verfahren. Da beide Methoden von der Kondition der Matrix stark beeinflusst werden, ist dies manchmal keine empfehlenswerte Herangehensweise: Ist schon schlecht konditioniert, so ist quadratisch schlecht konditioniert. Dies führt dazu, dass Rundungsfehler so weit verstärkt werden können, dass sie das Ergebnis unbrauchbar machen. Durch Regularisierungsmethoden kann die Kondition allerdings verbessert werden.
Eine Methode ist die sog. Ridge-Regression, die auf Hoerl und Kennard (1970) zurückgeht.[18] Das englische Wort ridge heißt so viel wie Grat, Riff, Rücken. Hier wird anstelle der schlecht konditionierten Matrix die besser konditionierte Matrix benutzt. Dabei ist die -dimensionale Einheitsmatrix. Die Kunst besteht in der geeigneten Wahl von . Zu kleine erhöhen die Kondition nur wenig, zu große führen zu verzerrter Anpassung.
Zum anderen liefert das ursprüngliche Minimierungsproblem eine stabilere Alternative, da es bei kleinem Wert des Minimums eine Kondition in der Größenordnung der Kondition von , bei großen Werten des Quadrats der Kondition von hat. Um die Lösung zu berechnen, wird eine QR-Zerlegung verwendet, die mit Householdertransformationen oder Givens-Rotationen erzeugt wird. Grundidee ist, dass orthogonale Transformationen die euklidische Norm eines Vektors nicht verändern. Damit ist
für jede orthogonale Matrix . Zur Lösung des Problems kann also eine QR-Zerlegung von berechnet werden, wobei man die rechte Seite direkt mittransformiert. Dies führt auf eine Form
mit wobei eine rechte obere Dreiecksmatrix ist. Die Lösung des Problems ergibt sich somit durch die Lösung des Gleichungssystems
Die Norm des Minimums ergibt sich dann aus den restlichen Komponenten der transformierten rechten Seite da die dazugehörigen Gleichungen aufgrund der Nullzeilen in nie erfüllt werden können.
In der statistischen Regressionsanalyse spricht man bei mehreren gegebenen Variablen von multipler linearer Regression. Der gebräuchlichste Ansatz ein multiples lineares Modell zu schätzen ist als die gewöhnliche Kleinste-Quadrate-Schätzung bzw. gewöhnliche Methode der kleinsten Quadrate (englisch ordinary least squares, kurz OLS) bekannt. Im Gegensatz zur gewöhnlichen KQ-Methode wird die verallgemeinerte Methode der kleinsten Quadrate, kurz VMKQ (englisch generalised least squares, kurz GLS) bei einem verallgemeinerten linearen Regressionsmodell verwendet. Bei diesem Modell weichen die Fehlerterme von der Verteilungsannahme wie Unkorreliertheit und/oder Homoskedastizität ab. Dagegen liegen bei multivariater Regression für jede Beobachtung viele -Werte vor, so dass statt eines Vektors eine -Matrix vorliegt (siehe Allgemeines lineares Modell). Die linearen Regressionsmodelle sind in der Statistik wahrscheinlichkeitstheoretisch intensiv erforscht worden. Besonders in der Ökonometrie werden beispielsweise komplexe rekursiv definierte lineare Strukturgleichungen analysiert, um volkswirtschaftliche Systeme zu modellieren.
Probleme mit Nebenbedingungen
[Bearbeiten | Quelltext bearbeiten]Häufig sind Zusatzinformationen an die Parameter bekannt, die durch Nebenbedingungen formuliert werden, die dann in Gleichungs- oder Ungleichungsform vorliegen. Gleichungen tauchen beispielsweise auf, wenn bestimmte Datenpunkte interpoliert werden sollen. Ungleichungen tauchen häufiger auf, in der Regel in der Form von Intervallen für einzelne Parameter. Im Einführungsbeispiel wurde die Federkonstante erwähnt, diese ist immer größer Null und kann für den konkret betrachteten Fall immer nach oben abgeschätzt werden.
Im Gleichungsfall können diese bei einem sinnvoll gestellten Problem genutzt werden, um das ursprüngliche Minimierungsproblem in eines einer niedrigeren Dimension umzuformen, dessen Lösung die Nebenbedingungen automatisch erfüllt.
Schwieriger ist der Ungleichungsfall. Hier ergibt sich bei linearen Ungleichungen das Problem
- mit ,
wobei die Ungleichungen komponentenweise gemeint sind. Dieses Problem ist als konvexes und quadratisches Optimierungsproblem eindeutig lösbar und kann beispielsweise mit Methoden zur Lösung solcher angegangen werden.
Quadratische Ungleichungen ergeben sich beispielsweise bei der Nutzung einer Tychonow-Regularisierung zur Lösung von Integralgleichungen. Die Lösbarkeit ist hier nicht immer gegeben. Die numerische Lösung kann beispielsweise mit speziellen QR-Zerlegungen erfolgen.
Nichtlineare Modellfunktionen
[Bearbeiten | Quelltext bearbeiten]Grundgedanke und Verfahren
[Bearbeiten | Quelltext bearbeiten]Mit dem Aufkommen leistungsfähiger Rechner gewinnt insbesondere die nichtlineare Regression an Bedeutung. Hierbei gehen die Parameter nichtlinear in die Funktion ein. Nichtlineare Modellierung ermöglicht im Prinzip die Anpassung von Daten an jede Gleichung der Form . Da diese Gleichungen Kurven definieren, werden die Begriffe nichtlineare Regression und „curve fitting“ zumeist synonym gebraucht.
Manche nichtlineare Probleme lassen sich durch geeignete Substitution in lineare überführen und sich dann wie oben lösen. Ein multiplikatives Modell von der Form
lässt sich beispielsweise durch Logarithmieren in ein additives System überführen. Dieser Ansatz findet unter anderem in der Wachstumstheorie Anwendung.
Im Allgemeinen ergibt sich bei nichtlinearen Modellfunktionen ein Problem der Form
mit einer nichtlinearen Funktion . Partielle Differentiation ergibt dann ein System von Normalgleichungen, das nicht mehr analytisch gelöst werden kann. Eine numerische Lösung kann hier iterativ mit dem Gauß-Newton-Verfahren erfolgen.
Aktuelle Programme arbeiten häufig mit einer Variante, dem Levenberg-Marquardt-Algorithmus. Dabei wird durch eine Regularisierung die Monotonie der Näherungsfolge garantiert. Zudem ist das Verfahren bei größerer Abweichung der Schätzwerte toleranter als die Ursprungsmethode. Beide Verfahren sind mit dem Newton-Verfahren verwandt und konvergieren unter geeigneten Voraussetzungen (der Startpunkt ist genügend nahe beim lokalen Optimum) meist quadratisch, in jedem Schritt verdoppelt sich also die Zahl der korrekten Nachkommastellen.
Wenn die Differentiation auf Grund der Komplexität der Zielfunktion zu aufwendig ist, stehen eine Reihe anderer Verfahren als Ausweichlösung zur Verfügung, die keine Ableitungen benötigen, siehe bei Methoden der lokalen nichtlinearen Optimierung.
Beispiel aus der Enzymkinetik einer nicht linearisierbaren Modellfunktion
[Bearbeiten | Quelltext bearbeiten]Ein Beispiel für Regressionsmodelle, die voll nichtlinear sind, ist die Enzymkinetik. Hier ist zu fordern, dass „nur“ (Reaktionsgeschwindigkeit) und nicht (Substratkonzentration) einem Fehler unterliegt und damit als Variable genutzt werden kann. Die Lineweaver-Burk-Beziehung ist zwar eine algebraisch korrekte Umformung der Michaelis-Menten-Gleichung , ihre Anwendung liefert aber nur korrekte Ergebnisse, wenn die Messwerte fehlerfrei sind. Dies ergibt sich aus der Tatsache, dass sich die Realität nur mit einer erweiterten Michaelis-Menten-Beziehung
mit als Fehlerparameter, beschreiben lässt. Diese Gleichung lässt sich nicht mehr linearisieren, also muss hier die Lösung iterativ ermittelt werden.
Fehlverhalten bei Nichterfüllung der Voraussetzungen
[Bearbeiten | Quelltext bearbeiten]Die Methode der kleinsten Quadrate erlaubt es, unter bestimmten Voraussetzungen die wahrscheinlichsten aller Modellparameter zu berechnen. Dazu muss ein korrektes Modell gewählt worden sein, eine ausreichende Menge Messwerte vorliegen und die Abweichungen der Messwerte gegenüber dem Modellsystem müssen eine Normalverteilung bilden. In der Praxis kann die Methode jedoch auch bei Nichterfüllung dieser Voraussetzungen für diverse Zwecke eingesetzt werden. Dennoch sollte beachtet werden, dass die Methode der kleinsten Quadrate unter bestimmten ungünstigen Bedingungen völlig unerwünschte Ergebnisse liefern kann. Beispielsweise sollten keine Ausreißer in den Messwerten vorliegen, da diese das Schätzergebnis verzerren. Außerdem ist Multikollinearität zwischen den zu schätzenden Parametern ungünstig, da diese numerische Probleme verursacht. Im Übrigen können auch Regressoren, die weit von den anderen entfernt liegen, die Ergebnisse der Ausgleichsrechnung stark beeinflussen. Man spricht hier von Werten mit großer Hebelkraft (englisch High Leverage Value).
Multikollinearität
[Bearbeiten | Quelltext bearbeiten]Das Phänomen der Multikollinearität entsteht, wenn die Messreihen zweier gegebener Variablen und sehr hoch korreliert sind, also fast linear abhängig sind. Im linearen Fall bedeutet dies, dass die Determinante der Normalgleichungsmatrix sehr klein und die Norm der Inversen umgekehrt sehr groß ist; die Kondition von ist also stark beeinträchtigt. Die Normalgleichungen sind dann numerisch schwer zu lösen. Die Lösungswerte können unplausibel groß werden, und bereits kleine Änderungen in den Beobachtungen bewirken große Änderungen in den Schätzwerten.
Ausreißer
[Bearbeiten | Quelltext bearbeiten]
Der Wert zieht die Gerade nach oben
Als Ausreißer sind Datenwerte definiert, die „nicht in eine Messreihe passen“. Diese Werte beeinflussen die Berechnung der Parameter stark und verfälschen das Ergebnis. Um dies zu vermeiden, müssen die Daten auf fehlerhafte Beobachtungen untersucht werden. Die entdeckten Ausreißer können beispielsweise aus der Messreihe ausgeschieden werden oder es sind alternative ausreißerresistente Berechnungsverfahren wie gewichtete Regression oder das Drei-Gruppen-Verfahren anzuwenden.
Im ersten Fall wird nach der ersten Berechnung der Schätzwerte durch statistische Tests geprüft, ob Ausreißer in einzelnen Messwerten vorliegen. Diese Messwerte werden dann ausgeschieden und die Schätzwerte erneut berechnet. Dieses Verfahren eignet sich dann, wenn nur wenige Ausreißer vorliegen.
Bei der gewichteten Regression werden die abhängigen Variablen in Abhängigkeit von ihren Residuen gewichtet. Ausreißer, d. h. Beobachtungen mit großen Residuen, erhalten ein geringes Gewicht, das je nach Größe des Residuums abgestuft sein kann. Beim Algorithmus nach Mosteller und Tukey (1977), der als „biweighting“ bezeichnet wird, werden unproblematische Werte mit 1 und Ausreißer mit 0 gewichtet, was die Unterdrückung des Ausreißers bedingt. Bei der gewichteten Regression sind in der Regel mehrere Iterationsschritte erforderlich, bis sich die Menge der erkannten Ausreißer nicht mehr ändert.
Heteroskedastische Fehler
[Bearbeiten | Quelltext bearbeiten]Liegen heteroskedastische Fehler vor, so liefert die Minimierung des Mittelwertes der kleinsten Quadrate keinen effizienten Schätzer des (bedingten) Mittelwertes, obwohl dieser immer noch unverzerrt ist[19]. Die Minimierung der Gaussschen Negativen Log-Likelihood kann in diesem Fall eine Alternative sein.
Verallgemeinerte Kleinste-Quadrate-Modelle
[Bearbeiten | Quelltext bearbeiten]Weicht man die starken Anforderungen im Verfahren an die Fehlerterme auf, erhält man so genannte verallgemeinerte Kleinste-Quadrate-Ansätze. Wichtige Spezialfälle haben dann wieder eigene Namen, etwa die gewichtete Methode der kleinsten Quadrate (englisch weighted least squares, kurz WLS), bei denen die Fehler zwar weiter als unkorreliert angenommen werden, aber nicht mehr von gleicher Varianz. Dies führt auf ein Problem der Form
wobei D eine Diagonalmatrix ist. Variieren die Varianzen stark, so haben die entsprechenden Normalgleichungen eine sehr große Kondition, weswegen das Problem direkt gelöst werden sollte.
Nimmt man noch weiter an, dass die Fehler in den Messdaten auch in der Modellfunktion berücksichtigt werden sollten, ergeben sich die „totalen kleinsten Quadrate“ in der Form
wobei der Fehler im Modell und der Fehler in den Daten ist.[20][21]
Schließlich gibt es noch die Möglichkeit, keine Normalverteilung zugrunde zu legen. Dies entspricht beispielsweise der Minimierung nicht in der euklidischen Norm, sondern der Summennorm. Solche Modelle sind Themen der Regressionsanalyse.
Literatur
[Bearbeiten | Quelltext bearbeiten]- Åke Björck: Numerical Methods for Least Squares Problems. SIAM, Philadelphia 1996, ISBN 0-89871-360-9.
- Walter Großmann: Grundzüge der Ausgleichsrechnung. 3. erw. Auflage. Springer Verlag, Berlin / Heidelberg / New York 1969, ISBN 3-540-04495-7.
- Richard J. Hanson, Charles L. Lawson: Solving least squares problems. SIAM, Philadelphia 1995, ISBN 0-89871-356-0.
- Frederick Mosteller, John W. Tukey: Data Analysis and Regression – a second course in statistics. Addison-Wesley, Reading MA 1977, ISBN 0-201-04854-X.
- Gerhard Opfer: Numerische Mathematik für Anfänger. Eine Einführung für Mathematiker, Ingenieure und Informatiker. 4. Auflage. Vieweg, Braunschweig 2002, ISBN 3-528-37265-6.
- Peter Schönfeld: Methoden der Ökonometrie. 2 Bände. Vahlen, Berlin/Frankfurt 1969–1971.
- Eberhard Zeidler (Hrsg.): Taschenbuch der Mathematik. Begründet v. I.N. Bronstein, K.A. Semendjajew. Teubner, Stuttgart/Leipzig/Wiesbaden 2003, ISBN 3-8171-2005-2.
- T. Strutz: Data Fitting and Uncertainty (A practical introduction to weighted least squares and beyond). 2nd edition. Springer Vieweg, 2016, ISBN 978-3-658-11455-8.
Weblinks
[Bearbeiten | Quelltext bearbeiten]Einzelnachweise
[Bearbeiten | Quelltext bearbeiten]- ↑ Göttingen. In: Göttingische Anzeigen von Gelehrten Sachen / Göttingische Anzeigen von gelehrten Sachen / Göttingische gelehrte Anzeigen, 23. Jänner 1802, S. 1 (online bei ANNO).
- ↑ Moritz Cantor: Gauß: Karl Friedrich G. In: Allgemeine Deutsche Biographie (ADB). Band 8, Duncker & Humblot, Leipzig 1878, S. 430–445., hier S. 436.
- ↑ Paul Karlson: Zauber der Zahlen. Ullstein-Verlag, Berlin–West. Neunte, überarbeitete und erweiterte Auflage, 1967, S. 390 f.
- ↑ A. Abdulle, Gerhard Wanner: 200 years of least square methods. In: Elemente der Mathematik, Band 57, 2002, S. 45–60, doi:10.1007/PL00000559.
- ↑ Vgl. Moritz Cantor: Gauß: Karl Friedrich G. In: Allgemeine Deutsche Biographie (ADB). Band 8, Duncker & Humblot, Leipzig 1878, S. 430–445., S. 436.
- ↑ Adrien-Marie Legendre: Nouvelles méthodes pour la détermination des orbites des comètes. Paris 1805, S. 72–80 (Anhang): Sur la Méthode des moindres quarrés.
- ↑ Carl Friedrich Gauß: Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium. Göttingen 1809; Carl Haase (Übers.): Theorie der Bewegung der Himmelskörper, welche in Kegelschnitten die Sonne umlaufen. Hannover 1865.
- ↑ Matrices and determinants.
- ↑ Abgedruckt in Gauß, Werke, Band X/1, S. 380.
- ↑ Abdulle, Wanner: Elemente der Mathematik. Band 57, 2002, S. 51. Mit Faksimileabdruck des Tagebucheintrags.
- ↑ Laplace, zitiert nach Herman Goldstine: A history of numerical analysis. Springer, 1977, S. 209.
- ↑ Carl Friedrich Gauß: Theoria combinationis observationum erroribus minimis obnoxiae. 2 Teile. Göttingen 1821–1823 (Commentationes Societatis Regiae Scientiarum Gottingensis recentiores, classis mathematicae, Band 5.); Supplementum Theoria combinationis observationum erroribus minimis obnoxiae. Göttingen 1826/28 (Commentationes Societatis Regiae Scientiarum Gottingensis recentiores, classis mathematicae, Band 6.). Anton Börsch Paul Simon (Hrsg.): Abhandlungen zur Methode der kleinsten Quadrate von Carl Friedrich Gauss. In deutscher Sprache. Berlin 1887, Textarchiv – Internet Archive.
- ↑ Pete Stewart: Maybe We Should Call It “Lagrangian Elimination”. NA Digest Sunday, 21. Juni 1991, June 30, 1991 Volume 91, Issue 26.
- ↑ Applied Regression Analysis and Generalized Linear Models, John Fox, 2015, ISBN 978-1-4833-2131-8, Google Books
- ↑ H. Wirths: Beziehungshaltige Mathematik in Regression und Korrelation. In: Stochastik in der Schule, 1991, Heft 1, S. 34–53
- ↑ D. Britzger: The Linear Template Fit. In: Eur. Phys. J. C. Band 82, 2022, S. 731, doi:10.1140/epjc/s10052-022-10581-w, arxiv:2112.01548.
- ↑ Hans R. Schwarz, Norbert Köckler: Numerische Mathematik. 7. überarb. Auflage. Teubner, 2009, doi:10.1007/978-3-8348-9282-9, ISBN 978-3-8348-9282-9, S. 141, Kapitel 3.6 (Gauß-Approximation), Satz 3.23.
- ↑ A.E. Hoerl and R.W. Kennard: Ridge regression: Biased estimation for nonorthogonal problems, Technometrics 12 (1970), 55-82.
- ↑ The SAGE Encyclopedia of Research Design, ISBN 978-1-0718-1210-5, Seite 1291, Google books
- ↑ Sabine Van Huffel, Joos Vandewalle: The Total Least Squares Problem: Computational Aspects and Analysis. SIAM Publications, Philadelphia PA 1991, ISBN 0-89871-275-0.
- ↑ Martin Plesinger: The Total Least Squares Problem and Reduction of Data in AX ≈ B. Dissertation. ( vom 24. Juli 2012 im Internet Archive; PDF; 1,6 MB) TU Liberec und ICS Prague, 2008.