Diskussion:Regressionsanalyse
Versionsgeschichten der Artikel, aus denen Methode der kleinsten Quadrate zusammengesetzt worden ist
Versionsgeschichte von: Lineare Regression
- (Aktuell) (Letzte) 22:20, 29. Aug 2004 DaTroll (Redirect Regressionsanalyse)
- (Aktuell) (Letzte) 12:45, 13. Aug 2004 83.64.137.106 (Determinationskoeffizent)
- (Aktuell) (Letzte) 02:37, 2. Aug 2004 Zwobot K (Head - Bot: konvertiere/korrigiere HTML)
- (Aktuell) (Letzte) 18:37, 29. Jul 2004 83.64.137.106 (Determinationskoeffizent)
- (Aktuell) (Letzte) 18:36, 29. Jul 2004 83.64.137.106 (Determinationskoeffizent)
- (Aktuell) (Letzte) 18:34, 29. Jul 2004 83.64.137.106 (Determinationskoeffizent )
- (Aktuell) (Letzte) 18:33, 29. Jul 2004 83.64.137.106 (Determinationskoeffizent)
- (Aktuell) (Letzte) 18:33, 29. Jul 2004 83.64.137.106 ( : Determinationskoeffizent)
- (Aktuell) (Letzte) 17:51, 29. Jul 2004 83.64.137.106 ( : Determinationskoeffizent)
- (Aktuell) (Letzte) 17:50, 29. Jul 2004 83.64.137.106 (R^2 Determinationskoeffizent)
- (Aktuell) (Letzte) 17:24, 29. Jul 2004 83.64.137.106 (Berechnung der Ausgleichsgeraden)
- (Aktuell) (Letzte) 09:31, 20. Jul 2004 DaTroll (Doppeleintrag: Lineare Regressionsanalyse)
- (Aktuell) (Letzte) 09:27, 20. Jul 2004 DaTroll (OLS auch Doppeleintrag)
- (Aktuell) (Letzte) 20:42, 19. Jul 2004 DaTroll (Doppeleintrag: Methode der kleinsten Quadrate, Regressionsanalyse)
- (Aktuell) (Letzte) 18:49, 15. Jul 2004 Kku K
- (Aktuell) (Letzte) 21:53, 11. Jul 2004 Philipendula K
- (Aktuell) (Letzte) 18:37, 11. Jul 2004 Gowilei (Bezeichnungen)
- (Aktuell) (Letzte) 17:46, 11. Jul 2004 Gowilei K
- (Aktuell) (Letzte) 19:56, 9. Jul 2004 Gowilei (Inhalt hinzugefügt)
- (Aktuell) (Letzte) 00:58, 18. Jun 2004 Philipendula (Verlinkung. Ich hoffe, das war mit linearer Korrelation gemeint.)
- (Aktuell) (Letzte) 17:57, 7. Mai 2004 Zwobot K (Echoray - robot Ergänze:nl)
- (Aktuell) (Letzte) 23:28, 22. Apr 2004 PyBot K
- (Aktuell) (Letzte) 16:14, 20. Apr 2004 Wurblzap K (Links zu OLS, Kleinste-Quadrate-Methode und Regression)
- (Aktuell) (Letzte) 10:49, 11. Apr 2004 Pm (weblinkformat)
- (Aktuell) (Letzte) 17:53, 3. Jan 2004 Wipape K (fix wiki)
- (Aktuell) (Letzte) 17:51, 3. Jan 2004 Wipape K (+weblink)
- (Aktuell) (Letzte) 11:59, 18. Nov 2003 Kku K (Wiederhergestellt zur letzten Änderung von Kku)
- (Aktuell) (Letzte) 08:46, 18. Nov 2003 80.132.189.179
- (Aktuell) (Letzte) 18:55, 23. Okt 2003 Kku (stub)
Versionsgeschichte von: Methode der kleinsten Quadrate
- (Aktuell) (Letzte) 00:06, 1. Sep 2004 Philipendula (Entwarnung)
- (Aktuell) (Letzte) 13:45, 31. Aug 2004 Philipendula K
- (Aktuell) (Letzte) 11:00, 31. Aug 2004 DaTroll (Dinge)
- (Aktuell) (Letzte) 10:41, 31. Aug 2004 Philipendula (Noch nicht endgültige Fassung)
- (Aktuell) (Letzte) 10:03, 31. Aug 2004 Philipendula (Lineare Regression, Regressionsanalyse, OLS, Lineare Regressionsanalyse teilweise hier zusammengefasst. Erste Fassung. Versionen werden in Diskussion noch aufgeführt.)
- (Aktuell) (Letzte) 14:32, 27. Aug 2004 DaTroll (Das Verfahren - gebuegelt)
- (Aktuell) (Letzte) 14:25, 27. Aug 2004 DaTroll (Das Verfahren)
- (Aktuell) (Letzte) 10:31, 27. Aug 2004 Botteler K (Botteler - robot Ergänze:ja)
- (Aktuell) (Letzte) 15:42, 13. Aug 2004 DaTroll (Struktur)
- (Aktuell) (Letzte) 00:47, 27. Jul 2004 139.30.40.178 (K - Beispiel - Format)
- (Aktuell) (Letzte) 09:32, 20. Jul 2004 DaTroll K (OLS und Lineare Regressionsanalyse auch Doppeleintrag)
- (Aktuell) (Letzte) 20:40, 19. Jul 2004 DaTroll (Doppeleintrag: Lineare Regression, Regressionsanalyse)
- (Aktuell) (Letzte) 12:47, 4. Jul 2004 DaTroll K (kategorie)
- (Aktuell) (Letzte) 09:39, 29. Jun 2004 DaTroll K (Revert wegen ungeschickter Verlinkung)
- (Aktuell) (Letzte) 09:37, 29. Jun 2004 141.44.12.41
- (Aktuell) (Letzte) 11:12, 5. Jun 2004 DaTroll K (link)
- (Aktuell) (Letzte) 11:02, 5. Jun 2004 DaTroll K
- (Aktuell) (Letzte) 10:59, 5. Jun 2004 DaTroll (Optik)
- (Aktuell) (Letzte) 03:51, 5. Jun 2004 128.97.70.87
- (Aktuell) (Letzte) 20:53, 21. Mai 2004 SiriusB K (Notation)
- (Aktuell) (Letzte) 16:53, 8. Mai 2004 Zwobot K (Echoray - robot Ergänze:sv)
- (Aktuell) (Letzte) 15:59, 30. Apr 2004 81.173.150.53
- (Aktuell) (Letzte) 13:18, 30. Apr 2004 81.173.150.53
- (Aktuell) (Letzte) 13:01, 29. Apr 2004 129.13.73.29
- (Aktuell) (Letzte) 13:00, 29. Apr 2004 129.13.73.29
- (Aktuell) (Letzte) 23:20, 28. Apr 2004 DaTroll K (typos)
- (Aktuell) (Letzte) 13:55, 27. Apr 2004 DaTroll (Langsam wirds)
- (Aktuell) (Letzte) 08:40, 27. Apr 2004 129.13.73.29
- (Aktuell) (Letzte) 16:54, 26. Apr 2004 DaTroll (Ueberarbeitung angefangen)
- (Aktuell) (Letzte) 16:34, 26. Apr 2004 DaTroll (Inhalte von Least Squares einfach mal reinkopiert. Muss ueberarbeitet werden)
- (Aktuell) (Letzte) 17:16, 22. Apr 2004 164.133.154.130
- (Aktuell) (Letzte) 23:46, 6. Apr 2004 Zwobot K (Kat - Bot-unterstützte Begriffsklärung: Einheit)
- (Aktuell) (Letzte) 21:56, 31. Mär 2004 217.228.125.7
- (Aktuell) (Letzte) 21:51, 31. Mär 2004 217.228.125.7
- (Aktuell) (Letzte) 21:49, 31. Mär 2004 217.228.125.7
- (Aktuell) (Letzte) 21:43, 31. Mär 2004 217.228.125.7
- (Aktuell) (Letzte) 21:40, 31. Mär 2004 217.228.125.7
- (Aktuell) (Letzte) 21:36, 31. Mär 2004 217.228.125.7
- (Aktuell) (Letzte) 21:33, 31. Mär 2004 217.228.125.7
- (Aktuell) (Letzte) 17:05, 8. Mär 2004 164.133.154.130
- (Aktuell) (Letzte) 15:54, 8. Mär 2004 CdaMVvWgS K
- (Aktuell) (Letzte) 15:52, 8. Mär 2004 164.133.154.130
Versionsgeschichte von: Regressionsanalyse
- (Aktuell) (Letzte) 00:11, 30. Aug 2004 Philipendula (Lineare Regression eingearbeitet)
- (Aktuell) (Letzte) 22:59, 29. Aug 2004 Philipendula K (Beitrag der einzelnen Regressoren zur Erklärung von y)
- (Aktuell) (Letzte) 22:55, 29. Aug 2004 DaTroll K (Abgrenzung zu Methode der kleinsten Quadrate)
- (Aktuell) (Letzte) 22:52, 29. Aug 2004 Philipendula K (Schätzen und Testen im KLR)
- (Aktuell) (Letzte) 22:50, 29. Aug 2004 DaTroll K
- (Aktuell) (Letzte) 22:34, 29. Aug 2004 Philipendula
- (Aktuell) (Letzte) 00:26, 29. Aug 2004 Philipendula (Neue Strukturierung des Komplexes Regression)
- (Aktuell) (Letzte) 11:32, 28. Jul 2004 130.36.95.102
- (Aktuell) (Letzte) 10:35, 21. Jul 2004 Juergen Bode (link)
- (Aktuell) (Letzte) 10:18, 20. Jul 2004 Juergen Bode (Zuordnung)
- (Aktuell) (Letzte) 09:35, 20. Jul 2004 DaTroll (Doppeleintrag: Lineare Regressionsanalyse)
- (Aktuell) (Letzte) 09:26, 20. Jul 2004 DaTroll (OLS auch Doppeleintrag)
- (Aktuell) (Letzte) 08:03, 20. Jul 2004 Juergen Bode
- (Aktuell) (Letzte) 07:29, 20. Jul 2004 Juergen Bode
- (Aktuell) (Letzte) 20:45, 19. Jul 2004 DaTroll (Doppeleintrag: Methode der kleinsten Quadrate, Lineare Regression)
- (Aktuell) (Letzte) 13:53, 17. Jul 2004 Philipendula (Verbale Abschwächung + Verlinkung)
- (Aktuell) (Letzte) 17:18, 15. Jul 2004 Kku
- (Aktuell) (Letzte) 17:14, 15. Jul 2004 Kku (==, en:)
- (Aktuell) (Letzte) 00:21, 22. Jun 2004 RolandD K (Kategorisiert)
- (Aktuell) (Letzte) 22:45, 12. Mai 2004 62.204.120.158
- (Aktuell) (Letzte) 13:54, 2. Mai 2004 JakobVoss K (+Signifikanztest)
- (Aktuell) (Letzte) 13:30, 2. Mai 2004 JakobVoss K (+Korrelationskoeffizient)
- (Aktuell) (Letzte) 13:12, 2. Mai 2004 JakobVoss K (Siehe auch: Konfidenzintervall, Bestimmtheitsmaß)
- (Aktuell) (Letzte) 15:41, 9. Mär 2004 193.24.32.36
- (Aktuell) (Letzte) 15:40, 9. Mär 2004 193.24.32.39
- (Aktuell) (Letzte) 08:18, 20. Feb 2004 Juergen Bode
- (Aktuell) (Letzte) 22:44, 19. Feb 2004 80.138.150.59 (+ Weblinks)
- (Aktuell) (Letzte) 18:00, 22. Jan 2004 ErikDunsing K
- (Aktuell) (Letzte) 12:12, 2. Jan 2004 Juergen Bode
- (Aktuell) (Letzte) 12:08, 2. Jan 2004 Juergen Bode
- (Aktuell) (Letzte) 12:07, 2. Jan 2004 Juergen Bode
- (Aktuell) (Letzte) 12:06, 2. Jan 2004 Juergen Bode
- (Aktuell) (Letzte) 03:54, 29. Okt 2003 Michael Schubart K
- (Aktuell) (Letzte) 19:00, 23. Okt 2003 Kku (linx)
- (Aktuell) (Letzte) 11:07, 20. Sep 2003 Caramdir (Formeln mit TeX)
- (Aktuell) (Letzte) 16:13, 18. Sep 2003 Juergen Bode K
- (Aktuell) (Letzte) 16:10, 18. Sep 2003 Juergen Bode K
- (Aktuell) (Letzte) 14:03, 18. Sep 2003 Juergen Bode K
- (Aktuell) (Letzte) 14:02, 18. Sep 2003 Juergen Bode K
- (Aktuell) (Letzte) 13:58, 18. Sep 2003 Juergen Bode
- (Aktuell) (Letzte) 13:48, 18. Sep 2003 Juergen Bode
Versionsgeschichte von: OLS
- (Aktuell) (Letzte) 09:27, 20. Jul 2004 DaTroll (Doppeleintrag: Methode der kleinsten Quadrate, Regressionsanalyse, lineare Regression)
- (Aktuell) (Letzte) 18:45, 25. Feb 2004 Croco97
- (Aktuell) (Letzte) 18:44, 25. Feb 2004 Croco97
- (Aktuell) (Letzte) 17:53, 25. Feb 2004 80.128.75.225
- (Aktuell) (Letzte) 15:54, 22. Feb 2004 Triebtäter
- (Aktuell) (Letzte) 23:22, 14. Feb 2004 Blaubart
Versionsgeschichte von: Lineare Regressionsanalyse
- Aktuell) (Letzte) 08:37, 31. Aug 2004 BWBot K (Bananeweizen - Bot: ausser -> außer)
- (Aktuell) (Letzte) 00:15, 22. Jun 2004 Weede K
- (Aktuell) (Letzte) 19:21, 22. Apr 2004 Weede (Im alternativen "lineare Regression" werden nichtlineare Ansatzfunktionen verschwiegen.)
- (Aktuell) (Letzte) 17:53, 22. Apr 2004 164.133.154.130
- (Aktuell) (Letzte) 17:20, 22. Apr 2004 164.133.154.130
Least Square
- (Aktuell) (Letzte) 16:34, 26. Apr 2004 DaTroll (Redirect)
- (Aktuell) (Letzte) 16:21, 26. Apr 2004 G K (link)
- (Aktuell) (Letzte) 18:41, 25. Feb 2004 Croco97
eigener Text JBO 2003
warum wurde
- +
-
zwischen erstem und zweitem Absatz gelöscht? Juergen Bode 18:05, 9. Mär 2004 (CET)
Gescheithaflerei von Philipendula 13:59, 17. Jul 2004 (CEST)
Bei den Anforderungen an die Daten sollte man zwischen Axiomen und Folgerungen u./o. Ergänzungen unterscheiden.
Es existieren zur Zeit mehrere Artikel zum Thema Regression, die sich teilweise stark überschneiden. Hier müsste mal kräftig strukturiert werden.
Es ist vielleicht nicht sehr günstig, den Artikel unter empirischer Wi-Forschung laufen zu lassen, wenn das einzige Beispiel sich mit Enzym-Kinese befasst.
In der Hoffnung, dass jemand das liest --Philipendula 13:59, 17. Jul 2004 (CEST)
Ich finde die Aufteilung in "Regressionsanalyse" (kurze Übersicht, aktuelle Entwicklungen, gezeigt an einem Beispiel), Lineare Regression und Methode der kleinsten Quadrate (klassisches Fundament) durchaus sinnvoll und der Lesbarkeit zuträglich. Die Einordnung ist allerdings irreführend. Juergen Bode 07:34, 20. Jul 2004 (CEST)
OLS dient lediglich er Begriffserklärung und verweist korrekt auf Kleinste-Quadrate-Methode. Kritisch sehe ich nur die Duplizität von Lineare Regressionsanalyse und Lineare Regression Juergen Bode 10:12, 20. Jul 2004 (CEST)
- Also mir ist es noch nie untergekommen, dass jemand unter Regression etwas anderes als Least Squares verstanden hat. Auch in diesem Artikel ist das so. Wenn das nicht so ist, sollte das dringend ergaenzt werden (dann ist auch die Aufteilung in die drei oben genannten Artikel irgendwie sinnvoll), ansonsten sehe ich ehrlich gesagt keinen Grund, die Artikel Regressionsanalyse und Methode der kleinsten Quadrate zu vereinigen. --DaTroll 10:33, 20. Jul 2004 (CEST)
Um mal Ordnung zu machen: Es gibt auf diesem Gebiet numerische Verfahren und das statistisch-wahrscheinlichkeitstheoretische Modell. Hier sollte man klar trennen.
Numerik: Es handelt sich um die Minimierung von Quadratsummen, also die Fehlerquadratmethode oder auch Kleinst-Quadrat-Methode oder wohl auch OLS. Hier sollte es einen Artikel geben, der diese Methode beschreibt, mit Angaben, wo man das überall verwendet: Überbestimmte Gleichungen, Bestimmung von Kurvenverläufen usw. Man hat hier eine Messreihe oder mehrere, und man erhält entsprechend viele Normalgleichungen. Es können lineare Regressionen sein oder nichtlineare. Nichtlineare könnte man aufteilen in linearisierte und streng nichtlineare, die anderweitig iterativ oder was weiß ich ermittelt werden (Ich kann Numerik nicht). Ich weiß jetzt nicht, inwieweit hier schon der Begriff Regression viel Anwendung findet.
Statistik: Hier läuft das ganze unter dem Oberbegriff Regressionsanalyse: Die Bezeichnung Analyse deutet daraufhin, dass hier mehr als nur bloße Ausgleichsrechnung betrieben wird. Wir haben es hier mit einem statistischen Wahrscheinlichkeitsmodell zu tun, das auf Axiomen aufbaut. Die Abweichungen sind keine Fehler, sondern Ausprägungen einer Zufallsvariablen. Es kommen Konfidenzintervalle, Hypothesentests etc. ins Spiel. Die Basis ist das klassische lineare Regressionsmodell (KLR) y = a + bx. Man kennt Einfachregression mit einem unabhängigen Merkmal und multiple Regression mit mehreren unabhängigen Merkmalen. Es gibt auch das multivariate RM mit mehreren abhängigen Merkmalen. Nichtlineare Regression ist auch bekannt, wiewohl die Verteilungseigenschaften nicht immer geklärt sind. Numerische Probleme werden berücksichtigt (Multikollinearität, Ausreißer).
Die Grauzone ist die deskriptive RA, die man als vereinfachte numerische Fehlerquadratmethode bezeichnen könnte. Die dient als Grundlage für die Schätzungen des KLR.
In diesem Sinn könnte man das Ganze wohl sinnvoll strukturieren.
--Philipendula 13:04, 20. Jul 2004 (CEST)
- Ok, dann erzaehl ich mal, wie ich das so verstehe: Die Annahme, die Messfehler (die Zufallsvariable) seien normalverteilt, fuehrt direkt auf die Minimierung der Quadratsummen und damit je nach Modellannahme der exakten Loesung auf lineare oder nichtlineare Gleichungssysteme. Wie man die numerische loest, ist ein weiterer Aspekt, aber die Methode der kleinsten Quadrate ist erstmal kein numerisches Verfahren sondern nur ein Weg, Gleichungssysteme zu erzeugen. Meine Frage ist jetzt: taucht es in der Regressionsanalyse ueberhaupt auf, dass man nicht normalverteilte Zufallsvariablen untersucht? Wenn ja, dann ist die Abgrenzung ja klar. Wenn nein, dann eher nicht. --DaTroll13:23, 20. Jul 2004 (CEST)
Tja, brauchen wir die NV oder nicht:
Für die deskriptive RA, also gewissermaßen die numerische Ecke brauchen wir sie eigentlich nicht, denn die Minimierung ist ein rein analytisches Problem, das Minimieren einer Quadratsumme bezüglich k Variablen. (Man darf übrigens das Set überbestimmter Gleichungen nicht mit den Normalgleichungen verwechseln, denn die werden erst dann durch die Regression erzeugt: Es gibt so viele Normalgleichungen wie unabhängige Variablen (das Absolutglied mitgerechnet). ) In vielen Anwendungsfällen genügt vermutlich die deskriptive Regression, das behaupten zumindest die Leute, die mit Schätzen und Testen nix am Hut haben.
Nächste Stufe: KLR. Das KLR geht zunächst mal vom unbekannten Ansatz in der Grundgesamtheit aus:
- Y = α + β x + U.
X ist eine fest vorgegebene Variable und Y als Zufallsvariable hängt in oben beschriebener Art von X ab. Allerdings kennt nur der große Statistikgott die wahre Abhängigkeitsstruktur, denn sie ist von einer Störgröße U überlagert. Es gibt nun bezüglich U Axiome, auf denen die KLR fußt. Sie laufen alle mehr oder weniger darauf hinaus, dass in U keinerlei systematische Information enthalten sein soll, U darf nur zufällig wild herumschwanken, d.h. die Beziehung zwi. X und Y soll in etwa linear sein und es sollen keine Ausreißer vorliegen. Man schätzt nun α und β mit Hilfe der OLS durch a und b. Hier kann man schon beste Schätzer (also Erwartungstreue + minimale Varianz) angeben mit Hilfe der linearen Trafo (sic!). Das klappt aber nur, wenn in den Daten, und zwar in X und Y, keine Ausreißer sind, weil es sonst einen sog. High-Leverage-Effekt gibt. Normalverteilte Daten erfüllen Letzteres, drum freut man sich, wenn es so ist, aber es geht auch mit gleichverteilten oder dreiecksverteilten oder so.
Will man nun die Güte dieser Schätzer untersuchen, mit Konfidenzintervallen oder Tests, muss die Verteilung von U bekannt sein. Es wird nun das Zusatz-Axiom eingeführt: U ist NV . Die Normalverteilung ist streng genommen nur der letzte Schritt. Natürlich gibt es auch Schätzmethoden, wie den ML-Schätzer, der NV voraussetzt. Aber auch hier erhalten wir die selben Schätzer für die Regressionskoeffizienten. Nur der Varianzschätzer von U ist nicht erwartungstreu.
Hinzuzufügen wäre noch, dass gewisse für gewisse numerische Verfahren der nichtlinearen Regression wahrscheinlich gar keine Verteilung angegeben werden kann.
Für meinen Geschmack ist halt in den bisherigen Artikeln zu viel vermischt, es bräuchte eine klare Abgrenzung. Das habe ich mal so eben ins Unreine geschrieben. Möglicherweise habe ich noch ein paar Aspekte übersehen.
--Philipendula 16:39, 20. Jul 2004 (CEST)
- Sorry fuer die spaete Antwort aber ich hatte in den letzten Tagen keine Zeit, mich mal ruhig hinzusetzen. Also: so wie ich das verstehe, sollte hier ein Statistikartikel hin. Spezialfall ist dann: U normalverteilt und dann kommen wir auf Least Squares und sind bei dem was Gauss gemacht hat. Die grosse Frage waere dann: was schreibt man in den Artikel "Methode der kleinsten Quadrate" (Alles mit normalverteilt?) und wo kommen die numerischen Verfahren hin? Ich kenne zum Beispiel nur Verfahren fuer Least Squares und gewichtete Least Squares (bei denen kenne ich auch den statistischen Hintergrund nicht). Viele Gruesse --DaTroll 11:42, 28. Jul 2004 (CEST)
Ich bräuchte noch ein bisschen Zeit, um mir was zu überlegen. Leider habe ich zur Zeit den neueren Bronstein nicht zu Hause, nur so ein altes Relikt. Alldieweil bei uns Vorlesungsende ausgebrochen ist, komme ich so bald nicht in meine Hochschule. Ich muss also die Infos anderweitig herkriegen, vor allem was klare Abgrenzungen anbelangt. Viele Grüße --Philipendula 19:54, 28. Jul 2004 (CEST)
Strukturierung von Regression
Strukturierung von Regression
Ich habe heute man etliche Mathehandbücher und Lexika gewälzt. Die Begriffe werden nicht einheitlich verwendet; teilweise wird Regression als gleichbedeutend mit Methode der kleinsten Quadrate verwendet, teilweise wird bei Regression schon die Stochastik ins Spiel gebracht. Teilweise fungiert polynomiale Regression als linear, teilweise als nichtlinear.
Methode der kleinsten Quadrate (Fehlerquadratsumme, Ausgleichsrechnung):
Es werden ganz allgemein irgendwelche Abweichungen quadriert und ihre Summe minimiert:
Man möchte entweder genau n Werte durch n Werte annähern (berühmt-berüchtigt: mit 4 Punkten ein Polynom 3. Grades erzeugen) oder man hat ein überbestimmtes Gleichungssystem, so dass hier gemittelt wird.
Es entsteht in der Regel durch das Minimieren ein System von Normalgleichungen.
Hier wird eine Funktion f(x) durch eine andere Funktion g(x) approximiert. Die Quadrate werden gewichtet.
Hier liegen n Beobachtungswerte y vor. Sie sollen. i.a. von m Variablen x approximiert werden. Die partiellen Ableitungen bezüglich der x können ein nichtlineares Gleichungssystem ergeben, das nicht mehr analytisch lösbar ist. -> iteratives Verfahren nach Gauß-Newton.
- Ein Spezialfall ist ein lineares oder linearisiertes Gleichungssystem. Hier ist ein umfangreiches Instrumentarium entwickelt worden. Man betrachtet hier auch numerische Lösungsverfahren wie Choletzky-Zerlegung usw. Hier gibt es schon Berührungspunkte mit der deskriptiven Regression als empirischem statistischem Verfahren.
Statistik: Regression
Man unterscheidet
- Deskriptive Regression
- Rein numerisch-analytisches Verfahren wie oben
- Stochastische Regression (würde ich als Regressionsanalyse bezeichnen)
- Verteilungsfrei
- Für die Bestimmung der Regressionskoeffizienten ausreichend
- Normalverteilung
- Für Schätzen und Testen
- Verteilungsfrei
OLS ist übrigens Regressionsanalyse im multiplen linearen Regressionsmodell mit unkorrelierter homoskedastischer Störgröße. Im Gegensatz dazu ist GLS generalized least Squares mit einer von oben abweichenden Korrelationsmatrix der Störgröße.
Mein Vorschlag:
Artikel
- Methode der kleinsten Quadrate ganz allgemein wie oben. Hier kann ich nicht viel zu beitragen.
Artikel
- Regression als mechanisches Verfahren, etwa lineare R mit Ausblick auf nichtlineare.
Artikel
- Regressionsanneliese für Statistik: Axiomensystem, Schätzer der Regressionskoeffizienten und der Prognose. Ev. Konfidenzintervalle und H-Tests.
Frage ist noch, wo man multiple Regression einordnet, gehört strenggenommen zu Regression, aber die Statistiker haben sie so lieb, dass wohl irgendwann ein solcher sie in die RA einordnet. Ein solcher Kandidat könnte beispielsweise der Benutzer Gowilei sein, der wie ich eine besondere Vorliebe für RA hegt.
Irgendwo sollten noch Berechnungsarten der Inverse aufgeführt werden, gehört eigentlich zu Regression, oder man macht was Eigenes.
Falls dieser Vorschlag vor Euren Augen Gnade fände, könnte ich ja mal R und RA kreativ angehen. Es sei denn, jemand anders fühlt sich berufen oder man ist "überhaupst" dagegen.
--Philipendula 19:50, 30. Jul 2004 (CEST)
- Erstmal Danke fuer die Arbeit. Ich werde mal die Methode der kleinsten Quadrate so umarbeiten, wie du das jetzt vorgeschlagen hast. Fuer den Aspekt "Least Squares" als Schaetzer werde ich dann erstmal auf "Regressionsanalyse" verweisen, die statistische Sprache ist mir halt auch weitestgehend nicht gelaeufig. Zwei Sachen verstehe ich noch nicht: Was ist multiple Regression? Und was meinst Du mit Regression als mechanisches Verfahren? Viele Gruesse --DaTroll 14:09, 3. Aug 2004 (CEST)
- Multiple Regression ist Regression mit mehreren unabhängigen Variablen xi, z.B. bei der Polynomregression. Mit mechanisch meinte ich die numerisch-analytische Berechnung ohne stochastische Elemente. Viel Spaß! --Philipendula 14:18, 3. Aug 2004 (CEST)
- Mh. Nichtmultiple ist dann doch total trivial oder nicht? Was das mechanisch angeht: wie ich den Text ueber "Methode der kleinsten Quadrate" verstanden habe, sollte der numerische Teil doch darein? --DaTroll 14:43, 3. Aug 2004 (CEST)
- Uih, ich glaube, da habe ich mich unpräzise ausgedrückt. Man unterscheidet:
- Einfache Regression, also eine unabhängige Variable x und eine abhängige Variable y. Beispiel: Man hat für n Dörfer jeweils die Zahl der Störche (x) und die Zahl der Kinder (y) erhoben. Es gibt also n Wertepaare (xi;yi). Man untersucht, ob die Zahl der Kinder von der Zahl der Störche abhängig ist, also ob y ungefähr a+bx ist (hat früher geklappt, als es noch mehr Störche gab).
- Multiple Regression: Man erhebt die Daten Zahl der Störche (Variable x1), Zahl der Ehepaare (x2), Zahl der Kindergartenplätze (x3) und Zahl der Kinder (y). Man untersucht, ob y von den Variablen x1, x2 und x3 abhängt und erhält n viele Quadrupel (x1, x2, x3, y). Man hat es hier mit Matrizenrechnung zu tun.
- Einfachregression ist also ein Spezialfall der Multiplen Regression. Einfachregression wird allerdings sehr häufig verwendet, vermutlich weil sie auch einfach gestrickte Gemüter verstehen, verdient also eigene Abhandlung.
- Ad Mechanisch: Eigentlich hatte ich Least Squares sogar noch allgemeiner beabsichtigt, dass es die Minimierung von Abweichung bedeutet und wo sie verwendet. Es gibt ja verschiedene Methoden, die Quadratsumme zu minimieren. In die Regression sollte dann speziell das Verfahren mit den Normalgleichungen. Aber man könnte auch die beiden obigen Artikel zu einem zusammenfassen. Ich schwanke da selber etwas.
- --Philipendula 15:52, 3. Aug 2004 (CEST)
- Das letztere halt ich fuer ungluecklich: Normalgleichungen kommen doch direkt aus der Quadratsummenminimierung. Also sollten sie doch nach Least Squares? Das mit der multiplen Regression habe ich jetzt verstanden :-) --DaTroll 10:36, 5. Aug 2004 (CEST)
- Ja, da hast Du recht. Letztlich führen wohl alle Verfahren zu einem Normalgleichungssystem, das linear oder auch nichtlinear sein kann. Regression würde dann wohl speziell die linearen Systeme abdecken. Gehe vor, wie Du es für am besten hältst. Danke, dass Du Dich opferst. :-) Viele Grüße --Philipendula 17:53, 5. Aug 2004 (CEST)
- Jaja, schon klar :-) Ich hab die nächsten Tage keine Zeit, danach werde ich mich dann aber mal um Least Squares kümmern. Viele Gruesse --DaTroll 21:47, 5. Aug 2004 (CEST)
Zwischenparken des alten Inhalts von Regressionsanalyse
Regressionsanalysen sind Techniken, mit denen für eine Gleichung y = f(x) die Parameter so angeglichen werden, dass minimale Abweichungen zwischen experimentellen und kalkulierten Werten entstehen. Für diesen Fall wird die gewichtete Summe der Fehlerquadrate (SSQ oder chi-Quadrat genannt) minimiert. Zur Wichtung dient die Varianz (sigma) des Datenpunktes; je größer diese ausfällt, desto weniger trägt der betreffende Punkt zur Analyse bei. Mit dem Aufkommen leistungsfähiger Rechner gewinnt insbesondere die nichtlineare Regression an Bedeutung, die im Mittelpunkt dieses Artikels steht.
Die Regressionsanalyse ist eine sehr leistungsfähige Methode zur Datenanalyse. Am Beispiel der Enzymkinetik, setzt sie allerdings voraus, dass nur y (Reaktionsgeschwindigkeit) und nicht x (Substratkonzentration) einem Fehler unterliegt. Die Regressionsanalyse stellt generell hohe Anforderungen an die zugrundeliegende Datenbasis. Dazu zählen u.a.:
- Voneinander unabhängige Zufallseinflüsse (Unkorreliertheit)
- Gleichförmige Streuung (Homoskedastizität)
- Keine Strukturbrüche
- Für Zeitreihenanalysen muß außerdem eine eindeutige Zuordnung von Sachverhalten zu Zeitpunkten gegeben sein
Lineare Regression
Lineare Regression lässt sich nur auf lineare oder linearisierbare Funktionen anwenden. Um bei der Enzymkinetik zu bleiben: die vertraute Lineweaver-Burk-Beziehung ist zwar eine algebraisch korrekte Umformung der Michaelis-Menten-Gleichung v = Vmax x [S] / (Km + [S]), ihre Anwendung liefert aber nur korrekte Ergebnisse, wenn die Messwerte fehlerfrei sind. Dies ergibt sich aus der Tatsache, dass sich die Realität nur mit einer erweiterten Michaelis-Menten-Beziehung
mit ei als Fehlerparameter, beschreiben lässt. Diese Gleichung lässt sich nicht mehr linearisieren, woraus sich die Forderung nach nichtlinearer Regressionsanalyse ergibt.
Nichtlineare Regression
Nichtlineare Regression ermöglicht die Anpassung von Daten an jede Gleichung der Form y = f(x). Da diese Gleichungen Kurven definieren, werden die Begriffe nichtlineare Regression und "curve fitting" zumeist synonym gebraucht. Bei nichtlinearen Gesetzmäßigkeiten ergibt sich eine Komplikation dadurch, dass die zu optimierenden Parameter nicht direkt ermittelt werden können: alle Kalkulationen gehen zwangsläufig von Schätzwerten aus, so dass jede nichtlineare Regressionsanalyse ein iteratives Verfahren darstellt. Ob diese Schätzwerte vernünftig waren, zeigt sich im nachhinein dadurch, dass verschiedene Anfangsschätzungen zum gleichen Endergebnis führen.
Das Verfahren geht ursprünglich auf Gauß zurück. Aktuelle Programme arbeiten häufig mit dem Algorithmus nach Marquart, der sich bei größerer Abweichung der Schätzwerte als toleranter erweist.
Standardanalysen setzen normalerweise voraus, dass Fehler einer Normalverteilung folgen. Ausreißer lassen sich allerdings aufgrund eines Algorithmus nach Mosteller und Tukey (1977) unterdrücken. Dies wird durch Anwendung eines weiteren Wichtungsfaktors (1 für Punkte geringer Abweichung, 0 für extreme Ausreißer) erreicht und als "bisquare weighting" bezeichnet.
Siehe auch
Konfidenzintervall, Bestimmtheitsmaß, Korrelationskoeffizient, Signifikanztest
Weblinks
Neustrukturierung von Regression
Da das Thema Regression in mindestens 4 Teilartikel zerfallen ist, die sich alle mehr oder weniger überschneiden, soll das Ganze in zwei Artikel zusammengefasst werden, nämlich Methode der kleinsten Quadrate, quasi als numerische Variante und Regressionsanalyse als statistisch-inferentielle Variante. Mir ist klar, dass die Titel keine eindeutige Trennung der Konzepte bedingen, aber man kann wohl keine saubere Grenze ziehen. Als ich die vorliegenden Artikel analysierte, merkte ich allerdings, dass zum Thema inferentielle Statistik relativ wenig vorliegt. Also habe ich dazu etwas ausgearbeitet, was dann viel mehr wurde, als ich eigentlich vorhatte.
Den vorherigen Text habe ich hier auf der Diskussionsseite zwischengeparkt. Er wird dann noch mit den anderen Artikeln auf die beiden verbliebenen Artikel verteilt.
Ich hoffe, Autoren der Artikel, Ihr hasst mich nicht! --Philipendula 00:35, 29. Aug 2004 (CEST)
In der Tat, liebe Philipendula, für meine Studenten (Biochemie) kann ich diesen Artikel nun nicht mehr gebrauchen. Meine Absicht war, die Grundprinzipien der nichtlinearen Regression zu erörtern, so wie sie den von mir angewendeten Programmen (z.B. der Enzymkinetik) zugrunde lagen. So ergibt sich durchaus Bewunderung, allerdings verbunden mit einem "Schade". Das beste ist wohl, den für mich wesentlichen Teil mit einem weniger allgemeinen Titel zu versehen (!?) Gruß, Juergen Bode 16:47, 29. Aug 2004 (CEST)
- Hallo Jürgen Bode, tut mir leid. Der Artikel ist ja noch nicht weg. Es geht doch um ein spezielles Problem der nichtlinearen Regression. Könnte man das nicht als Anwendungsbeispiel bei Methode der kleinsten Quadrate unterbringen? Denn dieser Artikel befasst sich doch mit numerischen Aspekten. Du musst doch eigentlich zugeben, dass die Überschrift Regressionsanalyse für diese Anwendung etwas zu allgemein war. Außerdem hat das neue Semester ja noch nicht begonnen. :-)--Philipendula 19:13, 29. Aug 2004 (CEST)
...also, ich verlass mich auf Dich, ordne es ein, wo es am besten passt - bitte! Immerhin: als ich den Abschnitt verfasste, gab´s noch nichts zum Thema Regressionsanalyse. Richtig platziert kann´s nur gewinnen. Gruß, Juergen Bode 21:50, 29. Aug 2004 (CEST)
- Ja, Danke an Philipendula, da hast Du tolle Arbeit geleistet. Ich habe "Lineare Regression" in einen Redirect auf den Artikel hier umgewandelt. Zieh doch einfach aus "Lineare Regressionsanalyse" noch raus, was Du für sinnvoll hältst und mach dann auch einen Redirect raus. Dann ist das wichtigste geschafft. Ich schreibe in den Artikel hier noch einen Satz zur Methode der kleinsten Quadrate rein, um dem Leser die Abgrenzung der beiden Artikel deutlicher zu machen. Dann ist zukünftigen Parallelentwicklungen vorgebeugt. Die Nachwehen wie das Einbinden von Jürgens Teil oder das Verbessern des Artikels über "Methode der kleinsten Quadrate" sind dann ja relativ straightforward. Zumindes sind wir jetzt CD-fähig mit den Artikel :-) Viele Gruesse --DaTroll 22:28, 29. Aug 2004 (CEST)
Ebenfalls Danke. So wird es wohl etwas werden. Viele Grüße -Philipendula 22:42, 29. Aug 2004 (CEST)
Regressionsrechnung
@Philipendula: Die Regressionsanalyse wird deshalb auch als Regressionsrechnung bezeichnet, weil sie von der Aufgabenstellung her, so genannte "einseitige" statistische Abhängigkeiten, d.h. statistische Ursache-Wirkungs-Beziehungen, durch so genannte Regressionsfunktionen beschreibt. Dazu verwendet man im Normalfall lineare Funktionen, aber auch quadratische Funktionen und Exponentialfunktionen. Daher ist im Zusammenhang der Regressionsanalyse absolut gerechtfertigt, von einer Regressionsrechnung zu sprechen ! docmo 21:14, 16. Mai 2005 (CEST)
- Eine Ursache-Wirkung-Beziehung ist im Regressionsmodell nicht gefragt. Die Rechentechnik findet in Methode der kleinsten Quadrate statt. Gruß --Philipendula 21:19, 16. Mai 2005 (CEST)
- Ich sehe das leider anders; habe aber keine Lust hier eine akdemische Diskussion vom Zaun zu reißen. Die Ursache-Wirkung-Beziehungen sind insbesondere in der Regressionsanalyse zuhause. Den Ausgangspunkt für die RA bilden Wertepaare bez. die ergebnisgröße --> Wirkung einerseits und der Gesamtheit der Einflussgrößen --> Ursachen andererseits. Um den Anschlus an die Methoden in der Statistik zu gewinnen, setzt man voraus, dass die "Wirkungs"-Werte Realisierungen von zufälligen Merkmalen (Zufallsgrößen) sind. Dies wird zunächst mittels einer Regressionsfunktion verfolgt. Dies ist eine Regressionsrechnung. -- docmo 21:36, 16. Mai 2005 (CEST)
- Es kommt mir vor hier werden einige Sachen nicht recht betrachtet. Man kann ohne weiteres von Regressionsrechnung sprechen statt von Regressionsanalyse, aber das hat keine andere Bedeutung als synoniem zu sein. Die statistische Ursache-Wirkungs-Beziehungen sind sicherlich Anwendungen der Analyse, aber werden nicht speziell mit Regressionsrechnung angedeutetet (im Vergangenheit war dass anders). Das Wort Regression ist eigentlich ein falscher, historisch bedinger, Andeutung fuer Regressionsrechnung, weil von Regression meistens keine Rede ist. Regressionsanalyse wird oft mit der Methode der kleinsten Quadrate identifiziert. Das ist aber ein Irrtum. Die Methode wird auch in andere Gebiete angewendet, und anderseits kann man zur Bestimmung der Regressionslinie auch ander Methoden benutzen.Nijdam 23:29, 16. Jun 2006 (CEST)
Es kommt mir ziemlich unlogisch vor die j-e Beobachtung van xi mit xji statt mit xij an zu deuten.Nijdam 23:59, 10. Jun 2006 (CEST)
- Ich kriege auch immer Bauchweh davon. Aber die Datenmatrix hat als Zeilen die Beobachtungen und als Spalten die Variablen. Deshalb diese Indizierung. --Philipendula 00:24, 11. Jun 2006 (CEST)
- Ich weiss, und die Unlogik stammt schon von der Definition einer Matrix. Die erste Spalte der Datenmatrix enthalt aber auch keine Daten, deshalb kan mann definieren: Xi1=1 und sonst Xij = xji.Nijdam 11:57, 14. Jun 2006 (CEST)
residuum
Die Störgröße betrifft die Grundgesamtheit, das Residuum ei die Stichprobe. Siehe ein paar Zeilen weiter unten. Ich wäre dankbar, wenn man es so lassen könnte. --Philipendula 16:26, 14. Jun 2006 (CEST)
- Kompromiss ? --Chrisqwq 18:00, 14. Jun 2006 (CEST)
- Die Zufallsvariable entstammt immer der Grundgesamtheit, sonst wäre es eine Stichprobe. Und das Residuum ist zwei Zeilen weiter unten erläutert. Bitte versuche es zu lesen. --Philipendula 21:24, 14. Jun 2006 (CEST)
- Die Störgröße betrifft nur im algemeinen Model die Grundgesamtheit. Wenn man von einer Stichprobe spricht, soll man eigentlich der Zufallsvariablen meinen den man observieren moechte. Die Stichprobe als observierten Daten ist nur fuer Berechnungen interessant. Man kann also nicht sprechen van die Störgröße, aber von der Störgrößen. Jeder dieser Störgrößen ist ein Komponent eines Elements der Stichprobe und eine (stochastische) Kopie der Störgröße im algemeinen Model. Die erwaehnte Residuen (ei) sind die Schaetzungen der Störgrößen.Nijdam 23:11, 16. Jun 2006 (CEST)
- Es sind keine Schätzungen, weil man eine Zufallsvariable nicht schätzen kann. --Philipendula 23:12, 16. Jun 2006 (CEST)
Prädiktor-Variablen oder Regressoren
- Die Wurden auch vor meinen Änderungen als gleich bezeichnet im artikel, das stimmt aber doch nicht, oder? --Chrisqwq 15:38, 17. Jun 2006 (CEST)