Diskussion:Regressionsanalyse

Versionsgeschichten der Artikel, aus denen Methode der kleinsten Quadrate zusammengesetzt worden ist

Versionsgeschichte von: Lineare Regression

(Aktuell) (Letzte) 22:20, 29. Aug 2004 DaTroll (Redirect Regressionsanalyse)
(Aktuell) (Letzte) 12:45, 13. Aug 2004 83.64.137.106 (Determinationskoeffizent)
(Aktuell) (Letzte) 02:37, 2. Aug 2004 Zwobot K (Head - Bot: konvertiere/korrigiere HTML)
(Aktuell) (Letzte) 18:37, 29. Jul 2004 83.64.137.106 (Determinationskoeffizent)
(Aktuell) (Letzte) 18:36, 29. Jul 2004 83.64.137.106 (Determinationskoeffizent)
(Aktuell) (Letzte) 18:34, 29. Jul 2004 83.64.137.106 (Determinationskoeffizent $R^{2}$ )
(Aktuell) (Letzte) 18:33, 29. Jul 2004 83.64.137.106 (Determinationskoeffizent)
(Aktuell) (Letzte) 18:33, 29. Jul 2004 83.64.137.106 ( $R^{2}$ : Determinationskoeffizent)
(Aktuell) (Letzte) 17:51, 29. Jul 2004 83.64.137.106 ( $R^{2}$ : Determinationskoeffizent)
(Aktuell) (Letzte) 17:50, 29. Jul 2004 83.64.137.106 (R^2 Determinationskoeffizent)
(Aktuell) (Letzte) 17:24, 29. Jul 2004 83.64.137.106 (Berechnung der Ausgleichsgeraden)
(Aktuell) (Letzte) 09:31, 20. Jul 2004 DaTroll (Doppeleintrag: Lineare Regressionsanalyse)
(Aktuell) (Letzte) 09:27, 20. Jul 2004 DaTroll (OLS auch Doppeleintrag)
(Aktuell) (Letzte) 20:42, 19. Jul 2004 DaTroll (Doppeleintrag: Methode der kleinsten Quadrate, Regressionsanalyse)
(Aktuell) (Letzte) 18:49, 15. Jul 2004 Kku K
(Aktuell) (Letzte) 21:53, 11. Jul 2004 Philipendula K
(Aktuell) (Letzte) 18:37, 11. Jul 2004 Gowilei (Bezeichnungen)
(Aktuell) (Letzte) 17:46, 11. Jul 2004 Gowilei K
(Aktuell) (Letzte) 19:56, 9. Jul 2004 Gowilei (Inhalt hinzugefügt)
(Aktuell) (Letzte) 00:58, 18. Jun 2004 Philipendula (Verlinkung. Ich hoffe, das war mit linearer Korrelation gemeint.)
(Aktuell) (Letzte) 17:57, 7. Mai 2004 Zwobot K (Echoray - robot Ergänze:nl)
(Aktuell) (Letzte) 23:28, 22. Apr 2004 PyBot K
(Aktuell) (Letzte) 16:14, 20. Apr 2004 Wurblzap K (Links zu OLS, Kleinste-Quadrate-Methode und Regression)
(Aktuell) (Letzte) 10:49, 11. Apr 2004 Pm (weblinkformat)
(Aktuell) (Letzte) 17:53, 3. Jan 2004 Wipape K (fix wiki)
(Aktuell) (Letzte) 17:51, 3. Jan 2004 Wipape K (+weblink)
(Aktuell) (Letzte) 11:59, 18. Nov 2003 Kku K (Wiederhergestellt zur letzten Änderung von Kku)
(Aktuell) (Letzte) 08:46, 18. Nov 2003 80.132.189.179
(Aktuell) (Letzte) 18:55, 23. Okt 2003 Kku (stub)

Versionsgeschichte von: Methode der kleinsten Quadrate

(Aktuell) (Letzte) 00:06, 1. Sep 2004 Philipendula (Entwarnung)
(Aktuell) (Letzte) 13:45, 31. Aug 2004 Philipendula K
(Aktuell) (Letzte) 11:00, 31. Aug 2004 DaTroll (Dinge)
(Aktuell) (Letzte) 10:41, 31. Aug 2004 Philipendula (Noch nicht endgültige Fassung)
(Aktuell) (Letzte) 10:03, 31. Aug 2004 Philipendula (Lineare Regression, Regressionsanalyse, OLS, Lineare Regressionsanalyse teilweise hier zusammengefasst. Erste Fassung. Versionen werden in Diskussion noch aufgeführt.)
(Aktuell) (Letzte) 14:32, 27. Aug 2004 DaTroll (Das Verfahren - gebuegelt)
(Aktuell) (Letzte) 14:25, 27. Aug 2004 DaTroll (Das Verfahren)
(Aktuell) (Letzte) 10:31, 27. Aug 2004 Botteler K (Botteler - robot Ergänze:ja)
(Aktuell) (Letzte) 15:42, 13. Aug 2004 DaTroll (Struktur)
(Aktuell) (Letzte) 00:47, 27. Jul 2004 139.30.40.178 (K - Beispiel - Format)
(Aktuell) (Letzte) 09:32, 20. Jul 2004 DaTroll K (OLS und Lineare Regressionsanalyse auch Doppeleintrag)
(Aktuell) (Letzte) 20:40, 19. Jul 2004 DaTroll (Doppeleintrag: Lineare Regression, Regressionsanalyse)
(Aktuell) (Letzte) 12:47, 4. Jul 2004 DaTroll K (kategorie)
(Aktuell) (Letzte) 09:39, 29. Jun 2004 DaTroll K (Revert wegen ungeschickter Verlinkung)
(Aktuell) (Letzte) 09:37, 29. Jun 2004 141.44.12.41
(Aktuell) (Letzte) 11:12, 5. Jun 2004 DaTroll K (link)
(Aktuell) (Letzte) 11:02, 5. Jun 2004 DaTroll K
(Aktuell) (Letzte) 10:59, 5. Jun 2004 DaTroll (Optik)
(Aktuell) (Letzte) 03:51, 5. Jun 2004 128.97.70.87
(Aktuell) (Letzte) 20:53, 21. Mai 2004 SiriusB K (Notation)
(Aktuell) (Letzte) 16:53, 8. Mai 2004 Zwobot K (Echoray - robot Ergänze:sv)
(Aktuell) (Letzte) 15:59, 30. Apr 2004 81.173.150.53
(Aktuell) (Letzte) 13:18, 30. Apr 2004 81.173.150.53
(Aktuell) (Letzte) 13:01, 29. Apr 2004 129.13.73.29
(Aktuell) (Letzte) 13:00, 29. Apr 2004 129.13.73.29
(Aktuell) (Letzte) 23:20, 28. Apr 2004 DaTroll K (typos)
(Aktuell) (Letzte) 13:55, 27. Apr 2004 DaTroll (Langsam wirds)
(Aktuell) (Letzte) 08:40, 27. Apr 2004 129.13.73.29
(Aktuell) (Letzte) 16:54, 26. Apr 2004 DaTroll (Ueberarbeitung angefangen)
(Aktuell) (Letzte) 16:34, 26. Apr 2004 DaTroll (Inhalte von Least Squares einfach mal reinkopiert. Muss ueberarbeitet werden)
(Aktuell) (Letzte) 17:16, 22. Apr 2004 164.133.154.130
(Aktuell) (Letzte) 23:46, 6. Apr 2004 Zwobot K (Kat - Bot-unterstützte Begriffsklärung: Einheit)
(Aktuell) (Letzte) 21:56, 31. Mär 2004 217.228.125.7
(Aktuell) (Letzte) 21:51, 31. Mär 2004 217.228.125.7
(Aktuell) (Letzte) 21:49, 31. Mär 2004 217.228.125.7
(Aktuell) (Letzte) 21:43, 31. Mär 2004 217.228.125.7
(Aktuell) (Letzte) 21:40, 31. Mär 2004 217.228.125.7
(Aktuell) (Letzte) 21:36, 31. Mär 2004 217.228.125.7
(Aktuell) (Letzte) 21:33, 31. Mär 2004 217.228.125.7
(Aktuell) (Letzte) 17:05, 8. Mär 2004 164.133.154.130
(Aktuell) (Letzte) 15:54, 8. Mär 2004 CdaMVvWgS K
(Aktuell) (Letzte) 15:52, 8. Mär 2004 164.133.154.130

Versionsgeschichte von: Regressionsanalyse

(Aktuell) (Letzte) 00:11, 30. Aug 2004 Philipendula (Lineare Regression eingearbeitet)
(Aktuell) (Letzte) 22:59, 29. Aug 2004 Philipendula K (Beitrag der einzelnen Regressoren zur Erklärung von y)
(Aktuell) (Letzte) 22:55, 29. Aug 2004 DaTroll K (Abgrenzung zu Methode der kleinsten Quadrate)
(Aktuell) (Letzte) 22:52, 29. Aug 2004 Philipendula K (Schätzen und Testen im KLR)
(Aktuell) (Letzte) 22:50, 29. Aug 2004 DaTroll K
(Aktuell) (Letzte) 22:34, 29. Aug 2004 Philipendula
(Aktuell) (Letzte) 00:26, 29. Aug 2004 Philipendula (Neue Strukturierung des Komplexes Regression)
(Aktuell) (Letzte) 11:32, 28. Jul 2004 130.36.95.102
(Aktuell) (Letzte) 10:35, 21. Jul 2004 Juergen Bode (link)
(Aktuell) (Letzte) 10:18, 20. Jul 2004 Juergen Bode (Zuordnung)
(Aktuell) (Letzte) 09:35, 20. Jul 2004 DaTroll (Doppeleintrag: Lineare Regressionsanalyse)
(Aktuell) (Letzte) 09:26, 20. Jul 2004 DaTroll (OLS auch Doppeleintrag)
(Aktuell) (Letzte) 08:03, 20. Jul 2004 Juergen Bode
(Aktuell) (Letzte) 07:29, 20. Jul 2004 Juergen Bode
(Aktuell) (Letzte) 20:45, 19. Jul 2004 DaTroll (Doppeleintrag: Methode der kleinsten Quadrate, Lineare Regression)
(Aktuell) (Letzte) 13:53, 17. Jul 2004 Philipendula (Verbale Abschwächung + Verlinkung)
(Aktuell) (Letzte) 17:18, 15. Jul 2004 Kku
(Aktuell) (Letzte) 17:14, 15. Jul 2004 Kku (==, en:)
(Aktuell) (Letzte) 00:21, 22. Jun 2004 RolandD K (Kategorisiert)
(Aktuell) (Letzte) 22:45, 12. Mai 2004 62.204.120.158
(Aktuell) (Letzte) 13:54, 2. Mai 2004 JakobVoss K (+Signifikanztest)
(Aktuell) (Letzte) 13:30, 2. Mai 2004 JakobVoss K (+Korrelationskoeffizient)
(Aktuell) (Letzte) 13:12, 2. Mai 2004 JakobVoss K (Siehe auch: Konfidenzintervall, Bestimmtheitsmaß)
(Aktuell) (Letzte) 15:41, 9. Mär 2004 193.24.32.36
(Aktuell) (Letzte) 15:40, 9. Mär 2004 193.24.32.39
(Aktuell) (Letzte) 08:18, 20. Feb 2004 Juergen Bode
(Aktuell) (Letzte) 22:44, 19. Feb 2004 80.138.150.59 (+ Weblinks)
(Aktuell) (Letzte) 18:00, 22. Jan 2004 ErikDunsing K
(Aktuell) (Letzte) 12:12, 2. Jan 2004 Juergen Bode
(Aktuell) (Letzte) 12:08, 2. Jan 2004 Juergen Bode
(Aktuell) (Letzte) 12:07, 2. Jan 2004 Juergen Bode
(Aktuell) (Letzte) 12:06, 2. Jan 2004 Juergen Bode
(Aktuell) (Letzte) 03:54, 29. Okt 2003 Michael Schubart K
(Aktuell) (Letzte) 19:00, 23. Okt 2003 Kku (linx)
(Aktuell) (Letzte) 11:07, 20. Sep 2003 Caramdir (Formeln mit TeX)
(Aktuell) (Letzte) 16:13, 18. Sep 2003 Juergen Bode K
(Aktuell) (Letzte) 16:10, 18. Sep 2003 Juergen Bode K
(Aktuell) (Letzte) 14:03, 18. Sep 2003 Juergen Bode K
(Aktuell) (Letzte) 14:02, 18. Sep 2003 Juergen Bode K
(Aktuell) (Letzte) 13:58, 18. Sep 2003 Juergen Bode
(Aktuell) (Letzte) 13:48, 18. Sep 2003 Juergen Bode

Versionsgeschichte von: OLS

(Aktuell) (Letzte) 09:27, 20. Jul 2004 DaTroll (Doppeleintrag: Methode der kleinsten Quadrate, Regressionsanalyse, lineare Regression)
(Aktuell) (Letzte) 18:45, 25. Feb 2004 Croco97
(Aktuell) (Letzte) 18:44, 25. Feb 2004 Croco97
(Aktuell) (Letzte) 17:53, 25. Feb 2004 80.128.75.225
(Aktuell) (Letzte) 15:54, 22. Feb 2004 Triebtäter
(Aktuell) (Letzte) 23:22, 14. Feb 2004 Blaubart

Versionsgeschichte von: Lineare Regressionsanalyse

Aktuell) (Letzte) 08:37, 31. Aug 2004 BWBot K (Bananeweizen - Bot: ausser -> außer)
(Aktuell) (Letzte) 00:15, 22. Jun 2004 Weede K
(Aktuell) (Letzte) 19:21, 22. Apr 2004 Weede (Im alternativen "lineare Regression" werden nichtlineare Ansatzfunktionen verschwiegen.)
(Aktuell) (Letzte) 17:53, 22. Apr 2004 164.133.154.130
(Aktuell) (Letzte) 17:20, 22. Apr 2004 164.133.154.130

Least Square

(Aktuell) (Letzte) 16:34, 26. Apr 2004 DaTroll (Redirect)
(Aktuell) (Letzte) 16:21, 26. Apr 2004 G K (link)
(Aktuell) (Letzte) 18:41, 25. Feb 2004 Croco97

eigener Text JBO 2003

warum wurde

\chi _{i}^{2}=\sum \left[{\frac {\Delta y_{i}}{\sigma _{i}}}\right]^{2}

+

-

zwischen erstem und zweitem Absatz gelöscht? Juergen Bode 18:05, 9. Mär 2004 (CET)

Fehler bei der linearen Regressionsberechnung 11:02, 13. Jul 2006 (CEST), spetzl[a]gmx.at

Hab mir lange den kopf zerbrochen warum ich nicht auf die ergebnisse (b = -0,98, a=19,..) komme. Der Grund ist dass die Tabelle falsch ist! die letzte Zeile gehört gelöscht. weiss nicht wie man dabei üblicherweise vorgeht... soll ich das selber machen?

Du kannst es gern selber machen, oder sagen, wo der Fehler ist. Gruß --Philipendula 16:42, 13. Jul 2006 (CEST)

Keine Ahnung ob ich einfach blind war oder ob das jetzt schon wer ausgebessert hat. DIe letzte zeile stellt ja lediglich die summe dar, und darf natürlich nicht in die berechnung miteinfließen. es steht aber eh "Total" daneben, also eh alles ok, fehler von mir anscheinend...

Das "Total" steht erst seit einige Tagen da. Der beste Beweis dass meine Verbesserung effektiv ist.Nijdam 01:14, 21. Jul 2006 (CEST)

Gescheithaflerei von Philipendula 13:59, 17. Jul 2004 (CEST)

Bei den Anforderungen an die Daten sollte man zwischen Axiomen und Folgerungen u./o. Ergänzungen unterscheiden.

Es existieren zur Zeit mehrere Artikel zum Thema Regression, die sich teilweise stark überschneiden. Hier müsste mal kräftig strukturiert werden.

Es ist vielleicht nicht sehr günstig, den Artikel unter empirischer Wi-Forschung laufen zu lassen, wenn das einzige Beispiel sich mit Enzym-Kinese befasst.

In der Hoffnung, dass jemand das liest --Philipendula 13:59, 17. Jul 2004 (CEST)

Ich finde die Aufteilung in "Regressionsanalyse" (kurze Übersicht, aktuelle Entwicklungen, gezeigt an einem Beispiel), Lineare Regression und Methode der kleinsten Quadrate (klassisches Fundament) durchaus sinnvoll und der Lesbarkeit zuträglich. Die Einordnung ist allerdings irreführend. Juergen Bode 07:34, 20. Jul 2004 (CEST)

OLS dient lediglich er Begriffserklärung und verweist korrekt auf Kleinste-Quadrate-Methode. Kritisch sehe ich nur die Duplizität von Lineare Regressionsanalyse und Lineare Regression Juergen Bode 10:12, 20. Jul 2004 (CEST)

Also mir ist es noch nie untergekommen, dass jemand unter Regression etwas anderes als Least Squares verstanden hat. Auch in diesem Artikel ist das so. Wenn das nicht so ist, sollte das dringend ergaenzt werden (dann ist auch die Aufteilung in die drei oben genannten Artikel irgendwie sinnvoll), ansonsten sehe ich ehrlich gesagt keinen Grund, die Artikel Regressionsanalyse und Methode der kleinsten Quadrate zu vereinigen. --DaTroll 10:33, 20. Jul 2004 (CEST)

Um mal Ordnung zu machen: Es gibt auf diesem Gebiet numerische Verfahren und das statistisch-wahrscheinlichkeitstheoretische Modell. Hier sollte man klar trennen.

Numerik: Es handelt sich um die Minimierung von Quadratsummen, also die Fehlerquadratmethode oder auch Kleinst-Quadrat-Methode oder wohl auch OLS. Hier sollte es einen Artikel geben, der diese Methode beschreibt, mit Angaben, wo man das überall verwendet: Überbestimmte Gleichungen, Bestimmung von Kurvenverläufen usw. Man hat hier eine Messreihe oder mehrere, und man erhält entsprechend viele Normalgleichungen. Es können lineare Regressionen sein oder nichtlineare. Nichtlineare könnte man aufteilen in linearisierte und streng nichtlineare, die anderweitig iterativ oder was weiß ich ermittelt werden (Ich kann Numerik nicht). Ich weiß jetzt nicht, inwieweit hier schon der Begriff Regression viel Anwendung findet.

Statistik: Hier läuft das ganze unter dem Oberbegriff Regressionsanalyse: Die Bezeichnung Analyse deutet daraufhin, dass hier mehr als nur bloße Ausgleichsrechnung betrieben wird. Wir haben es hier mit einem statistischen Wahrscheinlichkeitsmodell zu tun, das auf Axiomen aufbaut. Die Abweichungen sind keine Fehler, sondern Ausprägungen einer Zufallsvariablen. Es kommen Konfidenzintervalle, Hypothesentests etc. ins Spiel. Die Basis ist das klassische lineare Regressionsmodell (KLR) y = a + bx. Man kennt Einfachregression mit einem unabhängigen Merkmal und multiple Regression mit mehreren unabhängigen Merkmalen. Es gibt auch das multivariate RM mit mehreren abhängigen Merkmalen. Nichtlineare Regression ist auch bekannt, wiewohl die Verteilungseigenschaften nicht immer geklärt sind. Numerische Probleme werden berücksichtigt (Multikollinearität, Ausreißer).

Die Grauzone ist die deskriptive RA, die man als vereinfachte numerische Fehlerquadratmethode bezeichnen könnte. Die dient als Grundlage für die Schätzungen des KLR.

In diesem Sinn könnte man das Ganze wohl sinnvoll strukturieren.

--Philipendula 13:04, 20. Jul 2004 (CEST)

Ok, dann erzaehl ich mal, wie ich das so verstehe: Die Annahme, die Messfehler (die Zufallsvariable) seien normalverteilt, fuehrt direkt auf die Minimierung der Quadratsummen und damit je nach Modellannahme der exakten Loesung auf lineare oder nichtlineare Gleichungssysteme. Wie man die numerische loest, ist ein weiterer Aspekt, aber die Methode der kleinsten Quadrate ist erstmal kein numerisches Verfahren sondern nur ein Weg, Gleichungssysteme zu erzeugen. Meine Frage ist jetzt: taucht es in der Regressionsanalyse ueberhaupt auf, dass man nicht normalverteilte Zufallsvariablen untersucht? Wenn ja, dann ist die Abgrenzung ja klar. Wenn nein, dann eher nicht. --DaTroll13:23, 20. Jul 2004 (CEST)

Tja, brauchen wir die NV oder nicht:

Für die deskriptive RA, also gewissermaßen die numerische Ecke brauchen wir sie eigentlich nicht, denn die Minimierung ist ein rein analytisches Problem, das Minimieren einer Quadratsumme bezüglich k Variablen. (Man darf übrigens das Set überbestimmter Gleichungen nicht mit den Normalgleichungen verwechseln, denn die werden erst dann durch die Regression erzeugt: Es gibt so viele Normalgleichungen wie unabhängige Variablen (das Absolutglied mitgerechnet). ) In vielen Anwendungsfällen genügt vermutlich die deskriptive Regression, das behaupten zumindest die Leute, die mit Schätzen und Testen nix am Hut haben.

Nächste Stufe: KLR. Das KLR geht zunächst mal vom unbekannten Ansatz in der Grundgesamtheit aus:

Y = α + β x + U.

X ist eine fest vorgegebene Variable und Y als Zufallsvariable hängt in oben beschriebener Art von X ab. Allerdings kennt nur der große Statistikgott die wahre Abhängigkeitsstruktur, denn sie ist von einer Störgröße U überlagert. Es gibt nun bezüglich U Axiome, auf denen die KLR fußt. Sie laufen alle mehr oder weniger darauf hinaus, dass in U keinerlei systematische Information enthalten sein soll, U darf nur zufällig wild herumschwanken, d.h. die Beziehung zwi. X und Y soll in etwa linear sein und es sollen keine Ausreißer vorliegen. Man schätzt nun α und β mit Hilfe der OLS durch a und b. Hier kann man schon beste Schätzer (also Erwartungstreue + minimale Varianz) angeben mit Hilfe der linearen Trafo (sic!). Das klappt aber nur, wenn in den Daten, und zwar in X und Y, keine Ausreißer sind, weil es sonst einen sog. High-Leverage-Effekt gibt. Normalverteilte Daten erfüllen Letzteres, drum freut man sich, wenn es so ist, aber es geht auch mit gleichverteilten oder dreiecksverteilten oder so.

Will man nun die Güte dieser Schätzer untersuchen, mit Konfidenzintervallen oder Tests, muss die Verteilung von U bekannt sein. Es wird nun das Zusatz-Axiom eingeführt: U ist NV . Die Normalverteilung ist streng genommen nur der letzte Schritt. Natürlich gibt es auch Schätzmethoden, wie den ML-Schätzer, der NV voraussetzt. Aber auch hier erhalten wir die selben Schätzer für die Regressionskoeffizienten. Nur der Varianzschätzer von U ist nicht erwartungstreu.

Hinzuzufügen wäre noch, dass gewisse für gewisse numerische Verfahren der nichtlinearen Regression wahrscheinlich gar keine Verteilung angegeben werden kann.

Für meinen Geschmack ist halt in den bisherigen Artikeln zu viel vermischt, es bräuchte eine klare Abgrenzung. Das habe ich mal so eben ins Unreine geschrieben. Möglicherweise habe ich noch ein paar Aspekte übersehen.

--Philipendula 16:39, 20. Jul 2004 (CEST)

Sorry fuer die spaete Antwort aber ich hatte in den letzten Tagen keine Zeit, mich mal ruhig hinzusetzen. Also: so wie ich das verstehe, sollte hier ein Statistikartikel hin. Spezialfall ist dann: U normalverteilt und dann kommen wir auf Least Squares und sind bei dem was Gauss gemacht hat. Die grosse Frage waere dann: was schreibt man in den Artikel "Methode der kleinsten Quadrate" (Alles mit normalverteilt?) und wo kommen die numerischen Verfahren hin? Ich kenne zum Beispiel nur Verfahren fuer Least Squares und gewichtete Least Squares (bei denen kenne ich auch den statistischen Hintergrund nicht). Viele Gruesse --DaTroll 11:42, 28. Jul 2004 (CEST)

Ich bräuchte noch ein bisschen Zeit, um mir was zu überlegen. Leider habe ich zur Zeit den neueren Bronstein nicht zu Hause, nur so ein altes Relikt. Alldieweil bei uns Vorlesungsende ausgebrochen ist, komme ich so bald nicht in meine Hochschule. Ich muss also die Infos anderweitig herkriegen, vor allem was klare Abgrenzungen anbelangt. Viele Grüße --Philipendula 19:54, 28. Jul 2004 (CEST)

Strukturierung von Regression

Ich habe heute man etliche Mathehandbücher und Lexika gewälzt. Die Begriffe werden nicht einheitlich verwendet; teilweise wird Regression als gleichbedeutend mit Methode der kleinsten Quadrate verwendet, teilweise wird bei Regression schon die Stochastik ins Spiel gebracht. Teilweise fungiert polynomiale Regression als linear, teilweise als nichtlinear.

Methode der kleinsten Quadrate (Fehlerquadratsumme, Ausgleichsrechnung):

Es werden ganz allgemein irgendwelche Abweichungen quadriert und ihre Summe minimiert:

Man möchte entweder genau n Werte durch n Werte annähern (berühmt-berüchtigt: mit 4 Punkten ein Polynom 3. Grades erzeugen) oder man hat ein überbestimmtes Gleichungssystem, so dass hier gemittelt wird.

Es entsteht in der Regel durch das Minimieren ein System von Normalgleichungen.

\int _{a}^{b}w(x)(f(x)-g(x))^{2}\,\mathrm {d} x

Hier wird eine Funktion f(x) durch eine andere Funktion g(x) approximiert. Die Quadrate werden gewichtet.

\sum _{i=1}^{n}{(y_{i}-g_{i}(x_{1};x_{2};...x_{m}))^{2}}.

Hier liegen n Beobachtungswerte y vor. Sie sollen. i.a. von m Variablen x approximiert werden. Die partiellen Ableitungen bezüglich der x können ein nichtlineares Gleichungssystem ergeben, das nicht mehr analytisch lösbar ist. -> iteratives Verfahren nach Gauß-Newton.

Ein Spezialfall ist ein lineares oder linearisiertes Gleichungssystem. Hier ist ein umfangreiches Instrumentarium entwickelt worden. Man betrachtet hier auch numerische Lösungsverfahren wie Choletzky-Zerlegung usw. Hier gibt es schon Berührungspunkte mit der deskriptiven Regression als empirischem statistischem Verfahren.

Statistik: Regression

Man unterscheidet

Deskriptive Regression

Rein numerisch-analytisches Verfahren wie oben

Stochastische Regression (würde ich als Regressionsanalyse bezeichnen)

Verteilungsfrei

Für die Bestimmung der Regressionskoeffizienten ausreichend

Normalverteilung

Für Schätzen und Testen

OLS ist übrigens Regressionsanalyse im multiplen linearen Regressionsmodell mit unkorrelierter homoskedastischer Störgröße. Im Gegensatz dazu ist GLS generalized least Squares mit einer von oben abweichenden Korrelationsmatrix der Störgröße.

Mein Vorschlag:

Artikel

Methode der kleinsten Quadrate ganz allgemein wie oben. Hier kann ich nicht viel zu beitragen.

Artikel

Regression als mechanisches Verfahren, etwa lineare R mit Ausblick auf nichtlineare.

Artikel

Regressionsanneliese für Statistik: Axiomensystem, Schätzer der Regressionskoeffizienten und der Prognose. Ev. Konfidenzintervalle und H-Tests.

Frage ist noch, wo man multiple Regression einordnet, gehört strenggenommen zu Regression, aber die Statistiker haben sie so lieb, dass wohl irgendwann ein solcher sie in die RA einordnet. Ein solcher Kandidat könnte beispielsweise der Benutzer Gowilei sein, der wie ich eine besondere Vorliebe für RA hegt.

Irgendwo sollten noch Berechnungsarten der Inverse aufgeführt werden, gehört eigentlich zu Regression, oder man macht was Eigenes.

Falls dieser Vorschlag vor Euren Augen Gnade fände, könnte ich ja mal R und RA kreativ angehen. Es sei denn, jemand anders fühlt sich berufen oder man ist "überhaupst" dagegen.

--Philipendula 19:50, 30. Jul 2004 (CEST)

Erstmal Danke fuer die Arbeit. Ich werde mal die Methode der kleinsten Quadrate so umarbeiten, wie du das jetzt vorgeschlagen hast. Fuer den Aspekt "Least Squares" als Schaetzer werde ich dann erstmal auf "Regressionsanalyse" verweisen, die statistische Sprache ist mir halt auch weitestgehend nicht gelaeufig. Zwei Sachen verstehe ich noch nicht: Was ist multiple Regression? Und was meinst Du mit Regression als mechanisches Verfahren? Viele Gruesse --DaTroll 14:09, 3. Aug 2004 (CEST)

Multiple Regression ist Regression mit mehreren unabhängigen Variablen xi, z.B. bei der Polynomregression. Mit mechanisch meinte ich die numerisch-analytische Berechnung ohne stochastische Elemente. Viel Spaß! --Philipendula 14:18, 3. Aug 2004 (CEST)

Mh. Nichtmultiple ist dann doch total trivial oder nicht? Was das mechanisch angeht: wie ich den Text ueber "Methode der kleinsten Quadrate" verstanden habe, sollte der numerische Teil doch darein? --DaTroll 14:43, 3. Aug 2004 (CEST)

Uih, ich glaube, da habe ich mich unpräzise ausgedrückt. Man unterscheidet:

Einfache Regression, also eine unabhängige Variable x und eine abhängige Variable y. Beispiel: Man hat für n Dörfer jeweils die Zahl der Störche (x) und die Zahl der Kinder (y) erhoben. Es gibt also n Wertepaare (xi;yi). Man untersucht, ob die Zahl der Kinder von der Zahl der Störche abhängig ist, also ob y ungefähr a+bx ist (hat früher geklappt, als es noch mehr Störche gab).

Multiple Regression: Man erhebt die Daten Zahl der Störche (Variable x1), Zahl der Ehepaare (x2), Zahl der Kindergartenplätze (x3) und Zahl der Kinder (y). Man untersucht, ob y von den Variablen x1, x2 und x3 abhängt und erhält n viele Quadrupel (x1, x2, x3, y). Man hat es hier mit Matrizenrechnung zu tun.

Einfachregression ist also ein Spezialfall der Multiplen Regression. Einfachregression wird allerdings sehr häufig verwendet, vermutlich weil sie auch einfach gestrickte Gemüter verstehen, verdient also eigene Abhandlung.

Ad Mechanisch: Eigentlich hatte ich Least Squares sogar noch allgemeiner beabsichtigt, dass es die Minimierung von Abweichung bedeutet und wo sie verwendet. Es gibt ja verschiedene Methoden, die Quadratsumme zu minimieren. In die Regression sollte dann speziell das Verfahren mit den Normalgleichungen. Aber man könnte auch die beiden obigen Artikel zu einem zusammenfassen. Ich schwanke da selber etwas.

--Philipendula 15:52, 3. Aug 2004 (CEST)

Das letztere halt ich fuer ungluecklich: Normalgleichungen kommen doch direkt aus der Quadratsummenminimierung. Also sollten sie doch nach Least Squares? Das mit der multiplen Regression habe ich jetzt verstanden :-) --DaTroll 10:36, 5. Aug 2004 (CEST)

Ja, da hast Du recht. Letztlich führen wohl alle Verfahren zu einem Normalgleichungssystem, das linear oder auch nichtlinear sein kann. Regression würde dann wohl speziell die linearen Systeme abdecken. Gehe vor, wie Du es für am besten hältst. Danke, dass Du Dich opferst. :-) Viele Grüße --Philipendula 17:53, 5. Aug 2004 (CEST)

Jaja, schon klar :-) Ich hab die nächsten Tage keine Zeit, danach werde ich mich dann aber mal um Least Squares kümmern. Viele Gruesse --DaTroll 21:47, 5. Aug 2004 (CEST)

Zwischenparken des alten Inhalts von Regressionsanalyse

Regressionsanalysen sind Techniken, mit denen für eine Gleichung y = f(x) die Parameter so angeglichen werden, dass minimale Abweichungen zwischen experimentellen und kalkulierten Werten entstehen. Für diesen Fall wird die gewichtete Summe der Fehlerquadrate (SSQ oder chi-Quadrat genannt) minimiert. Zur Wichtung dient die Varianz (sigma) des Datenpunktes; je größer diese ausfällt, desto weniger trägt der betreffende Punkt zur Analyse bei. Mit dem Aufkommen leistungsfähiger Rechner gewinnt insbesondere die nichtlineare Regression an Bedeutung, die im Mittelpunkt dieses Artikels steht.

Die Regressionsanalyse ist eine sehr leistungsfähige Methode zur Datenanalyse. Am Beispiel der Enzymkinetik, setzt sie allerdings voraus, dass nur y (Reaktionsgeschwindigkeit) und nicht x (Substratkonzentration) einem Fehler unterliegt. Die Regressionsanalyse stellt generell hohe Anforderungen an die zugrundeliegende Datenbasis. Dazu zählen u.a.:

Voneinander unabhängige Zufallseinflüsse (Unkorreliertheit)
Gleichförmige Streuung (Homoskedastizität)
Keine Strukturbrüche
Für Zeitreihenanalysen muß außerdem eine eindeutige Zuordnung von Sachverhalten zu Zeitpunkten gegeben sein

Lineare Regression

Lineare Regression lässt sich nur auf lineare oder linearisierbare Funktionen anwenden. Um bei der Enzymkinetik zu bleiben: die vertraute Lineweaver-Burk-Beziehung ist zwar eine algebraisch korrekte Umformung der Michaelis-Menten-Gleichung v = Vmax x [S] / (Km + [S]), ihre Anwendung liefert aber nur korrekte Ergebnisse, wenn die Messwerte fehlerfrei sind. Dies ergibt sich aus der Tatsache, dass sich die Realität nur mit einer erweiterten Michaelis-Menten-Beziehung

\nu _{i}={\frac {V\max \left[S_{i}\right]}{Km+\left[S_{i}\right]}}(1+e_{i})\ {\boldsymbol {\nu }}_{i}

mit e_i als Fehlerparameter, beschreiben lässt. Diese Gleichung lässt sich nicht mehr linearisieren, woraus sich die Forderung nach nichtlinearer Regressionsanalyse ergibt.

Nichtlineare Regression

Nichtlineare Regression ermöglicht die Anpassung von Daten an jede Gleichung der Form y = f(x). Da diese Gleichungen Kurven definieren, werden die Begriffe nichtlineare Regression und "curve fitting" zumeist synonym gebraucht. Bei nichtlinearen Gesetzmäßigkeiten ergibt sich eine Komplikation dadurch, dass die zu optimierenden Parameter nicht direkt ermittelt werden können: alle Kalkulationen gehen zwangsläufig von Schätzwerten aus, so dass jede nichtlineare Regressionsanalyse ein iteratives Verfahren darstellt. Ob diese Schätzwerte vernünftig waren, zeigt sich im nachhinein dadurch, dass verschiedene Anfangsschätzungen zum gleichen Endergebnis führen.

Das Verfahren geht ursprünglich auf Gauß zurück. Aktuelle Programme arbeiten häufig mit dem Algorithmus nach Marquart, der sich bei größerer Abweichung der Schätzwerte als toleranter erweist.

Standardanalysen setzen normalerweise voraus, dass Fehler einer Normalverteilung folgen. Ausreißer lassen sich allerdings aufgrund eines Algorithmus nach Mosteller und Tukey (1977) unterdrücken. Dies wird durch Anwendung eines weiteren Wichtungsfaktors (1 für Punkte geringer Abweichung, 0 für extreme Ausreißer) erreicht und als "bisquare weighting" bezeichnet.

Siehe auch

Konfidenzintervall, Bestimmtheitsmaß, Korrelationskoeffizient, Signifikanztest

Weblinks

en:regression analysis

Kategorie:Statistik

Neustrukturierung von Regression

Da das Thema Regression in mindestens 4 Teilartikel zerfallen ist, die sich alle mehr oder weniger überschneiden, soll das Ganze in zwei Artikel zusammengefasst werden, nämlich Methode der kleinsten Quadrate, quasi als numerische Variante und Regressionsanalyse als statistisch-inferentielle Variante. Mir ist klar, dass die Titel keine eindeutige Trennung der Konzepte bedingen, aber man kann wohl keine saubere Grenze ziehen. Als ich die vorliegenden Artikel analysierte, merkte ich allerdings, dass zum Thema inferentielle Statistik relativ wenig vorliegt. Also habe ich dazu etwas ausgearbeitet, was dann viel mehr wurde, als ich eigentlich vorhatte.

Den vorherigen Text habe ich hier auf der Diskussionsseite zwischengeparkt. Er wird dann noch mit den anderen Artikeln auf die beiden verbliebenen Artikel verteilt.

Ich hoffe, Autoren der Artikel, Ihr hasst mich nicht! --Philipendula 00:35, 29. Aug 2004 (CEST)

In der Tat, liebe Philipendula, für meine Studenten (Biochemie) kann ich diesen Artikel nun nicht mehr gebrauchen. Meine Absicht war, die Grundprinzipien der nichtlinearen Regression zu erörtern, so wie sie den von mir angewendeten Programmen (z.B. der Enzymkinetik) zugrunde lagen. So ergibt sich durchaus Bewunderung, allerdings verbunden mit einem "Schade". Das beste ist wohl, den für mich wesentlichen Teil mit einem weniger allgemeinen Titel zu versehen (!?) Gruß, Juergen Bode 16:47, 29. Aug 2004 (CEST)

Hallo Jürgen Bode, tut mir leid. Der Artikel ist ja noch nicht weg. Es geht doch um ein spezielles Problem der nichtlinearen Regression. Könnte man das nicht als Anwendungsbeispiel bei Methode der kleinsten Quadrate unterbringen? Denn dieser Artikel befasst sich doch mit numerischen Aspekten. Du musst doch eigentlich zugeben, dass die Überschrift Regressionsanalyse für diese Anwendung etwas zu allgemein war. Außerdem hat das neue Semester ja noch nicht begonnen. :-)--Philipendula 19:13, 29. Aug 2004 (CEST)

...also, ich verlass mich auf Dich, ordne es ein, wo es am besten passt - bitte! Immerhin: als ich den Abschnitt verfasste, gab´s noch nichts zum Thema Regressionsanalyse. Richtig platziert kann´s nur gewinnen. Gruß, Juergen Bode 21:50, 29. Aug 2004 (CEST)

Ja, Danke an Philipendula, da hast Du tolle Arbeit geleistet. Ich habe "Lineare Regression" in einen Redirect auf den Artikel hier umgewandelt. Zieh doch einfach aus "Lineare Regressionsanalyse" noch raus, was Du für sinnvoll hältst und mach dann auch einen Redirect raus. Dann ist das wichtigste geschafft. Ich schreibe in den Artikel hier noch einen Satz zur Methode der kleinsten Quadrate rein, um dem Leser die Abgrenzung der beiden Artikel deutlicher zu machen. Dann ist zukünftigen Parallelentwicklungen vorgebeugt. Die Nachwehen wie das Einbinden von Jürgens Teil oder das Verbessern des Artikels über "Methode der kleinsten Quadrate" sind dann ja relativ straightforward. Zumindes sind wir jetzt CD-fähig mit den Artikel :-) Viele Gruesse --DaTroll 22:28, 29. Aug 2004 (CEST)

Ebenfalls Danke. So wird es wohl etwas werden. Viele Grüße -Philipendula 22:42, 29. Aug 2004 (CEST)

Regressionsrechnung

Letzter Kommentar: vor 19 Jahren3 Kommentare2 Personen sind an der Diskussion beteiligt

@Philipendula: Die Regressionsanalyse wird deshalb auch als Regressionsrechnung bezeichnet, weil sie von der Aufgabenstellung her, so genannte "einseitige" statistische Abhängigkeiten, d.h. statistische Ursache-Wirkungs-Beziehungen, durch so genannte Regressionsfunktionen beschreibt. Dazu verwendet man im Normalfall lineare Funktionen, aber auch quadratische Funktionen und Exponentialfunktionen. Daher ist im Zusammenhang der Regressionsanalyse absolut gerechtfertigt, von einer Regressionsrechnung zu sprechen ! docmo 21:14, 16. Mai 2005 (CEST)Beantworten

Eine Ursache-Wirkung-Beziehung ist im Regressionsmodell nicht gefragt. Die Rechentechnik findet in Methode der kleinsten Quadrate statt. Gruß --Philipendula 21:19, 16. Mai 2005 (CEST)Beantworten

Ich sehe das leider anders; habe aber keine Lust hier eine akdemische Diskussion vom Zaun zu reißen. Die Ursache-Wirkung-Beziehungen sind insbesondere in der Regressionsanalyse zuhause. Den Ausgangspunkt für die RA bilden Wertepaare bez. die ergebnisgröße --> Wirkung einerseits und der Gesamtheit der Einflussgrößen --> Ursachen andererseits. Um den Anschlus an die Methoden in der Statistik zu gewinnen, setzt man voraus, dass die "Wirkungs"-Werte Realisierungen von zufälligen Merkmalen (Zufallsgrößen) sind. Dies wird zunächst mittels einer Regressionsfunktion verfolgt. Dies ist eine Regressionsrechnung. -- docmo 21:36, 16. Mai 2005 (CEST)Beantworten

Es kommt mir vor hier werden einige Sachen nicht recht betrachtet. Man kann ohne weiteres von Regressionsrechnung sprechen statt von Regressionsanalyse, aber das hat keine andere Bedeutung als synoniem zu sein. Die statistische Ursache-Wirkungs-Beziehungen sind sicherlich Anwendungen der Analyse, aber werden nicht speziell mit Regressionsrechnung angedeutetet (im Vergangenheit war dass anders). Das Wort Regression ist eigentlich ein falscher, historisch bedinger, Andeutung fuer Regressionsrechnung, weil von Regression meistens keine Rede ist. Regressionsanalyse wird oft mit der Methode der kleinsten Quadrate identifiziert. Das ist aber ein Irrtum. Die Methode wird auch in andere Gebiete angewendet, und anderseits kann man zur Bestimmung der Regressionslinie auch ander Methoden benutzen.Nijdam 23:29, 16. Jun 2006 (CEST)

Es kommt mir ziemlich unlogisch vor die j-e Beobachtung van x_{i mit x_{ji statt mit x_{ij an zu deuten.Nijdam 23:59, 10. Jun 2006 (CEST)}}}

Ich kriege auch immer Bauchweh davon. Aber die Datenmatrix hat als Zeilen die Beobachtungen und als Spalten die Variablen. Deshalb diese Indizierung. --Philipendula 00:24, 11. Jun 2006 (CEST)

Ich weiss, und die Unlogik stammt schon von der Definition einer Matrix. Die erste Spalte der Datenmatrix enthalt aber auch keine Daten, deshalb kan mann definieren: X_{i1=1 und sonst X_{ij = x_{ji.Nijdam 11:57, 14. Jun 2006 (CEST)}}}

residuum

Die Störgröße betrifft die Grundgesamtheit, das Residuum ei die Stichprobe. Siehe ein paar Zeilen weiter unten. Ich wäre dankbar, wenn man es so lassen könnte. --Philipendula 16:26, 14. Jun 2006 (CEST)

Kompromiss ? --Chrisqwq 18:00, 14. Jun 2006 (CEST)

Die Zufallsvariable entstammt immer der Grundgesamtheit, sonst wäre es eine Stichprobe. Und das Residuum ist zwei Zeilen weiter unten erläutert. Bitte versuche es zu lesen. --Philipendula 21:24, 14. Jun 2006 (CEST)

Die Störgröße betrifft nur im algemeinen Model die Grundgesamtheit. Wenn man von einer Stichprobe spricht, soll man eigentlich der Zufallsvariablen meinen den man observieren moechte. Die Stichprobe als observierten Daten ist nur fuer Berechnungen interessant. Man kann also nicht sprechen van die Störgröße, aber von der Störgrößen. Jeder dieser Störgrößen ist ein Komponent eines Elements der Stichprobe und eine (stochastische) Kopie der Störgröße im algemeinen Model. Die erwaehnte Residuen (e_i) sind die Schaetzungen der Störgrößen.Nijdam 23:11, 16. Jun 2006 (CEST)

Es sind keine Schätzungen, weil man eine Zufallsvariable nicht schätzen kann. --Philipendula 23:12, 16. Jun 2006 (CEST)

Ziemlich dogmatisch. Man schaetzt nicht die Zufallsvariable, aber der unbekannte Realisation dieser Zufallsvariable. Und e_i=y_i-(a+bx_i), also ist es ein Funktion der Stichprobe (Englisch: ststistic, or in this case an estimator).Nijdam 00:05, 18. Jun 2006 (CEST)

Prädiktor-Variablen = Regressoren ?

Die Wurden auch vor meinen Änderungen als gleich bezeichnet im artikel, das stimmt aber doch nicht, oder? --Chrisqwq 15:38, 17. Jun 2006 (CEST)

Muss ich mich mal schlau machen. --Philipendula 12:50, 18. Jun 2006 (CEST)

Aenderungen

Es sind im Text Fehlauffassungen. Ich habe einiges rechtgestellt, aber mein Aenderungen sind ohne Diskussion rueckgaengig gemacht. Leider.Nijdam 11:18, 19. Jun 2006 (CEST)

Wenn gleich im ersten Wort Rechtschreibfehler auftreten, setze ich die Änderungen zurück, weil ich keine Lust habe, die ganzen Änderungen Wort für Wort durchzugehen. Ist vielleicht nicht nett, aber meine Zeit ist nicht beliebig für die WP verfügbar. --Philipendula 11:38, 19. Jun 2006 (CEST)

Ich bin kein Deutscher, aber versuche mein Bestens. Auch mein Zeit ist beschraenkt, doch versuche ich wo ich Texten ueber statistische Themen lese, wo noetig sie zu verbessern.Nijdam 13:01, 19. Jun 2006 (CEST)

gehört das hierher?

und ist damit ein wichtiges Werkzeug der Systemidentifikation

Exakt

"Ein lineares Regressionsmodell hat den Vorteil, dass es exakt berechnet werden kann," ????Kann man das Modell exakt berechnen??Nijdam 23:39, 12. Jul 2006 (CEST)

Geloescht

Ich weiss nicht recht was passiert ist, aber es war nicht mein Absicht Text zu loeschen. Da ist etwas schief gegangen. Entschuldige. Nijdam 22:28, 16. Jul 2006 (CEST)

Warum machst du eigentlich den Zirkus mit der Tabelle? Sie ändert sich doch nicht durch das Verkleinern. --Philipendula 23:43, 16. Jul 2006 (CEST)

Weil bei Wikibooks jemand die letzte Reihe versehentlich auch als Daten interpretiert hat, habe ich eine Spalte mit Nummern angebracht und die letzte Reihe als Total angemerkt. Das ist der eigentlichen Zirkus. Hast du es gesehen? Nebenbei habe ich die Lay-out von die zwei Spaltentitel verbessert(? jedenfalls auf mein Monitor).Nijdam 23:08, 17. Jul 2006 (CEST)

Überarbeiten

Der Artikel hat starken Lehrbuchcharakter und schafft nicht zunächst einen Überblick. --Chrisqwq 18:08, 27. Jul 2006 (CEST)

Gliederung

Macht diese Gliederung Sinn? 2 Das klassische lineare Regressionsmodell (KLR) 2.1 Einfache Lineare Regression 2.2 Multiple Regression

Müsste es nicht so sein?: 2 Das klassische lineare Regressionsmodell (KLR)/ Einfache Lineare Regression 3 Multiple Regression --Chrisqwq 16:45, 28. Aug 2006 (CEST)

Tja, es ist ziemlich viel an dem Artikel herumgeschnitzt worden, besser ist er deshalb auch nicht geworden. Vor allem sind jetzt die Annahmen des KLR zweimal drin. IMHO, zugegebenermaßen vorbelastet, war die Version [1] (bis auf den Block der roten Links oben, die man ohne Schaden nach unten befördern könnte) schön rund und komplett. Am liebsten würde ich den Artikel wieder auf diesen Stand zurücksetzen. Aber das verstößt vermutlich gegen das heilige Wikiprinzip, dass jeder darf ... --Philipendula 17:44, 28. Aug 2006 (CEST)

Naja, der alte Artikel war auch nicht besser. Ich habe zu wenig Ahnung, um mich ernsthaft damit zu beschäftigen, und scheinbar geht das einigen anderen auch so. Jedenfalls scheint es sich noch um "work in prograss" zu handeln, und da kann man durchaus mal noch ein paar Tage abwarten. --Scherben 17:52, 28. Aug 2006 (CEST)

Hallo, nein die jetzige Gliederung macht so jetzt keinen Sinn. Eine bessere Gliederung wäre wohl 2 Einfache Lineare Regression 3 Multiple Regression. Ja, es ist steckt wohl noch ziemlich viel Arbeit daran dann Artikel zu verbessern, aber ich geb mir Mühe, nur leider ist das nicht in ein oder zwei Tagen erledigt. Ja, es ist auch klar, dass die Annahmen des KLR zweimal drin sind, aber das sollte auch nicht ein allzu großes Problem sein, diese an einer Stelle zu entfernen. --Pi666 18:26, 28. Aug 2006 (CEST)

Weitere Arbeit an dem Artikel

Hallo, vielleicht sollte wir uns mal darüber Gedanken machen, wie der Artikel in Zukunft aussehen soll.

Den Abschnitt Deskriptive und wahrscheinlichkeitstheoretische Regression sollte man meiner Meinung nach entfernen bzw. in verkürzter Version in die Einleitung miteinbauen, da er wie er jetzt geschrieben ist nur verwirrt.

Schätzung und dergleichen habe ich in den Abschnitt multiple Regression eingebaut, da man von der einfachen Linearen Regression leicht auf die multiple Verallgemeinern kann, dort aber noch anmerken, dass man mit n=1 von der multiplen auf die einfache Regression kommt. Allerdings ist es für die Verständlichkeit auch denkbar, dass man bereits einen Unterabschnitt zur Schätzung und zum Testen einbaut. Dann könnte man im Gegenzug sicherlich auch wieder Schätzung und Testen bei der multiplen Regression kürzen.

Das Beispiel im Abschnitt multiple Regression sollte noch genauer und verständlicher erklärt werden. Ich habe mir hier auch vorgestellt, dass man ein wenig R code angeben könnte, dann erfährt man als Leser auch, wie man sein Modell in einer Statistik-Software umsetzen kann. An diesem Beispiel bin ich derzeit jedoch eh am arbeiten.

Des Weiteren sollte man vielleicht auch 4 Einfaches lineares Regressionsmodell mit Beispiel einer Preis-Absatz-Funktion in den Abschnitt 2 Einfache Lineare Regression miteinbauen. Allerdings müssen dann die theoretischen Werkzeuge, die man benötigt, um das Beispiel zu verstehen auch in diesem Abschnitt ausgearbeitet werden. Nach meinen obigen Ausführungen ist dies jedoch aufjedenfall denkbar.

Vielleicht sollte man auch erstmal den Abschnitt Spezielle Anwendungen der Regressionsanalyse auch erstmal wieder entfernen oder auskommentieren, wann da nämlich alle Links rot sind, dann ist der Abschnitt wohl auch fast wenig hilfreich?

Gruß --Pi666 20:00, 28. Aug 2006 (CEST)

Auslagerung der Multiplen Regression

Ich bitte darum, den Artikel vollständig zu lassen. Er ist aus ca. 6 Artikeln zusammengesetzt worden und es wäre schön, wenn man ihn als Einheit belassen würde. Auch ist die Einfachregression lediglich ein Spezialfall der multiplen Regression und muss keine Sonderbehandlung kriegen. --Philipendula 15:32, 4. Sep 2006 (CEST)

Wie die Regression im Allgemeinen funktioniert kann hier erläutert werden, die Unterpunkte zur einfachen und multiplen Regression gehen aber über das allgemeine Verständnis hinaus und erklären besondere Tatbestände bzw. sehr ausführliche Bespiele zum Verfahren. Übersichtlicher wäre es deshalb kurze Einleitungen stehen zu lassen und die Unterpunkkte auszugliedern. Eine Zusammensetzung aus 6 alten Artikeln wiedersricht nicht einer Auslagerung von 1 bzw. 2 Unterpunkten jetzt. --Chrisqwq 15:53, 4. Sep 2006 (CEST)
Die Lineare Regression ist natürlich im Grunde das gleiche wie die Multiple, ist aber doch wohl dennoch wichtig getrennt zu erläutern, da sonst kaum verständlich, sonst müsste man dies im Artikel ja auch tun. Besser fände ich im Ausgelagerten Artikel einfach einen Einleitungssatz "Die lin. Reg. ist ein sonderfall der multiplen Reg." und fertig. --Chrisqwq 15:59, 4. Sep 2006 (CEST)

Ein Artikel, wie Regression im Allgemeinen funktioniert und dann noch zwei Spezialartikel, die hochgradig redundant sind, halte ich für kontraproduktiv. --Philipendula 16:43, 4. Sep 2006 (CEST)

Dann würdest du sagen, das der bisherige Artikel genau so redundant ist? Dann verändere ihn doch dahingehend, das fänd ich dann ok. Ich denke dann sollte die absrakte Syntax der multiiplen Reg. aber dennoch einmal einfach mit "Schulmathematik" für die Einfachreg. beschrieben werden. --Chrisqwq 16:48, 4. Sep 2006 (CEST)

Warum soll der redundant sein? --Philipendula 16:58, 4. Sep 2006 (CEST)

weil die ausgelagerten Artikel lin Reg. und mult.reg. genaue Kopien des Artikelinhalts waren. Wenn du also sagst, sie seien Redundant, dann enthält der Artikel in der jetzigen Form Redundanzen. --Chrisqwq 17:06, 4. Sep 2006 (CEST)

Das hatte ich schon gemerkt, dass wieder mal einfach mit dem Hackebeil vorgegangen wurde. Wenn man drei Artikel draus macht, muss man aber auch Verbindendes etc. reinschreiben, und dann wird es redundant. Alles einfach aus dem Kontext zu reißen ist stümperhaft. --Philipendula 17:08, 4. Sep 2006 (CEST)

"und dann wird es redundant." denke ich nicht. An was denkst du da? Ich habe einen vorschlag gemacht, der Einleitungssatz, weitere Ergänzungen sehe ich nicht als nötig an. Wenn doch dann nenne sie. Wenn es nicht mehr als 5, 6 Hinweise auf das Oberthema sind denke ich kann man das an Redundanzen verkraften. --Chrisqwq 17:50, 4. Sep 2006 (CEST)

Ich sehr keinerlei Vorteil darin, den Artikel zu zerschlagen. --Philipendula 18:18, 4. Sep 2006 (CEST)

Überarbeitung

wir hatten doch schon drüber gesprochen, mit einfachreg und multipler, daher wolltest du doch keine zwei artikel, weil es im grunde das selbe ist. Wie hättest du denn gerne den Hinweis, das die Verfahren zusammenhängen? Statt zu reverten, könntest du auch konstruktiv dahingehend bearbeiten. Das Beispiel soll dem nichts-wissenden Leser zeigen worum es ungefähr geht, als einführung! --Chrisqwq 12:07, 5. Sep 2006 (CEST)

Wie das zusammenhängt, steht schon oben in den ersten 5 Zeilen. Ich fände es schön, wenn ich mal meine anderen Arbeiten hier machen könnte und mich nicht dauernd hier rumschlagen müsste. --Philipendula 12:13, 5. Sep 2006 (CEST)

Logarithmische Regression und Logistische Regression

Ich hatte jetzt ja einfach mal behauptet das das was anderes ist. Kann mir vieleicht jemand erklären, wie die beiden vieleicht doch zusammen hängen? --Chrisqwq 17:09, 18. Sep 2006 (CEST)

Ja,ich stimm Dir voll und Ganz zu, dass das was anderes ist;-)

Ansatz für logarithmische Regression

Y=\beta _{0}+\beta _{1}\log {x}+\epsilon \;

.

Bei der logistischen Regression arbeitet man mit einer binären Variablen Y, das heißt diese nimmt nur die Werte 0 und 1 an. Und dann lautet das logistische Regressionsmodell

\mathrm {P} (Y_{i}=1|X_{i}=x_{i})={\frac {\exp(x_{i}^{T}\beta )}{1+\exp(x_{i}^{T}\beta )}}

,

Dies baut man dann in das Regressionmodell ein

\mathrm {Logit} (Y_{1/0}|X_{i}=x_{i})=\beta _{0}+\beta _{1}X_{1}+\dots +\beta _{n}X_{n}

Näheres dazu findet sich auch im Artikel Logistische Regression und bei einer Suchmaschine Deiner Wahl. Somit kann man grob sagen, bei der logarithmischen Regression taucht der $\log$ eher bei den Kovariablen x auf und bei der logistischen Regression eher beim Response Y.

Andererseits wäre ich jedoch dafür für Logarithmische Regression, Logistische Regression, Geometrische Regression usw. eigene Artikel zu erstellen und im Artikel Regressionsanalyse darauf zu verlinken, da diese Regressionsformen, wie Du siehst in der Regel sehr speziell sein können und über den Stoff, der in einem Artikel zur Regressionsanalyse abgehandelt werden sollte hinausgeht. Außerdem wird kann der Artikel dann doch sehr schnell sehr groß werden.

Gruß --Pi666 19:25, 18. Sep 2006 (CEST)

Zusammenhangsarten

Die Zusammenhangsarten gehören in Methode der kleinsten Quadrate, weil das numerische Vorgehensweisen sind. Man kann bei den meisten die sich ergebenden Verteilungen der Schätzer gar nicht mehr angeben. --Philipendula 19:39, 18. Sep 2006 (CEST)

Ich würde, wie bereits weiter oben erwähnt eigene Artikel für diese Arten machen. Dennoch kann man ja in den Artikel Regressionsanalyse und Methode der kleinsten Quadrate jeweils Links dazu einfügen. --Pi666 19:47, 18. Sep 2006 (CEST)

*soifz* Wenn ihr meint ... Aber vielleicht sollte man die Links möglichst nicht gleich im Einleitungsteil aufführen. Denn letztlich laufen die ja nach entsprechender Transformation immer auf eine lineare Regression raus. Vor daher verstehe ich nicht, warum da zu jeder Variante ein eigener Artikel her muss. Ausnahmen wären vielleicht Logit oder Probitmodelle. --Philipendula 20:09, 18. Sep 2006 (CEST)

Es war ja auch nur ein Vorschlag, jeweils eigene Artikel zu erstellen. Sicherlich hast Du recht, dass sich Logit- oder Probitmodelle hier besonders anbieten. --Pi666 10:13, 19. Sep 2006 (CEST)

Mit der Transformation kann man aber auch bildlich verdeutlichen. Das ist bisher im Artikel nicht klar rausgestellt. Anderes Thema: Ich wäre dafür lineare Einfachregression und Methode der kleinsten Quadrate zusammenzulegen. Die Unterscheidung numerisch und stochastisch ist kaum durchzuhalten und wird es auch nicht in den Artikeln. Außerdem ist der Artikel Regressionsanalyse viel zu lang. Ich möchte mulitvariate auch auslagern. Das man beide Verfahren ineinander überführen kann kann ja kurz erwähnt werden. Dennoch haben Einfachregression und Multiple Regression doch so viele Besonderheiten das je ein eigener Artikel angebracht ist. --Chrisqwq 04:11, 19. Sep 2006 (CEST)

Ich bin entschieden gegen Ersteres. Ich habe aus dem heillosen Durcheinander von 6 Artikeln diese beiden bemacht, und die Aufteilung ist ok so, weil eben auch die numerische Komponente ein völlig eigene ist. Und einfache und multiple Regression passen gut zusammen, denn sie unterscheiden sich letztlich nur durch die Zahl der Regressoren. --Philipendula 08:00, 19. Sep 2006 (CEST)

Hi Chrisqwq, ich bitte daran zu erinnern, dass diese Artikel nicht vom Himmel gefallen sind, sondern eine Heidenarbeit gekostet haben. Wenn Du das zugrundeliegende Konzept ändern willst, muss schon ein bisschen was handfesteres kommen, um so tiefgehende Änderungen durchzuführen. --P. Birken 09:13, 19. Sep 2006 (CEST)

Eine Zusammenlegung von lineare Einfachregression und Methode der kleinsten Quadrate halte ich nicht für sinnvoll. Da es da doch rein aus fachlicher Sicher mehr Unterschiede als Überschneidungen gibt --Pi666 10:13, 19. Sep 2006 (CEST)

Verwaistes Bild

Bei den verwaisten Bildern gefunden, falls noch benötigt. --Gruß Crux 01:29, 21. Sep 2006 (CEST)