Diskussion:Statistische Signifikanz

Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 6. Juli 2012 um 17:12 Uhr durch HilberTraum (Diskussion | Beiträge) (Irrige Überzeugungen: aw). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Letzter Kommentar: vor 12 Jahren von HilberTraum in Abschnitt Irrige Überzeugungen

Bedeutung von "Statistische Signifikanz"

Die statistische Signifikanz ist zwar schön umschrieben, aber nicht wirklich definiert. Hat jemand genug Ahnung, der das definieren könnte, ohne es nur zu umschreiben?--141.113.86.94 14:31, 1. Okt. 2009 (CEST)Beantworten

Signifikanzniveau

Für mich ist folgende Passage unverständlich

Die Wahl des Wertes 5 % ist wie folgt motiviert: eine normalverteilte Zufallsgröße nimmt nur mit einer Wahrscheinlichkeit von weniger als 5 % einen Wert an, der sich vom Erwartungswert um mehr als die zwei-fache Standardabweichung unterscheidet.

Warum wird die zwei-fache Standardabweichung akzeptiert? Mir ist nicht klar wie sich diese Begründung von der Aussage "5% Irrtumswahrscheinlichkeit sind akzeptabel" unterscheidet. 84.60.37.242 18:07, 22. Apr. 2008 (CEST)Beantworten

Ich verstehe die Frage nicht genau. Also formuliere ich den Satz mal um, vielleicht wird es dann klarer:
Die Fläche unter der Gaußschen Glockenkurve beträgt 1. Der Teil der Fläche, der von der Mittellinie bis zu 2 Standardabweichungen entfernt ist, also eine Art mittlerer Streifen, beträgt 0,95 (genauer 0,9545).
Ein Ergebnis in diesem mittleren Streifen wird als Bestätigung der Nullhypothese betrachtet. Falls die Nullhypothese richtig ist, wird sie also mit 95% Wahrscheinlichkeit bestätigt, mit 5% Wahrscheinlichkeit gibt es ein falsch positives Ergebnis.
Wenn die Nullhypothese falsch ist, kann man nichts berechnen. --Hob 14:21, 23. Apr. 2008 (CEST)Beantworten

p-Wert

Aus dem ersten Abschnitt habe ich den p-Wert gelöscht.   ist nicht gleich p, sondern eine vorher gewählte obere Schranke dafür. --Johannes Hüsing 08:57, 31. Jan. 2008 (CET)Beantworten

Abschätzungen

Es gibt auch genauere Abschätzungen der Signifikanz - die die Anzahl der Stichproben mit einbeziehen. - Das sollte man hier mal ausbessern (statt der pauschalen 5%). Habe aber die entsprechenden Formeln nicht parat. mtob 22:00, 7. Jun 2003 (CEST)

Je mehr Fälle, desto höher die Signifikanz. Bei riesigen Stichproben ist quasi alles Signifikant :-) (Raffael Meier)

Nein! Gegenbeispiel: Würfeln, dabei ist die Hypothese "6 erscheint öfter als 1" nicht signifikant, eben _weil_ der ganze Vorgang zufällig ist.--128.101.154.21 18:40, 3. Mär 2006 (CET)

Power

Das mit der Power = Aussagewert habe ich aber anders gekannt. Falls jemand meine Änderungen nicht mag, bitte melden -- Arcimboldo 06:32, 16. Apr 2005 (CEST)

  • Meld* Die Medizinstatistiker Beck-Bornholdt und Dubben widersprechen der Meinung, dass Signifikanz mit der Irrtumswahrscheinlichkeit gleich zu setzen sei. Signifikante Studien können trotzdem eine geringe statistische Power, i.e. Aussagewert, haben. Statistische Signifikanz ist also ein notwendiges Kriterium, aber noch kein hinreichender Beweis für die Wirksamkeit eines Medikaments.

Dieser (nun gelöschte) Absatz behandelt die unterstellt Beziehung zw Signifikanz und der Irrtumswahrscheinlichkeit und das kommt jetzt IMHO nimmer vor.---^°^ @

Doch - er kommt im Paragraph darunter behandelt:

Weiters sind folgende (verbreitete) Meinungen über das Signifikanzniveau irrig und nicht zutreffend: Das Signifikanzniveau lege fest

die Effektgröße

die Wahrscheinlichkeit, dass die Nullhypothese wahr oder falsch ist

die Wahrscheinlichkeit, dass die Alternativhypothese wahr oder falsch ist

den Grad der Zuversicht, dass das Ergebnis wiederholbar ist

Ich finde den Satz daher unnötig - und vor allem ist diese Erkenntnis Allgemeingut, und keine Erleuchtung durch Beck-Bornholdt und Dubben. Ich wäre dafür, ihn rauszunehmen, die Referenz in der Literaturliste kann ja bleiben. Gruß -- Arcimboldo 14:26, 17. Apr 2005 (CEST)

    • Also so wie die Autoren, dass darstellen ist es (für sie als Medizinstatistiker) keineswegs Allgemeingut. AUch nicht in der Forschung, sagen sie, oder hat sich inzwischen schon Cohen durchgesetzt?: Für medizinische Behandlungen schlägt Cohen (1969) für β einen 4mal so hohen Wert vor wie für α, die Teststärke gibt er somit ungefähr mit (1 - β = 1 - 4 * α) 1-4*0,05=80%, oder weniger an, wenn α=0,05 ist.--^°^ @
      • Auch das hat eigentlich nicht viel mit der Aussage an sich zu tun. Und durchgesetzt hat es sich durchaus - jedenfalls in der pharmazeutischen Entwicklung, in der ich als Statistiker tätig bin, sind Studien mindestens mit 80, meist mit 90%, gepowert. -- Arcimboldo 15:42, 17. Apr 2005 (CEST)
        • ok, schön zu hören, Bornhold &Dubben meinen, dass der Fehler.2.art nur in wenigen spitzenzeitschriften wirklich berücksichtigt wird und die Power in den Sudien ihres fachgebiets deutlcih unter 50% liegt (2001).--^°^ @ 12:11, 19. Apr 2005 (CEST)

PS: Und der Teil "Signifikante Studien können trotzdem eine geringe statistische Power, i.e. Aussagewert, haben." ist schlicht falsch. Wenn die Studie signifikant war, dann war die statistische Power hoch genug .... Der Aussagewert ist etwas anderes als die Power -- Arcimboldo 14:30, 17. Apr 2005 (CEST)

  • ist ein Problem der Fachsprache, IMHO. Was ist dann der AUssagewert, Laienhaft wir er (irrtümlich) mit der Signifikanz gleichgesetzt und die POWER vernachläßigt.--^°^ @

Nein. Wenn Du das mit der "Power" aus dem Satz rausließest, dann würde er richtig. Du verwechselst statitistische Power mit klinischer Relevanz. Aber zu diesem Thema habe ich dann den ganzen Absatz dahinter geschrieben, der die gleiche Aussage etwas ausführlicher beschreibt. Und die Sache mit der Signifikanz ist dahinter ist im Absatz "irrige Überzeugungen" dahinter in den von mir fett gesetzten Stellen, nochmals, und zwar besser und präziser, beschrieben (der stammt nicht von mir, stand schon drin). Auch wenn manche Leute, die selbst Auswertungen machen, sich nicht darüber im klaren sind - Beck-Bornholdt und Dubben bringen keine neue wissenschaftliche Erkenntnis ein, sondern legen nur einen Sachverhalt dar. -- Arcimboldo 15:25, 17. Apr 2005 (CEST)

Also ich weiß nicht recht, was ihr von mir hören wollt. Ich kenne den Begriff Signifikant nur für eine Prüfgröße, die in den Ablehnungsbereich fällt, egal, wie klein der Beta-Fehler ist. Wie groß jetzt die Güte (also Power) sein muss, damit der Test akzeptabel ist, ist Geschmacksache und wohl auch branchenabhängig. Bei vielen Tests, etwa des Korrelationskoeffizienten, ist es überhaupt schwierig, einen Beta-Fehler anzugeben, weil man es hier mit einer nichtzentralen Betaverteilung zu tun. Wahrscheinlich wäre es korrekter, die verschiedenen testtheoretischen Kriterien für Tests einzuführen, wie Konsistenz, bester Test, gleichmäßig bester Test, unverfälschter (unbiased) Test. Insgesamt ist das Konglomerat Testen hier recht ausgeufert und unstrukturiert. Es gehörten IMHO mal einige wenige Artikel draus gemacht. Aber bisher habe ich es gescheut und werde es wohl weiterhin tun. ;) --Philipendula 23:15, 18. Apr 2005 (CEST)
Hier jetzt erst ein Kompromissvorschlag zur Güte: Statistisch signifikante Studien können trotzdem einen geringen statistische Power, praktischen Aussagewert haben.
Ich versuche noch einmal, klar zu machen, warum die Power in den Kontext nicht hineinpasst: Die Power ist ein Element der Versuchsplanung. Sie ist, unter den bei der Planung getroffenen Annahmen über die tatsächliche Effektgröße, die Wahrscheinlichkeit, ein statistisch signifikantes Ergebnis zu erzielen. Wenn die Studie signifikant ist, dann ist eben dieses Ereignis schon eingetreten - es spielt also keine Rolle mehr, was die Annahmen und die in der Planung berechnete Power war. Bzw. die Power war eben, nachträglich betrachtet, hinreichend groß.
Und den anderen Satz in den Paragraphen darunter einarbeiten, weil er die dortige Thematik behandelt: Entgegen weit verbreiteter Meinung ist Signifikanz mit der Irrtumswahrscheinlichkeit gleich zu setzen (Beck-Bornholdt und Dubben). Nicht zutreffend sind die Annahmen, das Signifikanz (bzw. der beobachtete P-Wert) lege fest: ...
Wenn das ok ist, werde ich es morgen einarbeiten. Die Strukturfrage für den Artikel stellt sich natürlich unabhängig davon. Insgesamt finde ich es aber richtig, der Frage der richtigen Interpretation Raum zu geben. Gruß -- Arcimboldo 08:03, 19. Apr 2005 (CEST)
ist Signifikanz mit der Irrtumswahrscheinlichkeit gleich zu setzen. Da fehlt ein "nicht", nicht (wahr).--~~ 12:11, 19. Apr 2005 (CEST)
Das ist richtig, danke für die Korrektur. -- Arcimboldo 12:24, 19. Apr 2005 (CEST)
ok, mach mal, ich vertrau dir.--^°^ @
  • Dieser zufällige Fehler wird allgemein als Fehler 1. Art und bei Signifikanzen als Irrtumswahrscheinlichkeit bezeichnet. Da hinkt was, weil ja in die Irrtumswarscheinlichkeit der Fehler 1. und 2.ter art reingeht.--^°^ @ 11:00, 19. Apr 2005 (CEST)
@Nerd: Häufig wird für den Alpha-Fehler synonym auch Irrtumswahrscheinlichkeit gebraucht. Diese etwas unpräzise Bezeichnungsweise verkompliziert meistens das Ganze noch. --Philipendula 11:09, 19. Apr 2005 (CEST)
das sollte auch irgenddwie erwähnt werden ("fälschlich,aber verbreitet", oder so).--^°^ @ 12:11, 19. Apr 2005 (CEST)
Bei der beschriebenen Situation geht es darum, dass ein Unterschied festgestellt wurde, also die Nullhypothese "kein Zusammenhang" ist schon widerlegt. Es ist also nur noch ein Fehler 1. Art möglich (der Fehler 2. Art wäre, wenn kein Zusammenhang festgestellt worden wäre, aber in Wahrheit einer bestünde). Aber, wie schon Philipendula erwähnt hat, ist es in der Tat etwas unglücklich, dass der Artikel im oberen Teil quasi alpha und Irrtumswahrscheinlichkeit synonym verwendet, und dann später klarstellt, dass die beiden nicht das Gleiche sind. -- Arcimboldo 12:24, 19. Apr 2005 (CEST)
...also die Nullhypothese "kein Zusammenhang" ist schon widerlegt. Wodurch eig?--^°^ @

Bin mit der genannten Power Definition nicht einverstanden. Die Power ist hoch wenn *trotz* kleinem N Signifikanz und eine hohe Effektstärke erreicht wird. Im Artikel ist das genau anders herum benannt. Im weiteren ist der spätere Verweis auf den Artikel Effektgröße schlecht, besser auf den (für diesen Zusammenhang korrekten) Artikel Efektstärke verweisen Gruß --Axel

die Effektgröße

das habe ich in den Artikel reingeschrieben, ohne zu wissen, was es bedeutet, ev kann das jm ausführen.--^°^ @

überarbeiten

Unter Verwandte Themen steht T-Test, hier ist der Bezug nicht direkt ersichtlich, beiOperationscharakteristik scheint ein sehr enger Bezug zu sein, der mir aber nicht klar ist, daher sollte hier und dort der Bezug erläutert werden. --Siehe-auch-Löscher 10:35, 5. Sep 2005 (CEST)

Signifikanz/Irrtumswahrscheinlichkeit

"Entgegen weit verbreiteter Meinung ist Signifikanz mit der Irrtumswahrscheinlichkeit gleich zu setzen" stimmt nicht, wie sich aus den zwei Einleitungssätzen des Artikels ergibt. --Fuzzy 01:38, 11. Jan 2006 (CET)

Soweit ich weiß, sieht die Meinungslage so aus:
  • Weit verbreitete Meinung: "Signifikanz = Irrtumswahrscheinlichkeit"
  • Beck-Bornholdt, Dubben: "Signifikanz <> Irrtumswahrscheinlichkeit"
  • Alle anderen Statistiker: "Signifikanz <> Irrtumswahrscheinlichkeit"
Oder? Dann erweckt das "nach Meinung von BB und D" einen völlig falschen Eindruck. --Hob 15:59, 11. Jan 2006 (CET)
  • "Dann erweckt das "nach Meinung von BB und D" einen völlig falschen Eindruck" wieso--^°^ 23:28, 11. Jan 2006 (CET)
"Nach Meinung von Otto Müller ist die Erde keine Scheibe." - Die Formulierung klingt doch irgendwie so, als ob Herr Müller da eine zweifelhafte oder zumindest ungewöhnliche Meinung hat, und nicht als ob er die Auffassung widergibt, die so ziemlich jeder über das Thema Informierte vertritt. Oder? --Fuzzy 23:57, 11. Jan 2006 (CET)
Volle Zustimmung. Leider scheint Benutzer Nerd an seiner Lieblingsreferenz sehr zu hängen, die einen bekannten Sachverhalt nur zum xxx-ten Male wiedergibt und keineswegs eine eigenständige Quelle der Originalität ist. Ich würde lieber die letzten Reverts wieder rückgängig machen. -- Arcimboldo 03:59, 12. Jan 2006 (CET)
Bevor hier wieder personenorientiert und nicht themeno. disk. wird. was heißt "und keineswegs eine eigenständige Quelle der Originalität ist"?--^°^ 09:37, 12. Jan 2006 (CET)
Ich hab dazu die Zwischenüberschrift "Irrtumswahrscheinlichkeit und Signifikanzniveau" eingefügt und den Unterschied an ein paar Stellen deutlicher gemacht. Und (als IP) hinzugefügt: Im Output mancher Statistikprogramme (z. B. SPSS) wird die Irrtumswahrscheinlichkeit, also der p-Wert, als "Sig." oder "Signifikanz" bezeichnet, was zu Missverständnissen führen kann. Richtig ist hingegen: Signifikanz liegt vor, wenn die Irrtumswahrscheinlichkeit kleiner oder gleich dem Signifikanzniveau ist. --Philipp T. 04:34, 28. Aug 2006 (CEST)
Signifikanzniveau und Irrtumswahrscheinlichkeit sind zwei verschiedene Dinge!

Irrtumswahrscheinlichkeit ist der Anteil der falschen Testergebnisse an allen Testergebnissen, und nicht der "p-Wert". -- ~ğħŵ 17:19, 21. Sep. 2007 (CEST)Beantworten

Diese Diskussion ist müßig! Gemäß der Sprechweise von PASW (SPSS) und anderen Statistikprogrammen ist Signifikanz = Irrtumswahrscheinlichkeit. Das ist als Definition zu betrachten und kann deswegen nicht falsch sein, schon gar nicht "nach jemandes Meinung". Insbesondere ist es also keine "irrige Auffassung", den Begriff Signifkanz im Sinne von Irrtumswahrscheinlichkeit zu verwenden; man schließt sich hier nur der Definition der Statistikprogramme an. (Man kann allerdings darauf verweisen, dass der Begriff Signifikanz im Deutschen dann zwei Bedeutungen hat, nämlich (a) die metasprachliche Bedeutung, dass "Signifikanz vorliegt, wenn die Irrtumswahrscheinlichkeit kleiner als das Signifikanuniveau ist" und (b) die innermathematische Bedeutung einer bedingten Wahrscheinlichkeit. So würde ich es auch halten, statt einen aussichtslosen und überflüssigen Kampf gegen eine von einem weltweit verbreiteten Statistikpaket vorgegebene Definition zu führen.) -- Chth 15:59, 10. Feb. 2011 (CET)Beantworten

Korrelation ist nicht gleich Kausalität: Storchenbeispiel

Das Beispiel mit den Störchen und der Geburtenrate ist nicht zulässig, weil hier einfach zwei nicht-stationäre, d.h. Trend-dominierte Variablen miteinander "korreliert" wurden. Plädiere daher dafür, dieses Beispiel schlicht zu löschen.

Einleitung

Die Formulierung der Einleitung war falsch.

  • "wenn die Wahrscheinlichkeit gering ist, dass sie durch Zufall zustande gekommen sind" wäre "Wahrscheinlichkeit, dass Zufall, unter der Voraussetzung, dass signifikant".
  • "wenn die Wahrscheinlichkeit, dass sie durch Zufall zustande kommen, gering ist" ist "Wahrscheinlichkeit, dass signifikant, unter der Voraussetzung, dass Zufall".

Letzteres kann man berechnen, ersteres nicht. Letzteres ist 5%. Sehr beliebtes Missverständnis. --Hob 10:03, 8. Mai 2008 (CEST)Beantworten

Die Zusammenhaenge bestehen in der Stichprobe, sie sind also zustandegekommen. Das Signifikanzniveau gibt Dir die Wahrscheinlichkeit an, dass der real existuierende Zusammenhang durch Zufall entstanden ist (unter allerlei Voraussetzungen naturalmente). Und ein <5%-Signifianzniveau ist auch nur ein typische Konvention, keine mathematische Definition. Fossa?! ± 15:45, 8. Mai 2008 (CEST)Beantworten
"Wahrscheinlichkeit an, dass der real existuierende Zusammenhang durch Zufall entstanden ist" - Falsch. Konsultiere bitte ein Statistikbuch für Anfänger. Von Walter Krämer gibt es sehr schöne solche, aber der ist GWUP-Mitglied, also ist seine Mathematik für dich vermutlich zu totalitär und extremistisch. Ob du einen kompetenten Dumb-Statistiker findest, ist eher zweifelhaft.
Dass 5% eine Konvention ist, ist sowieso klar und stand nie zur Debatte. --Hob 16:08, 8. Mai 2008 (CEST)Beantworten
Hihi, also selbst in Statistiksachen argumentierst du nebuloes: Was konkret ist falsch und wo konkret steht das Gegenteil? Ich habe kein Statistik-Buch von Herrn Kraemer, aber lese folgendes: "When the experiment has been performed, [...] we can compute the observed value of D. (Anm.: D ist die Teststatistik) Then the significance level is: SL=P{D>Dobs|H is true}" (Kalbfleisch: Probability and Statistical Inference: Vol. 2, S. 136). Oder hier: "Statistical significance is the probability of having observed" Oder hier The observed level. Fossa?! ± 18:08, 8. Mai 2008 (CEST)Beantworten
PS: Erst jetzt sehe ich, dass das Problem die Gleichung "wenn die Wahrscheinlichkeit gering ist, dass sie durch Zufall zustande gekommen sind" wäre "Wahrscheinlichkeit, dass Zufall, unter der Voraussetzung, dass signifikant" ist. Diese Gleichung sehe ich nicht. Stattdessen geht's hier um "Wahrscheinlichkeit, dass Zufall, unter der Voraussetzung, dass sie zustandegekommen sind." Fossa?! ± 18:16, 8. Mai 2008 (CEST)Beantworten
Das kommt auf das gleiche heraus, siehe ganz unten. Du machst genau den weit verbreiteten Fehler, von dem ich rede. Ich werde versuchen, die Erklärung einfach zu halten, damit möglichst viele Leser sie verstehen.
Die Gaußsche Glockenkurve im Artikel Normalverteilung beschreibt den Fall "es herrscht der Zufall", die Nullhypothese. Richtig?
Führt man eine Untersuchung aus, erhält man als Resultat einen Wert, der irgendwo auf der Zahlengerade liegen kann. Die Experimentatoren schauen sich dann an, in welchen Bereich der Normalverteilung der Wert liegt - mehr in dem Hubbel in der Mitte oder mehr in den Ausläufern, in den Schwänzen links und rechts. Richtig?
In dem Bild "Quantile einer Normalverteilung" in dem gleichen Artikel ist an verschiedenen Stellen der Schwanz der Kurve so abgeschnitten, dass die Fläche unter der Kurve rechts vom Schnitt bestimmte Werte erreicht. Die Signifikanz ist durch die Stelle definiert, an der der Anteil der Fläche jenseits dieser Stelle 2,5% beträgt (und im rechten Schwanz an der symmetrischen Stelle nochmal 2,5%, macht zusammen 5%, und es gibt auch höhere übliche Signifikanzwerte, aber das ist für das Verständnis nicht so wichtig). Richtig?
Die 2,5%-Marke links von der Null und die 2,5%-Marke rechts von der Null klemmen zwischen sich einen Streifen um die Null herum ein. Ein Ergebnis ist signifikant, wenn es außerhalb des Streifens liegt, also im linken oder rechten Schwanz der Kurve. Richtig?
Ich wiederhole: In dem Streifen liegen 95% der Fläche unter der Kurve. Richtig?
Ich wiederhole: die Fläche beschreibt die Nullhypothese, also den reinen Zufall. Richtig?
Das heißt, das Verhältnis zwischen
Anzahl der signifikanten Untersuchungen, falls der Zufall herrscht
und
Anzahl der Untersuchungen, falls der Zufall herrscht
ist 5%. Richtig?
Falls die Nullhypothese falsch ist, also falls kein Zufall herrscht, sondern ein nichtzufälliger Effekt vorliegt, dann liegt eine andere Kurve vor, die gegenüber der reinen Zufallskurve um einen bestimmten Betrag nach links oder rechts verschoben ist, aber ansonsten identisch ist. Der Betrag, um den die Kurve verschoben ist, ist den Forschern noch unbekannt, denn sie wollen ja erst herausfinden, ob der Effekt existiert. Damit ist den Forschern auch unbekannt, wo die verschobene Kurve von der Signifikanz zerschnitten wird. Richtig?
Damit lässt sich keine der Zahlen
Anzahl der signifikanten Untersuchungen, falls der Zufall nicht herrscht
und
Anzahl der Untersuchungen, falls der Zufall nicht herrscht
zu einer der beiden anderen Zahlen
Anzahl der signifikanten Untersuchungen, falls der Zufall herrscht
und
Anzahl der Untersuchungen, falls der Zufall herrscht
oder zueinander a priori in Beziehung setzen. Richtig?
Damit ist klar: die 5% ist der Anteil der signifikanten Untersuchungen unter den Untersuchungen, bei denen der Zufall herrscht. QED.
"Wahrscheinlichkeit, dass Zufall, unter der Voraussetzung, dass sie zustandegekommen sind." wäre das Verhältnis des Schwanzteils der ersten, zufälligen, die Nullhypothese beschreibenden Kurve zu demjenigen Teil der verschobenen Kurve, der außerhalb des Signifikanzstreifens liegt. Das kann man selbstverständlich erst berechnen, wenn man weiß, wie groß der Effekt ist. Zu diesem Zeitpunkt ist der Käse bereits verzehrt.
Von der "Wahrscheinlichkeit, dass Zufall, unter der Voraussetzung, dass sie zustandegekommen sind" wird immer wieder behauptet, man habe sie berechnet, aber tatsächlich ist in jedem Fall die "Wahrscheinlichkeit, dass signifikant, unter der Voraussetzung, dass Zufall". Nur diese ist überhaupt berechenbar.
Das Zitat von Kalbfleisch widerspricht meinen Ausführungen nicht. Das Zitat von Breakwell et al. bestätigt meine Ausführungen, wenn man den Kontext nicht abschneidet. Allerdings müssen die es etwas komplizierter machen, weil sie die Größe "Signifikanz" definieren, was ich aus Einfachheitsgründen unterlassen habe.
Das komplette Zitat ist:
Statistical significance is the probability of having observed a test statistic as large as you have if there was in fact no relationship between the variables in question.
Auf deutsch: die Signifikanz eines bestimmten Ergebnisses ist die Wahrscheinlichkeit, dass so ein großes (oder ein noch größeres) Ergebnis auftritt, falls der Zufall herrscht.
Auf deutsch und mit Beispiel: wenn die Signifikanz eines bestimmten Ergebnisses genau gleich 5% ist, dann ist die Wahrscheinlichkeit, dass so ein großes (oder ein noch größeres) Ergebnis auftritt, falls der Zufall herrscht, genau bei 5%.
Auf deutsch mit Beispiel und das Signifikanzniveau eingesetzt: wenn ich alle Ergebnisse betrachte, die signifikant auf dem 5%-Niveau sind, dann liegt die Wahrscheinlichkeit, dass eines dieser Ergebnisse auftritt, falls der Zufall herrscht, bei 5%.
Also geht es um die "Wahrscheinlichkeit, dass sie zustandegekommen sind, unter der Voraussetzung, dass Zufall." Und nicht, wie du fälschlich behauptest, die "Wahrscheinlichkeit, dass Zufall, unter der Voraussetzung, dass sie zustandegekommen sind."
Das ist genau das, was ich sage. Also: damit haben wir ja unsere gesuchte Quelle. --Hob 21:55, 8. Mai 2008 (CEST)Beantworten
Ergänzung aus Diskussion:Homöopathie, hierher kopiert [1]:
Auch wenn die 1:1-Übertragung nach meiner begrenzten ärztlichen Kenntnis nicht geht, müssen wir das nicht weiter diskutieren. Ich schließe aber aus dem, was Du schreibst, dass 19 von 20 signifikant positiven H.-Studien kein Phantom zeigen. Die Interpretation dieses Befunds ist eine andere Geschichte. --RainerSti 23:00, 8. Mai 2008 (CEST)Beantworten
Nein, genau das ist nicht der Fall, und genau das ist das populäre Missverständnis. Stell dir einen hypothetischen Wissenschaftler vor, der ein außerordentlich gutes Näschen dafür hat, echte Effekte aufzuspüren. Wenn der eine Untersuchung anstellt, dann trifft er auch ins Schwarze und findet einen existierenden Effekt, der so groß ist, dass er die Signifikanzhürde leicht überspringt. Betrachtet man die von diesem Wissenschaftler angestellten Untersuchungen, stellt man fest: 100% der signifikant positiven Studien sind richtig-positiv, 0% sind falsch-positiv.
Und nun das Gegenteil: betrachte einen Wissenschaftler, der ein Weltbild hat, das von der Realität weit entfernt ist. Er glaubt, dass man von Wassertrinken Gicht bekommt und dass Briefmarkensammler besonders oft Linksextremisten sind. Alle seine Untersuchungen betreffen Effekte, die in der Realität nicht existieren. Seine Ergebnisse sind zufällig, und wegen der Definition der Signifikanz sind 5% seiner Untersuchungen falsch-positiv, die restlichen 95% richtig-negativ. Richtig-positive Ergebnisse hat er nicht. Die 5% Treffer als bewiesene Ergebnisse zu bezeichnen ist ein Fehler, den Statistiker als Texas sharpshooter fallacy bezeichnen. Der deutsche Artikel dazu heißt Zielscheibenfehler.
Wie man sieht, hängt das Verhältnis zwischen richtig-positiven und falsch-positiven Ergebnissen davon ab, ob man geschickt sucht oder ungeschickt. Sollte es tatsächlich mal 5% sein, dann höchstens durch Zufall.
Wenn es also 20 signifikant positive Untersuchungen zur Homöopathie gäbe, einer absurden Theorie, die mein erster Beispielwissenschaftler nicht mit der Feuerzange anfassen würde, dann wären die vermutlich alle falsch-positiv, weil sie von Leuten stammen wie meinem zweiten Beispielwissenschaftler, und es gäbe ungefähr weitere 380 Untersuchungen, die diese Leute zum Teil in den Mülleimer geworfen haben oder die nur von Skeptikern zitiert werden.
Dein Missverständnis halte ich für eine der Ursachen für den Glauben (unter anderem) an Homöopathie. Jemand mit halbem Statistikwissen erfährt von signifikant positiven Ergebnissen, multipliziert deren Zahl fälschlich mit 95% und glaubt, dann die falsch-positiven weggerechnet zu haben.
Aus dem gleichen Grund gibt es wohl so viele angeblich krebserregende Stoffe. Man untersucht zusammen mit echt Gefährlichem Tausende harmloser Substanzen, und 5% der Harmlosen landen als Übeltäter in den Schlagzeilen. --Hob 09:06, 9. Mai 2008 (CEST)Beantworten
--Hob 08:40, 13. Mai 2008 (CEST)Beantworten

"d.h. mit hoher Wahrscheinlichkeit nicht zufällig sind"

ist falsch. Bitte Diskussion:Statistische_Signifikanz#Einleitung durchlesen und verstehen. Die Wahrscheinlichkeit, dass ein statistisch signifikantes Ergebnis nicht zufällig ist, kann 100% sein, sie kann aber auch 0% sein. Es ist unbekannt, wie hoch sie ist. --Hob 13:53, 16. Mai 2008 (CEST)Beantworten

Danke für die Korrektur. Deine Sätze sind alle richtig. Leider aber recht schwer verdaulich, was sicher auch in der Sache begründet liegt. Ich werde noch etwas über den Satz, den Du zuletzt eingefügt hast, nachdenken und evtl. eine alternative Formulierung bringen. Auf jeden Fall versuche ich, es nicht wieder falsch herum hinzudrehen; habe Deinen Punkt verstanden. :-) -- Digisus 18:33, 16. Mai 2008 (CEST)Beantworten

Alternative Formulierung ist gut. Das ist alles sehr schwer gut und knapp zu erklären. --Hob 18:45, 16. Mai 2008 (CEST)Beantworten

"Auch Unterschiede, die statistisch signifikant sind, können zufällig sein: Das ist per Definition wenig wahrscheinlich, aber nicht ausgeschlossen. Signifikanz schließt Zufälligkeit nicht aus, sie steht aber für deren geringe Wahrscheinlichkeit."

Schon wieder falsch. Dass "Unterschiede, die statistisch signifikant sind", "wenig wahrscheinlich" seien, heißt: Nur wenige der statistisch signifikanten Ergebnisse sind zufällig. "Geringe Wahrscheinlichkeit" der "Zufälligkeit" macht die gleiche Aussage.
Das ist aber, wie bereits mehrfach gesagt, nicht wahr. Ich wiederhole: Haben die Forscher bei der Auswahl der vermuteten Effekte ein schlechtes Händchen, dann sind 100% der statistisch signifikanten Ergebnisse zufällig. --Hob 10:31, 19. Mai 2008 (CEST)Beantworten
Ok, ich verstehe es nicht und werde auch nichts mehr daran herumbasteln. (Den Satz mit den "Untersuchungen" verstehe ich nicht wirklich. Vielleicht sollte das ein eigener Abschnitt werden. Dannn können die "Untersuchungen", die sonst in der Einleitung nicht auftauchen und etwas plötzlich erscheinen, eingeführt werden.) Digisus 20:48, 19. Mai 2008 (CEST)Beantworten
Dann versuche ich es mal so:
Positiv heißt signifikant, negativ heißt nicht signifikant.
  • FP = Anzahl der falsch positiven Ergebnisse (Zufall, signifikant)
  • RN = Anzahl der richtig negativen Ergebnisse (Zufall, nicht signifikant)
  • FN = Anzahl der falsch negativen Ergebnisse (kein Zufall, nicht signifikant)
  • RP = Anzahl der richtig positiven Ergebnisse (kein Zufall, signifikant)
FP / (FP+RN) ist die Wahrscheinlichkeit, dass signifikant, falls Zufall. Denn RN ist der Rest vom Zufall, der nicht signifikant ist.
FP / (FP+RN) = 5%
FP / (FP+RP) ist die Wahrscheinlichkeit, dass Zufall, falls signifikant. Denn RP ist der Rest der signifikanten, der nicht zufällig ist.
FP / (FP+RP) ist unbekannt. Das kann 100% sein oder auch 0% oder irgendwas dazwischen. Das hängt davon ab, wie viele zufällige und wie viele nichtzufällige Dinge man untersucht.
Untersucht man ausschließlich zufällige Dinge (schlechtes Näschen), sind FN und RP=0, und FP / (FP+RP) = 100%.
Untersucht man ausschließlich nichtzufällige Dinge (gutes Näschen), sind RN und FP=0, und FP / (FP+RP) = 0%. --Hob 07:22, 20. Mai 2008 (CEST)Beantworten


signifikant: mir ist unklar, warum signifikant "wesentlich" hier bedeutet. Sollte es nicht eher heißensichtbar? Der Duden beschreibt signifikant auch mit "bezeichnend, anschaulich".


Um Wikipedia-Artikel, die sich mit Mathematik befassen, zu verstehen braucht man 3 Dr.- Titel und ein Lexikon um alle Fremdwörter nachzuschlagen, schade eigentlich. 91.128.58.36 17:42, 3. Mai 2009 (CEST)Beantworten

Beispiel

Hi,

mir fehlt in dem Artikel ein Beispiel mit einer Rechnung. Da ich mir folgendes Beispiel selbst überlegt habe, würde ich gern eure Meinung dazu hören, bevor ich es in den Artikel stelle:


Anna behauptet, mit einer Wünschelrute Wasser finden zu können. Um das zu beweisen, versteckt Bernd einen Eimer Wasser unter einem von zehn Kartons. Falls Anna den richtigen Karton findet, könnte es ein Zufall gewesen sein. Aus diesem Grund wiederholen sie den Test 13 mal. Wie oft muss Anna mindestens den Eimer mit Wasser finden, damit ihr ein Wünschelrutengänger-Talent mit einer Sicherheit von mindestens 90% bestätigt werden kann?

 := "Anna hat geraten"
 := "Anzahl der Treffer"

Anna rät richtig Anna rät falsch
Wasser ist in dem Karton 1/10 9/10
Kein Wasser ist in dem Karton 9/10 1/10

 
 
 


Hinweis: Ich habe vor kurzem eine Galileo-Sendung gesehen, in der so eine Aufgabe gestellt wurde. Ein Amerikaner bietet demjenigen, der Beweisen kann übersinnliche Fähigkeiten zu besitzen, 1.000.000 US-Dollar. Die Person, die getestet wurde, hätte den Eimer Wasser 7 von 13 mal finden müssen. Damit hätte man ihr ein Talent mit einem Signifikanzniveau von 99,99919 % bestätigt. Siehe en:List of prizes for evidence of the paranormal --MartinThoma 12:22, 15. Mai 2010 (CEST)Beantworten

Irrtumswahrscheinlichkeit und Signifikanzniveau

Na gut, dann versuchen wir es doch mal auf der Diskussionsseite: Meines Wissens ist etwas signifikant oder eben nicht. Die Sache, dass etwas "sehr signifikant" oder "hoch signifikant" ist, ist IMHO nicht korrekt. Gibt es denn Quellen dafür, wo man dies nachlesen kann? -- Warfair 12:59, 3. Mär. 2011 (CET)Beantworten

[2], Fußnote. --Hob
Also signifikant und hoch signifikant habe ich schon gehört; die beiden anderen Begriffe scheinen eher in den Anwendungswissenschaften, seltener in der Statistik, benutzt zu werden. --Sigbert 21:08, 3. Mär. 2011 (CET)Beantworten
Und damit haben wir nun den Salat. :) Mir sind alle Begriffe bekannt - allerdings teste ist doch immer auf ein bestimmtes Signifikanzniveau. Die nachträgliche Unterscheidung, ob es nun signifikanter ist oder nicht, widerstrebt meinem bisherigen Wissen. Allerdings habe ich sowas auch bisher nur in Zeitschriften entdeckt. Wenn es verwendet wird, dann sollte man vielleicht den Artikel so umschreiben, dass es oft verwendet wird, aber nur eine Kovention und kein echter Fakt ist. Vielleicht finden wir ja noch jemanden, der sich mehr mit der Materie auskennt... -- Warfair 11:52, 4. Mär. 2011 (CET)Beantworten
Hier sind viele, die sich auskennen.
Im Artikel steht: "Obwohl es frei wählbar ist, findet man in der Literatur häufig ein Niveau von 5 %." Die 5% sind eine Konvention, reine Willkür, genau wie es da steht. --Hob 13:08, 4. Mär. 2011 (CET)Beantworten
Die 5% sind ja auch in Ordnung. ;) Mir geht es nur darum, dass etwas per Definition nicht signifikanter sein kann. Also das etwas, auf 1% nicht signifikanter ist, als auf 5%-Niveau. Für die Bedeutsamkeit des Effekts, existieren andere Werte. Und entweder habe ich es verschlafen, mein Prof. bzw. meine Bücher sind unwissend oder der Artikel hier ist unkorrekt. Ich hoffe jedenfalls, dass eine, der drei Möglichkeiten ist. ;) -- Warfair 10:23, 5. Mär. 2011 (CET)Beantworten
Vielleicht hast du so ein Statement gesucht. http://www.nature.com/nature/journal/v210/n5041/abs/2101190a0.html --Erzbischof 12:01, 5. Mär. 2011 (CET)Beantworten
Ja, so etwas in der Art. Wobei ich dies jetzt eher so verstehen würde "eigentlich ist es totaler Quatsch, diese Unterscheidungen zu machen, für Nicht-Statistiker schlagen wir aber trotzdem folgendes vor". Und 1966 hatten die also auch schon solche Probleme. Ich hab bei meiner kurzen Recherche, leider noch immer nichts gefunden. Im würde jetzt noch etwas warten und dann den Artikel so umschreiben, dass mit Bezug auf die Quelle, die grundlegende Richtigkeit nicht vorhanden ist, andererseits trotzdem eine Quasi-Konvention durch die vielfache Nutzung entstanden ist. -- Warfair 16:53, 12. Mär. 2011 (CET)Beantworten

Der Abschnitt weist Inkonsistenzen auf. Erstmals wird erklärt, dass ein Ereignis "sehr signifikant" ist, wenn die Irrtumswahrscheinlichkeit <= 1% beträgt. Wenig später wird für "sehr signifikant" eine Irrtumswahrscheinlichkeit von <= 0.3% angegeben. -- flueckem 13:04, 15. Mai. 2011 (CET)

Muss jemand editiert haben, ist jedenfalls nicht mehr zu sehen. -- 00:14, 23. Dez. 2011 (CET)Warfair

Irrige Überzeugungen

Irgendwie ist der Abschnitt selber voller irriger Überzeugungen. Z.B. "Signifikanz liegt vor, wenn die Irrtumswahrscheinlichkeit kleiner oder gleich dem Signifikanzniveau ist." ist doch völliger Unsinn. Aber grundsätzlich wäre so ein Abschnitt schon nützlich. Hat jemand eine Idee, was man da machen sollte oder kennt eine gute Quelle für so etwas? Dazu ist ja oben auch schon einiges diskutiert worden, aber mMn extrem wirr und irgendwie ohne Ergebnis. -- HilberTraum (Diskussion) 13:46, 4. Jul. 2012 (CEST)Beantworten

Die zitierte Aussage scheint mMn auch den hinterfragten Zusammenhang wenig treffend darzustellen. Vielleicht lässt sich unter der Überschrift "Irrige Annahmen" die obige Diskussion mit ergänzten Ausdrücken und einer erweiterten Formulierung besser zusammenfassen. --nanu *diskuss 01:13, 5. Jul. 2012 (CEST)Beantworten
So langsam durchschaue ich, wo das Problem herkommt: Der Wert, den z.B. SPSS als Signifikanz bezeichnet, ist natürlich nicht die Irrtumswahrscheinlichkeit wie im Artikel behauptet, sondern der p-Wert des Tests. Aber: Wenn einige (viele?) Leute den p-Wert auch "Signifikanz(wert)" nennen, wie es ja auch ganz neutral im Artikel p-Wert steht, ist es dann in Ordnung, wenn das hier "irrig" genannt wird? Man kann ja trotzdem noch davon sprechen, dass Ergebnisse "signifikant" sind. -- HilberTraum (Diskussion) 09:48, 6. Jul. 2012 (CEST)Beantworten
Ist es denn in Ordnung einen p-Wert „signifikant“ zu nennen, ohne dass ein Signifikanzniveau angegeben ist?
Die Festlegung der Höhe des Signifikanzniveaus aber ist doch keine nur mathematische Entscheidung, sondern sie hängt von der Bedeutung der untersuchten Fragestellung ab. Welches Gewicht man hierbei dann dem Irrtum beimisst, die Nullhypothese fälschlicherweise zurückzuweisen, wird durch Überlegungen begründet, die sich auf außer-mathematische Zusammenhänge beziehen und diese bewerten.
Erst nachdem der kritische Wert für die Irrtumswahrscheinlichkeit festgelegt wurde, kann ein statistisches Ergebnis „signifikant“ heißen – nicht aus sich, sondern aus der Differenz zu dem zuvor festgelegten Kriterium. Ein p-Wert selbst ist zunächst neutral; man sollte ihn auch so bezeichnen. --nanu *diskuss 15:01, 6. Jul. 2012 (CEST)Beantworten
Das sehe ich alles genauso wie du, aber das kann man auch noch genauso machen, wenn man den p-Wert "Signifikanz" (oder "Karl-Heinz") nennt, wie es anscheinend manche Leute/Bücher/Programme machen. Für eine besonders geschickte Bezeichnung halte ich das auch nicht, aber mit solchen Bewertungen sollte sich Wikipedia lieber zurückhalten. Man wählt dann halt z.B. ein Signifikanzniveau von 5 %, das Programm berechnet eine Signifikanz von 0.07, also ist das Ergebnis nicht signifikant. Das ist evtl. etwas verwirrend, aber ich würde es nicht als "irrig" bezeichnen. -- HilberTraum (Diskussion) 17:12, 6. Jul. 2012 (CEST)Beantworten