Statistischer Test

Test, der entscheidet, ob eine Hypothese gültig oder ungültig ist
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 6. September 2005 um 10:47 Uhr durch JakobVoss (Diskussion | Beiträge) (p-Wert und t-Wert sollten erklärt werden). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Ein statistischer Test dient zur Überprüfung einer statistischen Hypothese und ihrer Signifikanz. Man nennt ihn deswegen auch Signifikanztest. Man kann mit ihm überprüfen, ob bestimmte Verhältnisse in Stichprobendaten (z. B. Mittelwertsunterschiede) auf Zufall rückführbar sind oder nicht. "Statistisch signifikant" bedeutet also nichts anderes als "wahrscheinlich nicht durch Zufall zu erklären".

Generell geht man dabei in folgenden Schritten vor:

  1. Formulierung einer Nullhypothese H0 und ihrer Alternativhypothese H1
  2. Berechnung einer Testgröße oder Teststatistik T aus der Stichprobe (je nach Testverfahren z.B. den t-Wert oder U oder H oder χ2...)
  3. Bestimmung des kritischen Bereiches K zum Signifikanzniveau α, das vor Realisation der Stichprobe feststehen muss. Der kritische Bereich wird aus den unter der Nullhypothese nur mit geringer Wahrscheinlichkeit auftretenden Werten der Teststatistik gebildet
  4. Treffen der Testentscheidung:
    • Liegt T nicht in K, so wird H0 beibehalten.
    • Liegt T in K, so lehnt man H0 zugunsten von H1ab.

Je größer die Stichprobe ist, desto empfindlicher ist der statistische Test, das heißt, desto wahrscheinlicher ist, dass er eine statistische Signifikanz ergibt (in statistischen Termini ausgedrückt: dass die Nullhypothese (H0) verworfen und die Alternativ-Hypothese (H1) nicht verworfen wird). Das heißt auch, um sehr kleine Unterschiede feststellen (d.h. statistisch absichern) zu können, müssen entsprechend große Stichproben gewählt werden. Häufig nicht genügend beachtet wird hierbei der Umstand, dass durch die Wahl einer zu großen Stichprobe eine praktisch nicht mehr relevante, aber dennoch statistische Signifikanz erzeugt werden kann. Die Relevanz (im Sinne eines minimalen Unterschiedes, der vorhanden und statistisch nachgewiesen werden soll, um als bedeutsam erachtet zu werden), kann (methodisch sauber) nur inhaltlich, aus dem Untersuchungsgegenstand heraus, und im Vorhinein bestimmt werden.
Die Aussage, dass ein Unterschied statistisch signfikant sei, heißt also, insbesondere bei sehr großen Stichproben, nicht automatisch, dass der gefundene Unterschied auch praktisch von der Bedeutung ist, die ihm scheinbar mit der Aussage der statistischen Signifikanz zugeordnet wird.
Diese Ungenauigkeit hat eine kritische Bedeutung für die gesamte Forschungslandschaft, die sich statistischer Methoden bedient. Wieviel statistisch signifikante, aber unbedeutsame Ergebnisse wurden und werden durch die nicht-Beachtung der Relevanz den relevanten Ergebnissen gleichgestellt? Diese Problematik liegt in der Art der Hypothesenformulierung selbst begründet. Solange nur getestet wird, ob sich Gruppe A von Gruppe B unterscheidet (H0: A=B und H1: A<>B), oder ob Gruppe A einen höheren (oder kleineren) Wert in der Messgrösse besitzt (H1: A>B oder A<B), besteht der Sachverhalt, dass die Wahrscheinlichkeit zur Signifikanz durch die Stichprobengrösse direkt beeinflusst wird, und damit im negativsten Fall sogar manipuliert werden könnte.
Umgangen werden kann diese Problematik durch die Formulierung spezifischer Alternativ- (H1-) Hypothesen, die zusätzlich eine Forderung über die Mindest-Stärke des nachzuweisenden Unterschiedes beinhaltet. Wird dieser Mindest-Unterschied bei der dadurch (jedoch nicht immer) berechenbar gemachten, optimalen Stichprobengröße nicht gefunden, kann die Nullhypothese (H0) nicht verworfen werden. Dieser abzusichernde Mindest-Unterschied ist wiederum aus der Analyse der Relevanz im Voraus zu begründen, darf also nicht willkürlich gewählt werden. Noch restriktiver (und methodisch gültiger) wird das Verfahren und dadurch die daraus abgeleiteten Aussagen, wenn auch eine maximale Größe des Unterschiedes nicht überschritten werden darf, weil dies als ein Hinweis zu werten wäre, dass die Annahmen über den Unterschied auf falschen Annahmen beruhten.

Man unterscheidet parametrische und nicht-parametrische Tests. Erstere gehen davon aus, dass die beobachteten Stichprobendaten einer Grundgesamtheit entstammen, in der die Variable(n) bzw. Merkmale ein bestimmtes Skalenniveau und eine bestimmte Verteilung aufweisen, häufig Intervallskalenniveau und Normalverteilung. Werden diese Annahmen verletzt, hat dies Einschränkungen in der Gültigkeit des Testergebnisses zur Folge. Insbesondere sinkt die Teststärke ("Power" = 1 - ß; Teststärke), d. h. es sinkt die Wahrscheinlichkeit, einen tatsächlich vorhandenen Unterschied als "überzufällig" zu entdecken.

Nicht-parametrische Tests kommen mit anderen Vorannahmen aus. Die Menge der für Hypothese und Alternative zugelassenen Verteilungen ist nicht durch einen Parameter beschreibbar. Einige nicht-parametrische Tests sind bedingte Tests, sie verwenden die Beobachtungen in der Stichprobe direkt als für die Testkonstruktion gegeben und betrachten ausschließlich die anderen möglichen Anordnungen der beobachteten Werte unter der Hypothese (gegebenenfalls gewichtet mit der Wahrscheinlichkeit dieser Anordnung unter der Hypothese) (Siehe auch Rangsummentests).

Da jedoch parametrische Tests trotz Verletzung ihrer Annahmen häufig eine bessere Power bieten als nicht-parametrische, kommen letztere eher selten zum Einsatz, etwa im Fall besonders schiefer (also eindeutig nicht "normaler") Verteilungen, oder im Fall von Rangdaten, die als solche erhoben worden sind.

Siehe auch:

Tests Kurzbeschreibung
Verteilungsanpassungstests
χ2-Anpassungstest Test einer Stichprobe auf Zugehörigkeit zu einer Verteilung
Kolmogorow-Smirnow-Test Test einer Stichprobe auf Zugehörigkeit zu einer Verteilung
Shapiro-Wilk-Test Test einer Stichprobe auf Zugehörigkeit zur Normalverteilung
Parametrische Tests
t-Tests (einfach, doppelt, doppelt mit gepaarten (=verbundenen,abhängigen) Stichproben ) Test auf Erwartungswert; Vergleich zweier Erwartungswerte; Test auf Korrelation; Signifikanztest von Regressionskoeffizienten
F-Test Vergleich zweier Varianzen; Modelltest der Regressionsanalyse
chi2-Test von Bartlett Vergleich von mehr als zwei Varianzen
Test von Levene Test auf Homogenität von Varianzen zwischen Gruppen
Verteilungsfreie (nichtparametrische) Tests
χ2Unabhängigkeitstest Prüfung der Unabhängigkeit zweier Merkmale
Test von Cochran/Cochrans Q Test auf Gleichverteilung mehrerer verbundener dichotomer Variablen
Kendalls Konkordanzkoeffizient/Kendalls W Test auf Korrelation von Rangreihen
Wilcoxon-Rangsummentest Rangtest Test auf Gleichheit des Lageparameters, bei unbekannter aber identischer Verteilung im 2-Stichprobenfall
Mann-Whitney-U-Test äquivalent zum Wilcoxon-Rangsummentest
Kruskal-Wallis-Test Test auf Gleichheit des Lageparameters, bei unbekannter aber identischer Verteilung im c-Stichprobenfall
Run(s)-Test Prüfung einer Reihe von Werten (z. B. Zeitreihe) auf Stationarität
Wald-Wolfowitz-Run(s)-Test Test auf Gleichheit zweier kontinuierlicher Verteilungen



Auswahl des Signifikanztestverfahrens

abhängig: Zwei Stichproben A und B hängen voneinander im Bezug auf Störgrößen und Einflußgrößen ab (z.B. Vorher-Nachher-Vergleiche, Medikament A und B werden an je einem Patienten gleichzeitig gegeben...)

METRISCH
NOMINAL ORDINAL nicht normalverteilt,
aber ähnlich
normalverteilt
unabhängig abhängig unabhängig abhängig unabhängig abhängig unabhängig abhängig

χ2
für:
k x l -Felder
2 x 2 Felder

χ2
McNemar-Test für:
2 x 2 Felder

Mann-Whitney

Wilcoxon

Mann-Whitney

Wilcoxon

F-Test
(Varianzquotiententest)
entscheidet über:

t-Test
für verbundene
Stichproben
Varianz-
homogenität

t-Test
Varianz-
heterogenität

Welch-Test
nichtparametrische Testverfahren parametrische Testverfahren



noch einzubauen, bzw. oben zu verbessern

  1. dichotom = Stichprobe besteht nur aus wahr/falsch, ja/nein, 0/1 (oder sinngemäßen) Werten. Also Merkmalen die nur zwei Ausprägungen haben können.
  2. p-Wert = Gibt an ab welchem α das Experiment rein rechnerisch signifikant wäre. p = 0.05 bedeutet das ein Versuch der z.B. einen t-Wert von
  3. Fehler 1. Art = Man verwirft H0 (signifikant) obwohl sie eigentlich zutrifft, höchstens mit der Wahrscheinlichkeit α. Diese Irrtumswahrscheinlichkeit ist bei vielen Tests frei wählbar (z.B. α = 0.05).
  4. Fehler 2. Art = Man verwirft H0 nicht (nicht signifikant) obwohl sie verworfen werden sollte mit der Wahrscheinlichkeit ß. Diese Irrtumswahrscheinlichkeit hängt u.a. ab von der Fallzahl n, der zufallsbedingten Streuung des Mittelwertes, von der Irrtumswahrscheinlichkeit α, der Art des statistischen Tests, der Fragestellen (einseitig oder zweiseitig) u.v.m. Anmerkung: 1-ß nennt man Power oder Teststärke.
  5. Binomialtest = Testverfahren für dichotome Zielgrößen bei einer Stichprobe.
  6. Einstichproben-Kolmogorow-Smirnow-Test nach Normal- oder Gleichverteilung
  7. Ein- und Zweistichproben Chi-Quadrat Tests
  8. Fishers Exakt Test
  9. Friedman Pseudo 2-Wege ANOVA
  10. Hotelings-T^2-Test
  11. Jonckheeres-Trend
  12. Kappa-Test
  13. Kruskal-Wallis Einwege ANOVA nach Rängen
  14. McNemars-Test = Vorzeichentest = Testverfahren für dichotome Zielgrößen bei zwei verbundenen Stichproben.
  15. Mehrfachstichproben-Median-Test
  16. Moses-Extreme-Reaction-Test
  17. Pages-L-Trend
  18. Proportionaltests
  19. Quade 2-Wege ANOVA
  20. U-Test (Mann-Whitney-Wilcoxon) = nichtparametrischer Test (Rangsummentest) für zwei unverbundene (unabhängige) Stichproben.
  21. Vierfeldertest = Testverfahren für dichotome Zielgröße bei 2 unverbundenen Stichproben.
  22. Vorzeichentest = McNemar-Vorzeichentest (siehe oben)
  23. Wilcoxon-Test = nichtparametrisches Testverfahren (Rangsummentest) für eine Stichprobe bzw. auch für zwei verbundene (abhängige) Stichproben (hier beschrieben). Dabei werden die Messwerte x und y der beiden Stichproben A = xi..xn und B = yi..yn zunächst subtrahiert (di = xi - yn) und die Beträge der d-Werte nach Größe sortiert und durchnummeriert (=Rangbildung). Dann bildet man zwei Rangsummen R+ und R-: R+ ist die Summe aller Rangnummern (nicht der Differenzen) von d-Werten die > 0 sind. R- die Summe aller Rangnummern die < 0 sind. Nun nimmt man den kleineren der beiden Werte als Testwert T. In einer Tabelle schaut man nach dem kritischen Wert K für den Test (n, α, ein-/zweiseitig) und vergleicht ihn. Ist K < T ist H0 nicht zu verwerfen.
  24. Walsh-Test
  25. Zweistichproben-Kolmogorow-Smirnow-Test
  26. Zwei-Stichproben-Median-Test
  27. Power = 1 - ß
Wichtige Verteilungen
Weibullverteilung
Normalverteilung
Student's t-Verteilung
Chi-Quadrat-Verteilung
F-Verteilung
Betaverteilung
Gammaverteilung
Gleichverteilung
Dreiecksverteilung
logarithmische Normalverteilung
Exponentialverteilung
Erlang-Verteilung
Poissonverteilung
Bernoulliverteilung
Binomialverteilung
negative Binomialverteilung
Geometrische Verteilung
Hypergeometrische Verteilung