Statistischer Test
Ein statistischer Test dient zur Überprüfung einer statistischen Hypothese und ihrer Signifikanz. Man nennt ihn deswegen auch Signifikanztest. Man kann mit ihm überprüfen, ob bestimmte Verhältnisse in Stichprobendaten (z. B. Mittelwertsunterschiede) auf Zufall rückführbar sind oder nicht. "Statistisch signifikant" bedeutet also nichts anderes als "wahrscheinlich nicht durch Zufall zu erklären".
Generell geht man dabei in folgenden Schritten vor:
- Formulierung einer Nullhypothese H0 und ihrer Alternativhypothese H1
- Berechnung einer Testgröße oder Teststatistik T aus der Stichprobe (je nach Testverfahren z.B. den t-Wert oder U oder H oder χ2...)
- Bestimmung des kritischen Bereiches K zum Signifikanzniveau α, das vor Realisation der Stichprobe feststehen muss. Der kritische Bereich wird aus den unter der Nullhypothese nur mit geringer Wahrscheinlichkeit auftretenden Werten der Teststatistik gebildet
- Treffen der Testentscheidung:
- Liegt T nicht in K, so wird H0 beibehalten.
- Liegt T in K, so lehnt man H0 zugunsten von H1ab.
Je größer die Stichprobe ist, desto empfindlicher ist der statistische Test, das heißt, desto wahrscheinlicher ist, dass er eine statistische Signifikanz ergibt (in statistischen Termini ausgedrückt: dass die Nullhypothese (H0) verworfen und die Alternativ-Hypothese (H1) nicht verworfen wird). Das heißt auch, um sehr kleine Unterschiede feststellen (d.h. statistisch absichern) zu können, müssen entsprechend große Stichproben gewählt werden. Häufig nicht genügend beachtet wird hierbei der Umstand, dass durch die Wahl einer zu großen Stichprobe eine praktisch nicht mehr relevante, aber dennoch statistische Signifikanz erzeugt werden kann. Die Relevanz (im Sinne eines minimalen Unterschiedes, der vorhanden und statistisch nachgewiesen werden soll, um als bedeutsam erachtet zu werden), kann (methodisch sauber) nur inhaltlich, aus dem Untersuchungsgegenstand heraus, und im Vorhinein bestimmt werden.
Die Aussage, dass ein Unterschied statistisch signfikant sei, heißt also, insbesondere bei sehr großen Stichproben, nicht automatisch, dass der gefundene Unterschied auch praktisch von der Bedeutung ist, die ihm scheinbar mit der Aussage der statistischen Signifikanz zugeordnet wird.
Diese Ungenauigkeit hat eine kritische Bedeutung für die gesamte Forschungslandschaft, die sich statistischer Methoden bedient. Wieviel statistisch signifikante, aber unbedeutsame Ergebnisse wurden und werden durch die nicht-Beachtung der Relevanz den relevanten Ergebnissen gleichgestellt? Diese Problematik liegt in der Art der Hypothesenformulierung selbst begründet. Solange nur getestet wird, ob sich Gruppe A von Gruppe B unterscheidet (H0: A=B und H1: A<>B), oder ob Gruppe A einen höheren (oder kleineren) Wert in der Messgrösse besitzt (H1: A>B oder A<B), besteht der Sachverhalt, dass die Wahrscheinlichkeit zur Signifikanz durch die Stichprobengrösse direkt beeinflusst wird, und damit im negativsten Fall sogar manipuliert werden könnte.
Umgangen werden kann diese Problematik durch die Formulierung spezifischer Alternativ- (H1-) Hypothesen, die zusätzlich eine Forderung über die Mindest-Stärke des nachzuweisenden Unterschiedes beinhaltet. Wird dieser Mindest-Unterschied bei der dadurch (jedoch nicht immer) berechenbar gemachten, optimalen Stichprobengröße nicht gefunden, kann die Nullhypothese (H0) nicht verworfen werden. Dieser abzusichernde Mindest-Unterschied ist wiederum aus der Analyse der Relevanz im Voraus zu begründen, darf also nicht willkürlich gewählt werden. Noch restriktiver (und methodisch gültiger) wird das Verfahren und dadurch die daraus abgeleiteten Aussagen, wenn auch eine maximale Größe des Unterschiedes nicht überschritten werden darf, weil dies als ein Hinweis zu werten wäre, dass die Annahmen über den Unterschied auf falschen Annahmen beruhten.
Man unterscheidet parametrische und nicht-parametrische Tests. Erstere gehen davon aus, dass die beobachteten Stichprobendaten einer Grundgesamtheit entstammen, in der die Variable(n) bzw. Merkmale ein bestimmtes Skalenniveau und eine bestimmte Verteilung aufweisen, häufig Intervallskalenniveau und Normalverteilung. Werden diese Annahmen verletzt, hat dies Einschränkungen in der Gültigkeit des Testergebnisses zur Folge. Insbesondere sinkt die Teststärke ("Power" = 1 - ß; Teststärke), d. h. es sinkt die Wahrscheinlichkeit, einen tatsächlich vorhandenen Unterschied als "überzufällig" zu entdecken.
Nicht-parametrische Tests kommen mit anderen Vorannahmen aus. Die Menge der für Hypothese und Alternative zugelassenen Verteilungen ist nicht durch einen Parameter beschreibbar. Einige nicht-parametrische Tests sind bedingte Tests, sie verwenden die Beobachtungen in der Stichprobe direkt als für die Testkonstruktion gegeben und betrachten ausschließlich die anderen möglichen Anordnungen der beobachteten Werte unter der Hypothese (gegebenenfalls gewichtet mit der Wahrscheinlichkeit dieser Anordnung unter der Hypothese) (Siehe auch Rangsummentests).
Da jedoch parametrische Tests trotz Verletzung ihrer Annahmen häufig eine bessere Power bieten als nicht-parametrische, kommen letztere eher selten zum Einsatz, etwa im Fall besonders schiefer (also eindeutig nicht "normaler") Verteilungen, oder im Fall von Rangdaten, die als solche erhoben worden sind.
Siehe auch:
Tests | Kurzbeschreibung |
---|---|
Verteilungsanpassungstests | |
χ2-Anpassungstest | Test einer Stichprobe auf Zugehörigkeit zu einer Verteilung |
Kolmogorow-Smirnow-Test | Test einer Stichprobe auf Zugehörigkeit zu einer Verteilung |
Shapiro-Wilk-Test | Test einer Stichprobe auf Zugehörigkeit zur Normalverteilung |
Parametrische Tests | |
t-Tests (einfach, doppelt, doppelt mit gepaarten (=verbundenen,abhängigen) Stichproben ) | Test auf Erwartungswert; Vergleich zweier Erwartungswerte; Test auf Korrelation; Signifikanztest von Regressionskoeffizienten |
F-Test | Vergleich zweier Varianzen; Modelltest der Regressionsanalyse |
chi2-Test von Bartlett | Vergleich von mehr als zwei Varianzen |
Test von Levene | Test auf Homogenität von Varianzen zwischen Gruppen |
Verteilungsfreie (nichtparametrische) Tests | |
χ2Unabhängigkeitstest | Prüfung der Unabhängigkeit zweier Merkmale |
Test von Cochran/Cochrans Q | Test auf Gleichverteilung mehrerer verbundener dichotomer Variablen |
Kendalls Konkordanzkoeffizient/Kendalls W | Test auf Korrelation von Rangreihen |
Wilcoxon-Rangsummentest | Rangtest Test auf Gleichheit des Lageparameters, bei unbekannter aber identischer Verteilung im 2-Stichprobenfall |
Mann-Whitney-U-Test | äquivalent zum Wilcoxon-Rangsummentest |
Kruskal-Wallis-Test | Test auf Gleichheit des Lageparameters, bei unbekannter aber identischer Verteilung im c-Stichprobenfall |
Run(s)-Test | Prüfung einer Reihe von Werten (z. B. Zeitreihe) auf Stationarität |
Wald-Wolfowitz-Run(s)-Test | Test auf Gleichheit zweier kontinuierlicher Verteilungen |
Auswahl des Signifikanztestverfahrens
abhängig: Zwei Stichproben A und B hängen voneinander im Bezug auf Störgrößen und Einflußgrößen ab (z.B. Vorher-Nachher-Vergleiche, Medikament A und B werden an je einem Patienten gleichzeitig gegeben...)
METRISCH | ||||||||
NOMINAL | ORDINAL | nicht normalverteilt, aber ähnlich |
normalverteilt | |||||
unabhängig | abhängig | unabhängig | abhängig | unabhängig | abhängig | unabhängig | abhängig | |
χ2 für: k x l -Felder 2 x 2 Felder |
χ2 McNemar-Test für: 2 x 2 Felder |
Mann-Whitney |
Wilcoxon |
Mann-Whitney |
Wilcoxon |
F-Test (Varianzquotiententest) entscheidet über: |
t-Test für verbundene Stichproben | |
Varianz- homogenität t-Test |
Varianz- heterogenität Welch-Test | |||||||
nichtparametrische Testverfahren | parametrische Testverfahren |
noch einzubauen, bzw. oben zu verbessern
- dichotom = Stichprobe besteht nur aus wahr/falsch, ja/nein, 0/1 (oder sinngemäßen) Werten. Also Merkmalen die nur zwei Ausprägungen haben können.
- p-Wert = Gibt an ab welchem α das Experiment rein rechnerisch signifikant wäre. p = 0.05 bedeutet das ein Versuch der z.B. einen t-Wert von
- Fehler 1. Art = Man verwirft H0 (signifikant) obwohl sie eigentlich zutrifft, höchstens mit der Wahrscheinlichkeit α. Diese Irrtumswahrscheinlichkeit ist bei vielen Tests frei wählbar (z.B. α = 0.05).
- Fehler 2. Art = Man verwirft H0 nicht (nicht signifikant) obwohl sie verworfen werden sollte mit der Wahrscheinlichkeit ß. Diese Irrtumswahrscheinlichkeit hängt u.a. ab von der Fallzahl n, der zufallsbedingten Streuung des Mittelwertes, von der Irrtumswahrscheinlichkeit α, der Art des statistischen Tests, der Fragestellen (einseitig oder zweiseitig) u.v.m. Anmerkung: 1-ß nennt man Power oder Teststärke.
- Binomialtest = Testverfahren für dichotome Zielgrößen bei einer Stichprobe.
- Einstichproben-Kolmogorow-Smirnow-Test nach Normal- oder Gleichverteilung
- Ein- und Zweistichproben Chi-Quadrat Tests
- Fishers Exakt Test
- Friedman Pseudo 2-Wege ANOVA
- Hotelings-T^2-Test
- Jonckheeres-Trend
- Kappa-Test
- Kruskal-Wallis Einwege ANOVA nach Rängen
- McNemars-Test = Vorzeichentest = Testverfahren für dichotome Zielgrößen bei zwei verbundenen Stichproben.
- Mehrfachstichproben-Median-Test
- Moses-Extreme-Reaction-Test
- Pages-L-Trend
- Proportionaltests
- Quade 2-Wege ANOVA
- U-Test (Mann-Whitney-Wilcoxon) = nichtparametrischer Test (Rangsummentest) für zwei unverbundene (unabhängige) Stichproben.
- Vierfeldertest = Testverfahren für dichotome Zielgröße bei 2 unverbundenen Stichproben.
- Vorzeichentest = McNemar-Vorzeichentest (siehe oben)
- Wilcoxon-Test = nichtparametrisches Testverfahren (Rangsummentest) für eine Stichprobe bzw. auch für zwei verbundene (abhängige) Stichproben (hier beschrieben). Dabei werden die Messwerte x und y der beiden Stichproben A = xi..xn und B = yi..yn zunächst subtrahiert (di = xi - yn) und die Beträge der d-Werte nach Größe sortiert und durchnummeriert (=Rangbildung). Dann bildet man zwei Rangsummen R+ und R-: R+ ist die Summe aller Rangnummern (nicht der Differenzen) von d-Werten die > 0 sind. R- die Summe aller Rangnummern die < 0 sind. Nun nimmt man den kleineren der beiden Werte als Testwert T. In einer Tabelle schaut man nach dem kritischen Wert K für den Test (n, α, ein-/zweiseitig) und vergleicht ihn. Ist K < T ist H0 nicht zu verwerfen.
- Walsh-Test
- Zweistichproben-Kolmogorow-Smirnow-Test
- Zwei-Stichproben-Median-Test
- Power = 1 - ß
Links
- http://www.isl.org/staff/privat/huebscher/ah_stvor.htm
- Viele statistische Test werden beschrieben und Rechenbeispiele finden sich auch.