Statistischer Test

Ein statistischer Test dient zur Überprüfung einer statistischen Hypothese und ihrer Signifikanz. Man nennt ihn deswegen auch Signifikanztest. Man kann mit ihm überprüfen, ob bestimmte Verhältnisse in Stichprobendaten (z. B. Mittelwertsunterschiede) auf Zufall rückführbar sind oder nicht. "Statistisch signifikant" bedeutet also nichts anderes als "wahrscheinlich nicht durch Zufall zu erklären".

Generell geht man dabei in folgenden Schritten vor:

Formulierung einer Nullhypothese H₀ und ihrer Alternativhypothese H₁
Berechnung einer Testgröße oder Teststatistik T aus der Stichprobe (je nach Testverfahren z.B. den t-Wert oder U oder H oder χ²...)
Bestimmung des kritischen Bereiches K zum Signifikanzniveau α, das vor Realisation der Stichprobe feststehen muss. Der kritische Bereich wird aus den unter der Nullhypothese nur mit geringer Wahrscheinlichkeit auftretenden Werten der Teststatistik gebildet
Treffen der Testentscheidung:
- Liegt T nicht in K, so wird H₀ beibehalten.
- Liegt T in K, so lehnt man H₀ zugunsten von H₁ab.

Je größer die Stichprobe ist, desto empfindlicher ist der statistische Test, das heißt, desto wahrscheinlicher ist, dass er eine statistische Signifikanz ergibt (in statistischen Termini ausgedrückt: dass die Nullhypothese (H0) verworfen und die Alternativ-Hypothese (H1) nicht verworfen wird). Das heißt auch, um sehr kleine Unterschiede feststellen (d.h. statistisch absichern) zu können, müssen entsprechend große Stichproben gewählt werden. Häufig nicht genügend beachtet wird hierbei der Umstand, dass durch die Wahl einer zu großen Stichprobe eine praktisch nicht mehr relevante, aber dennoch statistische Signifikanz erzeugt werden kann. Die Relevanz (im Sinne eines minimalen Unterschiedes, der vorhanden und statistisch nachgewiesen werden soll, um als bedeutsam erachtet zu werden), kann (methodisch sauber) nur inhaltlich, aus dem Untersuchungsgegenstand heraus, und im Vorhinein bestimmt werden.
Die Aussage, dass ein Unterschied statistisch signfikant sei, heißt also, insbesondere bei sehr großen Stichproben, nicht automatisch, dass der gefundene Unterschied auch praktisch von der Bedeutung ist, die ihm scheinbar mit der Aussage der statistischen Signifikanz zugeordnet wird.
Diese Ungenauigkeit hat eine kritische Bedeutung für die gesamte Forschungslandschaft, die sich statistischer Methoden bedient. Wieviel statistisch signifikante, aber unbedeutsame Ergebnisse wurden und werden durch die nicht-Beachtung der Relevanz den relevanten Ergebnissen gleichgestellt? Diese Problematik liegt in der Art der Hypothesenformulierung selbst begründet. Solange nur getestet wird, ob sich Gruppe A von Gruppe B unterscheidet (H0: A=B und H1: A<>B), oder ob Gruppe A einen höheren (oder kleineren) Wert in der Messgrösse besitzt (H1: A>B oder A<B), besteht der Sachverhalt, dass die Wahrscheinlichkeit zur Signifikanz durch die Stichprobengrösse direkt beeinflusst wird, und damit im negativsten Fall sogar manipuliert werden könnte.
Umgangen werden kann diese Problematik durch die Formulierung spezifischer Alternativ- (H1-) Hypothesen, die zusätzlich eine Forderung über die Mindest-Stärke des nachzuweisenden Unterschiedes beinhaltet. Wird dieser Mindest-Unterschied bei der dadurch (jedoch nicht immer) berechenbar gemachten, optimalen Stichprobengröße nicht gefunden, kann die Nullhypothese (H0) nicht verworfen werden. Dieser abzusichernde Mindest-Unterschied ist wiederum aus der Analyse der Relevanz im Voraus zu begründen, darf also nicht willkürlich gewählt werden. Noch restriktiver (und methodisch gültiger) wird das Verfahren und dadurch die daraus abgeleiteten Aussagen, wenn auch eine maximale Größe des Unterschiedes nicht überschritten werden darf, weil dies als ein Hinweis zu werten wäre, dass die Annahmen über den Unterschied auf falschen Annahmen beruhten.

Man unterscheidet parametrische und nicht-parametrische Tests. Erstere gehen davon aus, dass die beobachteten Stichprobendaten einer Grundgesamtheit entstammen, in der die Variable(n) bzw. Merkmale ein bestimmtes Skalenniveau und eine bestimmte Verteilung aufweisen, häufig Intervallskalenniveau und Normalverteilung. Werden diese Annahmen verletzt, hat dies Einschränkungen in der Gültigkeit des Testergebnisses zur Folge. Insbesondere sinkt die Teststärke ("Power" = 1 - ß; Teststärke), d. h. es sinkt die Wahrscheinlichkeit, einen tatsächlich vorhandenen Unterschied als "überzufällig" zu entdecken.

Nicht-parametrische Tests kommen mit anderen Vorannahmen aus. Die Menge der für Hypothese und Alternative zugelassenen Verteilungen ist nicht durch einen Parameter beschreibbar. Einige nicht-parametrische Tests sind bedingte Tests, sie verwenden die Beobachtungen in der Stichprobe direkt als für die Testkonstruktion gegeben und betrachten ausschließlich die anderen möglichen Anordnungen der beobachteten Werte unter der Hypothese (gegebenenfalls gewichtet mit der Wahrscheinlichkeit dieser Anordnung unter der Hypothese) (Siehe auch Rangsummentests).

Da jedoch parametrische Tests trotz Verletzung ihrer Annahmen häufig eine bessere Power bieten als nicht-parametrische, kommen letztere eher selten zum Einsatz, etwa im Fall besonders schiefer (also eindeutig nicht "normaler") Verteilungen, oder im Fall von Rangdaten, die als solche erhoben worden sind.

Siehe auch:

Tests	Kurzbeschreibung
Verteilungsanpassungstests
χ²-Anpassungstest	Test einer Stichprobe auf Zugehörigkeit zu einer Verteilung
Kolmogorow-Smirnow-Test	Test einer Stichprobe auf Zugehörigkeit zu einer Verteilung
Shapiro-Wilk-Test	Test einer Stichprobe auf Zugehörigkeit zur Normalverteilung
Parametrische Tests
t-Tests (einfach, doppelt, doppelt mit gepaarten (=verbundenen,abhängigen) Stichproben )	Test auf Erwartungswert; Vergleich zweier Erwartungswerte; Test auf Korrelation; Signifikanztest von Regressionskoeffizienten
F-Test	Vergleich zweier Varianzen; Modelltest der Regressionsanalyse
chi²-Test von Bartlett	Vergleich von mehr als zwei Varianzen
Test von Levene	Test auf Homogenität von Varianzen zwischen Gruppen
Verteilungsfreie (nichtparametrische) Tests
χ²Unabhängigkeitstest	Prüfung der Unabhängigkeit zweier Merkmale
Test von Cochran/Cochrans Q	Test auf Gleichverteilung mehrerer verbundener dichotomer Variablen
Kendalls Konkordanzkoeffizient/Kendalls W	Test auf Korrelation von Rangreihen
Wilcoxon-Rangsummentest	Rangtest Test auf Gleichheit des Lageparameters, bei unbekannter aber identischer Verteilung im 2-Stichprobenfall
Mann-Whitney-U-Test	äquivalent zum Wilcoxon-Rangsummentest
Kruskal-Wallis-Test	Test auf Gleichheit des Lageparameters, bei unbekannter aber identischer Verteilung im c-Stichprobenfall
Run(s)-Test	Prüfung einer Reihe von Werten (z. B. Zeitreihe) auf Stationarität
Wald-Wolfowitz-Run(s)-Test	Test auf Gleichheit zweier kontinuierlicher Verteilungen

Auswahl des Signifikanztestverfahrens

abhängig: Zwei Stichproben A und B hängen voneinander im Bezug auf Störgrößen und Einflußgrößen ab (z.B. Vorher-Nachher-Vergleiche, Medikament A und B werden an je einem Patienten gleichzeitig gegeben...)

				METRISCH
NOMINAL		ORDINAL		nicht normalverteilt, aber ähnlich		normalverteilt
unabhängig	abhängig	unabhängig	abhängig	unabhängig	abhängig	unabhängig		abhängig
χ2 für: k x l -Felder 2 x 2 Felder	χ2 McNemar-Test für: 2 x 2 Felder	Mann-Whitney	Wilcoxon	Mann-Whitney	Wilcoxon	F-Test (Varianzquotiententest) entscheidet über:		t-Test für verbundene Stichproben
						Varianz- homogenität t-Test	Varianz- heterogenität Welch-Test
nichtparametrische Testverfahren						parametrische Testverfahren

noch einzubauen, bzw. oben zu verbessern

dichotom = Stichprobe besteht nur aus wahr/falsch, ja/nein, 0/1 (oder sinngemäßen) Werten. Also Merkmalen die nur zwei Ausprägungen haben können.
p-Wert = Gibt an ab welchem α das Experiment rein rechnerisch signifikant wäre. p = 0.05 bedeutet das ein Versuch der z.B. einen t-Wert von
Fehler 1. Art = Man verwirft H₀ (signifikant) obwohl sie eigentlich zutrifft, höchstens mit der Wahrscheinlichkeit α. Diese Irrtumswahrscheinlichkeit ist bei vielen Tests frei wählbar (z.B. α = 0.05).
Fehler 2. Art = Man verwirft H₀ nicht (nicht signifikant) obwohl sie verworfen werden sollte mit der Wahrscheinlichkeit ß. Diese Irrtumswahrscheinlichkeit hängt u.a. ab von der Fallzahl n, der zufallsbedingten Streuung des Mittelwertes, von der Irrtumswahrscheinlichkeit α, der Art des statistischen Tests, der Fragestellen (einseitig oder zweiseitig) u.v.m. Anmerkung: 1-ß nennt man Power oder Teststärke.
Binomialtest = Testverfahren für dichotome Zielgrößen bei einer Stichprobe.
Einstichproben-Kolmogorow-Smirnow-Test nach Normal- oder Gleichverteilung
Ein- und Zweistichproben Chi-Quadrat Tests
Fishers Exakt Test
Friedman Pseudo 2-Wege ANOVA
Hotelings-T^2-Test
Jonckheeres-Trend
Kappa-Test
Kruskal-Wallis Einwege ANOVA nach Rängen
McNemars-Test = Vorzeichentest = Testverfahren für dichotome Zielgrößen bei zwei verbundenen Stichproben.
Mehrfachstichproben-Median-Test
Moses-Extreme-Reaction-Test
Pages-L-Trend
Proportionaltests
Quade 2-Wege ANOVA
U-Test (Mann-Whitney-Wilcoxon) = nichtparametrischer Test (Rangsummentest) für zwei unverbundene (unabhängige) Stichproben.
Vierfeldertest = Testverfahren für dichotome Zielgröße bei 2 unverbundenen Stichproben.
Vorzeichentest = McNemar-Vorzeichentest (siehe oben)
Wilcoxon-Test = nichtparametrisches Testverfahren (Rangsummentest) für eine Stichprobe bzw. auch für zwei verbundene (abhängige) Stichproben (hier beschrieben). Dabei werden die Messwerte x und y der beiden Stichproben A = x_i..x_n und B = y_i..y_n zunächst subtrahiert (d_i = x_i - y_n) und die Beträge der d-Werte nach Größe sortiert und durchnummeriert (=Rangbildung). Dann bildet man zwei Rangsummen R+ und R-: R+ ist die Summe aller Rangnummern (nicht der Differenzen) von d-Werten die > 0 sind. R- die Summe aller Rangnummern die < 0 sind. Nun nimmt man den kleineren der beiden Werte als Testwert T. In einer Tabelle schaut man nach dem kritischen Wert K für den Test (n, α, ein-/zweiseitig) und vergleicht ihn. Ist K < T ist H₀ nicht zu verwerfen.
Walsh-Test
Zweistichproben-Kolmogorow-Smirnow-Test
Zwei-Stichproben-Median-Test
Power = 1 - ß

Wichtige Verteilungen
Weibullverteilung
Normalverteilung
Student's t-Verteilung
Chi-Quadrat-Verteilung
F-Verteilung
Betaverteilung
Gammaverteilung
Gleichverteilung
Dreiecksverteilung
logarithmische Normalverteilung
Exponentialverteilung
Erlang-Verteilung
Poissonverteilung
Bernoulliverteilung
Binomialverteilung
negative Binomialverteilung
Geometrische Verteilung
Hypergeometrische Verteilung

Links

http://www.isl.org/staff/privat/huebscher/ah_stvor.htm
- Viele statistische Test werden beschrieben und Rechenbeispiele finden sich auch.