Zum Inhalt springen

Konfidenzintervall für die Erfolgswahrscheinlichkeit der Binomialverteilung

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 6. Juli 2007 um 10:00 Uhr durch 62.47.248.213 (Diskussion) (Zusammenhang zwischen Betaverteilung und Binomialverteilung). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Vorbemerkung

Im Artikel Konfidenzintervall wird auf die Berechnung von Konfidenzintervallen für den Mittelwert und anderer statistischer Kenngrößen eingegangen. In diesem Artikel wird auf die Berechnung eines Konfidenzintervalls (Vertrauensbereich) für den unbekannten relativen Anteil p einer Grundgesamtheit mit Hilfe der Binomialverteilung und der Betaverteilung eingegangen. Somit erhält man ein genaueres Intervall als bei der Approximation durch die Normalverteilung.

Konfidenzintervall - Begriffsklärung

Um den unbekannten relativen Anteil p einer politischen Partei A zu schätzen, werden in einer Meinungsumfrage n = 400 Personen befragt, ob sie die Partei A wählen werden. Die Anzahl X der Befragten, die angeben die Partei A zu wählen, ist vom Zufall abhängig und deshalb eine Zufallsvariable. Wenn die befragten Personen rein zufällig ausgewählt werden, ist die Zufallsvariable X binomialverteilt mit den Parametern n = 400 und dem unbekannten p. Nehmen wir an, in der Umfrage haben k = 20 Befragte angegeben, die Partei A zu wählen. Man berechnet eine Schätzung von p als:

.

Man nennt dies eine Punktschätzung, weil nur ein Wert als Schätzung von p berechnet wird.

Der wahre Wert des relativen Anteils p kann sowohl kleiner, als auch größer als der Punktschätzer sein. Mit Sicherheit gilt nur, dass p jeden Wert zwischen 0 und 1 annehmen kann. Wünschenswert wäre ein Intervall [pu, po], sodass die Aussage p ∈ [pu, po] mit hoher Wahrscheinlichkeit γ richtig ist. Sicher bedeutet hier, dass beim vielfachen Wiederholen des Verfahrens, die berechneten Konfidenzintervalle in den meisten Fällen den Parameter p enthalten. Wie oft das der Fall sein soll, wird mittels der Vertrauenswahrscheinlichkeit γ ausgedrückt. Das berechnete Intervall [pu, po] wird Konfidenzintervall (oder Vertrauensbereich) genannt. Oft wird γ gleich 95 % gewählt. Im Intervall [pu, po] liegt der unbekannte Anteil p mit 95%iger Sicherheit, was bedeutet, dass in 95% der Fälle die Aussage p ∈ [pu, po] richtig ist.

Die Grenzen pu und po lassen sich wie folgt bestimmen.

Untere Grenze: P(X ≥ k) = 0,025
Wenn die Wahrscheinlichkeit mindestens k Treffer zu erzielen für einen bestimmten (hypothetischen) Anteilswert p die Grenze 0,025 unterschreitet, so kann mit einer Sicherheit von 0,975 ausgeschlossen werden, dass p der gesuchte Anteilswert ist. Somit ist pu der kleinste Wert von p, bei dem noch angenommen wird, dass k Befragte angeben die Partei A zu wählen. Für kleinere Werte von p erscheint dies zu unwahrscheinlich.

Obere Grenze: P(X ≤ k) = 0,025
Wenn die Wahrscheinlichkeit höchstens k Treffer zu erzielen für einen bestimmten (hypothetischen) Anteilswert p die Grenze 0,025 unterschreitet, so kann mit einer Sicherheit von 0,975 ausgeschlossen werden, dass p der gesuchte Anteilswert ist. Somit ist po der größte Wert von p, bei dem noch angenommen wird, dass k Befragte angeben die Partei A zu wählen. Für größere Werte von p erscheint dies zu unwahrscheinlich.

Berechnung von p bei bekanntem n und k

Sei X eine binomialverteilte Zufallsvariable mit den Parametern n und p. Die Gleichung P(X ≤ k) = α, lässt sich mit der EXCEL - Funktion BETAINV(Wahrscheinlichkeit; Alpha; Beta; A; B) nach p auflösen. Die Funktion gibt das Quantil der angegebenen Betaverteilung zurück. Eine Approximation durch die Normalverteilung ist somit nicht notwendig.

p = BETAINV(1 - α; k + 1; n - k) = BETAINV(1 - α; k + 1; n - k; 0; 1)

Berechnung des Konfidenzintervalls

n = 400 und k = 20. Es soll ein 95 %-Konfidenzintervall bestimmt werden:

Untere Grenze des Konfidenzintervalls:
P(X ≥ 20) = 0,025
P(X ≤ 19) = 0,975
pu = BETAINV(1 - 0,975; 20; 400 - 19) = 0,03081
Selbst bei einem Stimmenanteil von nur 3,1 % beträgt die Wahrscheinlichkeit, dass sich in der Stichprobe mindestens 20 Personen befinden, noch 2,5 %.

Obere Grenze des Konfidenzintervalls:
P(X ≤ 20) = 0,025
po = BETAINV(1 - 0,025; 21; 400 - 20) = 0,07617
Sogar bei einem Stimmenanteil von 7,6 % beträgt die Wahrscheinlichkeit, dass sich in der Stichprobe höchstens 20 Personen befinden, noch 2,5 %

Die Berechnung mit Hilfe der Normalverteilung ergibt für diese Werte die Grenzen 0,03161 und 0,07744. Die häufig verwendete Näherungsformel (beruhend auf der Normalverteilung) ergibt die Werte 0,02864 und 0,07136.

Zusammenhang zwischen Betaverteilung und Binomialverteilung

Für ganzzahlige positive Parameter a und b lautet die Betaverteilung

Wird nun x = 1 - p, a = n - k und b = k + 1 gewählt, so ergibt sich

B(k; n; p) ist die Binomialverteilung mit den Parametern n und p.

Die Binomialverteilung und die Betaverteilung werden als Funktion von p aufgefasst:
Binomialverteilung:
Betaverteilung:

Die Ableitung der Funktion f bzw. g ergibt jeweils:

Da die Ableitungen der Funktionen übereinstimmen und die Funktionen keine additive Konstante haben, stimmen sie überein.

Approximation durch die Normalverteilung

Meistens wird diese einfache Näherungsformel verwendet:

Bei einem 95 % - Konfidenzintervall ist α = 5 %. Wenn diese Formel verwendet wird, sollte k ≥ 50 und n - k ≥ 50 sein.

Genauer wird die Näherung durch die Normalverteilung unter Verwendung folgender Formeln:

Literatur

Norbert Henze: Stochastik für Einsteiger, Vieweg Verlag, 2004, 5. Auflage, ISBN 3-528-46894-7