Beta-Verteilung

Die Betaverteilung ist eine kontinuierliche Wahrscheinlichkeitsverteilung über dem Intervall [0,1]. Sie ist definiert durch die Wahrscheinlichkeitsdichte

f(x)={1 \over B(p;q)}x^{p-1}(1-x)^{q-1}.

Außerhalb des Intevalls [0,1] wird sie durch f(x)=0 fortgesetzt. Sie besitzt die Parameter p und q; um ihre Normierbarkeit zu garantieren, wird p,q > 0 gefordert.

Der Vorfaktor 1/B(p;q) dient der korrekten Normierung; der Ausdruck

B(p;q)={\Gamma (p)\Gamma (q) \over \Gamma (p+q)}

steht für die Betafunktion, nach der die Verteilung auch benannt ist; Γ(p) steht für die Gammafunktion.

Erwartungswert und Varianz der Betaverteilung sind

{\rm {E}}(X)={p \over p+q}\quad {\rm {und}}\quad {\rm {V}}(X)={pq \over (p+q+1)(p+q)^{2}}.

Beispiel

Die Betaverteilung kann aus zwei Gammaverteilungen erhalten werden: Der Quotient X = U/(U+V) aus den stochastisch unabhängigen Zufallsvariablen U und V, die beide gammaverteilt sind mit den Parametern b und p_u bzw. p_v, ist betaverteilt mit den Parametern p_u und p_v. U und V lassen sich als Chi-Quadrat-Verteilungen mit 2p_u bzw. 2p_v Freiheitsgraden interpretieren.

Mit Hilfe der Linearen Regression wird eine Regressionsgerade y = a + bx durch eine Punktwolke mit n Wertepaaren (x_i;y_i) (i=1,...,n)zweier statistischer Merkmale x und y gelegt, und zwar so, dass die Quadratsumme der senkrechten Abstände der y_i-Werte von der Geraden minimiert wird.

Die totale Streuung von y (TSS) lässt sich mit der Streuungszerlegung aufteilen in die sog. erklärte Streuung der durch die Gerade geschätzten Werte y* (ESS) und die nichterklärte Streuung der Residuen (RSS) zerlegen:

TSS=ESS+RSS

.

Das Bestimmtheitsmaß, der Anteil der erklärten Streuung an der Gesamtstreuung

r^{2}={{ESS} \over {TSS}}

bzw.

r^{2}={{ESS} \over {{ESS}+{RSS}}}

ist also betaverteilt. Da das Bestimmtheitsmaß das Quadrat des Korrelationskoeffizienten von x und y darstellt, ist auch das Quadrat des Korrelationskoeffizienten betaverteilt.

Allerdings kann die Verteilung des Bestimmtheitsmaßes beim Modelltest der Regression durch die F-Verteilung angegeben werden, die tabelliert vorliegt.