Box-Plot

Diagramm zur grafischen Darstellung der Verteilung
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 20. Juni 2007 um 10:10 Uhr durch 91.16.212.132 (Diskussion) (Whisker). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Der Boxplot (auch Box-Whisker-Plot) ist ein Diagramm, das zur graphischen Darstellung einer Reihe numerischer Daten verwendet wird. Er fasst verschiedene Maße der zentralen Tendenz, Streuung und Schiefe in einem Diagramm zusammen. Alle Werte der Fünf-Punkte-Zusammenfassung, also der Median, die zwei Quartile und die beiden Extremwerte, sind dargestellt.

Datei:Boxwhiskerplot.png
Der Boxplot wird über einem Zahlenstrahl dargestellt.

Box

Als Box wird das durch die Quartile bestimmte Rechteck bezeichnet. Sie umfasst 50 % der Daten. Durch die Länge der Box ist der Interquartilsabstand (interquartile range, IQR) abzulesen. Dies ist ein Maß der Streuung, welches durch die Differenz des oberen und unteren Quartils bestimmt ist. Als weiteres Quantil ist der Median in der Box eingezeichnet, welcher durch seine Lage innerhalb der Box einen Eindruck von der Schiefe der den Daten zugrunde liegenden Verteilung vermittelt.

Whisker

Als „Whisker“ werden die horizontalen/vertikalen Linien bezeichnet. In der Literatur finden sich drei verschiedene Definitionen über die Länge der Whisker:

Variante 1

Die Länge der Whisler beträgt maximal das 1,5-fache des Interquartilsabstands (1,5×IQR) und wird immer durch einen Wert aus den Daten bestimmt. Werte, die über dieser Grenze liegen, werden separat in das Diagramm eingetragen und als Ausreißer bezeichnet. Gibt es keine Werte außerhalb der Whisler, so wird die Länge des Whislers durch den maximalen bzw. minimalen Wert festgelegt.

Häufig werden Ausreißer, die zwischen 1,5×IQR und 3×IQR liegen als „milde“ Ausreißer bezeichnet und Werte, die über 3×IQR liegen als „extreme“ Ausreißer. Diese werden dann auch unterschiedlich im Diagramm gekennzeichnet.

Grundlage ist die Definition von John W. Tukey.

Variante 2

Die Länge der Whisler entspricht der Differenz zwischen dem Minimum und dem unteren Quartil bzw. zwischen dem oberen Quartil und dem Maximum. Ausreißer werden in dieser Variante nicht dargestellt; Minimum und Maximum sind sofort erkennbar.

Variante 3

Berechnung des unteren Whisker als 2,5 % Quantil. Berechnung des oberen als 97,5 % Quantil. Innerhalb der Whiskergrenzen liegen somit 95% aller beobachteten Werte.

Die Behandlung von Ausreißern erfolgt wie in Variante 1.

Abwandlungen

Abwandlungen des Boxplots verwenden weitere Quartile für die Whislerlänge, was jedoch bei Datenbeständen ab einer gewissen Größe immer zu Ausreißern führt.

Eine weitere Abwandlung besteht darin, das arithmetische Mittel einzutragen.

Literatur