Zum Inhalt springen

Barplot

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 4. Juli 2011 um 22:06 Uhr durch FachueberM27 (Diskussion | Beiträge). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Barplot

Säulendiagramm bei nominalskalierten Merkmalen (z.B. Wohnort)
Säulendiagramm bei ordinalskalierten Merkmalen (z.B. Schulnoten)
Säulendiagramm bei quantitativen Merkmalen (z.B. Alter)
Gestapeltes Säulendiagramm bei nominalskalierten Merkmalen (z.B. Geschlecht)
Gruppiertes Säulendiagramm bei nominalskalierten Merkmalen (z.B. Geschlecht)
Überlappendes Säulendiagramm bei nominalskalierten Merkmalen (z.B. Herkunftsland)
Balkendiagramm bei nominalskalierten Merkmalen (z.B. Wohnort)

Ein Barplot ist ein in der deskriptiven Statistik häufig verwendeter Diagrammtyp zur grafischen Darstellung von Zahlenwerten in Form von rechteckigen und nicht aneinandergrenzenden Säulen mit unterschiedlicher Länge (und bedeutungsloser Breite). Der englische Begriff Barplot umfasst die Darstellungsformen als Balkendiagramm, Stab- oder Säulendiagramm, Doppel-Säulendiagramm oder 3D-Säulendiagramm, das aus neben- oder hintereinander gestellten Säulen besteht. Diese Diagrammformen zeigen grafisch die absolute oder relative Häufigkeit für alle Arten von bivariaten empirischen Verteilungen für diskrete oder gruppierte stetige Merkmale durch die Höhe bzw. Länge eines isoliert stehenden Balkens.[1]

Funktionen

Barplots dienen in erster Linie dazu, einen schnellen Überblick über absolute oder relative Häufigkeiten einer Verteilung zu geben.[2] Sie können zeigen, wie häufig ein bestimmtes Objekt in einer Reihe aufeinanderfolgender Größenklassen auftritt.[3] Darin liegt auch ihr Vorzug im Vergleich zu Kreisdiagrammen, die das Augenmerk stärker darauf richten, wie ein Ganzes durch seine Teile aufgegliedert wird.

Werden die Häufigkeiten im zeitlichen Verlauf betrachtet, so lassen sich mittels Barplots auch Entwicklungen in Form von Zeitreihen veranschaulichen. Darüber hinaus können auch statistische Kennwerte (z.B. arithmetisches Mittel, Median, Modus) verschiedener Gruppen verglichen werden. Barplots eignen sich besonders, um wenige Ausprägungen (bis ca. 15) übersichtlich darzustellen. Bei mehr Kategorien sind zu Gunsten einer besseren Anschaulichkeit Liniendiagramme zu bevorzugen.

Barplots lassen sich handschriftlich (manuell) und elektronisch erstellen. So haben nicht nur Statistikprogramme wie SPSS, Stata und R spezielle Funktionen zur Erstellung von Diagrammen, sondern auch das MS-Office-Paket mit Word[4] und Excel[5] sowie das Open Office Paket[6] Funktionen, mit denen sich Daten grafisch als Säulendiagramme darstellen lassen.

Erscheinungsformen

Einfaches Säulendiagramm

Ein einfaches Säulendiagramm ermöglicht die Darstellung absoluter oder relativer Häufigkeiten einzelner Merkmale in Form einer vertikalen Säule. Die Häufigkeiten der Merkmale werden in einem Säulendiagramm über die Höhe und deren Differenzen definiert. Die Breite einer Säule hat somit keine Aussagekraft. Daher ist es notwendig, dass die Ordinate bei Null beginnt. Die Reihenfolge der Merkmalsausprägungen in einem Säulendiagramm ist bei nominalskalierten Merkmalen (z.B. Wohnort) willkürlich festlegbar. Im Vergleich dazu sollten die Ausprägungen bei ordinalskalierten Merkmalen (z.B. Schulnoten) einer Ordnung folgen. Bei quantitativen Merkmalen (z.B. Alter) sollte sich auch der Abstand der Merkmalsausprägungen proportional wiederfinden.[7]

Sonderformen

Gestapeltes Säulendiagramm

Gestapelte Säulendiagramme, auch Stapeldiagramme genannt, stellen relative Häufigkeiten in einer Rechtecksäule dar. Die jeweiligen Häufigkeiten werden demnach als Flächen dargestellt.[8] Die einzelnen Werte werden übereinander angeordnet und die Rechtecksäule bildet den Gesamtwert ab. Gesamtwerte werden auf diese Weise besser vergleichbar. Jedoch ist das Stapeldiagramm weniger gut geeignet, um Veränderungen der abgebildeten Anteile abzulesen.[9]

Gruppiertes Säulendiagramm

Das gruppierte Säulendiagramm bildet die Werte mehrerer Kategorien nebeneinander ab. Die verschiedenen Variablen sind somit direkt miteinander vergleichbar. Die aggregierten Daten können in diesem Diagrammtyp jedoch schwer abgelesen und verglichen werden.[10]

Überlappendes Säulendiagramm

In einem überlappenden Säulendiagramm werden die Säulen eines jeweiligen Merkmals überlappt dargestellt. Diese Darstellungsvariante wird häufig für mehrere Zeitreihen verwendet. Diesbezüglich findet sich die neueste Zeitreihe im Vordergrund und demensprechend sind ältere Zeitreihen teilweise verdeckt.[11]

Balkendiagramm

Das Balkendiagramm ist dem Säulendiagramm sehr ähnlich. Der einzige Unterschied besteht in der Art der Visualisierung. Denn ein Balkendiagramm ist ein um 90° gedrehtes Säulendiagramm, d.h. dass anstatt der vertikalen Säulen horizontale Balken zu sehen sind. Besonders gut sind Balkendiagramme für die Darstellung von Rangfolgen geeignet.[12]

Erstellung mit R

Der Begriff Barplot taucht häufig in Verbindung mit dem Statistikprogramm R auf. Aus diesem Grund wird hier genauer auf die Anwendung in R eingegangen. Mit der Funktion barplot () wird ein Säulendiagramm erstellt.[13] Zu beachten ist, dass als Ausgangswerte nur Vektoren oder Matrizen fungieren können.[14] Aus Vektoren werden einfache Säulendiagramme, aus Matrizen gruppierte oder gestapelte Säulendiagramme erzeugt.[15]

Einfaches Säulendiagramm

Die Grundform für Kennwerte einer Variablen, die getrennt für verschiedene Gruppen dargestellt werden sollen, lautet in der allgemeinen Form:

barplot (height=(Vector), horiz=FALSE).[16]

Der Befehl horiz=FALSE bewirkt die Darstellung von vertikalen Säulen, horiz=TRUE bewirkt die horizontale Darstellung, sodass ein Balkendiagramm entsteht.

Wollschläger verdeutlicht dies anhand eines Beispiels, bei dem die Häufigkeiten von simultanen Würfen eines sechsseitigen Würfels gezählt wurden.

> Dice <- sample (1:6. 100, replace=TRUE)
> (dTab <- table (dice))
dice

1 2 3 4 5 6
17 23 14 20 14 12

> barplot(dTab, ylim=c(0,30), xlab=“Augenzahl“, ylab=“N“, col=“red“,
+ main=“Absolute Häufigkeiten“)[17]

Anhand dieses Beispiels lassen sich die verschiedenen Programmiereinstellungen erklären:

Als Vektor und somit als Basis für die Darstellung fungiert die Tabelle unter dice. Die erste Zeile beinhaltet die Werte der x-Achse und die zweite die Werte der y-Achse, durch die die Höhe der Säulen bestimmt wird. Ylim stellt den Wertebereich der y-Achse folgendermaßen dar: c(Minimum), (Maximum).[18] Sind keine Angaben für xlim() und ylim() vorhanden, werden die Achsen anhand der kleinsten und größten Vektorwerte automatisch eingefügt. Mit Xlab und ylab werden die Achsenbezeichnungen festgelegt.[19]

Sollen die relativen Häufigkeiten anstatt der absoluten abgebildet werden, müssen diese zuerst mit der Funktion Prop.table() berechnet und der Quelltext wie folgt verändert werden:

> barplot (Prop.table(table(dice))), ylim=c(0. 0.3). xlab=”Augenzahl”,
+ ylab=”relative Häufigkeit”, col=”blue”,
+ main=“Relative Häufigkeiten“)[20]

Gruppierte und gestapelte Säulendiagramme

Möchte man Kombinationen mehrerer Faktoren darstellen, kann man gruppierte oder gestapelte Säulendiagramme nutzen. Um bei dem Würfelbeispiel zu bleiben, kann man einen Vektor hinzufügen, in dem die Ergebnisse eines zweiten Würfeldurchgangs eingetragen werden.[21]

Mit dem Befehl beside=TRUE wird ein gruppiertes Diagramm, mit beside=FALSE ein gestapeltes Diagramm erstellt.[22] Legend.text=TRUE führt dazu, dass eine Legende in das Diagramm eingefügt wird. Für die farbliche Gestaltung der Säulen wir der Befehl col in der Form col=c(„colour1“, „colour2“) genutzt.[23]

Daraus ergibt sich folgender Quelltext:

> roll1 <- dice [1:50] # erste Serie Würfelwürfe
> roll1 <- dice [51:100] # zweite Serie
> rollAll <- rbind(table(roll1), table(roll2))
< rownames (rollAll) <- c(“first”,”second”); rollAll

1 2 3 4 5 6
First x1 x2 x3 x4 x5 x6
Second y1 y2 y3 y4 y5 y6

1 2 3 4 5 6
First x1 x2 x3 x4 x5 x6
Second y1 y2 y3 y4 y5 y6

Mit folgendem Quelltext wird ein gestapeltes Säulendiagramm erzeugt:

> barplot (rollAll, beside=FALSE, legend.text=TRUE, xlab=”Augenzahl”,
+ Ylab=”N”, main=”Absolute Häufigkeiten in zwei Substichproben”)

Soll ein gruppiertes Diagramm erstellt werden, kann folgender Quelltext verwendet werden:

> barplot (rollAll, ylim=c(0,16), col=C(„red“, „blue“), beside=TRUE, legend.text=TRUE,
+ xlab=”Augenzahl”, ylab=”N”, main=”Absolute Häufigkeiten in zwei Substichproben”)[24]

Darüber hinaus ist die Änderung diverser optischer Elemente möglich.[25]

Literatur

  • David Ray Anderson/ Dennis Sweeney/ Thomas Williams: Statistics for business and economics. 2. ed. South-Western Educational Publishing, London 2010, ISBN 978-1-408-01810-1.
  • Andreas Büchter/ Hans-Wolfgang Henn: Elementare Stochastik - Eine Einführung in die Mathematik der Daten und des Zufalls. Springer Verlag, Berlin/Heidelberg 2005, ISBN 978-3-540-27368-4.
  • Barbara Hey: Präsentieren in Wissenschaft und Forschung. Springer Verlag, Berlin/Heidelberg 2011, ISBN 978-3-642-14587-2.
  • Ingo Kett/ Gerhard Schewe: Management Skills - Beziehungen nutzen, Probleme lösen, effektiv kommunizieren. Gabler Verlag, Wiesbaden 2010, ISBN 978-3-8349-8527-9.
  • Wolfgang Kohn/ Riza Öztürk: Statistik für Ökonomen. Datenanalyse mit R und SPSS. Springer Verlag, Berlin/Heidelberg 2011, ISBN 978-3-642-14585-8.
  • Hans-Joachim Mittag: Statistik. Eine interaktive Einführung. Springer Verlag, Berlin/Heidelberg 2011, ISBN 978-3-642-17846-7.
  • Rainer Schlittgen: Das Statistiklabor. Einführung und Benutzerhandbuch. Springer Verlag, Berlin/Heidelberg 2005, ISBN 978-3-540-26520-7.
  • Daniel Wollschläger: Grundlagen der Datenanalyse mit R. Eine anwendungsorientierte Einführung. Springer Verlag, Berlin/Heidelberg 2010, ISBN 978-3-642-12228-6.
Wikibooks: GNU_R:_barplot – Lern- und Lehrmaterialien

Einzelnachweise

<references>

  1. Hans-Joachim Mittag: Statistik. Eine interaktive Einführung. 2011, S. 94.
  2. David Ray Anderson u.a.: Statistics for business and economics. 2010.
  3. Säulendiagramm Überblick. Auf der Website von teachSam - Lehren und Lernen online. Abgerufen am 28. Juni 2011.
  4. Diagramme in Word erstellen. Von Bettina Sagebiel-Dittrich. Abgerufen am 28. Juni 2011.
  5. Präsentieren von Daten in einem Säulendiagramm. Auf der Onlinesupportseite von Microsoft Office. Abgerufen am 28. Juni 2011.
  6. Diagramme und Graphen erstellen. Auszug aus Calc-Handbuch. Kapitel 4, Diagramme und Graphen erstellen. Auf der Onlineressource OpenOffice.org. Abgerufen am 28. Juni 2011.
  7. Andreas Büchter/ Hans-Wolfgang Henn: Elementare Stochastik - Eine Einführung in die Mathematik der Daten und des Zufalls. 2005, S. 26.
  8. Andreas Büchter/ Hans-Wolfgang Henn: Elementare Stochastik - Eine Einführung in die Mathematik der Daten und des Zufalls. 2005, S. 27.
  9. Barbara Hey: Präsentieren in Wissenschaft und Forschung. 2011, S. 117.
  10. Barbara Hey: Präsentieren in Wissenschaft und Forschung. 2011, S. 117.
  11. Ingo Kett/ Gerhard Schewe: Management Skills - Beziehungen nutzen, Probleme lösen, effekitv kommunizieren. 2010, S. 141.
  12. Andreas Büchter/ Hans-Wolfgang Henn: Elementare Stochastik - Eine Einführung in die Mathematik der Daten und des Zufalls. 2005, S. 26 f.
  13. Rainer Schlittgen: Das Statistiklabor. 2005, S. 70.
  14. GNU R Barplot. Auf der Websiete von Wikibooks. Abgerufen am 28. Juni 2011.
  15. GNU R Barplot. Auf der Websiete von Wikibooks. Abgerufen am 28. Juni 2011.
  16. Daniel Wollschläger: Grundlage der Datenanalyse mit R. 2010, S. 349.
  17. Daniel Wollschläger: Grundlage der Datenanalyse mit R. 2010, S. 349.
  18. Daniel Wollschläger: Grundlage der Datenanalyse mit R. 2010, S. 349.
  19. Daniel Wollschläger: Grundlage der Datenanalyse mit R. 2010, S. 348.
  20. Daniel Wollschläger: Grundlage der Datenanalyse mit R. 2010, S. 349.
  21. Daniel Wollschläger: Grundlage der Datenanalyse mit R. 2010, S. 350.
  22. Bar Plots. Auf der Webpräsenz von Quick-R. Abgerufen am 28. Juni 2011.
  23. Daniel Wollschläger: Grundlage der Datenanalyse mit R. 2010, S. 351.
  24. Daniel Wollschläger: Grundlage der Datenanalyse mit R. 2010, S. 351.
  25. Barplots. Auf der Webseite von Frederike Fuhlbrück zu Diagrammen und deren Erstellung. Abgerufen am 28. Juni 2011.