Home
   
LEISTUNGEN
Statistik
Datenbanken
Präsentation
Programmierung
Internet
Dissertation
 
  KONTAKT
Impressum
Kontakt
 
INFOTHEK
Statistik4You
Online rechnen
Links
 
Eingabe-Software
prakt. Vorgehen
Skalenniveau
Mehrf & Wdhlg.
abhängig & unabh.
Grafiken
Testauswahl
Chi-Quadrat-Test
 
webmaster@daten-consult

Die grafische Darstellung

Grafiken sind ein ideales Mittel, sich schnell einen Überblick über das Zahlenmaterial zu verschaffen bevor statistischen Prozeduren gerechnet werden. Dies erleichtert das Verständnis und die Analyse der Daten ungemein und hilft gerade dem Anfänger, sich gegen Fehlinterpretationen zu schützen. Daten nur mit den Rohdaten zu beurteilen ist oft schwierig, selbst wenn Maße wie Median, Mittelwert oder Standardabweichung zur Verfügung stehen. Natürlich sind Grafiken auch ein essentieller Bestandteil der Präsentation der Ergebnisse. Hier ist es üblich, Grafiken unten und Tabellen oben zu beschriften.
Die mittlerweile durch viele Software-Programme leicht verfügbaren Sonderversionen wie z.B. dreidimensionale Darstellungen in verschiedenen Drehrichtungen, tragen meißt nicht zur Verdeutlichung bei, sondern verwirren den Betrachter nur. Trotzdem werden sie vermutlich aus ästhetischen Gründen oft eingesetzt. Hier ist abzuwägen, ob das Outfit Vorrang vor dem Erkennen der Datenstruktur haben soll und der Sinn der Grafikpräsentation in erster Linie darin besteht, zu beeindrucken.
Im folgenden werden mögliche Darstellungsarten für kategoriale und metrische Daten exemplarisch erläutert.

Seiten-
anfang
Kategoriale
Daten
Mehrfach-
antworten
Verteilung Vergleich
kategorialer Daten
Vergleich
stetiger Daten
Zusammen-
hänge


Kategoriale Daten

Für die Darstellung von kategorialen Daten nur einer Stichprobe werden meist Tortendiagramme (Pie Charts), einfache Balkendiagramme (Bar Charts) oder Stapelbalken verwendet. Allen drei Darstellungsformen gemeinsam ist, daß sich die Prozentangaben unbedingt immer zu 100% addieren müssen. Sinnvoll ist deren Verwendung allerdings nur, wenn die Zahl der Kategorien für eine übersichtliche Darstellung nicht zu groß ist. In diesem Fall empfiehlt sich eine tabellarische Aufbereitung. Eine Alternative ist die Zusammenfassung mehrerer Kategorien. Bei ordinalen Daten kann u.U. auch auf Boxplots zurückgegriffen werden, wenn nicht jeder einzelne Wert von Bedeutung ist.


Darstellungsmöglichkeiten für kategoriale Daten

Einfache Balkendiagramme sind die übersichtlichste Darstellungsform für die meisten Anwendungsfälle. Unterschiede zwischen den einzelnen Häufigkeiten lassen sich hiermit besonders deutlich darstellen. Torten- oder Kreisdiagramme haben den Vorteil, daß der Beitrag der einzelnen Kategorien am gesamten "Kuchen" deutlich wird. Dafür sind bei vielen Kategorien Unterschiede zwischen den einzelnen Häufigkeiten oft kaum zu erkennen. Für das menschliche Auge sind Winkel von mehr als 180 Grad oder 90 Grad besonders gut zu erkennen. Deshalb eignen sich Tortendiagramme vor allem zur Darstellung von Mehrheiten (d.h. mehr als die Hälfte) oder von Beiträgen von mindestens einem Viertel. Von manchen werden auch Stapelbalken verwendet, wobei deren Aussagekraft jedoch gering ist. Die Animation zeigt identische Daten mit den drei genannten Darstellungsformen:


Seiten-
anfang
Kategoriale
Daten
Mehrfach-
antworten
Verteilung Vergleich
kategorialer Daten
Vergleich
stetiger Daten
Zusammen-
hänge


Mehrfachantworten

Wenn Mehrfachantworten vorliegen, ergeben sich einige Besonderheiten: Dies betrifft zum einen die Prozentuierung und zum anderen die Darstellungsform. Für eine Frage, die mit mehr als einer Nennung beantwortet werden konnte, kommen drei Arten der Darstellung in Frage. Diese geben Antwort auf die folgenden Fragen:

  • Wie häufig wurde welche Antwort gegeben
  • Welchen Beitrag liefert die einzelne Antwortmöglichkeit an allen Antworten
  • Wieviele Antworten wurden von den Befragten gegeben

Darstellungsmöglichkeiten für Mehrfachantworten

Bewährt ist die Darstellung der Häufigkeit der Antwortmöglichkeiten in Form von Balkendiagrammen, die sich hier zu mehr als 100% addieren. Dies muß in der Grafik unbedingt deutlich gemacht werden, z. B. durch den Hinweis auf Mehrfachnennungen und durch die Angabe, daß sich die Prozentzahlen auf die Befragten beziehen. Kreisdiagramme und Stapelbalken-Diagramme sind meist nicht geeignet.
Der Beitrag der einzelnen Antwort an allen Antworten kann als Kreis- oder einfaches Balkendiagramm erfolgen. Prozentangaben müssen sich hier zu 100% addieren. In einigen Fällen ist es auch sinnvoll, die Zahl der Antworten je Befragtem anzugeben.


Seiten-
anfang
Kategoriale
Daten
Mehrfach-
antworten
Verteilung Vergleich
kategorialer Daten
Vergleich
stetiger Daten
Zusammen-
hänge


Verteilung stetiger Variablen

Bevor stetige Daten weiter analysiert werden, ist es immer zu empfehlen, sich die Verteilung der Werte mit Hilfe eines Histogramms zu visualisieren. Beim Histogramm wird die Streubreite eines Merkmals, also der Bereich zwischen dem kleinsten und größten Wert, in Teilintervalle aufgeteilt und die Häufigkeit des Auftretens der so entstehenden Teilintervalle graphisch darstellt.
Damit kann untersucht werden, ob eine Variable normalverteilt ist. Es resultiert mit geringer Zeitaufwand eine übersichtliche, graphische Darstellung großer Datenmengen, wenn die Daten in elektronischer Form vorhanden sind. Bei kleinen Datenmengen lassen sich Histogramme auch gut manuell herstellen.
Die Zahl der Teilintervalle sollte so gewählt werden, daß die Grafik einerseits nicht die Übersichtlichkeit verliert und andererseits die Verteilung auch beurteilt werden kann. Im folgenden eine animierte Beispielgrafik mit und ohne Normalverteilung:

Histogramm

Eine Alternative für Histogramme sind u.U. Boxplots, die allerdings meist für den Vergleich von Teilstichproben, also Untergruppen, eingesetzt werden. Grobe Hinweise auf die Verteilung ist aber auch diesem Grafiktyp zu entnehmen.

 

Seiten-
anfang
Kategoriale
Daten
Mehrfach-
antworten
Verteilung Vergleich
kategorialer Daten
Vergleich
stetiger Daten
Zusammen-
hänge


Gegenüberstellung kategorialer Daten

Gegenüberstellung kategorialer Daten

Für die Darstellung von kategorialen (d.h. nominalen oder ordinalen) Daten von zwei oder mehr Teilstichproben sind einfache Balken oder Stapelbalken hervorragend geeignet. Prozentangaben für die Teilstichproben müssen sich jeweils immer zu 100% addieren. Auf die Gegenüberstellung von zwei oder gar mehreren Tortendiagrammen sollte verzichtetet werden, da dies in den meisten Fällen zu unübersichtlich ist.
In der Animation sind kategoriale Daten in zwei Teilstichproben A und B mit einfachen und Stapelbalken gegenübergestellt.

 

Seiten-
anfang
Kategoriale
Daten
Mehrfach-
antworten
Verteilung Vergleich
kategorialer Daten
Vergleich
stetiger Daten
Zusammen-
hänge


Gegenüberstellung stetiger Daten

Bei der Gegenüberstellung stetiger (d.h. ordinaler oder metrischer) Daten in zwei oder mehr Teilstichproben werden häufig Balkendiagramme benutzt. Mit diesen werden dann häufig lediglich die Mittelwerte in den Teilstichproben dargestellt. Dies mag zwar häufig gut aussehen, widerspricht aber dem Anliegen einer Grafik, Daten übersichtlich darzustellen. Zum anderen muß man Mittelwerte immer gemeinsam mit einem Streuungsmaß wie z.B. der Standardabweichung wiedergeben, da der Mittelwert allein eine recht geringe Aussagekraft hat. Daher sind Boxplots oder Fehlerbalken deutlich besser zur Gegenüberstellung von stetigen Daten geeignet.

1. Boxplot

Schemazeichnung Boxplot

Für den Vergleich mehrerer Teilgruppen stellt der Boxplot (Box-and-Whiskers Plot) eine ideale Möglichkeit dar. Auf einen Blick können hiermit wichtige Merkmale einer Verteilung visuell erfaßt werden. Boxplots werden auch als "5-Zahlen-Zusammenfassung" bezeichnet, was sich auf die fünf Merkmale Minimum, unteres und oberes Quartil, Median und Maximum bezieht. Mit einem Boxplot ist es elegant möglich, einen ersten Gesamteindruck über die Daten und Hinweise über die wichtigsten Eigenschaften einer Verteilung wie Zentrum, Streuung, Symmetrie, Schiefe zu vermitteln.
Der Strich im Kasten, der als Box bezeichnet wird, entspricht meist dem Median. Die durch den Kasten vorgegebenen Grenzen entsprechen der 25. und 75. Perzentile. Demnach beinhaltet der Kasten 50% aller Werte. Zwischen dem Median und der oberen bzw. unteren Kastengrenze liegen genau 25% aller Werte. Durch die "Whiskers" (deutsch: Katzenhaare) werden Minimum und Maximum der Werte und somit auch der Bereich, in dem die Werte liegen, gezeigt. Zwischen oberen bzw. unterem "Whisker" und oberer bzw. unterer Kastengrenze liegen wiederum genau 25% aller Werte. Die Schemazeichnung verdeutlicht dies (hoffentlich).
Besonders stark abweichende Werte (als "Ausreißer" oder "Extremwerte" bezeichnet) sind in den Ausführungen nicht berücksichtigt. Die Einbeziehung der Ausreißer in die Darstellung eines Boxplots wird als "punktiertes Boxplot" bezeichnet.

Die Form eines Boxplots gibt Hinweise auf die Verteilung in den gegenübergestellten Teilstichproben, u.a. auf Abweichungen von der Normalverteilung. Diese Charakteristika sind wesentlich für die weitere Verfahrensweise bei der Analyse der Daten, da einige statistische Verfahren eine Normalverteilung voraussetzen.
Am folgenden Beispiel wird dies deutlich. Während in der rechts dargestellten Gruppe B das hier untersuchte Gewicht nahezu normalverteilt ist, finden sich in der Gruppe A überproportional häufig groß Werte. Der Median in beiden Gruppen unterscheidet sich hingegen kaum.

Vergleich mit Boxplot



2. Fehlerbalken

Schemazeichnung Fehlerbalken

Eine andere Möglichkeit, stetige Daten in mehreren Teilstichproben gegenüberzustellen, bieten Fehlerbalken. Anders als Boxplots sind diese (wie der Durchschnitt/das arithmetische Mittelwert auch!) nur vernünftig anwendbar, wenn die Daten normalverteilt sind.
Das Rechteck in der Mitte der folgenden Abbildung entspricht dabei dem Mittelwert. Die "Whiskers" stehen bei dieser Darstellungsform für ein Streuungsmaß. In der Beispielgrafik wurde die Standardabweichung verwendet. Durch die Wiedergabe des Mittelwertes mitsamt der einfachen Standardabweichung nach oben und unten ergibt sich der Bereich, in dem ca. 68% der Werte angesiedelt sind. Achtung, bei dieser Darstellungsform wird die Verteilung der Werte nicht mit berücksichtigt.


Seiten-
anfang
Kategoriale
Daten
Mehrfach-
antworten
Verteilung Vergleich
kategorialer Daten
Vergleich
stetiger Daten
Zusammen-
hänge


Zusammenhänge

Für die Darstellung des Zusammenhangs zwischen zwei stetigen Variablen sind Streuungsdiagramme (Scatterplot) die wichtigste Möichkeit. Alle Punkte zweier Variablen werden hier in ein zweidimensionales Achsenkreuz eingezeichnet. Falls abhängige und unabhängige Variablen dargestellt werden, sollte darauf geachtet werden, daß die horizontale X-Achse zur Darstellung der unabhängigen Variable und die vertikale Y-Achse zur Darstellung der abhängigen Variable herangezogen wird. Optional kann eine Regressionsgrade eingezeichnet werden. Diese graphische Darstellungsform bietet schnell eine grobe Abschätzung einer eventuell vorhandenen linearen Korrelation wie in der folgenden Beispielgrafik:

Schemazeichnung Boxplot