Home
   
LEISTUNGEN
Statistik
Datenbanken
Präsentation
Programmierung
Internet
Dissertation
 
  KONTAKT
Impressum
Kontakt
 
INFOTHEK
Statistik4You
Online rechnen
Links
 
Eingabe-Software
prakt. Vorgehen
Skalenniveau
Mehrf & Wdhlg.
abhängig & unabh.
Grafiken
Testauswahl
Chi-Quadrat-Test
 
webmaster@daten-consult

Praktisches Vorgehen bei der Dateneingabe

Im folgenden wird ein hypothetisches Beispiel für die Dateneingabe in eine Excel-Tabelle (in dieser Form als 'Spreadsheet' bezeichnet) gezeigt. Das Beispiel handelt um die arterielle Hypertonie (Bluthochdruck). Von vier Patienten werden der Name, das Alter, das Geschlecht, die Größe, die Art der Medikation mit Antihypertonika sowie der Blutdruck erfaßt. Den Patienten werden je nach Belieben des Arztes eines oder mehrere von vier blutdrucksenkenden Medikamenten (z.B. Diuretika, Kalziumantagonisten, Betablocker, ACE-Hemmer) verabreicht. Der Blutdruck wird jeweils zu Beginn der Untersuchung und erneut nach 3 Monaten erhoben.

  A B C D E F G H I J K L M
1 ID Name Alter Geschl Groesse Med_A Med_B Med_C Med_D RRS_U1 RRS_U2 RRD_U1 RRD_U2
2 1 Mustermann H 32 1 182 1 0 0 1 160 140 110 95
3 2 Musterfrau G 26 0 999 1 1 1 1 150 120 105 80
4 3 Faulpelz S 45 1 171 1 0 1 0 130 110 100 90
5 4 Nimmersatt K 34 0 174 0 0 1 1 999 120 140 95

Das Beispiel verdeutlicht den Grundaufbau jeder Datendatei: Für jede benötigte Variable (d.h. erfaßtem Merkmal) wird eine Spalte zu definiert und die Angaben zu einer Versuchseinheit (d.h. einer Person, eines Fragebogens o.ä.) stehen in einer Zeile. In die erste Zeile - und nur in diese - werden die Variablennamen eingegeben. Für jede Versuchseinheit wird eine Identifikationsnummer vergeben, hier 'ID' genannt. Eingabefelder mit Text sind möglichst zu vermeiden, nur für Namen braucht man sie wirklich. Das Geschlecht wurde wegen der Beschränkung auf 8 Zeichen abgekürzt.
Unter Berücksichtigung des Skalenniveaus wurde bei der Dateneingabe ein Kodierschema verwendet. Da das Geschlecht eine diskrete, qualitativ-beschreibende Variable ist, wurde für Männer eine '1' eingetragen und für Frauen eine '0'. Für stetige, quantitativ-zählende Variablen wie die Körpergröße wird der eigentliche Wert eingetragen.
Fehlende oder falsche Angaben treten fast immer auf. Im Beispiel hat Frau Musterfrau vergessen, ihre Größe anzugeben. Hier wurde eine "999" eingetragen. Es handelt sich um einen "missing value". Ein solches Feld freizulassen wäre fatal, da bei der statistischen Auswertung nicht klar wäre, ob es sich um einen Eingabefehler oder einen "missing value" handelt. Mit der "999" kann der Wert eindeutig als fehlende/falsche Angabe identifiziert werden.
Häufig werden bei Mehrfachantworten und Messwiederholungen Fehler gemacht. Im Beispiel wurde bei den Mehrfachantworten auf die "Dummy-Kodierung" zurückgegriffen, die man immer anwenden kann. Für jedes mögliche Medikament wurde eine eigene Variable definiert, für die eine 0 oder 1 eingetragen wird. Eine 0 steht für "Medikament nicht eingenommen" und eine 1 für "Medikament eingenommen". Völlig falsch wäre gewesen, für Herrn Mustermann z.B. in nur ein Feld "1,0,0,1" einzutragen.
Der Blutdruck, unsere Meßwiederholungsvariable, wurde zu zwei Zeitpunkten (U1 und U2) erfaßt mit jeweils zwei Werten (RRS = systolisch und RRD = diastolisch), die getrennt für beide Zeitpunkte eingetragen werden. Völlig falsch wäre gewesen, für Herrn Mustermann z.B. "160/110" und "140/95" in nur zwei Felder oder gar "160/110,140/95" in nur ein Feld einzutragen. Solche Angaben kann kein Statistikprogramm verarbeiten! Für Frau Nimmersatt wurde übrigens vergessen, den systolischen Blutdruck zum ersten Untersuchungszeitpunkt zu bestimmen. Hier steht natürlich wieder eine "999".
Wenn das oben erläuterte Schema eingehalten wurde, sollten die Daten optimal für die statistische Analyse vorbereitet sein. Auf keinen Fall darf man natürlich das Kodierschema vergessen. Nach ein paar Wochen weiß kein normaler Mensch mehr ob "MED_A" Diuretika, Kalziumantagonisten, Betablocker oder ACE-Hemmer sind. Idealerweise speichert man in einer eigenen Datei, daß z.B. "Geschl" für das Geschlecht steht, dort für Männer eine '1' und für Frauen eine '0' eingetragen wurde und fehlende/falsche Werte mit '999' kodiert wurden.