Wie erstellt man ein Kodebuch?

Kodebücher sind ein unverzichtbarer Bestandteil der Datendokumentation und des Datenaustauschs in den Sozialwissenschaften. Im Allgemeinen beschreiben sie den Inhalt, die Struktur und das Layout einer Datensammlung.

Kernkomponenten

  • Variablenname. Der Name einer Variablen sollte nur aus Buchstaben, ganzen Zahlen und Unterstrichen bestehen. Beachten Sie, dass sich die Programme hinsichtlich der zulässigen Länge, der unterstützten Symbole und der Unterscheidung zwischen Groß- und Kleinbuchstaben unterscheiden. Sie sollten eine ReadMe zu den verwendeten Namenskonventionen bereitstellen. Ein Beispiel für eine ausgefeilte Namenskonvention ist die Namenskonvention des GESIS-Panels: Seine Zuweisungsregeln stellen sicher, dass jeder Variablenname eindeutig und leicht identifizierbar ist und den Archivstandards entspricht (Beschränkung auf eine Länge von max. 8 Token (Ziffern oder Buchstaben) und keine Kombination von Groß- und Kleinbuchstaben
  • Variablenbezeichnung. Eine kurze Beschreibung oder der vollständige Name einer Variablen. Wenn der Variablenname zum Beispiel BDI_Q1_T1 lautet, könnte der vollständige Name Becks Depression Inventory, Question 1, Baseline lauten.
  • Variablentyp. Es gibt kein festes Schema für die Beschreibung des Variablentyps. Zumindest sollten Sie zwischen (a) numerischen Variablen (z. B. 5-Punkte-Ratingskala, Größe, Intelligenz), (b) Strings (beliebige Freitext-Items) und (c) Daten unterscheiden.
  • Gültige Werte. Die Menge der gültigen Werte, die zur Kodierung von Kategorien für nominale und kategoriale Variablen verwendet wurden. Bei kontinuierlichen Variablen sollte der Bereich der gültigen Werte definiert werden (z. B. durch Zuweisung von Wertkennzeichnungen für Minimum und Maximum). Um zu zeigen, dass die Wertelabels nicht zufällig zugewiesen wurden, empfehlen wir, allen aufgeführten gültigen Werten Wertelabels zuzuweisen.
  • Die Wertelabels liefern Informationen darüber, wie gültige Werte für nominale und ordinale kategoriale Variablen zu interpretieren sind, sowie Informationen darüber, wie fehlende Werte für alle Arten von Variablen zu interpretieren sind.
  • Fehlende Werte. Der Satz von Werten, die zur Kodierung fehlender Daten verwendet wurden. „Leerzeichen“ oder „Sysmis“-Werte sollten nicht als fehlende Werte verwendet werden, da es nicht möglich ist, zwischen Feldern, die absichtlich leer gelassen wurden (Elemente, die nicht beantwortet wurden oder absichtlich fehlen) und Feldern, die bei der Dateneingabe einfach übersprungen wurden, zu unterscheiden. Es sollten verschiedene Arten von fehlenden Werten unterschieden werden: z. B. fehlende Angaben aufgrund des Designs (z. B. weil einige Fragen nur in der Kontrollgruppe gestellt wurden), nicht anwendbar (z. B. Schwangerschaft bei männlichen Teilnehmern), nicht beantwortet. Daher sollten Sie diesen fehlenden Wertmustern unterschiedliche Codes und anschließend Wertelabels zuordnen. Es ist wichtig, fehlende Werte zu standardisieren (d. h. es gibt einen Code für jede Art von fehlendem Wert, der in Ihrem gesamten Datensatz einheitlich verwendet wird). In manchen Fällen kann es sinnvoll sein, einen Bereich von fehlenden Werten zu definieren. Die Festlegung eines Bereichs fehlender Werte (z. B. ein Bereich fehlender Werte, der bei einer 5-Punkte-Likert-Skala als 6-99 definiert ist) erleichtert den Ausschluss wilder Codes (z. B. 55 statt 5 aufgrund von Tippfehlern) oder von Messfehlern aus den Analysen (z. B. Messungen von Herzfrequenzen, die höher als 220 Schläge pro Minute sind).

Erweiterte Informationen

Die folgenden Informationen sollten entweder in die Variablenbezeichnung oder in ein separates Attributfeld aufgenommen werden, wenn sie die Verständlichkeit der Daten verbessern:

  • Variablentext/Anweisung. Der genaue Wortlaut des Fragebogenitems, der Softwareanweisung usw., die der Variable entsprechen (unter Berücksichtigung der Rechte Dritter).
  • Messzeitpunkt. Der Messzeitpunkt für die Variable (z. B. Welle 1, Vorbehandlung).
  • Instrument. Das Messinstrument, zu dem die Variable gehört.
  • Konstrukt. Das theoretische Konstrukt, das durch eine Variable gemessen wird.
  • Einheit der Messung. Die Maßeinheit für kontinuierliche Variablen (z. B. Meter, Sekunden).
  • Antworteinheit. Die Einheit, die Informationen geliefert hat.
  • Analyseeinheit. Die Einheit, die in der Variable analysiert wird. Beachten Sie, dass Antworteinheit und Analyseeinheit nicht unbedingt identisch sind (z. B. Eltern, die Informationen über das Verhalten ihres Kindes liefern).
  • Filter-Variable. Ist diese Variable eine Filtervariable? Je nach den Antworten der Teilnehmer auf eine Filtervariable wird eine Reihe von nachfolgenden Items/Fragen präsentiert oder nicht. Zum Beispiel ist die Variable „Familienstand“ eine Filtervariable, wenn ein Satz von Fragen nur denjenigen Personen vorgelegt wird, die angegeben haben, dass sie verheiratet sind.
  • Imputation. Wenn irgendeine Art von Imputation stattgefunden hat, sollte dies dokumentiert werden.

Weitere Ressourcen und Werkzeuge

Arslan, R. C. (2019). How to automatically document data with the codebook package to facilitate data re-use. Advances in Methods and Practices in Psychological Science, 2(2), 169–187. https://doi.org/10.1177/2515245919838783

Weitere Leitlinien können über das equator network abgerufen werden, das ein Verzeichnis von Leitlinien zu den Gesundheitswissenschaften mit mehr als 280 Einträgen führt.

FAIRsharing.org kuratiert Informationen über miteinander verbundene Datenstandards, Datenbanken und Strategien (in den Bereichen Biowissenschaften, Umwelt und Biomedizin).

The RDA Metadata Standards Directory Working Group setzt sich aus Einzelpersonen und Organisationen zusammen, die an der Entwicklung, Umsetzung und Nutzung von Metadaten für wissenschaftliche Daten beteiligt sind.

Die Informationen über das Kodebuch basieren auf der ICPSR-Webseite über Kodebücher und den entsprechenden Informationen im PsychData-Handbuch.