Welche Informationen sollten in eine Datendokumentation aufgenommen werden?

Die Planung der Dokumentation von Forschungsdaten bedeutet im Allgemeinen eine Entscheidung über die Metadaten, d. h. Daten, die dazu beitragen, einem Datenobjekt eine Bedeutung zu verleihen, die in Bezug auf einen bestimmten Datenerfassungsprozess dokumentiert werden müssen. Informationen darüber, welche Metadaten erstellt werden sollen, können aus verschiedenen Quellen stammen. Einerseits verfügen die meisten Datenarchive über einen eigenen Satz obligatorischer Metadaten, die vom Datenlieferanten bereitgestellt werden müssen. In den meisten Fällen handelt es sich dabei um administrative Metadaten, d. h. Informationen zur Verwaltung einer Ressource, z. B. wann und wie sie erstellt wurde, Dateityp und andere technische Informationen sowie Zugriffsrechte. Andererseits können Metadaten-Standards, wie der Data Documentation Initiative (DDI)-Standard für die Sozialwissenschaften, zur Dokumentation anderer relevanter struktureller und beschreibender Metadaten verwendet werden. Ein geeigneter Ansatz für die Entscheidung, welche Metadaten für eine verständliche Beschreibung von Forschungsdaten zu melden sind, besteht darin, sich auf bestehende Standards für die Datendokumentation sowie auf allgemeine Standards für die Berichterstattung zu stützen. Nachfolgend finden Sie eine Liste von Standards, die Ihnen eine Hilfestellung bei der Dokumentation Ihrer Daten, Datenerhebungsverfahren, Studiendesigns, Messinstrumente oder Interventionen bieten können. Außerdem wird das Kodebuch als unverzichtbarer Bestandteil der Datendokumentation und des Datenaustauschs näher beschrieben.

Datendokumentationsstandards

  • BIDS (Brain Imaging Data Structure; Gorgolewski et al., 2016)
  • EEG-BIDS (Pernet et al., 2019)
  • MEG-BIDS (Niso et al., 2018)
  • iEEG-BIDS (Holdgraf et al., 2019)
  • aDWI-BIDS (Gholam et al., 2019)
  • genetics BIDS (Moreau et al., 2020)

Leitlinien für die Berichterstattung bei (Experimentellen) Studien

  • Die Journal Article and Reporting Standards (JARS) der American Psychological Association sind derzeit die wichtigsten Standards für die Berichterstattung über psychologische Studien. Sie enthalten detaillierte Informationen darüber, wie die methodischen Teile einer Arbeit zu beschreiben sind.
  • Das APA-Publikationshandbuch, das weiter gefasst ist als die JARS, kann ebenfalls als Leitfaden für Ihre Dokumentation dienen.
  • Die CONSORT-Erklärung ist wahrscheinlich die Leitlinie, die im Bereich der Gesundheitswissenschaften den größten Einfluss hat. CONSORT steht für Consolidated Standards of Reporting Trials und gibt evidenzbasierte Empfehlungen für die Berichterstattung über randomisierte Studien. Sie umfasst eine 25 Punkte umfassende Checkliste (Berichtsdesign, Analyse und Interpretation der Studie) sowie ein Flussdiagramm (Fluss aller Teilnehmer durch die Studie). Verschiedene Erweiterungen der CONSORT-Erklärung sind bereits verfügbar oder werden derzeit entwickelt.
  • Darüber hinaus wird derzeit CONSORT-SPI, eine Erweiterung für randomisierte kontrollierte Studien zu sozialen und psychologischen Interventionen, entwickelt.
  • Berichterstattung über das Studiendesign: Die SPIRIT-Erklärung, die Checklisten zu verschiedenen Aspekten von klinischen Studienprotokollen enthält, kann als Anleitung für die Berichterstattung über Ihr Studiendesign dienen.
  • Präregistrierung: van’t Veer und Giner-Sorolla (2016) haben Empfehlungen zur Vorregistrierung von Studien in der Sozialpsychologie veröffentlicht. Weitere Materialien sind über das entsprechende OSF-Projekt verfügbar. Darüber hinaus hat eine Arbeitsgruppe aus Mitgliedern der APA, der BPS, der DGPs, der COS und des ZPID eine Vorlage für die Vorregistrierung entwickelt, die über die PreReg-Plattform des ZPID abgerufen werden kann.
  • MRI-Daten: Leitfaden der Organisation für Human Brain Mapping (OHBM) Committee on Best Practice in Data Analysis and Sharing (COBIDAS)
  • EEG-Daten: (Deutsch) Empfehlungen zur Erzeugung und Dokumentation von EEG Daten der Deutschen Gesellschaft für Klinische Neurophysiologie und Funktionelle Bildgebung. EEG-BIDS (Pernet et al., 2019)
  • Messinstrumente: Der RatSWD – Deutsches Datenforum hat ein Arbeitspapier zu Qualitätsstandards für die Entwicklung, Anwendung und Evaluation von Messinstrumenten in der sozialwissenschaftlichen Umfrageforschung veröffentlicht
  • Meta-Analysen: JARS bietet auch eine Anleitung zur Berichterstattung über Meta-Analysen.
  • Eine JARS-Anpassung für qualitative Daten

Kodebücher

Kodebücher sind ein unverzichtbarer Bestandteil der Datendokumentation und des Datenaustauschs in den Sozialwissenschaften. Im Allgemeinen beschreiben sie den Inhalt, die Struktur und das Layout einer Datensammlung.

Kernkomponenten

  • Variablenname. Der Name einer Variablen sollte nur aus Buchstaben, ganzen Zahlen und Unterstrichen bestehen. Beachten Sie, dass sich die Programme hinsichtlich der zulässigen Länge, der unterstützten Symbole und der Unterscheidung zwischen Groß- und Kleinbuchstaben unterscheiden. Sie sollten eine ReadMe zu den verwendeten Namenskonventionen bereitstellen. Ein Beispiel für eine ausgefeilte Namenskonvention ist die Namenskonvention des GESIS-Panels: Seine Zuweisungsregeln stellen sicher, dass jeder Variablenname eindeutig und leicht identifizierbar ist und den Archivstandards entspricht (Beschränkung auf eine Länge von max. 8 Token (Ziffern oder Buchstaben) und keine Kombination von Groß- und Kleinbuchstaben
  • Variablenbezeichnung. Eine kurze Beschreibung oder der vollständige Name einer Variablen. Wenn der Variablenname zum Beispiel BDI_Q1_T1 lautet, könnte der vollständige Name Becks Depression Inventory, Question 1, Baseline lauten.
  • Variablentyp. Es gibt kein festes Schema für die Beschreibung des Variablentyps. Zumindest sollten Sie zwischen (a) numerischen Variablen (z. B. 5-Punkte-Ratingskala, Größe, Intelligenz), (b) Strings (beliebige Freitext-Items) und (c) Daten unterscheiden.
  • Gültige Werte. Die Menge der gültigen Werte, die zur Kodierung von Kategorien für nominale und kategoriale Variablen verwendet wurden. Bei kontinuierlichen Variablen sollte der Bereich der gültigen Werte definiert werden (z. B. durch Zuweisung von Wertkennzeichnungen für Minimum und Maximum). Um zu zeigen, dass die Wertelabels nicht zufällig zugewiesen wurden, empfehlen wir, allen aufgeführten gültigen Werten Wertelabels zuzuweisen.
  • Die Wertelabels liefern Informationen darüber, wie gültige Werte für nominale und ordinale kategoriale Variablen zu interpretieren sind, sowie Informationen darüber, wie fehlende Werte für alle Arten von Variablen zu interpretieren sind.
  • Fehlende Werte. Der Satz von Werten, die zur Kodierung fehlender Daten verwendet wurden. „Leerzeichen“ oder „Sysmis“-Werte sollten nicht als fehlende Werte verwendet werden, da es nicht möglich ist, zwischen Feldern, die absichtlich leer gelassen wurden (Elemente, die nicht beantwortet wurden oder absichtlich fehlen) und Feldern, die bei der Dateneingabe einfach übersprungen wurden, zu unterscheiden. Es sollten verschiedene Arten von fehlenden Werten unterschieden werden: z. B. fehlende Angaben aufgrund des Designs (z. B. weil einige Fragen nur in der Kontrollgruppe gestellt wurden), nicht anwendbar (z. B. Schwangerschaft bei männlichen Teilnehmern), nicht beantwortet. Daher sollten Sie diesen fehlenden Wertmustern unterschiedliche Codes und anschließend Wertelabels zuordnen. Es ist wichtig, fehlende Werte zu standardisieren (d. h. es gibt einen Code für jede Art von fehlendem Wert, der in Ihrem gesamten Datensatz einheitlich verwendet wird). In manchen Fällen kann es sinnvoll sein, einen Bereich von fehlenden Werten zu definieren. Die Festlegung eines Bereichs fehlender Werte (z. B. ein Bereich fehlender Werte, der bei einer 5-Punkte-Likert-Skala als 6-99 definiert ist) erleichtert den Ausschluss wilder Codes (z. B. 55 statt 5 aufgrund von Tippfehlern) oder von Messfehlern aus den Analysen (z. B. Messungen von Herzfrequenzen, die höher als 220 Schläge pro Minute sind).

Erweiterte Informationen

Die folgenden Informationen sollten entweder in die Variablenbezeichnung oder in ein separates Attributfeld aufgenommen werden, wenn sie die Verständlichkeit der Daten verbessern:

  • Variablentext/Anweisung. Der genaue Wortlaut des Fragebogenitems, der Softwareanweisung usw., die der Variable entsprechen (unter Berücksichtigung der Rechte Dritter).
  • Messzeitpunkt. Der Messzeitpunkt für die Variable (z. B. Welle 1, Vorbehandlung).
  • Instrument. Das Messinstrument, zu dem die Variable gehört.
  • Konstrukt. Das theoretische Konstrukt, das durch eine Variable gemessen wird.
  • Einheit der Messung. Die Maßeinheit für kontinuierliche Variablen (z. B. Meter, Sekunden).
  • Antworteinheit. Die Einheit, die Informationen geliefert hat.
  • Analyseeinheit. Die Einheit, die in der Variable analysiert wird. Beachten Sie, dass Antworteinheit und Analyseeinheit nicht unbedingt identisch sind (z. B. Eltern, die Informationen über das Verhalten ihres Kindes liefern).
  • Filter-Variable. Ist diese Variable eine Filtervariable? Je nach den Antworten der Teilnehmer auf eine Filtervariable wird eine Reihe von nachfolgenden Items/Fragen präsentiert oder nicht. Zum Beispiel ist die Variable „Familienstand“ eine Filtervariable, wenn ein Satz von Fragen nur denjenigen Personen vorgelegt wird, die angegeben haben, dass sie verheiratet sind.
  • Imputation. Wenn irgendeine Art von Imputation stattgefunden hat, sollte dies dokumentiert werden.

Referenzen

Gholam, J., Szczepankiewicz, F., Tax, C. M., Mueller, L., Kopanoglu, E., Nilsson, M., … & Beltrachini, L. (2021). aDWI-BIDS: an extension to the brain imaging data structure for advanced diffusion weighted imaging. arXiv preprint arXiv:2103.14485.

Gorgolewski, K. J., Auer, T., Calhoun, V. D., Craddock, R. C., Das, S., Duff, E. P., … & Poldrack, R. A. (2016). The brain imaging data structure, a format for organizing and describing outputs of neuroimaging experiments. Scientific data3(1), 1-9.

Holdgraf, C., Appelhoff, S., Bickel, S., Bouchard, K., D’Ambrosio, S., David, O., … & Hermes, D. (2019). iEEG-BIDS, extending the Brain Imaging Data Structure specification to human intracranial electrophysiology. Scientific data6(1), 1-6.

Moreau, C. A., Jean-Louis, M., Blair, R., Markiewicz, C. J., Turner, J. A., Calhoun, V. D., … & Pernet, C. R. (2020). The genetics-BIDS extension: Easing the search for genetic data associated with human brain imaging. GigaScience9(10), giaa104.

Niso, G., Gorgolewski, K. J., Bock, E., Brooks, T. L., Flandin, G., Gramfort, A., … & Baillet, S. (2018). MEG-BIDS, the brain imaging data structure extended to magnetoencephalography. Scientific data5(1), 1-5.

Pernet, C. R., Appelhoff, S., Gorgolewski, K. J., Flandin, G., Phillips, C., Delorme, A., & Oostenveld, R. (2019). EEG-BIDS, an extension to the brain imaging data structure for electroencephalography. Scientific data6(1), 1-5.

Rammstedt, B., Beierlein, C., Brähler, E., Eid, M., Hartig, J., Kersting, M.,…,Weichselgartner, E. (2015). Quality Standards for the Development, Application, and Evaluation of Measurement Instruments in Social Science Survey Research. RatSWD Working Paper Series. No 245.

Weitere Ressourcen und Werkzeuge

Arslan, R. C. (2019). How to automatically document data with the codebook package to facilitate data re-use. Advances in Methods and Practices in Psychological Science, 2(2), 169–187. https://doi.org/10.1177/2515245919838783

Weitere Leitlinien können über das equator network abgerufen werden, das ein Verzeichnis von Leitlinien zu den Gesundheitswissenschaften mit mehr als 280 Einträgen führt.

FAIRsharing.org kuratiert Informationen über miteinander verbundene Datenstandards, Datenbanken und Strategien (in den Bereichen Biowissenschaften, Umwelt und Biomedizin).

The RDA Metadata Standards Directory Working Group setzt sich aus Einzelpersonen und Organisationen zusammen, die an der Entwicklung, Umsetzung und Nutzung von Metadaten für wissenschaftliche Daten beteiligt sind.

Die Informationen über das Kodebuch basieren auf der ICPSR-Webseite über Kodebücher und den entsprechenden Informationen im PsychData-Handbuch.