Dateiformate & Versionierung

Die Wahl der richtigen Dateiformate für die Langzeitarchivierung

Wenn Forscher Forschungsdaten langfristig aufbewahren wollen, sollten sie versuchen, die technische Verfügbarkeit ihrer Daten zu verbessern, indem sie die Daten in langlebige Formate konvertieren, die auch in 5, 10 oder 20 Jahren noch zugänglich sein sollen. Für einfache Datenmatrizen erfüllen Textdateien diese Anforderung (wenn sie von einem Codebuch begleitet werden, das die Daten interpretierbar macht). Da solche Formate nicht für alle Arten von Daten verfügbar sind, sorgen einige Repositories dafür, dass die Daten in neue Formate migriert werden, wenn das
alte Format veraltet ist.

Neben diesen eher allgemeinen Überlegungen gibt es auch einige Empfehlungen und Best Practices für spezifische Datentypen in der Psychologie. Für biopsychologische Datenformate können die folgenden Standards verwendet werden:

  • Brain Imaging Data Specification for fMRI data (einführender Artikel)
  • Best Practices in Data Analysis and Sharing in Neuroimaging using MRI for MRI data
  • DICOM (Digital Imaging and Communications in Medicine) standard for storing and transmitting of information in medical digital imaging management
  • Empfehlungen zur Erzeugung und Dokumentation von EEG Daten der Deutschen Gesellschaft für Klinische Neurophysiologie und Funktionelle Bildgebung (only German)
  • Empfehlungen zur Erstellung und Dokumentation von EEG-Daten der Deutschen Gesellschaft für Klinische Neurophysiologie und Funktionelle Bildgebung (DGKN) für EEG-Daten
  • Europäisches Datenformat (EDF) für EEG Daten

Für verhaltenspsychologische Forschungsdaten kann auf den BIDS-Standard zurückgegriffen werden (Gorgolewski et al., 2016).

Versionierung von Forschungsdaten

Versionierung oder Versionskontrolle bedeutet die Speicherung von Änderungen und die Aufzeichnung von Änderungen in (Daten-)Dateien. Immer wenn sich eine Datei ändert, sollte eine neue Kopie mit einer neuen Versionsnummer erstellt werden. Dies ermöglicht es, jederzeit auf ältere Versionen zurückzugreifen und die Entwicklung eines Datenbestandes zu rekonstruieren. Die Rekonstruktion des Entstehungsprozesses einer Datei wird oft auch als Data-Provenance-Dokumentation bezeichnet und ist eine wesentliche Eigenschaft transparenter, reproduzierbarer Wissenschaft. Die Versionierung sollte einem systematischen Ablauf folgen, der zum Beispiel angibt, unter welchen Umständen eine neue Version erstellt wird.

Wie erfolgt die Versionierung?

Je nach Komplexität Ihrer Forschungsdaten können Sie die folgenden Verfahren für die Versionierung von Daten anwenden:

  • Definition von Meilensteinen. Wenn ein vordefinierter Meilenstein erreicht ist (z.B. Datendatei: Eingabe aller gesammelten Daten), wird eine separate Meilensteinversion der Datei (Master-Datei) erstellt. Von dieser Master-Datei sollten Kopien in verschiedenen Formaten (z.B. csv, xml, sav) erstellt und archiviert werden. Die Generierung einer Prüfsumme kann eine zusätzliche Sicherheitsmaßnahme sein, siehe Datenintegrität.
  • Verwendung von Unterversionen. Unterversionen bezeichnen kleine Änderungen, die an einem Arbeitstag vorgenommen wurden, während Hauptversionen Meilensteinversionen oder besonders wichtige Aktualisierungen sind. Unterversionen müssen nicht in verschiedenen Formaten mit Prüfsummen gespeichert werden.
  • Hinweise (z. B. als Readme-Datei) auf notwendige Änderungen anderer Dateien als Folge der Änderung/Aktualisierung einer Datei.
  • Festlegung bestimmter Termine für die Validierung und ggf. Harmonisierung der Dateien. Ein solches Datum könnte zum Beispiel vor Erreichen eines Meilensteins liegen.
  • Hinzufügen eines Änderungsprotokolls. Hinzufügen eines Änderungsprotokolls zu jeder Datendatei, das die Änderungen in der neuesten Version beschreibt.
  • Verwendung von kollaborativen Arbeitsumgebungen. Spezialisierte Software oder Programmfunktionen können sehr nützlich sein, wenn es darum geht, gemeinsam an Dokumenten zu arbeiten, Versionsmanagement zu betreiben oder Ordnerinhalte zu synchronisieren. Das bekannteste Beispiel für eine Versionierungssoftware ist GitHub, das in der Softwareentwicklung weit verbreitet ist.
  • Regelmäßige Erstellung von Sicherheitskopien. Dazu gehört auch die Kontrolle des Zugriffs auf diese Sicherheitskopien.
  • Veröffentlichungsbezogene Datenspeicherung. In der Psychologie sollten Primärdaten niemals verändert (d. h. umgewandelt, aggregiert, umkodiert) werden. Wenn Sie einen Artikel veröffentlichen, sollten Sie in der Lage sein, die Rohdaten zusammen mit den Syntaxdateien zu veröffentlichen, die Ihre endgültigen Ergebnisse reproduzieren (Schönbrodt, Gollwitzer & Abele-Brehm, 2016).

Referenzen

Gorgolewski, K. J., Auer, T., Calhoun, V. D., Craddock, R. C., Das, S., Duff, E. P., … & Poldrack, R. A. (2016). The brain imaging data structure, a format for organizing and describing outputs of neuroimaging experiments. Scientific data3(1), 1-9.

Weitere Ressourcen und Werkzeuge

Dateiformate

Empfohlene Formate für andere Datentypen unter Berücksichtigung ihrer Eignung für die Langzeitaufbewahrung finden Sie auf der Website des UK data archive.

Das Digital Preservation Handbook, 2nd Edition, https://www.dpconline.org/handbook bietet eine verständliche Einführung in diese Thematik.

Versionierung

Weitere Informationen zur Datenversionierung werden bereitgestellt von dem Australian National Data Service, und dem UK Data Archive.

Der DANS’ guide on data preparation for data sharing in the social sciences bietet auch eine umfassende Einführung in Fragen der Datenversionierung.