Datenintegrität & Datenauswahl

Dieses Bild hat ein leeres Alt-Attribut. Der Dateiname ist AdobeStock_66465305-1024x615.jpeg

Datenintegrität

Der Begriff Datenintegrität kommt in verschiedenen Zusammenhängen vor, er kann sich auf die Konsistenz der in einem digitalen Datenobjekt gespeicherten Informationen oder auf die Konsistenz des digitalen Datenobjekts selbst beziehen.

Datenintegrität und Datenbereinigung (Konsistenz der durch Daten dargestellten Informationen)

Häufige Fehler, die die Qualität und Konsistenz der in einem Datensatz erfassten Informationen beeinträchtigen können, sind wilde Codes (z. B. drei verschiedene Werte für die Variable Geschlecht), Werte, die außerhalb des Wertebereichs liegen (z. B. der Wert 9 für Items mit einem Bereich von 1 bis 5), inkonsistente (unlogische) Werte oder unplausible Werte. Die Datenbereinigung kann als alle Maßnahmen betrachtet werden, die ergriffen werden, um die Datenintegrität zu gewährleisten und die oben erwähnten allgemeinen Fehler zu vermeiden. Die Datenbereinigungsverfahren sollten im Voraus festgelegt werden (weitere Informationen finden Sie in der Wissensdatenbank im Abschnitt über Datenbereinigung).

Datenintegrität und Prüfsummen (Konsistenz der Datendatei selbst)

Datenintegrität kann sich auch auf die Konsistenz eines Datensatzes beziehen, was bedeutet, dass keine Änderungen an der Datendatei versehentlich oder aufgrund von Übertragungsfehlern vorgenommen wurden. Prüfsummen können verwendet werden, um Fingerabdrücke von digitalen Objekten zu erstellen und die Datenintegrität zu gewährleisten, da sich die Prüfsumme eines Datensatzes ändert, wenn der Datensatz verändert wird. Dadurch werden versehentliche Änderungen oder Änderungen, die auf Software-/Hardwarefehler zurückzuführen sind, erkennbar. Daher sollten Sie beim Erstellen von Kopien von Masterdateien, beim Erstellen von Sicherungskopien oder beim Herunterladen von Dateien aus Repositorien Prüfsummen verwenden, um zu überprüfen, ob die Kopie und die Originaldatei identisch sind. Beispiele für Prüfsummen sind SHA oder md5. Prüfsummengeneratoren sind als Webanwendung oder Freeware frei erhältlich.

Datenauswahl

Der Begriff Datenauswahl zielt auf die Auswahl von Daten ab, die während der Datenerfassung gespeichert oder nach Abschluss des Projekts freigegeben/archiviert werden sollen. In manchen Kontexten bezieht sich die Datenauswahl auch auf den Prozess der Auswahl von Datensätzen, die für eine langfristige Aufbewahrung durch ein Datenarchiv in Frage kommen (z. B. Auswahlkriterien des britischen Datenarchivs). Dieser Aspekt wird hier nicht berücksichtigt.

Entscheidungen zur Datenauswahl während eines Forschungsprojekts

Während der Datenerhebung müssen die Forschenden festlegen, unter welchen Umständen die erhobenen Daten gespeichert oder verworfen werden sollen. In der Regel legt der Hauptforschende Kriterien für diesen Zweck fest. Aber auch andere Instanzen (z. B. die Forschungseinrichtung) können für die Festlegung dieser Kriterien verantwortlich sein. Da sich die Datenauswahlverfahren auf die resultierenden Forschungsdaten auswirken, müssen sie sorgfältig dokumentiert werden. Beispiele für Daten, die als irrelevant angesehen (und verworfen) werden können, sind Daten, die auf unvollständigen Durchläufen oder fehlerhaften Codes basieren. Darüber hinaus sollten personenbezogene Daten so schnell wie möglich gelöscht werden, um den rechtlichen Anforderungen zu genügen, wenn keine ausdrückliche Zustimmung zur Aufbewahrung dieser personenbezogenen Daten eingeholt wurde (siehe den Abschnitt zum Datenschutz in der Wissensdatenbank). Obwohl die Daten natürlich erst nach Abschluss der Datenerhebung weitergegeben werden können, ist es wichtig, dass Sie sich vor Beginn der Datenerhebung Gedanken über Ihre Pläne zur gemeinsamen Nutzung der Daten machen. So müssen Sie beispielsweise verschiedene Arbeitsabläufe für die Speicherung und Anonymisierung von Daten vorbereiten, wenn Sie die ausdrückliche Zustimmung erhalten haben, personenbezogene Daten nur für eine Untergruppe von Proband*innen weiterzugeben.

Praktischer Leitfaden

Heiko Tjalsma und Jeroen Rombouts haben einen praktischen Leitfaden für die Bewertung und Auswahl von Forschungsdaten erstellt, auf den sich die folgenden Informationen stützen (siehe auch die Webseite von Research Data Netherlands für eine komprimierte Checkliste zu diesem Thema). Im Folgenden werden einige Punkte vorgestellt, die bei der Auswahl berücksichtigt werden sollten.

Auswahlkriterien

  1. Primär- vs. Sekundärdaten
    • Primärdaten sind Daten in ihrer ursprünglichen, unbearbeiteten Form (oft sind dies auch die Rohdaten, die vom Forschenden noch nicht verändert wurden). In der Regel ist es (noch) nicht üblich, die Primärdaten zu veröffentlichen, aber sie werden zu Überprüfungszwecken benötigt, z. B. wenn es notwendig ist, durchgeführte Analysen zu rekonstruieren.
    • Daten werden zu Sekundärdaten, wenn Forschende die Primärdaten verarbeiten oder verändern (z. B. Werte umwandeln, spezifische Werte erstellen usw.). Dies sind oft die Daten, die mit anderen geteilt werden.
  2. Wer trifft die Auswahlentscheidung?
    • Institut: Die Datenpolitik eines Forschungsinstituts kann Informationen zu den Zielen, Ressourcen und rechtlichen Verpflichtungen enthalten und auch Auskunft darüber geben, welche Daten für die Bewahrung/Freigabe ausgewählt werden sollen.
    • Datenrepositorium: Auch das Datenarchiv verfügt häufig über Sammlungskriterien, die Aufschluss darüber geben, welche Forschungsdaten zu bewahren sind und welche Bedingungen für diese Bewahrung gelten.
    • Gemeinschaft: Auch die Mitglieder der Gemeinschaft, die an den Daten interessiert sind, können den Datenauswahlprozess beeinflussen. Wichtige Faktoren auf dieser Ebene der Datenauswahl betreffen Standardisierung, rechtliche oder kulturelle Aspekte sowie spezifische Eigenschaften der Daten, wie offener und dauerhafter Zugang und Datenformat.
  3. Technische Aspekte
    • welche Datenformate, welche Software oder Hardware wird verwendet
  4. Metadaten
    • Sind die Metadaten ausreichend und verfügbar? Welche Informationen enthalten sie? Z. B. technische Informationen, Codebücher, Informationen über die Datenstruktur und über geistige Eigentumsrechte
  5. Welche Infrastruktur ist für die Aufbewahrung der Daten vorhanden?
    • Datenarchiv
    • institutionelles oder thematisches Repositorium
    • andere?
  6. Kosten der Datenauswahl
    • Wie werden die Kosten für die Auswahl, Konvertierung, Bewahrung und Bereitstellung der Daten gedeckt?

Weitere Ressourcen & Werkzeuge

Datenintegrität

Chapman, A. D. (2005). Principles and Methods of Data Cleaning – Primary Species and Species-Occurrence Data, version 1.0. Copenhagen: Report for the Global Biodiversity Information Facility.

UK data archive. Managing and Sharing Data. Best Practice for Researchers. Abgerufen von: https://www.ukdataservice.ac.uk/manage-data/store/checksums

Datenauswahl

DCC (2014). Five steps to decide what data to keep: a checklist for appraising research data v.1. Edinburgh: Digital Curation Centre. Online verfügbar auf http://www.dcc.ac.uk/resources/how-guides

Gollwitzer, M., Abele-Brehm, A., Fiebach, C. J., Ramthun, R., Scheel, A., Schönbrodt, F. & Steinberg, U. (2021). Management und Bereitstellung von Forschungsdaten in der Psychologie: Überarbeitung der DGPs-Empfehlungen. Psychologische Rundschau, 72, 132-146. doi: https://doi.org/10.31234/osf.io/hcxtm

Tjalsma, H., & Rombouts, J. (2010). Selection of Research Data; Guidelines for appraising and selecting research data. Retrieved from https://repository.tudelft.nl/islandora/object/uuid%3Adbab8a19-542a-4c4d-96b4-df8cc39333db