Zu Hauptinhalt springen

Aufarbeitung von Standards und Methoden im Forschungsdatenmanagement

In allen Bereichen der Forschung werden gro?e Mengen an Daten produziert, welche verarbeitet werden müssen. Es haben sich schon einige Standards und Methoden etabliert, um diese Daten zu strukturieren, zu organisieren und somit auch für andere nutzbar zu machen. Es existieren bereits einige Initiativen, darunter NFDI, welche sich mit dem Bereich Forschungsdatenmanagement auseinandersetzen.

Ziel der Bachelorarbeit war die Analyse bestehender Forschungsdatenmanagement-Projekte und das Herausfiltern von Standards und Verfahren. Hierdurch sollten Kriterien zur Klassifikation dieser Standards und Verfahren entwickelt und auf den Bereich der Informatik angewendet werden. Zu diesem Zweck wurden die bereits existierenden NFDI-Konsortien n?her betrachtet.


NFDI

Bund und alle Bundesl?nder haben gemeinsam am 12.10.2020 den Verein Nationale Forschungsdateninfrastruktur (NFDI) e.V. gegründet. Ziel ist es, die unterschiedlichen Wissenschaftsdisziplinen und Forschungsdatenmanagementinitiativen innerhalb Deutschlands zu strukturieren und übergreifend zu vernetzen. Hierzu soll in den Forschungsprozessen künftig das Forschungsdatenmanagement nahtlos eingebunden werden. Um dies zu erreichen, müssen bestehende Strukturen und vorhandene Forschungsdaten koordiniert werden und eine Standardisierung des Datenmanagements eingeführt werden (Quelle).


Ergebnisse der Interviewstudie

Zweck

Ziel der Interviewstudie war es, aus der Expertenperspektive die für den jeweiligen Bereich entwickelten Standards und Methoden kennen zu lernen. Aus den gewonnenen Informationen sollen Vorschl?ge und Best Practices für ein Forschungsdatenmanagementsystem für die Universit?t Regensburg entwickelt werden.

Durchführung

Um ein m?glichst breites Spektrum an Meinungen zu bekommen, wurden 17 Personen aus zw?lf Konsortien und eine Person des UR Data Hubs interviewt. Die Interviewteilnehmer stammen aus den Konsortien KonsortSWD, NFDI4Culture, NFDI4Memory, NFDI4DS, NFDI4Ing, NFDIxCS, GHGA, NFDI4Biodiversity, NFDI4Health, Mardi4NFDI, NFDI4Chem und PUNCH4NFDI.


Standards

Es werden nur die Standards pr?sentiert, welche als erster Vorschlag für die Universit?t Regensburg ausgew?hlt wurden.

Metadatenstandards

Beschreibung von Metadaten, also Daten über Daten

  • METS/MODS (Quelle):
    • Qualit?t der Metadaten
    • Metadata Encoding and Transmission Standard (METS)
    • Metadata Object Description Schema (MODS)
  • DataCite (Quelle):
    • Metadatenschema, für die Ausstattung von Datens?tzen mit Metadaten?
  • LIDO?(Quelle):?
    • Bereitstellung von Metadaten
  • CodeMeta (Quelle):
    • Austausch von Software-Metadaten zw. Repositories & Organisationen???
  • CitationCFF?(Quelle):
    • Speicherung von Metadaten über Softwarezitationen
  • CIDOC CRM (Quelle):
    • RDF-Schema zur Kodierung von Metadaten?
  • Dublin?Core (Quelle):?
    • Vokabular von fünfzehn Eigenschaften für die Beschreibung von Ressourcen
  • Darwin Core (Quelle):
    • Glossar mit Begriffen für den Austausch von Informationen über die biologische Vielfalt?
  • Pangaea?(Quelle):
    • Umfassende Metadatenbeschreibung?
  • Bioschemas.org?(Quelle):
    • Strukturierung & Beschreibung biologischer Daten?
  • Schema.org?(Quelle):
    • Definition eines Vokabulars für die Bereitstellung von Metadaten zu Datens?tzen
  • WikiData?(Quelle):
    • WikiCite:?Zum Import & der Erfassung von Metadaten aus verschiedenen?Quellen, z.B. Wikisource

Klassifikationsstandards

Beziehen sich auf Systeme oder Strukturen zur Klassifizierung von Informationen von Daten

  • ICD-10?(Quelle):
    • Klassifikation von Krankheiten & verwandter Gesundheitsprobleme??

Datenformat- und Strukturstandards

Beziehen sich auf Struktur und Format von Forschungsdaten

  • METS/MODS?(Quelle):
    • DFG-Viewer Strukturdatenset: XML-Format, zur Beschreibung hierarchischer Strukturen digitaler?Dokumente
  • FIT Protocol Format (Quelle):
    • Speicherung & Austausch von Daten, die von Sport-, Fitness- &
      Gesundheitsger?ten stammen?
  • ROOT (Quelle):
    • Datenstruktur, für den schnellen Zugriff auf gro?e Datenmengen
  • FHIR (Quelle):
    • u.a. Definition der Struktur des Kerninformationsbestandes
  • CDISC (Quelle):
    • Definition spezifischer Formate & Strukturen klinischer Studiendaten?
  • SDTM?(Quelle):
    • Organisation & Formatierung von Daten?

Interoperabilit?tsstandards

Erm?glichen Interoperabilit?t zwischen verschiedenen Datenquellen und Systemen

  • OAI-PMH (Quelle):
    • Mechanismus für die Interoperabilit?t von Repositorien??
  • Pangaea (Quelle???????):
    • Interoperabilit?t von Daten & Metadaten?
  • FHIR (Quelle???????):
    • Fokus: menschenlesbare Information als Basis der Interoperabilit?t??
  • WikiData?(Quelle???????):
    • Identifier & Statements sorgen für Interoperabilit?t?

Identifikationsstandards

Eindeutige Definition verschiedener Arten von Ressourcen

  • DataCite (Quelle???????):
    • Genaue und konsistente Identifizierung einer Ressource zu Zitier- und Abrufzwecken??

Standards für die Bereitstellung und den Zugang zu Forschungsdaten?

Beziehen sich auf den Zugang zu Forschungsdaten und den Austausch zwischen Forschern

  • Zenodo (Quelle??????????????)???????:?
    • Gemeinsame Nutzung, Archivierung & Ver?ffentlichung?von Daten & Software

Methoden

Es werden alle in der Interviewstudie genannten Methoden p?sentiert und keine Einschr?nkungen vorgenommen.

Datenerhebungmethoden

Für die Sammlung von Forschungsdaten

  • Vorgehensweisen & Prozesse anpassen
  • Dynamik im Setting der Datengenerierung & -bearbeitung
  • Wiederverwendung von bestehenden L?sungen, z.B. Datenbanken
  • Interoperabel denken
  • Ordentliche Beweise & Schlussfolgerungen, z.B. in der Mathematik
  • Nutzung eigener Software für Experimente
  • Triggering
  • heterogene Ressourcen nutzen

Datenbereinigung und -vorbereitung

Zur S?uberung und Vorbereitung von Rohdaten

  • Pseudonymisierung & Anonymisierung von sensiblen Daten
  • Datenselektion
  • Inhalte annotieren

Datenmanagement und -speicherung

Für die Organisation, Speicherung und Verwaltung von Forschungsdaten

  • Dateiformate aktuell halten
  • Dokumentation pflegen
  • Datenmanagementpl?ne aufstellen
  • Begleitende Systeme für die Langzeitarchivierung nutzen
  • Containerisierung von SW
  • Versionskontrolle mit GIT
  • Vernünftig Zitieren
  • Nutzung des Layer Model des Computing
  • Data Links
  • Nutzung von Dynamic Archiving
  • Datenbank, in der Forschungsdaten abgelegt werden, über API ver?ffentlichen
  • Nutzung relationaler Datenbanken

Datenanalysemethoden

Techniken der Analyse von Forschungsdaten

  • Simple Statistik bis Künstliche Intelligenz
  • Nutzung von Machine-Learning-Verfahren
  • Nutzung von Dynamic Filtering

Sicherheit und Datenschutz

Verfahren zum Schutz der Vertraulichkeit, Integrit?t und Verfügbarkeit von Forschungsdaten

  • Zugriffsbeschr?nkungen
  • Einwilligungserkl?rungen
  • Bereitstellung als Open Data

Reproduzierbarkeit und Wiederholbarkeit

Stellen sicher, dass Forschungsdaten und -analyse reproduzierbar und wiederholbar sind

  • Zug?nglichmachung von Experimentdaten, z.B. persistente URL
  • Technisches Peer Review nutzen
  • Technologie-agnostisch arbeiten
  • Forschung transparenter machen

Metadatenmanagement

Für die Erstellung, Verwaltung und den Austausch von Metadaten

  • Sicherung von Daten & entsprechender Metadaten für Langzeitarchivierung
  • Kontrollvokabular verwenden
  • Nutzung des LinkML-Frameworks

Ontologien

Es werden nur die Ontologien p?sentiert, welche als erster Vorschlag für die Universit?t Regensburg ausgew?hlt wurden.

Geistes- & Sozialwissenschaften

  • CIDOC Conceptual Reference Model (CIDOC CRM) (Quelle):
    • Basisontologie fu?r Daten des kulturellen Erbes mit Erweiterungen fu?r bibliographische Dokumentation oder Geoinformatik
    • Integration von Daten aus verschiedenen Quellen auf eine software- und schemaunabha?ngige Weise
  • European Language Social Science Thesaurus (ELSST) (Quelle):
    • (Ist ein Thesaurus, wurde jedoch bei den Ontologien genannt)
    • In 16 Sprachen verfu?gbarer europa?ischsprachiger Thesaurus der Sozialwissenschaften
    • Deckt folgende Disziplinen ab: Politik, Soziologie, Wirtschaft, Bildung, Recht, Kriminalita?t, Demografie, Gesundheit, Bescha?ftigung, Informations- & Kommunikationstechnologie & Umweltwissenschaft?

  • <