Forschungsdaten

Leitlinien für den Umgang mit Forschungsdaten an der TU Hamburg

Was sind Forschungsdaten?

Forschungsdaten

Daten fallen bei jedem Forschungsprozess in allen Fachgebieten an. Sie entstehen z.B. durch Experimente, Messungen, Erhebungen, Befragungen, Digitalisierungen oder Quellenforschungen. Entsprechend unterschiedlich sind die dabei anfallenden Primär- oder Rohdaten. Messergebnisse und Analysedaten mit den dazugehörigen Programmen gehören genauso dazu wie Fotos und Zeichnungen oder Umfrageergebnisse.

Warum sollten Forschungsdaten veröffentlicht werden?

Die Speicherung und Bereitstellung der Daten von Forschungsprojekten zusätzlich zu der Publikation der Ergebnisse wird immer wichtiger:

  • Forschungsergebnisse werden in Verbindung mit den verwendeten Daten transparenter und verifizierbar.
  • Die Daten können nach genutzt werden. Damit kann doppelte Arbeit vermieden werden und stattdessen Impulse für neue Forschungsideen entstehen.
  • Der öffentliche Zugang zu Forschungsergebnissen entspricht der guten wissenschaftlichen Praxis. Dies ist entsprechend in den Leitlinien zur Sicherung guter wissenschaftlicher Praxis (KODEX) der Deutschen Forschungsgemeinschaft verankert.

Auch wird bei Projektförderungen immer häufiger die Veröffentlichung der erzeugten Daten gewünscht. Zum Beispiel:

Was ist ein Daten Management Plan?

Wenn Forschungsdaten eine Rolle spielen, dann sollte bereits zu Beginn eines Projektes der Umgang mit den Daten geplant werden. In der Regel werden diese Überlegungen in einem Daten Mangement Plan (DMP) festgehalten. Dieser kann je nach Projekt aus wenigen Zeilen oder auch aus einem umfassenden Dokument bestehen. Folgende Fragen sollten berücksichtigt werden.

  • Gibt es bereits Daten, die nachgenutzt werden können?
  • Welche Daten werden im Projekt generiert?
  • Wie erfolgt die Datenorganisation?
  • Welche administrativen und rechtlichen Aspekte sind zu beachten?
  • Wie werden die Daten publiziert und für die Nachnutzung der Community bereitgestellt?
  • Wie sind die Zuständigkeiten geregelt?
  • Mit welchen Kosten ist zu rechnen?

In Deutschland gibt es bisher kein festgelegtes Verfahren für die Erstellung eines DMPs. Die folgenden Online-Tools haben sich international für die Dokumenterstellung etabliert:

  • DMPonline:
    Bereitstellung durch das britische Digital Curation Centre (DDC) mit starker Ausrichtung auf britische Anforderungen. Aber auch geeignet für Horizon 2020.
  • DMPTool:
    Bereitstellung durch das University of California Curation Center mit starker Ausrichtung auf die US-amerikanischen Anforderungen von NSF und NIH.

Wo und wie kann ich Forschungsdaten publizieren?

Forschungsdaten sollen in einem anerkannten Repositorium oder Archivsystem gespeichert, entsprechend den FAIR-Prinzipien („Findable, Accessible, Interoperable, Reusable“) mit einem persistenten Identifikator (DOI) sowie Metadaten versehen und, wenn möglich, offen zugänglich gemacht.

FAIR Data: Findable, Accessible, Interoperable, Reusable
SangyaPundir, CC BY-SA 4.0, via Wikimedia Commons

Wenn vorhanden, sollten fachspezifische Repositorien bevorzugt genutzt werden. Ist kein geeignetes Fach-Repositorium verfügbar ist, dann können Sie in der TUHH Open Research (TORE) Forschungsdatensammlung veröffentlichen. Für (zitierfähige) Software empfehlen wir GitHub kombiniert mit Zenodo.

1. Fachrepositorien

Forschungsdaten sollten am besten in einem fachspezfischen Forschungsdaten-Repository dauerhaft publiziert werden. Je nach Fach und Community können sich die Anforderungen an Auffindbarkeit und Zugänglichkeit stark unterscheiden. Unterstützung bei der Auswahl eines geeigneten Repositories bietet re3data.org, das Registry of Research Data.

re3data.org Regsitry of Research Data Repositories

Kriterien für die Auswahl eines vertrauenswürdigen Repositoriums.

Vertrauenswürdige Repositorien sollten Antworten auf die folgenden Mindestkriterien geben können:

  1. Vergabe von dauerhaften und eindeutigen Identifikatoren (PIDs)
    1. Ermöglicht das Auffinden und Identifizieren von Daten
    2. Ermöglicht das Suchen, Zitieren und Abrufen von Daten
    3. Unterstützung für die Versionierung von Daten
  2. Metadata
    1. Finden von Daten wird ermöglicht
    2. Verweise auf verwandte relevante Informationen, wie andere Daten und Veröffentlichungen
    3. Öffentlich zugängliche Informationen auch für nicht veröffentlichte, geschützte, zurückgezogene oder gelöschte Daten
    4. Verwendung von Metadatenstandards, die (von der wissenschaftlichen Gemeinschaft) allgemein anerkannt sind
    5. Metadaten müssen maschinell auffindbar sein
  3. Datenzugang und Nutzungslizenzen
    1. Zugriff auf Daten unter festgelegten Bedingungen ermöglichen
    2. Gewährleistung der Authentizität und Integrität der Daten
    3. Ermöglicht den Abruf von Daten
    4. Bereitstellung von Informationen über Lizenzen und Berechtigungen (idealerweise in maschinenlesbarer Form)
    5. Gewährleistung der Vertraulichkeit und Achtung der Rechte der betroffenen Personen und der Urheber von Daten
  4. Datenerhaltung
    1. Sicherstellung der Persistenz von Metadaten und Daten
    2. Transparenz in Bezug auf Auftrag, Umfang, Bewahrungsrichtlinien und -pläne (einschließlich Governance, finanzielle Nachhaltigkeit, Aufbewahrungszeitraum und Kontinuitätsplan)

Eine Orientierungshilfe bietet Science Europe. Practical Guide to the International Alignment of Research Data Management (Extended Edition). January 2021. p. 26 ff

2. Technische Universität Hamburg: TORE

An der TUHH steht TUHH Open Research für die Publikation von Forschungsdaten der TUHH zur Verfügung.

TUHH Open Research (TORE) https://tore.tuhh.de wird als institutionelles Repositorium für Forschungsdaten an der TU Hamburg standardkonform nach den FAIR-Data-Prinzipien betrieben. Die Langzeitarchivierung erfolgt auf einem S3-Speicher des regionalen Rechenzentrums der Universität Hamburg. TORE unterstützt DataCite als Metadatenschema. Als persistente Identifier werden DOIs für einen Datensatz, ORCID iDs für Personen und ROR für Einrichtungen genutzt.


TORE ist im Registry of Research Data Repositories enthalten: re3data.org: TUHH Open Research – Research Data TUHH; editing status 2020-05-14; re3data.org – Registry of Research Data Repositories. https://doi.org/10.17616/R31NJML0 last accessed: 2022-05-17


FAQs

Vor der Datenpublikation:

Über die TORE-Webseite können Dateien bis zu einer Größe von 5GB hochgeladen werden. Größere Dateien können über ein WebDAV-Verzeichnis in TORE hochgeladen werden. Bitte kontaktieren Sie uns, wenn Sie Dateien hochladen möchten, die größer als 5GB sind.


Ich möchte die Daten erst bei Annahme meines Papers veröffentlichen.

Der Digital Object Idenfieer (DOI) wird Ihnen in TORE nach Eingabe der beschreibenden Daten und vor dem Upload Ihrer Daten angezeigt. Sie können ihn für die Referenz auf Ihren Datensatz verwenden und ihn in die Datendokumentation einfügen.

Wichtig: Der DOI wird erst registriert, wenn Ihr Datensatz veröffentlicht ist. Bis dahin kann Ihr Datensatz noch nicht angezeigt werden.


Je nach verwendeter Software und den weiteren Zielen eines Forschungs­projekts, sind einige Dateiformate besser geeignet als andere. Im wissen­schaftlichen Bereich sollte vor allem auf die Kompatibilität, die Eignung zur Langzeitarchivierung und die verlust­freie Konvertierung in alternative Formate geachtet werden.

Nicht alle Dateiformate sind im gleichen Maße mittel- bzw. langfristig archivierbar. Vor allem proprietäre Formate, deren Nutz- und Lesbarkeit von bestimmten Softwareherstellern beziehungsweise Plattformen abhängig ist, eignen sich nicht zur Archivierung und sollten daher in unabhängige, langfristig lesbare Formate konvertiert werden.

forschungssdaten.info: Übersicht häufig gebrauchter Datenformate

Bitte kontaktieren Sie uns, wenn Sie Dateien hochladen möchten, die ein Dateiformat enthalten, das von TORE bisher nicht unterstützt wird.


Zugriffsschutz:

Ein Embargo ist auf Dateiebene möglich. Dies kann über die Access Settings der hochgeladenen Datei individuell festgelegt werden. Nach Ablauf ist die Datei automatisch öffentlich zugänglich.

Datei bei der ein Embargo bis 1. Oktober 2022 angezeigt wird. Darunter wird Kopie erfragen angezeigt

Datei bei der ein Embargo bis 1. Oktober 2022 angezeigt wird. Darunter wird Kopie erfragen angezeigt

Grundsätzlich ja. Über „Kopie erfragen“, wird eine Anfrage generiert, die einen E-Mail-Versand anbietet. Je nach Dateigröße ist der Versand per E-Mail allerdings nicht möglich. Deshalb kann für ausgewählte Personen ein Zugriff eingerichtet werden:

  1. Alle zugriffsberechtigten Personen müssen einen Account bei TORE besitzen
  2. Der Besitzer oder die Besitzerin des Datensets meldet Datensatz und zugriffsberechtigte Personen an forschungsdaten@tuhh.de.
  3. Sobald der Zugriff eingerichtet ist, erfolgt eine Rückmeldung an alle Beteiligte.

Nach der Datenpublikation:

Danke für den Hinweis! Bitte nutzen Sie die Feedback-Funktion von TORE rechts neben Ihrem Datensatz. Wir korrigieren die Daten entsprechend.


Danke für den Hinweis! Bitte nutzen Sie die Feedback-Funktion von TORE rechts neben Ihrem Datensatz. Wir ergänzen dann den Link auf Ihr Paper.


So legen Sie eine neue Version an:

  1. Melden Sie sich in TORE an.
  2. Rufen Sie Ihren Datensatz auf.
  3. Klicken Sie rechts auf den Button: Neue Version erstellen
    • Ändern Sie ggfs. die beschreibenden Daten
    • Notieren Sie den neuen, versionierten DOI und übernehmen Sie ihn ggf. in Ihre Dokumentation
    • Löschen Sie bei den Dateien die veralteten Versionen und laden Sie die neuen Versionen hoch
    • Ergänzen Sie eine Kurzbeschreibung der Veränderung
    • Veröffentlichung

Der Datensatz wird dann nach einer formalen Kontrolle durch die Bibliothek freigeschaltet. Die Versionen sind automatisch miteinander verknüpft.

Beispiel für einen versionierten Datensatz auf TORE:

Sardhara, T., Aydin, R. C., Li, Y., Piché, N., Gauvin, R., Cyron, C. J., & Ritter, M. (2021). Training deep neural networks to reconstruct nanoporous structures from FIB tomography images using synthetic training data. TUHH Universitätsbibliothek. https://doi.org/10.15480/336.3932


3. Software auf Zenodo und Github

Machen Sie Ihre Software zitierfähig

Softwareentwicklung ist häufig ein wichtiger Bestandteil der wissenschaftlichen Arbeit an der TUHH. Damit Ihre Repositories in der wissenschaftlichen Literatur leichter referenziert werden können, können Sie dauerhafte Identifikatoren erstellen, die auch als Digital Object Identifier (DOI) bezeichnet werden. Sie können das Datenarchivierungstool Zenodo verwenden, um ein Repository auf GitHub.com zu archivieren und einen DOI für das Archiv zu vergeben.

  • Develop on GitLab (internal)
  • Put on GitHub (public)
  • Archive on Zenodo (CERN-hosted)
    → obtain DOI
    → reference DOI in your paper

Digital Object Identifiers (DOI) sind inzwischen der Quasi-Standard für die Referenzierung elektronischer Publikationen. Was liegt also näher als DOIs auch für Software zu nutzen? Seit 2014 ist dies durch die Kooperation von GitHub und Zenodo möglich. Zenodo ist eine offene Plattform für die dauerhafte Archivierung von Forschungsergebnissen fast jeglicher Art, die vom CERN betrieben und u.a. von der EU finanziert wird: zenodo.org/features

Wer bereits bei GitHub aktiv ist, kann ein bestehendes Repository mit einer Kennung von Zenodo verbinden. Darüber wird das Repository auf Zenodo dauerhaft archiviert und der DOI für das Repository vergeben. Auch für weitere Releases ist gesorgt.

Ein Beispiel aus dem Institute of Communication Networks der TUHH:

Sebastian Lindner. (2018, July 16). ComNetsHH/LRE-OMNeT: Publication release (Version v1.0.1). Zenodo. https://doi.org/10.5281/zenodo.1313054

Und noch drei Tipps dazu:

  1. Nutzen Sie die TUHH-Community auf Zenodo: https://zenodo.org/communities/tuhh/
    Eine Zuordnung ist auch nachträglich möglich.
  2. Legen Sie eine CITATION.cff in ihr Repository
  3. Ergänzen Sie zu den Autor*innen die ORCID iD (Give credit where credit is due)

Wie kann ich Forschungsdaten zitierfähig machen?

Wenn Forschungsdaten Forschungsergebnisse ergänzen sollen, dann müssen sie auch verläßlich zitierbar sein. TUHH Open Research und viele andere Repositories verzeichnen ihre Inhalte deswegen über eine Registrierungsagentur bei DataCite. Dabei wird für jedes Datenset ein eindeutiger DOI vergeben, über den das Datenset dauerhaft zitiert und aufgerufen werden kann.

Aberle, Christoph (2019). Mobility as a Service: ein Angebot auch für Einkommensarme? (Geo-Datensatz). TUHH Universitätsbibliothek. https://doi.org/10.15480/336.2396

Datensätze aus TUHH Open Research oder DataCite können Sie außerdem in Ihr ORCID-Profil übernehmen und damit Ihnen als Person eindeutig zuordnen.

Wenn Sie Fragen haben


Ausführliche Informationen zu Forschungsdaten finden Sie auf der Informations­plattform forschungsdaten.info.

Logo forschungsdaten.info