Forschungsdaten in MyCoRe
Kathleen Neumann, Verbundzentrale des GBV (VZG)
Agenda
• Aller Anfang ist mutig – die ersten Forschungsdaten in OpenAgrar!
• Was ist Forschungsdatenmanagement?
• Wie FAIR ist MyCoRe?
• Was sind die nächsten Schritte?
OpenAgrar – Ein gemeinsames Repository
• … der Ressortforschungsinstitute sowie weiterer Bundesbehörden und
Einrichtungen im Geschäftsbereich des Bundesministeriums für Ernährung und Landwirtschaft (BMEL)
• Erste Repository-Anwendung bei der VZG in Kooperation mit der ThULB Jena
• Pilot und Basis der Software MIR (MyCoRe / MODS Institutional Repository)
Bundesinstitut für Risikobewertung (BFR) Julius Kühn-Institut (JKI)
Friedrich-Löffler-Institut (FLI) Max Rubner-Institut (MRI)
Deutsches Biomasseforschungszentrum (DBFZ) Thünen-Institut (TI)
Bundesamt für Verbraucherschutz und Lebensmittelsicherheit (BVL)
138.258 Publikationen
OpenAgrar – Forschungsdatenerfassung
OpenAgrar – Forschungsdatenpräsentation
Forschungsdatenmanagement
• „Forschungsdatenmanagement (FDM) bezeichnet die Menge aller methodischen, konzeptionellen,
organisatorischen und technischen Maßnahmen und Verfahren zur Handhabung von Forschungsdaten
über deren Lebenszyklus.“
[https://de.wikipedia.org/wiki/Forschungsdatenmanagement, Zugriff 09.06.2021]
• Forschungsdaten
– im Datenrepositorium
– im Fachinformationssystem
[Wilkinson, M., Dumontier, M., Aalbersberg, I. et al.The FAIR Guiding Principles for scientific data management and stewardship. Sci Data3, 160018 (2016).
https://doi.org/10.1038/sdata.2016.18]
Was macht unsere Anwendungen FAIR?
Auffindbarkeit (Findable)
• Automatische PID-Registrierung (u.a. DOI, Handle,…)
• umfangreiche Metadatenerfassung
• Landingpage mit Metadaten, Verlinkungen und Zitierweisen
• Metadatenregistrierung z. B. in BASE via OAI-PMH, OpenAIRE via CERIF
Zugänglichkeit (Accessible)
• Zugänglichkeit der Daten und Metadaten via HTTPS und (REST-)API
• dokumentiertes Sperren oder Löschen der Daten bei Metadatenerhalt
• Rollen- und Rechteverwaltung, Authentifizierung SHIBBOLETH und LDAP
• Suche in Metadaten und in Volltexten
Was macht unsere Anwendungen FAIR?
Interoperabilität (Interoperable)
• Export u.a. in MODS, LIDO, EAD und DC, Import via SWORD
• Nutzung von Normdatenquellen bei der Sacherschließung
• Versionierung und Verlinkung von Datensätzen über verschiedene standardisierte Beziehungen
• Nutzbarkeit der Digitalisate über IIIF-API
Wiederverwendbarkeit (Reusable)
• Metadatenstandards wie MODS, DataCite, LIDO, EAD, DC, MEI, Marc21
• obligatorische Vergabe von Nutzungslizenzen (im Regelfall Creative Commons)
• optional Anschluss an Langzeitarchivierung
Workshop zum Umgang mit Forschungsdaten
• Treffen am 9.12.2020 mit Kolleg*innen aus:
– BMEL-Einrichtungen (OpenAgrar) – Braunschweig
– Duisburg-Essen – ThULB Jena
– VZG
Fazit: Repository als Archiv- &
Publikationsplattform
• Schnittstellen an Systeme die andere Anforderungen erfüllen (lebende Forschungsdaten, Projektdaten …)
• Welche Systeme sind wofür gut? Welche Schnittstellen gibt es? Z.B. Screencast von Dataverse bereitstellen
• Ziel: Übersicht von Systemen und Schnittstellen und möglichen Anbindungen zu erarbeiten
Collection-DOIs
• Erweiterung des Datacite-Mappings mit stärkerer Ausrichtung auch auf Forschungsdaten
• dazu könnten bereits erfasste Forschungsdaten in MIR-Repositorien analysiert werden und geprüft werden, was noch in das Datacite-Format
abgebildet werden kann
• wichtiger Punkt hier sind die Abbildungen der reatedItems-Umsetzungen, so dass dann auch Collection-DOIs korrekt abgebildet werden
Zugriffsmöglichkeiten auf Datensätze
• anonymisierte Zugriffsmöglichkeiten
• ggf. in Zusammenhang mit ORCID- / github- Authentifizierung
• dazu muss weiterhin ein Ansprechpartner mit Fallback hinterlegt sein, falls Autor*in die
Einrichtung bereits verlassen hat und somit nicht mehr wg. der Daten entscheiden kann
S3-Speicher / Object-Store
• verschiedene Upload-Möglichkeiten neben http, z.B. rsync
• Verknüpfungsmöglichkeit mit dem
Metadatensatz im Repository z.B. S3-Bucket- Credentials
• Daten bleiben im ObjectStore, nur die
Metainformationen werden im Repo angezeigt, welche wären das? (Dateinamen, Größe …)
• Download-Möglichkeit aus dem Repository heraus soll angeboten werden
Bereitstellung verschiedener Paketformate, z.B. BagIt
• Welche Paketformate sind relevant?
• Welche Konsequenzen hat das auf die Ablage
• Konzept zeitnah sinnvoll um Anforderungen im Blick zu haben, Umsetzung hat noch Zeit
Fachspezifische Metadatenstandards
• Idee diese z.B. als separates XML im Derivat abzulegen
• Durchsuchbarkeit wäre evtl. wichtig -> Solr- Volltextindex
• Bereitstellung dieser fachspezifischen Metadaten über z.B. OAI
• in Datacite 4.3 können alternative
Metadatenformate verlinkt werden, wird in Duisburg-Essen bereits realisiert
Qualitätssicherung
• wie kann aus dem Repository heraus die Qualität der Daten gesichert werden?
• Prüfmechanismen könnten beim Upload z.B.
Formate prüfen und über LZA-fähigkeit oder Grad der Barrierefreiheit informieren
• Validierung der Metadaten könnte für
Forschungsdaten nochmal genauer spezifiziert werden
Anbindung an ORCID / github zur Authentifizierung
• dieses Feature birgt die Gefahr einer Mischung externer mit internen Nutzerkonten, so dass sich interne MA mit ORCID-Kennung
anmelden und dann im schlimmsten Fall kein Mapping auf den Hochschul-MA-Nutzer
möglich ist
• 3-Wege-Authentifizierung ist ansonsten attraktiv, aber nicht dringend notwendig
GIT als Quelle für Software-Import einzelner Versionstände
• erste Umsetzung könnte am Beispiel github geschehen, sollte aber allgemein für git-
Repositorien möglich sein
• die Umsetzung in Zenodo kann als Vorlage
dienen und zeigt, dass die nötige Infrastruktur bereits da ist und “nur” angebunden werden muss
Zusammenfassung
• Bereits heute vielseitiger und FAIRer Umgang mit Forschungsdaten in MyCoRe-
Anwendungen möglich
• Zahlreiche Baustellen identifiziert um den Umgang mit Forschungsdaten zu verbessern
• Weiterer Workshop wichtig!