Research Collection
Educational Material
Forschungsdatenmanagement - was kann ich tun?
Author(s):
Petrus, Ana Publication Date:
2017-03-28 Permanent Link:
https://doi.org/10.3929/ethz-b-000297427
Rights / License:
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International
This page was generated automatically upon download from the ETH Zurich Research Collection. For more information please consult the Terms of use.
Forschungsdatenmanagement – Was kann ich tun?
Dr. Ana Sesartic – Digitaler Datenerhalt
Heutiges Programm
Was ist Datenmanagement und weshalb betrifft es uns?
ETH Vorschriften, geistiges Eigentum, Privatsphäre und Zugriffsrechte
Organisation, Speichern, Teilen und Archivieren von Daten
Methoden, Dienstleistungen, Werkzeuge
Ihren (wissenschaftlichen) Hintergrund
Bisherige Erfahrungen mit Datenmanagement
Motivation zur Kursteilnahme
Erzählen Sie kurz über…
Was ist Datenmanagement und weshalb betrifft es uns?
Digitale Forschungs-
daten
Hypothese/
Forschungs- frage
Daten Erfassen/
Generieren
Analyse und Interpretation
Synthese Publikation
Zugriff und Verifizierung
Wieder- verwendung
Datenmanagement während der
Forschung Daten teilen, veröffentlichen und
erhalten – für sich selbst und andere!
Zwei Hauptfaktoren
Datenmanagement ist ein allgemeiner Begriff, welcher die Organisation, Strukturierung, Speicherung und Pflege von Informationen beinhaltet, die während eines
Forschungsvorhabens verwendet oder erzeugt werden
Es umfasst:
Wie Sie im Alltag mit Informationen über die Laufzeit eines Projektes umgehen
Was auf längere Sicht passiert – was Sie damit machen, nachdem das Projekt abgeschlossen ist
Was ist Datenmanagement?
Daten werden in der Regel erstellt, ohne deren Veröffentlichung zu planen
Forschungsdaten bedürfen einer umfassenden Dokumentation
Nur technische Metadaten können später extrahiert werden, aber wenig bis gar keine Dokumentation von Inhalt oder Kontext kann sinnvoll hinzugefügt werden .
Einschränkungen für den Erhalt und Austausch
GARBAGE IN,
GARBAGE OUT!
Wozu Datenmanagement?
Oder: Über Zuckerbrot (Vorteile) und Peitsche (Bestimmungen)
©“The Carrot and the Stick Set” (4.9.2018) by Frits Ahlefeldt
Um effizient und effektiv arbeiten zu können
Sicherung nicht replizierbarer Daten
Vermeidung redundanter Datenerhebungen
Möglichst umfassende (kosteneffiziente) Auswertung der Daten
Reanalyse unter anderen Fragestellungen / mit neuen Methoden
Verstärkung des wissenschaftlichen Austausches
Impact factor: Trend zur Zitierbarkeit von Forschungsdaten als Werk
Um die Vorgaben der Geld- und Arbeitgeber zu erfüllen
SNF fordert Datenmanagementpläne ab Oktober 2017
Horizon 2020 Programm der EU fordert ebenfalls Datenmanagementpläne
Einhaltung der Regeln guter wissenschaftlicher Praxis, Transparenz und validität
Sie können die Diskussion in Ihrer
Forschungsgemeinde, in Ihrer Institution und mit Geldgebern beeinflussen
Weshalb Zeit und Mühe aufwenden?
ETH Vorschriften, geistiges Eigentum, Privatsphäre und
Zugriffsrechte
https://itsecurity.ethz.ch/de/#/manage_your_data
«An der ETH Zürich beruht Forschung auf
intellektueller Redlichkeit . Die Forschenden […]
stehen für wissenschaftliche Integrität und Wahrhaftigkeit in der Forschung und bei Begutachtungen.»
https://www.ethz.ch/content/dam/ethz/main/resear ch/pdf/forschungsethik/Broschure.pdf
Richtlinien für Integrität in der Forschung
«Sämtliche Verfahrensschritte im Umgang mit den Primärdaten (statistische Analysen, Umformungen etc.) sind in einer der jeweiligen Disziplin angepassten Form (z.B.
Laborjournal, andere Datenträger) derart zu dokumentieren , dass die aus den Primärdaten gewonnenen Ergebnisse vollständig reproduziert werden können .»
«Die Projektleitung ist für das Management der Daten (Aufbewahrung, Datenzugang, Einhaltung des Datenschutzes, etc.) verantwortlich. Sie sorgt insbesondere dafür, dass Daten und Materialien nach Abschluss des Projektes während der für das Fachgebiet massgebenden Frist aufbewahrt bleiben und gegebenenfalls innerhalb der gesetzlich vorgegeben Frist ordnungsgemäss vernichtet werden.»
Artikel 11.
Erhebung, Dokumentation und Aufbewahrung von Primärdaten
«[…] alle [ETH] Angehörigen […] an die gesetzlichen Vorschriften und internen
Weisungen halten und diese in ihrem Bereich umsetzen.»
«Der vorliegende Compliance Guide bietet dazu eine Orientierungshilfe. […]
Damit die Umsetzung leichter fällt, sind zu jedem Punkt weitere Informationskanäle und
Auskunftspersonen angegeben, die konsultiert werden können.»
https://rechtssammlung.sp.ethz.ch/Dokumente/1 33.pdf
Compliance Guide
Wissen Sie wo Ihre Daten sind und wer Zugriff hat?
Wissen Sie wo Ihre Daten sind und wer Zugriff hat?
“There is no cloud just other people's computers” (4.9.2018) by Markus Meier CC BY-SA 4.0
«Die Auslagerung von sensitiven Daten der ETH Zürich (z.B. Forschungsdaten, die einer vertraglichen Geheimhaltung mit Dritten unterliegen, wichtige Geschäftsdaten der ETH Zürich wie etwa Finanzdaten, personenbezogene Mitarbeiter- oder Studierendendaten, Gutachten) ist nicht zulässig. Die ETH Zürich muss jederzeit den Zugriff und die Kontrolle über diese Daten haben .»
«Die Nutzung von Cloud oder Social Media Services (z.B. Facebook, Google, Dropbox) in der Forschung für den Austausch mit Forschenden anderer Hochschulen, in der Lehre für den Austausch mit den
Studierenden (Vorlesungsfolder, etc.) ist unproblematisch, solange keine sensitiven Daten der ETH Zürich betroffen sind und keine Rechte Dritter, namentlich Persönlichkeits- oder Urheberrechte, verletzt werden.»
Links:
https://www.ethz.ch/content/dam/ethz/associates/services/Service/IT-Services/files/broschueren/rechtliches/de/Merkblatt_Cloud_Computing_MA.pdf https://www.ethz.ch/content/dam/ethz/associates/services/organisation/departments/informatikdienste/files/Projekte/leaflet_example_cloud_DE.pdf
Cloud Computing @ ETH Zürich
Regeln und Vorschriften
Personenbezogene Daten sind nach schweizerischem Datenschutzrecht aufzubewahren
Eine entsprechende Anonymisierung kann erforderlich sein
Das Löschen einzelner Datensätze muss jederzeit möglich sein
Die Testpersonen müssen eine Einverständniserklärung unterzeichnen
Privatsphäre
Respektieren Sie die Rechte anderer:
Dritte
Personen, mit denen Sie arbeiten
Im Zweifelsfall: auch bei einer CC-Lizenz um Genehmigung fragen
Beachten Sie, dass gemäss ETH-Gesetz die meisten immateriellen Rechte an den Werken ihrer Angestellten der ETH Zürich gehören . Im Zweifelsfalle an ETH
transfer wenden (www.transfer.ethz.ch)
Achten Sie darauf, ausreichende Rechte zu behalten
z.B. für Open Access Publishing («grüner Weg», http://www.library.ethz.ch/Open-Access)
z.B. in Bezug auf Patentanmeldungen: ETH transfer (www.transfer.ethz.ch)
Geistiges Eigentum
share-alike by non-derivative some rights reserved
share
non-commercial public domain
remix
“Creative Commons” (4.9.2018)by Michael Porter CC BY-NC-ND 2.0
Vorteile des Teilens von Daten
Daten, Metadaten und Kontext werden benötigt, um einen Datensatz richtig zu verstehen.
Das Datenmanagement beinhaltet nicht nur Ihre eigenen Daten, sondern auch eine kritische Sicht auf fremde, von Ihnen verwendeten Daten:
Verstehen Sie, wie die Daten gewonnen wurden?
Haben Sie genügend Informationen, um ihre Zuverlässigkeit zu bewerten?
Können Sie die Daten verwenden, ohne mit ihren Urhebern Rücksprache halten zu müssen?
Werden Sie in ein paar Monaten noch wissen, welche Daten Sie von anderen Forschern wiederverwendet haben?
Wissen Sie, wie Sie die von Ihnen verwendeten Daten zitieren sollen? (siehe https://www.datacite.org/cite-your-data.html)
(Wieder-) Verwendung von Daten kritisch überdenken
Langzeitarchivierung von Daten
Und wie man sich darauf vorbereiten kann
Ein ordnungsgemässes Datenmanagement oder dessen Fehlen bestimmen, ob der Datenerhalt möglich ist
Über eine Zeitspanne von zehn Jahren mag Datenmanagement allein genügen, es ist jedoch sinnvoll vorauszudenken
Falls Daten über längere Zeiträume aufbewahrt und genutzt werden sollen, sind weitere Massnahmen nötig:
Daten sollen so selbsterklärend wie möglich sein , einschliesslich der Dokumentation über die verwendete Software oder noch besser, der Aufbewahrung der Software selber; einschliesslich z.B.
Referenzoutputs von Modellalgorithmen
Mehr Sorgfalt bei der Auswahl und Verwendung von Dateiformaten ist geboten
Was hat das mit Datenmanagement zu tun?
Offene Standards (nicht proprietär)
Falls proprietär, nach Möglichkeit konvertieren oder, falls nicht möglich, Programm zur Ansicht der Daten beifügen
Gut dokumentiert
Weit verbreitet und unterstützt durch viele Programme
Unkomprimiert (oder zumindest verlustfrei komprimiert)
Unverschlüsselt
Im Zweifelsfall Original behalten und Kopie erstellen in einem offenen Format
Sich nicht auf Dateiendungen verlassen
Beachten, dass Daten auf unterschiedlichen Betriebssystemen verwendet werden können
Bevorzugte Eigenschaften von Fileformaten
Falls proprietär, nach Möglichkeit konvertieren oder, falls nicht möglich, Programm zur
Bilder: unkomprimierte TIFF; JPEG2000
Text: ASCII, inklusive XML etc.
Informationen über Kodierung und Abhängigkeiten wie Stylesheets und TeX- Bibliotheken nicht vergessen
Text (formatiert): PDF/A1-b, (PDF)
Daten aus Tabellen: CSV
Tabellen: (CSV), (ODF, OOXML)
Beispiele
Dies bedeutet nicht, dass Sie die Daten nicht in anderen Formaten abspeichern dürfen
Sie müssen sich nur dessen bewusst sein, dass proprietäre oder undokumentierte Formate (auch Ihre eigenen!) in der Zukunft Probleme verursachen können
Überlegen Sie sich alternative Formate (ja, redundant!) zu den proprietären Formaten zu benutzen…
…und Kontext-Informationen in einer Readme-Datei, Begleitdokument oder Metadaten hinzuzufügen die sie selber in einigen Jahren gerne sehen würden, um die eigenen Daten verstehen zu können.
Achtung
Organisieren Sie Ihre Daten
Finden Sie was Sie brauchen, wenn Sie es brauchen?
Kommt das
Ihnen bekannt vor?
"A story told in file names“ from
"Piled Higher and Deeper" by Jorge Cham www.phdcomics.com
Source:
http://www.phdcomics.com/comics/archive.php?comicid=1323
Dateien nach Themen ordnen
Ordnerpfade möglichst kurz halten
Dateinamen sind…
Eindeutig und reflektieren den Inhalt
Verwenden nur ASCII Zeichen (keine Sonderzeichen)
Weitere Informationen finden Sie unter:
http://www.data.cam.ac.uk/data-management-guide /organising-your-data
http://www.wur.nl/en/Expertise-Services/
Data-Management-Support-Hub/Browse-by-Subject/
Organising-files-and-folders.htm
http://datalib.edina.ac.uk/mantra/organisingdata/
Versuchen Sie es lieber so…
Selbstkritische Fragen:
Wie müssen Daten aussehen, um sie mit wissenschaftlicher Überzeugung und Vertrauen in Qualität und Korrektheit wiederverwenden zu können?
Stimmt das für unsere eigenen Daten? Was fehlt?
Aufgaben für Gruppenleiterinnen und -leiter
Vereinbaren Sie verbindliche Regeln
Bestimmen Sie einen Datenmanagement-Verantwortlichen innerhalb der Gruppe
Besprechen und dokumentieren Sie Regeln (schriftlich) mit dem Datenmanagement- Verantwortlichen
Was ist zu tun?
Strategien für Forschungsgruppen
Datenmanagementplan
Ein kurzer Plan, der zu Beginn eines Projektes geschrieben und während des Projektverlaufs aktualisiert wird, um zu definieren:
Welche Daten werden gesammelt oder erstellt?
Wie werden die Daten dokumentiert und beschrieben?
Wo werden die Daten gespeichert?
Wer ist verantwortlich für Datensicherheit und Backup?
Welche Daten sollen geteilt und/oder langzeitarchiviert werden?
Wie werden die Daten geteilt und mit wem?
Was ist ein Datenmanagementplan (DMP)?
DMPs werden zunehmend für Projektanträge verlangt (z.B. durch den SNF ab Oktober 2017), sind aber auch sonst nützlich, wann immer Forschende Daten erstellen.
Sie helfen Forschenden:
Bewusste Entscheidungen zu treffen, um Probleme zu antizipieren und zu vermeiden
Konsistenzwahrende Prozeduren frühzeitig zu entwickeln
Sicherzustellen, dass Daten korrekt, vollständig, zuverlässig und sicher sind
(Unerwünschte) Duplizierung, Datenverlust und Sicherheitsverletzungen zu vermeiden
Zeit und Mühe zu sparen und ihr Leben zu erleichtern!
Weshalb ein DMP?
Unterstützt Sie bei der Erstellung eines DMP oder bei der Diskussion von Datenmanagement im Allgemeinen
Umfasst die allgemeine Planung und die Phasen des Datenlebenszyklus, von der Datenerfassung über die Erstellung bis hin zur Verteilung und dem langfristigen Management der Daten
Spezielle Abschnitte umfassen Dokumentation und Metadaten, Dateiformate, Speicherung, ethische Fragen und geistiges Eigentum
http://bit.ly/rdmchecklist
Was tun?
Datenmanagement Checkliste der ETH / EPFL
https://dmponline.dcc.ac.uk/
Das DMPOnline-Tool des UK Digital Curation Centre hilft Ihnen, Horizon 2020 konforme
Datenmanagementpläne zu erstellen, indem Sie einen Fragenbogen beantworten, der sicherstellt, dass Ihre wissenschaftlichen Daten:
Auffindbar
Zugänglich
Bewertbar und verständlich
Nutzbar sind über den ursprünglichen Zweck hinaus
Interoperabilität mit spezifischen Qualitätsstandards aufweisen Sammlung von DMP Beispielen:
http://www.dcc.ac.uk/resources/data-management-plans/guidance-examples
DMPOnline
“FAIR image” (4.9.2018) by Sangya Pundir / CC BY-SA 4.0
Werkzeuge
Versionierung :
Wie gehen Sie damit um? Was funktioniert gut? Was läuft schief?
Namensregeln :
Benutzen Sie sie und falls ja, welche?
Teilen :
Welche Werkzeuge und Dienste verwenden Sie? Was sind Ihre Erfahrungen?
Literaturmanagement :
Welche Programme verwenden Sie? Was sind ihre Vor- und Nachteile?
Sonstige?
z.B. fachspezifische Plattformen oder zentrale Datenbanken?
Gruppendiskussion zur aktuellen Nutzung
Wo befinden sich Ihre Daten?
Welche Rechtsvorschriften gelten, z.B. in Bezug auf Datenschutz?
Ist der Dienst nachhaltig ?
Vertrauen Sie dem Anbieter?
Wer kann auf welche Ihrer Daten zugreifen und diese nutzen?
Wie bekommen Sie Ihre Daten zurück ?
Ist eine bestimmte Lizenz erforderlich?
Gibt es unmittelbare oder längerfristige Kosten ?
Kriterien zur Auswahl von Dienstleistungen und Tools
“What is DP” by Jørgen Stamp / CC BY 2.5
Repositorien und Registries
http://www.re3data.org
http://datadryad.org https://zenodo.org
http://figshare.com
https://www.openaire.eu/search/data-providers
(nur bedingt empfehlenswert, Daten können laut
Empfohlen
Daten in der Schweiz
Sicherheitsbestimmungen erfüllt
Nur bedingt emfpohlen
Daten in EU/USA
Sicherheitsbestimmungen nur z.T. erfüllt
Nie vertrauliche / Private Daten dort ablegen
Zusammenarbeit – Teilen / Sharing
https://www.dropbox.com
https://www.switch.ch/drive/
https://www.switch.ch/filesender https://cifex.ethz.ch/
https://polybox.ethz.ch
https://www.wetransfer.com
Zusammenarbeit - Organisation
https://www.openproject.org
http://www.redmine.org https://trello.com
https://slack.com
https://tagpacker.com
https://asana.com
Kommerzielle ELN Lösungen in Verwendung an der ETH Zürich
https://benchling.com
http://labcollector.com
http://findingsapp.com
Anpassung möglich
Datenspeicherung an der ETH
Speichert:
Proben
Protokolle
Beschreibung der Experimente
Daten
Hausinterne Lösung für Forschungsdatenmanagement /ELN
Samples
Protocols
Experiment Description
Raw Data Analysis
Scripts Results
Laboratory Notebook
&
Inventory Manager
https://labnotebook.ch/
Zusammenarbeit - Versionierung
https://subversion.apache.org https://github.com
https://bitbucket.org
https://www.ethz.ch/services/en/it-services/catalogue/web-application-hosting/sharepoint.html
(Sharepoint ist nur für die Versionierung von Dokumenten gedacht, nicht für Forschungsdaten!)
Zusammenarbeit - Schreiben
https://www.overleaf.com
https://www.authorea.com
https://atlas.oreilly.com
https://hypothes.is
https://evernote.com
http://simplenote.com
https://www.onenote.com
https://www1.ethz.ch/id/services/list/sharepoint
www.jabref.org
Zusammenarbeit – Referenzmanagement
www.mendeley.com endnote.com
www.zotero.org
www.citeulike.org www.bibsonomy.org
Weitere Dienstleistungen an der ETH Zürich
ETH-Bibliothek
ETH Data-Archive (http://www.library.ethz.ch/Digitaler-Datenerhalt)
DOI Registration (http://www.library.ethz.ch/DOI-Desk)
Open Access (http://www.library.ethz.ch/de/Open-Access)
ETH E-Collection (http://e-collection.library.ethz.ch)
ETH E-Citations (http://e-citations.ethbib.ethz.ch)
ORCID (http://www.library.ethz.ch/ORCID) Verknüpfung mit Ihrer ETH-Identität möglich
Informatikdienste
Speicher (meist via internes IT-Support-Team)
NAS (Network Attached Storage) (https://www.ethz.ch/services/de/it-services/katalog/speicher/nas.html)
LTS (Long-Term Storage, Langzeitspeicherung)
(https://www.ethz.ch/services/de/it-services/katalog/speicher/lts.html)
ETH transfer (http://www.transfer.ethz.ch)
Software-Offenlegungs-Workflow mit dem ETH Data Archive
Werden demnächst in «research collection» zusammen-
geführt und ermöglichen Publikation von Daten und Dokumenten