C3Grid als Werkzeug für das Datenmanagement in der Klimaforschung
S. Kindermann
1, F. Schintke
2, B. Fritzsch³
& C3 Team
1) Deutsches Klimarechenzentrum Hamburg DKRZ, 2) Zuse-Institut Berlin ZIB, 3) Alfred-Wegener -Institut für Polar- und Meeresforschung Bremerhaven AWI
Motivation
• Aufgrund explosionsartig wachsender Klimadatenbestände ist eine Dateninfrastruktur notwendig, die Klimaforscher bei komplexen Datenauswertungsaufgaben unterstützt.
• Der bisherige Arbeitsablauf von Klimaforschern war (grob skizziert):
(1) Suche nach geeigneten Archiven/Datensätzen, (2) Download aus Archiven mit teilweise sehr unterschiedlichen Zugriffsmethoden und (3) Prozessierung / Analyse der Daten „zu Hause“
• Dieser Ansatz ist angesichts weltweit verteilter Klimadatenarchive mit Datenbeständen im Petabyte-Bereich nicht mehr gangbar.
• Die C3Grid Infrastruktur stellt deshalb einen verteilten virtuellen Kollaborationsbereich zur Verfügung, der
(1) eine einheitliche Suche in angeschlossenen Datenarchiven erlaubt und (2) einen einheitlichen Datenzugriff bereitstellt, sowie (3) eine verteilte kollaborative Datenverwaltung und Datenprozessierung unterstützt.
Ausblick
Gemeinsames Arbeiten an Ergebnisdaten:
Nutzer kann Workflow-Ergebnisse freigeben
• einer Gruppe (mehrere Grid-Nutzer)
• öffentlich freigeben
C3Grid Datenmanagement GNDMS erlaubt Publishing:
• Ergebnisse liegen auf der Export-Site
• Transfer auf sog. Publishing-Site (mit Metadaten) (weitere GNDMS-Instanz)
• Publishing-Site liefert Metadaten an Metadatenkatalog
• Publishing-Site stellt Schnittstelle für Datenstaging bereit
Ergebnisdaten sind in C3Grid such- und nutzbar
Datenintegration
Klimadatenanbieter werden über standardisierte
Schnittstellen (REST, HTTP, GridFTP) in C3Grid integriert:
• Nationale Archive implementieren C3Grid Daten- und Metadatenschnittstellen.
• C3Grid unterstützt die Schnittstellen der internationalen ESGF Datenföderation.
• Durch C3Grid werden Metadaten in einem zentralisierten Metadatenkatalog gesammelt und sind über ein
gemeinsames Suchinterface auffindbar.
• Daten werden mit zugehörigen Metadaten im C3Grid Workspace verwaltet; Ergebnis-Daten können extern zugreifbar gemacht werden.
Kollaborativer C3-Workspace (GNDMS)
• Temporärer Grid-Zwischenspeicher für Daten
• unterstützt die C3Grid Security-Infrastruktur und Zertifikatsdelegation
• Datentransfer (Im-/Export) über gridFTP und HTTP
• räumt sich selbst wieder auf (Daten sind mit Lebensdauer annotiert)
• trennt verschiedene Datensätze (ggf. mehrere Dateien) logisch voneinander (sog. Slices und Slice-IDs)
• Workflows können Slice-IDs als Eingabedaten verwenden, um z.B. Ergebnisdaten früherer Workflows weiter zu analysieren
• Anbindung an Workflow-Scheduler (Abschätzung von Daten-Staging-Zeiten etc.)
• C3-Workflows
• erzeugen stets neue, für das Ergebnis gültige, ISO-Metadaten mit Provenienz-Information
• Ergebnisse sind so nachvollziehbar und reproduzierbar und selbst wieder gleichwertige Eingabe-Datensätze im C3Grid
• Workflows modularisieren die Datenanalysefunktionalität
German
• Research Institutes
• Universities
• World Data Centers Data + Metadata
Data Analysis Workflow
Metadata Catalog
Collaborative C3Grid Workspace
(B) (C)
(A)
Data + Metadata
Portal
Data Access
search API
International
CMIP5 / IPCC AR5 data federation
Metadata Metadata
Workflow API
Data Access
Collaborative C3Grid Workspace
Staging
Data Provider Compute Provider Portal
input.xml input.grb
Export Publish
Workflow
input.xml input.grb
output.xml output.grb
output.xml output.grb
output.xml output.grb
output.gif output.gif output.gif
Weiterführende Informationen unter
• www.c3grid.de
• esgf.org
• gndms.zib.de