• Keine Ergebnisse gefunden

Wird der Hadoop Cluster direkt auf der Server-Infrastruk-tur (bare-metal) oder virtualisiert betrieben?

Vor allen Dingen in produktiven Umgebungen laufen die meisten Hadoop-Implementierungen heutzutage

213 Enterprise Grade oder Commodity

direkt auf den Servern Virtualisierung wird aber mehr und mehr eingesetzt, um flexibler und agiler zu werden, unterschiedliche Fehler-Domänen besser in den Griff zu bekommen sowie unterschiedliche Hardware-Pools zur Separierung von Entwicklungs- und Produktionsclustern zu gestalten. Ausserdem eignet sich der Virtualisierungs-ansatz für die explorativen Analysen der Data Scientists, bei denen ständig veränderte Algorithmen die Daten analysieren und hier die Hadoop-Cluster sehr dynamisch bereitgestellt werden können.

Virtualisierung generiert einen geringen Performance-Overhead und zusätzliche finanzielle Kosten, hilft aber bei drei Fragestellungen und Anforderungen:

„ Isolation von RZ-Ressourcen, um Kapazitätsreserven bereitzustellen und die unterschiedlichen Workload-Anforderungen von mehreren Mandanten und Abtei-lungen besser abzubilden.214

„ Isolation von unterschiedlichen Versionen, die dem Unternehmen die Möglichkeit einräumt, parallel unterschiedliche Betriebssysteme, Anwendungen und Distributionsversionen zu betreiben. 215

„ Security Isolation – strikte Datenisolation und Privacy Compliance zwischen Usern bzw. Gruppen.

Speicher

Sollten Unternehmen ihren Hadoop-Cluster auf teuren Enterprise-Grade Speicher-Netzen 216 oder eher auf Com-modity Servern mit Direct Attached Storage217 abbilden?

Viele Hadoop-Cluster-Implementierungen laufen derzeit auf Commodity Servern. In diesem Bereich verfolgen die

Vendoren verschiedene Ansätze, um mit etwas höhe-ren Investitions- die Betriebskosten der Infrastruktur zu vermindern.

Beim Network Storage handelt es sich um spezialisierte Speicher-Arrays, die für Hadoop Workloads und deren spezielle Bandbreitenanforderungen optimiert sind218. Die Anschaffungskosten pro Terabyte sind höher als bei White Box Servern219, aber die Total Cost of Ownership kann niedriger sein, wenn die Einkaufsabteilung geschickt agiert, da für Enterprise-Grade Speicher gilt:

„ Sie liefern eine bessere Datennutzung und geringere Replikationsausprägungen im Hadoop Distributed File System220.

„ Sie zeichnen sich durch eine verbesserte Manage-barkeit und Performance aus. Außerdem erlaubt der Einsatz von präventiven Maintenance-Verfahren eine bessere Balancierung des Clusters.

„ Es eröffnen sich Einsparungsmöglichkeiten im gesam-ten Software-Stack einschließlich der Hadoop-Lizen-sierungen, so dass die Cluster effizienter aufgebaut werden können.

„ Es bieten sich bessere Möglichkeiten der Re-Balancie-rung des Compute- und Storage-Verhältnisses222.

Daten-Haltung

Um die richtigen Entscheidungen für das Datenmanage-ment zu treffen, sind in Abhängigkeit von der Unterneh-menssituation folgende Fragen zu klären:

„ Welche Hadoop-Distribution deckt die heutigen und zukünftigen Anforderungen bestmöglich ab?

214 So kann verhindert werden, dass sich Ressourcen-intensive Jobs negative über Mandantengrenzen hinweg bemerkbar machen. (Hadoop hat heute nur ein paar eingeschränkte Möglichkeiten dieses auch ohne Virtualisierung abzubilden).

215 Das ist vor allen Dingen in Test-/Entwicklungsumgebungen oder in der Produktion bei unterschiedlichen Anforderungen (High-Performance- oder Low-Cost-Betrieb) wichtig.

216 Network Attached Storage

217 integrierte Direct Access Storage Devices (DASD)

218 Beispiel: NetApp’s Engenio E Series Storage.

219 White Box Server werden aus standardisierten Komponenten von Integratoren oder Providern assembliert und nicht unter einem Marken-Namen vertrieben.

220 Abbildung von 1.3 – 2 Kopien der Daten im Gegensatz zum im Standard Hadoop üblichen Default von 3 Kopien der Daten im Direct Attached Storage

221 Plattenfehlerrate < 1% gegenüber 2-3% im Direct Attached Storage

222 Je nach Workload gibt es unterschiedliche Anforderungen der Compute- und IO-Kapazität.

„ Welche Hadoop-Distribution erschließt am besten die auch weiter zu erwartenden Open-Source-Inno-vationen und kompensiert die Vorzüge proprietärer Lösungen?

Eine detaillierte Erörterung dieser Fragen würde den Leitfaden sprengen – es sei jedoch auf den Abschnitt 6.4 verwiesen.

Daten-Zugriff

Seinen traditionellen Fokus hat Hadoop im Bereich des effizienten Batch-Processings von MapReduce-Workloads.

Hadoop entwickelt sich in Richtung interaktiver und Near-Time-orientierter Einsatzbereiche sehr schnell weiter. Für Aufgaben aus dem Bereich Big Data Analytics auf Basis strukturierter Daten kommen heute häufig In-Memory-Lösungen zum Einsatz.

Dagegen empfiehlt sich für Aufgaben der Big Data Analytics auf unstrukturierten und semi-strukturierten Daten das Hadoop-Modell mit seiner optimierten Scale-out-Architektur. Die Erweiterung von Hadoop um SQL-Zugriffsmöglichkeiten ermöglicht es mittlerweile, auch Aufgaben mit strukturierten Daten sehr effizient und mit hoher Geschwindigkeit im Daten-Integrationsbereich der Big-Data-Architektur zu verarbeiten.

Folgende Fragen sind zu beantworten, um Anforderungen aus der Datenverarbeitung an die Plattform abzubilden:

„ Welche Typen von Analytics223 werden für die Verarbei-tung benötigt?

„ Wie schnell müssen Entscheidungen umgesetzt werden?224

„ Ist eine Multi-Step-Verarbeitung225 der Daten notwen-dig, bevor sie gespeichert werden?

„ Sind Stream Computing und CEP notwendig? Sind spezifische zeitkritische SLAs einzuhalten? Ist ein partieller Datenverlust akzeptabel?

„ Wie häufig werden Daten geändert und abgefragt226?

„ Wie eng sind die Daten im Hadoop Cluster mit existie-renden, relationalen Daten verknüpft und gekoppelt?

„ Welche nicht-relationale Datenbank227 passt zu den Unternehmensanforderungen?

Daten-Integration

Im Bereich Daten-Integration sind folgende Fragestellun-gen wichtig:

„ Welche Datenquellen228 bieten eine Wertschöpfung für das Unternehmen und die Einsatzbereiche?

„ Welche Datenschutz-Vorschriften gelten für die mit Social-Media-Werkzeugen generierten bzw. personen-bezogenen Daten?

„ Welche Datenvolumina sind zu bearbeiten und wel-che Datenstrukturen sind relevant?

„ Welche Latenzanforderungen bestehen für die Daten?

Zur Integration von Datei-basierten Applikationen eignet sich NFS, um darüber die Daten in einen Hadoop-Cluster zu laden. Hingegen nutzen Web-basierte Applikationen und Services eher einen Zugriff auf Hadoop über REST API’s und WebHDFS-Mechanismen. Für die Integration von Hadoop-Clustern in die BI-Landschaften der Unter-nehmen stehen SQL-basierte Zugriffs-Schnittstellen zur Verfügung. Auf diesem Wege können BI-Tools über ODBC/

JDBC-Zugriffe die in Hadoop gespeicherten Daten nutzen.

Bei der Schnittstelle ist zu beachten, welche SQL-ANSI-Standards unterstützt werden, damit die BI-Tools effizient eingesetzt werden können.

223 Machine Learning, Statistical Analysis. Predictive Analytics

224 Latenz der Entscheidung

225 Multi-Step-Verarbeitung steht für die mehrfache Analyse und Auswertung der Datenströme innerhalb eines Verarbeitungsjobs – so kann z. B. nach einer Text-Analyse noch eine Social-Media-Analyse und dann eine GPS/Wetter-Datenanalyse stattfinden.

226 Realtime vs. Batch

227 Hbase and Cassandra arbeiten nativ auf dem HDFS, während Couchbase und MongoDB auf eigenen Datenkopien arbeiten.

228 intern vs. extern, Social/People vs. Maschinen-generierter Daten

IT-Sicherheit

Im Bereich IT-Sicherheit sind folgende Fragestellungen relevant:

„ Daten-Isolation:

Wie werden Daten-Nodes in einer mandantenfähigen Hadoop-Struktur voneinander isoliert?

„ Access Management:

Welche Zugriffskontrollmechanismen werden von den Hadoop Systemen unterstützt und sind relevant – Kerberos oder LDAP Support

„ Security Auditing und Monitoring:

Wer hat Änderungen auf den Hadoop-Filesets oder in der System-Plattform vorgenommen? Welche Soft-warelösung unterstützt eine durchgehende Security-Audit-Funktionalität über Hadoop und die anderen Unternehmens-Datenbanken hinweg?

„ Datenverschlüsselung:

Welche Verschlüsselungsmöglichkeiten sind auf den Data Nodes verfügbar? Wird eine transparente Entschlüsselung on-the-fly ermöglicht?