Betrieb des Hadoop-Clusters - Big-Data-Technologien - Wissen für Entscheider

Wird der Hadoop Cluster direkt auf der Server-Infrastruk-tur (bare-metal) oder virtualisiert betrieben?

Vor allen Dingen in produktiven Umgebungen laufen die meisten Hadoop-Implementierungen heutzutage

213 Enterprise Grade oder Commodity

direkt auf den Servern Virtualisierung wird aber mehr und mehr eingesetzt, um flexibler und agiler zu werden, unterschiedliche Fehler-Domänen besser in den Griff zu bekommen sowie unterschiedliche Hardware-Pools zur Separierung von Entwicklungs- und Produktionsclustern zu gestalten. Ausserdem eignet sich der Virtualisierungs-ansatz für die explorativen Analysen der Data Scientists, bei denen ständig veränderte Algorithmen die Daten analysieren und hier die Hadoop-Cluster sehr dynamisch bereitgestellt werden können.

Virtualisierung generiert einen geringen Performance-Overhead und zusätzliche finanzielle Kosten, hilft aber bei drei Fragestellungen und Anforderungen:

Isolation von RZ-Ressourcen, um Kapazitätsreserven bereitzustellen und die unterschiedlichen Workload-Anforderungen von mehreren Mandanten und Abtei-lungen besser abzubilden.²¹⁴

Isolation von unterschiedlichen Versionen, die dem Unternehmen die Möglichkeit einräumt, parallel unterschiedliche Betriebssysteme, Anwendungen und Distributionsversionen zu betreiben. ²¹⁵

Security Isolation – strikte Datenisolation und Privacy Compliance zwischen Usern bzw. Gruppen.

Speicher

Sollten Unternehmen ihren Hadoop-Cluster auf teuren Enterprise-Grade Speicher-Netzen ²¹⁶ oder eher auf Com-modity Servern mit Direct Attached Storage²¹⁷ abbilden?

Viele Hadoop-Cluster-Implementierungen laufen derzeit auf Commodity Servern. In diesem Bereich verfolgen die

Vendoren verschiedene Ansätze, um mit etwas höhe-ren Investitions- die Betriebskosten der Infrastruktur zu vermindern.

Beim Network Storage handelt es sich um spezialisierte Speicher-Arrays, die für Hadoop Workloads und deren spezielle Bandbreitenanforderungen optimiert sind²¹⁸. Die Anschaffungskosten pro Terabyte sind höher als bei White Box Servern²¹⁹, aber die Total Cost of Ownership kann niedriger sein, wenn die Einkaufsabteilung geschickt agiert, da für Enterprise-Grade Speicher gilt:

Sie liefern eine bessere Datennutzung und geringere Replikationsausprägungen im Hadoop Distributed File System²²⁰.

Sie zeichnen sich durch eine verbesserte Manage-barkeit und Performance aus. Außerdem erlaubt der Einsatz von präventiven Maintenance-Verfahren eine bessere Balancierung des Clusters.

Es eröffnen sich Einsparungsmöglichkeiten im gesam-ten Software-Stack einschließlich der Hadoop-Lizen-sierungen, so dass die Cluster effizienter aufgebaut werden können.

Es bieten sich bessere Möglichkeiten der Re-Balancie-rung des Compute- und Storage-Verhältnisses²²².

Daten-Haltung

Um die richtigen Entscheidungen für das Datenmanage-ment zu treffen, sind in Abhängigkeit von der Unterneh-menssituation folgende Fragen zu klären:

Welche Hadoop-Distribution deckt die heutigen und zukünftigen Anforderungen bestmöglich ab?

214 So kann verhindert werden, dass sich Ressourcen-intensive Jobs negative über Mandantengrenzen hinweg bemerkbar machen. (Hadoop hat heute nur ein paar eingeschränkte Möglichkeiten dieses auch ohne Virtualisierung abzubilden).

215 Das ist vor allen Dingen in Test-/Entwicklungsumgebungen oder in der Produktion bei unterschiedlichen Anforderungen (High-Performance- oder Low-Cost-Betrieb) wichtig.

216 Network Attached Storage

217 integrierte Direct Access Storage Devices (DASD)

218 Beispiel: NetApp’s Engenio E Series Storage.

219 White Box Server werden aus standardisierten Komponenten von Integratoren oder Providern assembliert und nicht unter einem Marken-Namen vertrieben.

220 Abbildung von 1.3 – 2 Kopien der Daten im Gegensatz zum im Standard Hadoop üblichen Default von 3 Kopien der Daten im Direct Attached Storage

221 Plattenfehlerrate < 1% gegenüber 2-3% im Direct Attached Storage

222 Je nach Workload gibt es unterschiedliche Anforderungen der Compute- und IO-Kapazität.

Welche Hadoop-Distribution erschließt am besten die auch weiter zu erwartenden Open-Source-Inno-vationen und kompensiert die Vorzüge proprietärer Lösungen?

Eine detaillierte Erörterung dieser Fragen würde den Leitfaden sprengen – es sei jedoch auf den Abschnitt 6.4 verwiesen.

Daten-Zugriff

Seinen traditionellen Fokus hat Hadoop im Bereich des effizienten Batch-Processings von MapReduce-Workloads.

Hadoop entwickelt sich in Richtung interaktiver und Near-Time-orientierter Einsatzbereiche sehr schnell weiter. Für Aufgaben aus dem Bereich Big Data Analytics auf Basis strukturierter Daten kommen heute häufig In-Memory-Lösungen zum Einsatz.

Dagegen empfiehlt sich für Aufgaben der Big Data Analytics auf unstrukturierten und semi-strukturierten Daten das Hadoop-Modell mit seiner optimierten Scale-out-Architektur. Die Erweiterung von Hadoop um SQL-Zugriffsmöglichkeiten ermöglicht es mittlerweile, auch Aufgaben mit strukturierten Daten sehr effizient und mit hoher Geschwindigkeit im Daten-Integrationsbereich der Big-Data-Architektur zu verarbeiten.

Folgende Fragen sind zu beantworten, um Anforderungen aus der Datenverarbeitung an die Plattform abzubilden:

Welche Typen von Analytics²²³ werden für die Verarbei-tung benötigt?

Wie schnell müssen Entscheidungen umgesetzt werden?²²⁴

Ist eine Multi-Step-Verarbeitung²²⁵ der Daten notwen-dig, bevor sie gespeichert werden?

Sind Stream Computing und CEP notwendig? Sind spezifische zeitkritische SLAs einzuhalten? Ist ein partieller Datenverlust akzeptabel?

Wie häufig werden Daten geändert und abgefragt²²⁶?

Wie eng sind die Daten im Hadoop Cluster mit existie-renden, relationalen Daten verknüpft und gekoppelt?

Welche nicht-relationale Datenbank²²⁷ passt zu den Unternehmensanforderungen?

Daten-Integration

Im Bereich Daten-Integration sind folgende Fragestellun-gen wichtig:

Welche Datenquellen²²⁸ bieten eine Wertschöpfung für das Unternehmen und die Einsatzbereiche?

Welche Datenschutz-Vorschriften gelten für die mit Social-Media-Werkzeugen generierten bzw. personen-bezogenen Daten?

Welche Datenvolumina sind zu bearbeiten und wel-che Datenstrukturen sind relevant?

Welche Latenzanforderungen bestehen für die Daten?

Zur Integration von Datei-basierten Applikationen eignet sich NFS, um darüber die Daten in einen Hadoop-Cluster zu laden. Hingegen nutzen Web-basierte Applikationen und Services eher einen Zugriff auf Hadoop über REST API’s und WebHDFS-Mechanismen. Für die Integration von Hadoop-Clustern in die BI-Landschaften der Unter-nehmen stehen SQL-basierte Zugriffs-Schnittstellen zur Verfügung. Auf diesem Wege können BI-Tools über ODBC/

JDBC-Zugriffe die in Hadoop gespeicherten Daten nutzen.

Bei der Schnittstelle ist zu beachten, welche SQL-ANSI-Standards unterstützt werden, damit die BI-Tools effizient eingesetzt werden können.

223 Machine Learning, Statistical Analysis. Predictive Analytics

224 Latenz der Entscheidung

225 Multi-Step-Verarbeitung steht für die mehrfache Analyse und Auswertung der Datenströme innerhalb eines Verarbeitungsjobs – so kann z. B. nach einer Text-Analyse noch eine Social-Media-Analyse und dann eine GPS/Wetter-Datenanalyse stattfinden.

226 Realtime vs. Batch

227 Hbase and Cassandra arbeiten nativ auf dem HDFS, während Couchbase und MongoDB auf eigenen Datenkopien arbeiten.

228 intern vs. extern, Social/People vs. Maschinen-generierter Daten

IT-Sicherheit

Im Bereich IT-Sicherheit sind folgende Fragestellungen relevant:

Daten-Isolation:

Wie werden Daten-Nodes in einer mandantenfähigen Hadoop-Struktur voneinander isoliert?

Access Management:

Welche Zugriffskontrollmechanismen werden von den Hadoop Systemen unterstützt und sind relevant – Kerberos oder LDAP Support

Security Auditing und Monitoring:

Wer hat Änderungen auf den Hadoop-Filesets oder in der System-Plattform vorgenommen? Welche Soft-warelösung unterstützt eine durchgehende Security-Audit-Funktionalität über Hadoop und die anderen Unternehmens-Datenbanken hinweg?

Datenverschlüsselung:

Welche Verschlüsselungsmöglichkeiten sind auf den Data Nodes verfügbar? Wird eine transparente Entschlüsselung on-the-fly ermöglicht?

Im Dokument Big-Data-Technologien - Wissen für Entscheider | Bitkom e.V. (Seite 157-160)