Beispiel einer interaktiv-iterativen visuellen Datenanalyse

Anlass der Analyse anhand einer Fragenkette sei eine fiktive Immobiliensuche in Kiel: Der Mitarbeiter startet auf einer Tabelle zu jahresabhängigen Preisen und Eigenschaften einzelner Immobilien. Diese Tabelle (vgl. Tabelle 10) ist lokal in einer Excel-Liste oder auf einem zentralen Datenserver über einen Konnektor zugänglich.

Optional: zur Orientierung wird die zugrunde liegende Tabelle kurz angezeigt.

Für einen ersten Überblick bringt er den zeitlichen Verlauf als Balkendiagramme zur Anzeige.

Die erste Detailansicht pro Stadtteil zeigt ihm, welche Lagen grundsätzlich teurer sind, und welche z. B. stärkere Schwankungen auftreten.

Eine Querprüfung durch Perspektivenwechsel zeigt, in welchen Bereichen der Quadratmeterpreis mit der Fläche korreliert.

Potenziale werden sichtbar, wenn die Eigenschaften (hier z. B. Anzahl Schlafzimmer) und der Preis betrachtet werden.

3 Schlafzimmer (grün) zeigen ab mittleren Größen einen deutlichen Preissprung!

Damit rückt eine kleine Auswahl an Objekten in den Fokus, für die dieses Potenzial offen ist.

Eine weitere Perspektive zeigt die Projektion in die Stadt-fläche: die räumliche Einord-nung und damit das Umfeld der Immobilie.

Tabelle 10: Visuell unterstützte Ad-hoc-Analyse, beispielhaft mit Tableau Software

4.4.2 Fortgeschrittene Visualisierung und Visuelle Analytik

Die Herausforderungen im Umfeld von Big Data bezüglich der Dimensionen Volume, Velocity und Variety erfordern nicht nur auf technischer Ebene skalierbare Visualisie-rungslösungen. In der Praxis sind konkrete Problemstel-lungen oftmals nur unscharf oder informell formuliert, so dass der Datenbestand zunächst explorativ – d.h.

zunächst mehr oder weniger ungerichtet – untersucht und erst im Zuge dieser Exploration die Analyse- bzw.

Modellierungsaufgabe konkretisiert wird.

Der Cross-Industry Standard Process for Data Mining (CRISP-DM, vgl. Abbildung 32) beschreibt die unterschied-lichen Phasen der Datenanalyse in einem konzeptuellen Modell: Zu Beginn des Prozesses steht stets die Aufgabe, die involvierten Geschäftsfälle und –prozesse sowie die als Entscheidungsgrundlage dienenden Daten zu sammeln und im Sinne einer Anforderungsanalyse zu strukturieren (Phasen Business Understanding bzw. Data Understanding), wobei sich beide Teilaspekte gegenseitig beeinflussen. Vor der eigentlichen analytischen Verarbei-tung der ausgewählten Daten (Phase Modeling) müssen diese im Allgemeinen bereinigt und ggf. ergänzt werden (Phase Data Preparation). Ergebnis der Analyse (Phase Modeling) ist ein Modell im weiteren Sinne, d.h. eine für die Entscheidungsfindung hinreichende Verdichtung der Datenbasis auf die wesentlichen Informationen. Eine nachfolgende Evaluation gegen bekannte Geschäftsfälle (Phase Evaluation) kann wiederum dazu führen, dass das bisherige Verständnis für die Geschäftssituation erweitert und somit wiederum eine verfeinerte Analyse auf einer nochmals verbesserten Datenauswahl vorgenommen wird. Sobald ein Modell als hinreichend ausdrucksstark für die Entscheidungsunterstützung im Geschäftsprozess angesehen wird, kann es z. B. im Rahmen des Reportings oder als Modul in Mashups oder Dashboards visualisiert werden.

Abbildung 32: Cross-Industry Standard Process for Data Mining

Es ist dabei besonders wichtig zu beachten, dass diese Prozesssicht nicht nur akademischer Natur ist. Vielmehr beinhaltet auch in der Praxis eine Analyse fast immer Versuch und Irrtum: Das Geschäftsverständnis bzw. ein Datenmodell wird erst nach Betrachtung, Bewertung und Einordnung verschiedener (Teil-) Zwischenergebnisse erreicht.

Umso wichtiger sind deshalb Werkzeuge, welche ein solches iteratives Vorgehen in allen Phasen des CRISP-DM unterstützen. Die in Unterabschnitt 4.4.1 (vgl. S. 75) beschriebenen interaktiv-explorative Visualisierungen sind dabei insbesondere in den Phasen Data Understan-ding und Data Preparation von Bedeutung, während Dashboards in der Deployment-Phase (eines fertig entwickelten Modells) eingesetzt werden. Typische Data-Mining- bzw. Statistik-Lösungen, welche hauptsächlich in den Phasen Data Preparation und natürlich dem Mode-ling zum Einsatz kommen, realisieren dagegen oftmals einen Black-Box-Prozess – für einen gegebenen Datensatz und vorab festzulegende Parameter wird der komplette (und oftmals rechenintensive) Modellierungsprozess durchlaufen und lediglich das Endergebnis graphisch dargestellt. Ein Fine Tunig (oder gar eine Neumodellie-rung aufgrund zunächst falscher Annahmen) sind somit

Business Understanding

Deployment

UnderstandingData

PreparationData

Modelling Evaluation

Data

vergleichsweise langen Zyklen unterworfen. Derartige Lösungen skalieren daher schlecht und sind insbesondere im Big-Data-Umfeld nicht für Anwendungen mit einem Fokus auf den Velocity-Aspekt geeignet.

Für die Realisierung komplexer Informationsvisualisie-rungen ist ein mehrstufiger Prozess notwendig. Die-ser wird als Visualisierungspipeline¹¹⁸ bezeichnet (vgl.

Abbildung 33). Obwohl dieses Konzept deutlich vor dem Aufkommen des Themenkomplexes Big Data entwickelt wurde, besitzt es nach wie vor Gültigkeit. Lediglich die auf den jeweiligen Stufen involvierten Technologien haben sich teilweise geändert.

Visualisierungspipeline

Der erste Schritt bei der Datenvisualisierung ist dabei der Einsatz von Filtern, um beispielsweise Rohdaten in ein geeignetes Format zu konvertieren sowie für die

Visualisierung irrelevante Datenpunkte oder Attribute zu entfernen. Auch die analytische Vorverarbeitung und die Ableitung statistischer Maße und Aggregate werden im Sinne der Visualisierungspipeline dem Filtern zugeordnet.

Auf dieser Stufe findet also ein Großteil der Informati-onsverdichtung statt – so werden zum Beispiel aus vielen Millionen Einzelmeldungen aus mehreren Produktionsan-lagen einige hundert oder tausend relevante Events (vgl.

Unterabschnitt 4.2.2).

Als die Visualisierungspipeline 1990 eingeführt wurde, wurde außer in einigen Nischenanwendungen fast aus-schließlich direkt in-memory oder mit RDBMS-Backends gearbeitet, weshalb die Filterstufe auch heute noch oft als integraler Bestandteil der jeweiligen Visualisierungs-lösung betrachtet bzw. implementiert wird. Dies schränkt jedoch die Skalierbarkeit bezüglich des Datenvolumens stark ein. Im Big-Data-Umfeld ist es daher vorzuziehen,

118 Haber R. B., McNabb D. A.: Visualization idioms – A conceptual model for scientific visualization systems. In Visualization in Scientific Computing, IEEE Computer Society Press, 1990, S. 74–93.

4.3 Analytische Verarbeitung 4.1 Daten-Haltung 4.2 Daten-Zugriff 4.3 Analytische

Verarbeitung Simulation

Bestands-daten Aufbereitung

Rendering

Rohdaten Aufbereitete

Daten

Rasterbild (Pixel) Visuelle Primitive Sensor-

ströme

…

Anzeige Visuelle Abbildung

Abbildung 33: Visualisierungspipeline – komplexe Informationsvisualisierung als mehrstufiger Prozess

entsprechende Technologien der Daten-Bereitstellung (vgl. Abschnitt 4.2) und Analytischen Verarbeitung (vgl. Abschnitt 4.3) über geeignete Schnittstellen zu integrieren.

In einem anschließenden Abbildungsmodul (Mapper) werden die Daten dann in eine darstellbare, d.h. geomet-rische Repräsentation überführt – Punkte, Linien, Flächen (in 2D) bzw. Volumen (in 3D) – in deren Eigenschaften (den sog. visuellen Variablen) wie Position, Größe, Form und Farbe einzelne Datenattribute kodiert werden. Auf dieser Stufe findet neben einer weiteren Informationsverdich-tung¹¹⁹ hauptsächlich eine Informationsgewichtung¹²⁰ statt.

Je nach Analyse- bzw. Kommunikationsziel ist es also notwendig, die visuelle Kodierung der Daten bzw. die Visualisierungstechnik adäquat auszuwählen.

Im letzten Schritt der Visualisierungspipeline wird die erzeugte geometrische Repräsentation der Daten von einem Darstellungsmodul (Renderer) in ein 2D-Pixelbild zur Ausgabe auf den verschiedenen Endgeräten¹²¹ umge-wandelt. Im Kontext von Big Data steht auf dieser Stufe vor allem die Frage nach der technischen oder Display-Skalierbarkeit – Bildschirmauflösung, Darstellungsver-zögerung (und bei Mobilegeräten der Energieverbrauch) müssen berücksichtigt werden.

Benutzerinteraktion

Wie bereits auf S. 78 erläutert, stellt die Benutzerinter-aktion einen wichtigen und wesentlichen Freiheitsgrad bei der Analyse und Exploration von Daten dar. Die Visulisierungspipeline erlaubt die Interaktion durch den Benutzer an jeder beliebigen Stelle. Vor allem bei unbe-kannten Daten ist eine Erkenntnis über die in den Daten vorhandene Information häufig erst durch die interak-tive Manipulation der Visualisierungsparameter aller

Visualisierungsstufen möglich. Die dafür erforderlichen, hohen Interaktionsraten setzen effiziente Algorithmen und Datenstrukturen sowie entsprechende Verarbei-tungskapazitäten auf den darunter liegenden Schichten (Analytische Verarbeitung, Daten-Zugriff, Daten-Haltung) voraus.

Im Dokument Big-Data-Technologien - Wissen für Entscheider | Bitkom e.V. (Seite 82-85)