Datenintegration - Architektur und Komponenten

2. Umfeld der Arbeit

2.1. Data Warehouse und Business Intelligence Systeme

2.1.3. Architektur und Komponenten

2.1.3.5 Datenintegration

Der Prozess des Übertrages der Daten aus den Quellsystemen in das DW findet in drei Stufen statt:

• Extraktion der benötigten Daten

• Transformation in ein einheitliches multidimensionales Format

• Laden in das DW und Bereitstellen für Analysen

Der gesamte Prozess wird in der Literatur häufig abgekürzt als ETL-Prozess zeichnet. In dieser Arbeit wird der Prozess vereinfacht als Datenintegration (DI) be-zeichnet.

Gültiger Wert Ungültiger Wert Fehlender Wert Richtiger Wert Falscher Wert

Richtige

Darstellung Falsche Darstellung

Exakte Daten Inexakte Daten

Abbildung 2-8: Exaktheit von Daten [vgl. Ols03, S. 33]

Das Lesen der Rohdaten aus den Quellsystemen wird als Extraktion bezeichnet. Das Lesen kann aus Sicht des DWS sowohl direkt als auch indirekt erfolgen. Direkt be-deutet, dass der Extraktionsprozess selber aktiv auf die produktiven Quellen zugreift und sich die benötigten Daten holt. Dieses Vorgehen hat jedoch zwei Nachteile. Zum einen muss sich der DW-Entwickler intensiv mit der Struktur des operativen Daten-modells auseinandersetzen und dieses verstehen, um die richtigen Attribute selektie-ren zu können. Zum andeselektie-ren ist der Prozess damit vom operativen Datenmodell ab-hängig und muss bei Änderungen ebenfalls angepasst werden. Für einige geschlos-sene, proprietäre Anwendungen gibt es darüber hinaus häufig keine Möglichkeit,

di-Kapitel 2 - Umfeld der Arbeit

rekt auf das zugrundeliegende Datenmodell zuzugreifen. Von daher bietet sich für die Extraktion oftmals ein indirekter Zugriff an. Hierbei stellt der Verantwortliche des operativen Systems eine klar definierte Schnittstelle bereit, auf die der Extraktions-prozess zugreift. Eine Schnittstelle kann beispielsweise eine Tabellen-View oder ein exportierter Tabellen-Abzug als Datei sein. Der Entwickler des Quellsystems hat dann sicherzustellen, dass bei Änderungen des Datenmodells die Schnittstelle wei-terhin korrekt beliefert wird. [vgl. Tot00, S. 110]

Der Transformationsschritt ist der aufwendigste und komplexeste Teil des Integrati-onsprozesses. Kimball et al. teilen die Transformation zum besseren Verständnis in zwei Schritte: Säubern⁶ und Harmonisieren⁷. [vgl. Kim04, S. 18ff]

Das Säubern der Daten dient der Behebung von Mängeln und somit der Erreichung einer definierten Datenqualität. [vgl. Kim04, S. 134ff] Die Säuberung ist deshalb not-wendig, weil operative Systeme nicht zwangsweise immer exakte Daten enthalten (Abbildung 2-8). Die Ursachen für inexakte Daten kann sehr vielfältig sein: falsche Eingaben durch die Anwender, Systemfehler oder Evolution der Systeme. [vgl.

Ols03, S. 43ff] Bei den zu behebenden Mängeltypen lassen sich syntaktische (tech-nische) und semantische (inhaltliche) Mängel unterscheiden. Syntaktische Mängel sind alphanumerische Werte in einem numerischen Feld, NULL Werte in einem NOT NULL Feld oder Werte außerhalb des Wertebereiches. Semantische Mängel ergeben sich aufgrund von falschen inhaltlichen Beziehungen zwischen mehreren Feldern, etwa zwischen der Postleitzahl und dem Ort.

Das Harmonisieren ist notwendig, wenn Daten aus verschiedenen Quellsystemen zusammengespielt werden. In den heterogen gewachsenen Quellsystemen werden für gleiche Sachverhalte bzw. Eigenschaften oftmals unterschiedliche Schlüssel oder Ausprägungen verwendet. Das klassische Beispiel ist der Schlüssel für das Ge-schlecht, der in drei Systemen unterschiedlich als männlich/weiblich, M/W und als 0/1 dargestellt wird. Ziel ist es also, die gleichen Sachverhalte auf einen gemeinsa-men Schlüssel zu bringen. Weiterhin werden unterschiedliche Messgrößen in ein gemeinsames Maß übertragen, beispielsweise werden verschiedene Währungen in eine einheitliche Währung umgerechnet. [vgl. Kim04, S. 148ff]

6 Auch engl.: Clean

7 Auch engl.: Conform

Kapitel 2 - Umfeld der Arbeit

Im finalen Schritt des Integrationsprozesses werden die gesäuberten und harmoni-sierten Daten in das Sternschema überführt bzw. als Sternschema ausgeliefert⁸ (Abbildung 2-7). Das bedeutet, dass gemäß dem multidimensionalen Modell die Di-mensionstabellen und Faktentabellen gefüllt werden. Abschließend werden aus dem Sternschema die OLAP-Würfel geladen. [vgl. Kim04, S.19]

Im Folgenden wird das Vorgehen der Datenintegration exemplarisch veranschaulicht.

Die Tabelle 2-1 zeigt die Originaldaten, so wie sie über die Schnittstelle des Quell-systems geliefert werden. Bei den Daten handelt es sich um Versicherungsdaten (Versicherungsschein-ID, Datum des Vertragsbeginns, Geschlecht sowie Postleit-zahl/Ort des Versicherungsnehmers, gezahlter Beitrag und verursachte Schäden in Dollar).

Vers.ID Datum Geschlecht PLZ Ort Beitrag $ Schäden $ 201-38214 13.07.2011 männlich 10000 Hannover 207,16 195,42 200-92346 28.04.2011 männlich 30419 Hannover 186,03 427,81 201-19203 08.01.2011 weiblich 30165 Hannover 311,40 84,32 201-71829 15.10.2011 weiblich 30657 Hannover 229,74 0x2A

Tabelle 2-2: Originaldaten aus Quellsystem [Eigene Darstellung]

Das Anwenden von Qualitätsregeln ergibt, dass beim ersten und letzten Datensatz fehlerhafte Informationen vorliegen. Die Postleitzahl 10000 passt nicht zu dem Ort Hannover und 0x2A ist kein gültiger Wert für eine Schadenzahlung.

Tabelle 2-3: Gesäuberte Daten [Eigene Darstellung]

8 Auch engl.: Deliver

Kapitel 2 - Umfeld der Arbeit

Die fehlerhaften Datensätze werden ausgesteuert und nur die gültigen Sätze werden weiterverarbeitet. Zur Harmonisierung der Daten werden die Schlüssel für das Ge-schlecht in das Format M/W umgewandelt und die Beträge von Dollar in Euro umge-rechnet:

Vers.ID Datum Geschlecht PLZ Ort Beitrag € Schäden € 200-92346 28.04.2011 M 30419 Hannover 146,21 336,25 201-19203 08.01.2011 W 30165 Hannover 244,75 66,27

Tabelle 2-4: Harmonisierte Daten [Eigene Darstellung]

Schließlich werden die Daten in das Sternschema umgeformt. Aus den ersten drei Ziffern der Versicherungsschein-ID wurde das Produkt abgeleitet. Weitere Dimensio-nen sind die Zeit, das Geschlecht und das Absatzgebiet. Die Faktentabelle in der Mitte referenziert die umliegenden Dimensionstabellen mittels surrogater Fremd-schlüssel:

ProduktKey Produktgruppe Produkt ZeitKey Jahr Monat 78 Kraftfahrt Kraftfahrt-Haftpflicht 20110128 2011 Januar 79 Kraftfahrt Kraftfahrt-Teilkasko 20110408 2011 April

ProduktKey ZeitKey Geschl.Key AbsatzgebietKey Beitrag € Schäden €

78 20110428 1 13 146,21 336,25

79 20110801 2 13 244,75 66,27

Geschl.Key Geschl. AbsatzgebietKey Land Bundesland Region

1 M 13 Deutschland Niedersachsen Hannover

2 W

Tabelle 2-5: Daten im Sternschema [Eigene Darstellung]

Kapitel 2 - Umfeld der Arbeit

Im Dokument Hochschule Wismar (Seite 22-26)