Berechnung abgeleiteter Werte - Transformation der Daten

3 Datenintegration

3.3 Transformation der Daten

3.3.6 Berechnung abgeleiteter Werte

Unter Umständen kann es sinnvoll sein (um die Zugriffszeit von bestimmten Anfra-gen zu verringern), aus den Attributwerten der Quelldatenbanken neue Attribute abzuleiten. Angenommen in einer Relation gibt es 1.000.000 Tupel, und für die Da-tenanalyse wird häufig der Mittelwert über diese Tupel benötigt. Dann ist es sinnvoll, den Mittelwert einmal beim Laden der Daten zu bestimmen und zu speichern und bei anschließenden Anfragen auf den gespeicherten Wert zuzugreifen. Dadurch werden die Anfragen um ein vielfaches effizienter. Man sollte aber weiterhin auch die Werte, aus denen die neuen Werte abgeleitet wurden mitspeichern, da sie eventuell für andere Auswertungen noch gebraucht werden können. Die Ableitung von neuen Werten kann dabei weitaus komplexer und schwieriger sein, als das abschließende Beispiel in Abbildung 3.9 vermuten lässt:

Abbildung 3. 9

Preis incl MWST = Preis ohne MWST * 1,16

19 4. Data Cleaning

In der Bereinigungsphase werden die inkorrekten, unvollständigen und inkonsisten-ten Dainkonsisten-ten entdeckt und nach Möglichkeit behandelt. Ziel ist es sicherzustellen, dass im Data-Warehouse eine bereinigte Datenbank vorzufinden ist und die Qualität der Daten erhöht wird.

4.1. Behandlung von fehlerhaften Werten

Unter fehlerhaften Werten versteht man beim Data Cleaning Datenwerte, die unvoll-ständige oder falsche Angaben (zum Beispiel bei Adressen) beinhalten. Null-Werte gehören ebenfalls in diesen Bereich, ihre Behandlung wird im Kapitel 4.2. ausführlich erläutert.

Bei unvollständigen und fehlerhaften Daten kann mit Hilfe von Daten aus anderen Datenquellen ein Abgleich durchgeführt und somit die Daten ergänzt beziehungswei-se korrigiert werden. Des Weiteren kann man auch domänenspezifische Wörterbücher einsetzen, beispielsweise im Pharmaziebereich, wenn Medikamente oder Wirkstoffe betrachtet werden. Solche Änderungen, die sich auf ein abgegrenz-tes Anwendungsgebiet beziehen, können heute durch Programme vollautomatisch durchgeführt werden, eine domänenunabhängige Validierung erfordert jedoch meist wieder zeitaufwendige, manuelle Eingriffe.

4.2. Behandlung von Nullwerten

Nullwerte können durch unterschiedliche Situationen entstanden sein [BaGü01], zum Beispiel:

• In der realen Welt gibt es keinen Wert für das Attribut. Ein Beispiel wäre die Haltbarkeitsdauer von nicht verderblichen Produkten.

• Der Wert des Attributs existiert zwar in der realen Welt, jedoch ist er zum Zeitpunkt der Eingabe nicht bekannt oder wurde aus bestimmten Gründen nicht erfasst. Ein Beispiel wäre die Nicht-Erfassung von optionalen Kunden-daten in den Quellsystemen, die aber bei Analysen im Data-Warehouse benötigt werden (zum Beispiel Kundenalter).

Zur Behandlung von Nullwerten stehen eine Reihe von Möglichkeiten zur Verfügung.

Die in [HaKa01] angesprochenen Verfahren werden im Folgenden kurz vorgestellt:

• Tupel ignorieren: Diese Methode ist sicherlich nicht die Effektivste, da be-reits Tupel, in denen nur ein Attribut unbekannt ist, ignoriert werden.

Dadurch gehen viele wichtige Werte für die Analyse der Daten verloren. Al-lerdings ist diese Methode am einfachsten zu realisieren.

• Fehlende Werte manuell einfügen: Diese Methode ist sehr zeitaufwendig und erfordert den Einsatz von Personen mit Kenntnissen aus dem Anwen-dungsgebiet. Sie ist außerdem in großen Datenbanken mit mehreren Millionen Einträgen und vielen Nullwerten nicht mehr realisierbar.

• Globale Konstanten verwenden: Bei dieser Methode wird allen unbekannten Werten ein konstanter Wert (zum Beispiel „Unbekannt“) zugewiesen. Ein Problem entsteht bei der Analyse, wenn diese konstanten Werte nicht her-ausgefiltert werden. Dann würde das Data-Mining Programm missverständlicherweise diesen Wert als wichtig annehmen, da er sehr häu-fig auftritt. Auch diese Methode ist einfach zu realisieren, findet allerdings in der Realität nur geringen Einsatz.

• Mittelwert: Diese Methode weist jedem Nullwert den Mittelwert über diese Spalte in der Datenbank zu. Dadurch werden Statistiken nicht verfälscht. Der Einsatz dieser Methode macht jedoch nur auf numerischen Attributen wirk-lich Sinn. Den Mittelwert über eine Adressspalte durchzuführen ergibt nicht unbedingt eine sinnvolle Adresse, dieses Problem kann man mit der nächs-ten Methode besser lösen.

• Häufigster Wert: Bei diesem Verfahren wird dem unbekannten Attribut der Wert zugeordnet, der für dieses Attribut am häufigsten auftritt. Auch diese Methode verändert Statistiken nur geringfügig und beim Einsatz für das oben genannte Adressproblem liefert es zwar nicht die richtige, aber zumindest eine sinnvolle Adresse. Durch diese Vorteile findet dieses Verfahren auch die häufigste Anwendung in heutigen Data-Warehouse Systemen.

4.3. Redundanz

Eine Redundanz liegt vor, wenn sich die Daten in einem Tupel des gleichen oder eines anderen Datensatzes wiederholen. Redundanz entsteht häufig durch eine fehlende Normalisierung des realisierten Schemas. Jedoch bedeutet das Vorhan-densein von Redundanz nicht, dass die Daten von schlechter Qualität sind. Sie kann nur zu Problemen führen, wenn durch die Speicherung dieser redundanten Daten in verschiedenen Datensätzen oder Datenquellen die Konsistenz der Daten nicht mehr sichergestellt ist. Um dieses Problem zu umgehen, kann man Verfahren einsetzen,

die Duplikate finden und eliminieren. In Kapitel 4.4. wird ein einfaches Verfahren zur Duplikateliminierung vorgestellt.

4.4. Duplikateliminierung (Sorted-Neighborhood-Methode)

Die Sorted-Neighborhood-Methode benutzt die folgenden drei Schritte, um Duplikate zu entdecken und zu eliminieren:

• Schlüssel generieren: In diesem Schritt wird die Datenbank durchsucht und zu jedem Tupel ein Schlüssel generiert. Der Schlüssel entsteht, indem aus jedem Attribut des Tupels eine bestimmte Anzahl an Zeichen herausge-nommen wird und diese zu dem Schlüssel konkateniert werden. Es erweist sich als sinnvoll [RaSa99], dass man die ersten drei Konsonanten aus Zei-chenketten und die ersten drei Ziffern von Zahlenwerten nimmt. Den generierten Schlüssel fügt man anschließend als ein weiteres Attribut dem Tupel hinzu. Wie man in Abbildung 4.1 erkennt, ähnelt der erzeugte Schlüs-sel einer Art Hashsumme über das Tupel. Die Idee hinter dieser Generierung liegt darin, dass ähnliche Tupel den gleichen beziehungsweise einen sehr ähnlichen Schlüssel erhalten, die Schlüsselgenerierung ist dem-nach eine Ähnlichkeitsfunktion. Besitzen zwei Tupel gleiche beziehungsweise sehr ähnliche Schlüssel, so ist die Wahrscheinlichkeit groß, dass es sich um redundante Daten handelt.

ID Name Vorname Adresse Key

4711 Schmidt Fritz Hauptstr. 168 471SCHFRTHPT

0815 Maier Kurt Auf dem Acker 4 081MERKRTFDM 4711 Schmid Fritzchen Hauptstrasse 168 471SCHFRTHPT 0815 Mayer Kurt W. Auf dem Acker 4 081MYRKRTFDM

Abbildung 4. 1

• Sortieren: In diesem Schritt wird der Datenbestand nach dem generierten Schlüssel sortiert. Dies hat den Vorteil, dass man im Anschluss eine Grup-pierung nach ähnlichen Tupeln hat und nicht immer die ganzen Daten nach Ähnlichkeit durchsuchen muss. Beim verwendeten Sortieralgorithmus ist darauf zu achten, dass ein Algorithmus mit geringer Laufzeitkomplexität,

beispielsweise Quicksort oder Mergesort, eingesetzt wird. Nach dem Sortie-ren ähnelt unsere Tabelle der Abbildung 4.2.

ID Name Vorname Adresse Key

4711 Schmidt Fritz Hauptstr. 168 471SCHFRTHPT

4711 Schmid Fritzchen Hauptstrasse 168 471SCHFRTHPT 0815 Maier Kurt Auf dem Acker 4 081MERKRTFDM 0815 Maier Kurt Auf dem Acker 4 081MERKRTFDM

Abbildung 4. 2

• Mischen: Im letzten Schritt der Sorted-Neighborhood-Methode werden die ähnlichen Daten nun zusammengemischt. Betrachtet man Abbildung 4.2 so stellt sich die Frage, welches Tupel ausgewählt werden soll. Man hat an die-ser Stelle zwei Möglichkeiten, entweder man führt einen manuellen Eingriff durch, oder man legt fest, dass zum Beispiel das erste Tupel jeder Gruppe auswählt wird. Bei der Ähnlichkeitsüberprüfung können auch die anderen Attribute des Tupels mit einbezogen werden, um das Verfahren zu verbes-sern. Beispielsweise kann man, wie in Abbildung 4.3 verdeutlicht, eine Reihe von Bedingungen festlegen, mit deren Erfülltheit zwei Tupel als ähnlich an-gesehen werden.

Abbildung 4. 3

Anmerkung: Die Ähnlichkeit zwischen Zeichenketten kann man auch durch die An-zahl der unterschiedlichen Zeichen, die phonetische Gleichheit, das heißt klingen sie gleich, oder durch den Buchstabenabstand auf der Tastatur (zum Beispiel Dmith = Smith, da „D“ und „S“ auf einer QWERTZ Tastatur nebeneinander liegen) festlegen.

IF T1.Schlüssel = T2. Schlüssel AND T1.name gleich T2.name

AND die Vornamen sich nur gering unterscheiden AND die Adressen eine Ähnlichkeit > 90% haben

23 5. Zusammenfassung

Nachdem alle geänderten und relevanten Daten durch den Monitor entdeckt und markiert worden sind, werden die Daten in der anschließenden Extraktionsphase aus den Quellsystemen in das Data-Warehouse übertragen.

Die darauf folgende Schema- und Datenintegrationsphase sorgt dafür, dass alle Schemata aus den Quellsystemen in vier Schritten (Vorintegrationsphase, Ver-gleichsphase, Vereinheitlichungs- und Restruktuierungsphase) zu einem globalen Schema im Data-Warehouse zusammengefasst werden. Alle extrahierten Daten werden auf eine einheitliche Form gebracht, beispielsweise indem alle Zeichenketten auf Großbuchstaben und die Datumswerte in ein einheitliches Format konvertiert werden.

Die Datenbereinigung befreit die Daten im Data-Warehouse von Inkonsistenzen, inkorrekten Werten und Redundanzen. Zum Beispiel werden Nullwerte durch den Wert ersetzt, der für das Attribut am häufigsten auftritt, oder es wird eine globale Konstante verwendet. Zur Eliminierung von Duplikaten haben wir den Sorted-Neightborhood Algorithmus kennen gelernt. Dieser Algorithmus erstellt einen Schlüs-sel aus den Attributeinträgen eines Tupels um damit einen Ähnlichkeitsvergleich zwischen zwei oder mehreren Tupeln durchzuführen. Wenn ein bestimmter Schwel-lenwert überschritten wird, so erkennt der Algorithmus, dass es sich bei den ähnlichen Tupeln um das gleiche Objekt in der Realität handelt. Redundante Tupel werden anschließend aus der Datenbank entfernt.

Nach erfolgreichem Abschluss der Datenintegration und der Datenbereinigung, kön-nen die nun „sauberen“ Daten im Data-Warehouse für Auswertungen verwendet werden.

24 Referenzen

BaGü01 Bauer, Andreas; Günzel, Holger

Data-Warehouse Systeme; 1. Auflage; 2001

BaLN86 Batini, C.; Lenzerini, M.; Navathe S.B.

A comparative analysis of Methodelogies for database schema integra-tion. 1986

HaKa01 Hai, J.; Kamber, M.;

Data Mining: Concepts and Techniques; 2001

HäRa01 Härder, Theo; Rahm, Erhard

Datenbanksysteme – Konzepte und Techniken der Implementierung;

2. Auflage; 2001

JLVV03 Jarke, Matthias; Lenzerini Maurizio; Vassilion, Yannis; Vassiliadis, Pa-nos;

Fundamentals of data warehouses; 2. Edition 2003

MaBR01 Madhavan, Jayant; Berstein, Philip A.; Rahm, Erhard Generic Schema Matching with Cupid;

Proceedings of the 27^th VLDB Conference, 2001 http://dol.uni-leipzig.de/pub/2001-28

NARA00 National Archives and Records Administration NARA The Soundex Indexing System; 2000

Pete03 Peterson, Tommy

Data Scrubbing by the Numbers; 2003

http://www.computerworld.com/databasetopics/data/story/

0,10801,78260,00.html

RaSa99 Raisinghani, Vijay T.; Sarawagi, Sunita

Cleaning Methods in Data-Warehousing; 1999

http://www.it.iitb.ac.in/~rvijay/seminar/dwhclean.ps.gz

SaCo00 Sattler, Kai-Uwe; Conrad, Stefan

Vorlesung Data-Warehouse-Technologien; 2000 http://wwwiti.cs.uni-magdeburg.de/iti_db/lehre/dw/

Tesc99 Teschke, Michael;

Datenbankkonsistenz in Data-Warehouse Systemen; Dissertation 1999

Im Dokument Data Preprocessing 1 (Seite 18-0)