Relevante Fachgebiete für Data Mining
Prozesse beim Data Mining
Architektur eines Data Mining Systems
Komponenten:
• Datenquelle (Datenbank, Data warehouse oder andere Quelle)
• Datenserver (Datenbank oder Data warehouse)
• Wissensbasis (knowledge base)
• Data Mining Maschine (data mining engine)
Beispiel: Datenquelle (relationale DB)
Beispiel Datenintegration in
Data Warehouse
Aufbau eines Data Warehouse
Beschreibt aggregierte Daten (auf der Basis von Einzeltrans- aktionen mit Datum, Artikel, Filiale, Anbieter usw.) in mehreren Dimensionen (hier 3: Zeitraum, Artikelgruppe, Ort) zu bestimmten Themen (hier: Verkaufszahlen in $). Typische Repräsentation ist ein n-dimensionaler Datenwürfel (Data cube).
zugrundeliegende Daten:
Varianten
Jeder Kuboid repräsentiert eine andere Datenzusammenfassung
2 Beispiele für 2-D und 4-D Kuboide
2-D Kuboid-Beispiel (Type+Time), textuell:
2-D Kuboid-Beispiel (Type+Time+Location+Supplier), grafisch:
Definitionsschemata für Data Warehouses
Star-Schema, bestehend aus:
(1) einer große zentrale Tabelle (Fakttabelle) mit Kerndaten
(2) einer Menge von kleineren Begleittabellen für jede Dimension (Dimensionstabellen)
Definition in DQML (Data Mining Query language):
define cube sales_star [time, item, branch, location]:
dollars_sold = sum (sales_in_dollars), units_Sold = count(*)
define dimension time as (time-key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier-type) define dimension branch as (branch_key, branch_name, branch-type)
define dimension location as (location_key, street, city, province_or_state, country)
Alternative Definitionsschemata
(a) Snowflake Schema (Normalisierung der Dimensionstabellen)
b) Fact Constellation Schema (mehrere Fakt-Tabellen)
Konzepthierarchien
Konzepthierarchien sind wichtig für die Navigation in Data
Warehouses (Verfeinerung und Generalisierung von Sichten für alle Dimensionen).
Häufig sind sie bereits implizit im Datenbank-Schema, z.B. bei location: city, province_or_state, country.
Konzepthierarchien repräsentieren Hintergrundwissen und werden explizit als Schema-Hierarchie im Datenbankschema definiert, wobei auch Heterarchien (partielle Ordnung; s. (b)) sinnvoll sind.
Typische Konzepthierarchien (z.B. für Zeit) sind meist vordefiniert.
OLAP-Operationen
(OnLine Analytical Processing) OLAP-Operationen benutzen Konzepthierarchien und ermöglichen dem Benutzer die interaktive Analyse der Daten, indem Sichten auf die Daten verändert werden. Typische Operatoren sind:• Roll-up (Drill-up): Datenaggregation durch
¾ Aufsteigen in Konzepthierarchie oder
¾ Reduktion einer Dimension
• Drill-down: Datenverfeinerung (invers zu Roll-up) durch
¾ Absteigen in Konzepthierarchie oder
¾ Hinzufügen einer Dimension
• Slice bzw. Dice: Selektion einer bzw. mehrerer Dimensionen eines Datenwürfel. Ergebnis ist ein Teilwürfel.
• Pivot (rotate): Rotation der Axen
Beispiel für OLAP-Operationen
Hervorheben von Ausnahmen
Pro Zelle können Indikatoren für überraschende Werte (d.h.
starke Abweichungen zu vergleichbaren Zellen) auf allen Aggregationsebenen berechnet werden:
• SelfExp: Indikator für Abweichung („Überraschungsgrad“) zu anderen Zellen auf derselben Aggregationsebene
• InExp: Indikator für Abweichung auf niederen (d.h. bei aktueller Sicht unsichtbaren) Aggregationsebenen
• PathExp: Indikator für Abweichungen auf dem Pfad zu niederen Abstraktionenebenen
Beispiel für Abweichungs-Entdeckung
SelfExp wird als Hintergrundfarbe kodiert, InExp als Kasten, Stärke der Abweichung als Intensität.
Starke InExp-Abweichungen finden sich in Jul, Aug, Sep. Eine Path-Exp. die für eine der Zellen aktiviert wird, zeigt mehr
Auffälligkeiten in der Dimension Item (im Vergleich zu Region)
(Sony b/w printer in Dec = -11%, Toshiba desktop computer in Aug = 5%)
Sony b/w printer im Nov (-15%) ist im Vergleich zu Nov-Gesamt- zahlen (-4%) weniger überraschend als im Dec (-11% zu +3%).
Die Kästchen (InExp) bei IBM-desktop computer im Jul und Sep triggeren eine weitere Verfeinerung (nach Regionen):
Formen der Datenvorverarbeitung
Datensäuberung (Data cleaning)
• Umgangsmöglichkeiten mit fehlenden Werten:
¾ Ignorieren des Tupel
¾ Manuelles Auffüllen
¾ Einsetzen einer globalen Konstante (z.B. unbekannt)
¾ Mittelwert aller Attribut-Tupel einsetzen
¾ Mittelwert aller Attribut-Tupel der gleichen Klasse einsetzen
¾ Den wahrscheinlichsten Wert einsetzen (z.B. mit Entschei- dungsbäumen, Bayes’schen Inferenzen oder Regression ermittelt)
• Umgangsmöglichkeiten mit verrauschten Daten:
¾ Binning: Glätten der Werte durch Berücksichtung von Nachbarwerten.
Bsp.: Originalfolge sei 4, 8, 15, 21, 21, 24, 25, 28, 34 Aufteilung in „bins“: (4, 8, 15) (21, 21, 24) (25, 28, 34)
Glätten durch Mittelwerte: (9, 9, 9) (22, 22, 22) (29, 29, 29) Glätten durch Bin-Grenzen: (4, 4, 15) (21, 21, 24) (25, 25, 34)
¾ Clustering: Ausreißer können durch Clustering entdeckt und dann ggf. entfernt werden
¾ Manuelle Überprüfung von Ausreißer-Kandidaten
¾ Regression: (Mulitple) lineare Regression ermittelt lineare Zusammenhänge zwischen zwischen zweien bzw.
mehreren Variablen. Falls solche Zusammenhänge existieren, können Ausreißer leicht festgestellt werden.
• Erkennen von inkonsistenten Daten:
¾ Vergleich der Daten mit externen Referenzen (z.B.
Papierbelege)
¾ Berücksichtigung von Constraints
¾ Inkonsistenzen durch fehlerhafte Datenintegration
Datenintegration
Typische Integrationsprobleme:
• Schema Integration (z.B. Identifikation unterschiedlicher Attributnamen im Datenbankschema wie „cust_number“
versus „customer_id“).
• Erkennen von Redundanz (z.B. wenn ein Attributwert aus einem anderen hergeleitet werden kann; kann z.B. mit Korrelationsanalyse festgestellt werden)
• Erkennung von Duplikaten (z.B. identische Tupel)
• Erkennen von Datenwertkonflikten (können z.B. durch unterschiedliche Maßeinheiten verursacht werden, z.B.
Entfernung in km oder Meilen, oder durch verschiedene Kontexte, z.B. Preise mit/ohne Mwst).
Datentransformation
Typische Transformationsoperationen für Data Mining:
• Glättung verrauschter Daten (s.o.)
• Aggregation bzw. Verallgemeinerung (Zusammenfassung von Daten ähnlich wie bei Konstruktion der Data Cubes und Konzepthierarchien)
• Normalisierung (Skalierung der Attributdaten, so dass sie in ein bestimmtes Intervall passen, z.B. zwischen 0 und 1)
• Attributkonstruktion (Konstruktion neuer Attribute aus alten, z.B. um Redundanzen zu verringern oder aussagekräftigere Attribute zu erzeugen).
• Transformationen mit dem Ziel der Datenreduktion (z.B.
Entfernen irrelevanter oder redundanter Dimensionen, Datenkompression, Wechsel der Repräsentation).
Data Mining Funktionen (1)
• Konzeptbeschreibung:
¾ Datencharakterisierung: Beschreibung einer Zielklasse, z.B. Eigenschaften aller Kunden, die mehr als 1000 € pro Jahr ausgeben. Ergebnis in verschiedenen grafischen
Formaten (Kuchen-, Balkendiagramme, Kurven, Tabellen), als Data Cube oder als Regeln
¾ Datendifferenzierung: Vergleich einer Zielklasse mit allgemeinen Merkmalen einer Vergleichklasse, z.B.
Vergleich der Produkte, die im letzten Jahr um mindestens 10% besser verkauft wurden, mit denen, die sich um
mindestens 10% verschlechtert haben.
• Assoziationsregel-Analyse:
Entdecken von Merkmalswerten, die häufig in einer Daten- menge (z.B. in Warenkörben oder bei Transaktionsdaten) zusammen auftreten, z.B. wenn Alter (X, 20-29) und
Einkommen (X, 20-29 K€) Æ kauft (X, CD-Player) mit Support = 2% und Konfidenz = 60%
• Klassifikation und Vorhersage
¾ Herausfinden von Modellen (Funktionen), die ein Konzept so beschreiben und differenzieren, dass eine Vorhersage des Konzeptnamens aufgrund von Eigenschaften möglich ist, z.B. mit Regeln, Entscheidungsbäumen, mathemati- schen Formeln oder Neuronalen Netzen.
Data Mining Funktionen (2)
• Cluster-Analyse
Im Gegensatz zur Klassifikation, bei der klassifizierte
Datenobjekte (Fälle mit Lösung) analysiert werden, werden bei der Cluster-Analyse nichtklassifizierte Datenobjekte (Fälle ohne Lösung) in ähnliche Gruppen eingeteilt. Bsp.:
Herausfinden homogener Subgruppen der Kunden.
• Ausreißer-Analyse:
Ausreißer werden häufig als Rauschen oder Ausnahmen ignoriert, aber in manchen Anwendungen ist ihre Analyse zentral, z.B. bei der Betrugsanalyse.
• Zeitliche Entwicklungs-Analyse
Entdeckung von Trends in zeitorientierten Daten
Interessantheit von Mustern
Problem: Data Mining Systeme produzieren oft Tausende oder Millionen von Mustern bzw. Regeln. Davon ist nur ein Bruchteil – wenn überhaupt – für Menschen interessant (Problem ähnlich wie bei Information Retrieval bzw. Suchmaschinen):
Lösungsaspekte:
1. Was macht Muster interessant?
2. Kann ein Data Mining System alle interessanten Muster generieren (Recall)?
3. Kann ein Data Mining System nur interessante Muster generieren (Precision)?
Kennzeichen interessanter Muster:
a) für Menschen einfach verständlich
b) auf neue Daten mit gewisser Wahrscheinlichkeit übertragbar c) potentiell nützlich
d) neu
Objektive Interessantheitskriterien:
¾ z.B. Support und Confidence bei Assoziationsregeln Subjektive Interessantheitskriterien:
¾ relevant für Zielfunktion,
¾ kein Allgemeinwissen,
¾ unerwartet im Vergleich zu bisherigem Wissensstand,
Präsentations- & Visualisierungsformen
Beschreibungsaspekte des Data Mining
Beschreibungssprache (DMQL): Toplevel
Aktuelle Themengebiete beim Data Mining
• Methoden:
¾ Mining verschiedener Arten von Wissen (s. Funktionen)
¾ Interaktives Mining auf verschiedenen Abstraktionsebenen
¾ Einbezug von Hintergrundwissen
¾ Data Mining Anfragesprachen (analog zu SQL, z.B. DMQL)
¾ Präsentation und Visualisierung von Data Mining Ergebnissen
¾ Umgang mit Rauschen und unvollständigen Daten
¾ Formalisierung der Interessantheit
• Performanz:
¾ Effizienz und Skalierbarkeit der Data Mining Algorithmen
¾ Parallele, verteilte und inkrementelle Algorithmen
• Vielfalt von Datentypen:
¾ Relationale und komplexe Datentypen
¾ Heterogene Datenbanken
¾ Web Mining