Relevante Fachgebiete für Data Mining

(1)

Relevante Fachgebiete für Data Mining

(2)

Prozesse beim Data Mining

(3)

Architektur eines Data Mining Systems

Komponenten:

• Datenquelle (Datenbank, Data warehouse oder andere Quelle)

• Datenserver (Datenbank oder Data warehouse)

• Wissensbasis (knowledge base)

• Data Mining Maschine (data mining engine)

(4)

Beispiel: Datenquelle (relationale DB)

(5)

Beispiel Datenintegration in

Data Warehouse

(6)

Aufbau eines Data Warehouse

Beschreibt aggregierte Daten (auf der Basis von Einzeltrans- aktionen mit Datum, Artikel, Filiale, Anbieter usw.) in mehreren Dimensionen (hier 3: Zeitraum, Artikelgruppe, Ort) zu bestimmten Themen (hier: Verkaufszahlen in $). Typische Repräsentation ist ein n-dimensionaler Datenwürfel (Data cube).

zugrundeliegende Daten:

(7)

Varianten

Jeder Kuboid repräsentiert eine andere Datenzusammenfassung

(8)

2 Beispiele für 2-D und 4-D Kuboide

2-D Kuboid-Beispiel (Type+Time), textuell:

2-D Kuboid-Beispiel (Type+Time+Location+Supplier), grafisch:

(9)

Definitionsschemata für Data Warehouses

Star-Schema, bestehend aus:

(1) einer große zentrale Tabelle (Fakttabelle) mit Kerndaten

(2) einer Menge von kleineren Begleittabellen für jede Dimension (Dimensionstabellen)

Definition in DQML (Data Mining Query language):

define cube sales_star [time, item, branch, location]:

dollars_sold = sum (sales_in_dollars), units_Sold = count(*)

define dimension time as (time-key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier-type) define dimension branch as (branch_key, branch_name, branch-type)

define dimension location as (location_key, street, city, province_or_state, country)

(10)

Alternative Definitionsschemata

(a) Snowflake Schema (Normalisierung der Dimensionstabellen)

b) Fact Constellation Schema (mehrere Fakt-Tabellen)

(11)

Konzepthierarchien

Konzepthierarchien sind wichtig für die Navigation in Data

Warehouses (Verfeinerung und Generalisierung von Sichten für alle Dimensionen).

Häufig sind sie bereits implizit im Datenbank-Schema, z.B. bei location: city, province_or_state, country.

Konzepthierarchien repräsentieren Hintergrundwissen und werden explizit als Schema-Hierarchie im Datenbankschema definiert, wobei auch Heterarchien (partielle Ordnung; s. (b)) sinnvoll sind.

Typische Konzepthierarchien (z.B. für Zeit) sind meist vordefiniert.

(12)

OLAP-Operationen

(OnLine Analytical Processing) OLAP-Operationen benutzen Konzepthierarchien und ermöglichen dem Benutzer die interaktive Analyse der Daten, indem Sichten auf die Daten verändert werden. Typische Operatoren sind:

• Roll-up (Drill-up): Datenaggregation durch

¾ Aufsteigen in Konzepthierarchie oder

¾ Reduktion einer Dimension

• Drill-down: Datenverfeinerung (invers zu Roll-up) durch

¾ Absteigen in Konzepthierarchie oder

¾ Hinzufügen einer Dimension

• Slice bzw. Dice: Selektion einer bzw. mehrerer Dimensionen eines Datenwürfel. Ergebnis ist ein Teilwürfel.

• Pivot (rotate): Rotation der Axen

(13)

Beispiel für OLAP-Operationen

(14)

Hervorheben von Ausnahmen

Pro Zelle können Indikatoren für überraschende Werte (d.h.

starke Abweichungen zu vergleichbaren Zellen) auf allen Aggregationsebenen berechnet werden:

• SelfExp: Indikator für Abweichung („Überraschungsgrad“) zu anderen Zellen auf derselben Aggregationsebene

• InExp: Indikator für Abweichung auf niederen (d.h. bei aktueller Sicht unsichtbaren) Aggregationsebenen

• PathExp: Indikator für Abweichungen auf dem Pfad zu niederen Abstraktionenebenen

(15)

Beispiel für Abweichungs-Entdeckung

SelfExp wird als Hintergrundfarbe kodiert, InExp als Kasten, Stärke der Abweichung als Intensität.

Starke InExp-Abweichungen finden sich in Jul, Aug, Sep. Eine Path-Exp. die für eine der Zellen aktiviert wird, zeigt mehr

Auffälligkeiten in der Dimension Item (im Vergleich zu Region)

(Sony b/w printer in Dec = -11%, Toshiba desktop computer in Aug = 5%)

Sony b/w printer im Nov (-15%) ist im Vergleich zu Nov-Gesamt- zahlen (-4%) weniger überraschend als im Dec (-11% zu +3%).

Die Kästchen (InExp) bei IBM-desktop computer im Jul und Sep triggeren eine weitere Verfeinerung (nach Regionen):

(16)

Formen der Datenvorverarbeitung

(17)

Datensäuberung (Data cleaning)

• Umgangsmöglichkeiten mit fehlenden Werten:

¾ Ignorieren des Tupel

¾ Manuelles Auffüllen

¾ Einsetzen einer globalen Konstante (z.B. unbekannt)

¾ Mittelwert aller Attribut-Tupel einsetzen

¾ Mittelwert aller Attribut-Tupel der gleichen Klasse einsetzen

¾ Den wahrscheinlichsten Wert einsetzen (z.B. mit Entschei- dungsbäumen, Bayes’schen Inferenzen oder Regression ermittelt)

• Umgangsmöglichkeiten mit verrauschten Daten:

¾ Binning: Glätten der Werte durch Berücksichtung von Nachbarwerten.

Bsp.: Originalfolge sei 4, 8, 15, 21, 21, 24, 25, 28, 34 Aufteilung in „bins“: (4, 8, 15) (21, 21, 24) (25, 28, 34)

Glätten durch Mittelwerte: (9, 9, 9) (22, 22, 22) (29, 29, 29) Glätten durch Bin-Grenzen: (4, 4, 15) (21, 21, 24) (25, 25, 34)

¾ Clustering: Ausreißer können durch Clustering entdeckt und dann ggf. entfernt werden

¾ Manuelle Überprüfung von Ausreißer-Kandidaten

¾ Regression: (Mulitple) lineare Regression ermittelt lineare Zusammenhänge zwischen zwischen zweien bzw.

mehreren Variablen. Falls solche Zusammenhänge existieren, können Ausreißer leicht festgestellt werden.

• Erkennen von inkonsistenten Daten:

¾ Vergleich der Daten mit externen Referenzen (z.B.

Papierbelege)

¾ Berücksichtigung von Constraints

¾ Inkonsistenzen durch fehlerhafte Datenintegration

(18)

Datenintegration

Typische Integrationsprobleme:

• Schema Integration (z.B. Identifikation unterschiedlicher Attributnamen im Datenbankschema wie „cust_number“

versus „customer_id“).

• Erkennen von Redundanz (z.B. wenn ein Attributwert aus einem anderen hergeleitet werden kann; kann z.B. mit Korrelationsanalyse festgestellt werden)

• Erkennung von Duplikaten (z.B. identische Tupel)

• Erkennen von Datenwertkonflikten (können z.B. durch unterschiedliche Maßeinheiten verursacht werden, z.B.

Entfernung in km oder Meilen, oder durch verschiedene Kontexte, z.B. Preise mit/ohne Mwst).

(19)

Datentransformation

Typische Transformationsoperationen für Data Mining:

• Glättung verrauschter Daten (s.o.)

• Aggregation bzw. Verallgemeinerung (Zusammenfassung von Daten ähnlich wie bei Konstruktion der Data Cubes und Konzepthierarchien)

• Normalisierung (Skalierung der Attributdaten, so dass sie in ein bestimmtes Intervall passen, z.B. zwischen 0 und 1)

• Attributkonstruktion (Konstruktion neuer Attribute aus alten, z.B. um Redundanzen zu verringern oder aussagekräftigere Attribute zu erzeugen).

• Transformationen mit dem Ziel der Datenreduktion (z.B.

Entfernen irrelevanter oder redundanter Dimensionen, Datenkompression, Wechsel der Repräsentation).

(20)

Data Mining Funktionen (1)

• Konzeptbeschreibung:

¾ Datencharakterisierung: Beschreibung einer Zielklasse, z.B. Eigenschaften aller Kunden, die mehr als 1000 € pro Jahr ausgeben. Ergebnis in verschiedenen grafischen

Formaten (Kuchen-, Balkendiagramme, Kurven, Tabellen), als Data Cube oder als Regeln

¾ Datendifferenzierung: Vergleich einer Zielklasse mit allgemeinen Merkmalen einer Vergleichklasse, z.B.

Vergleich der Produkte, die im letzten Jahr um mindestens 10% besser verkauft wurden, mit denen, die sich um

mindestens 10% verschlechtert haben.

• Assoziationsregel-Analyse:

Entdecken von Merkmalswerten, die häufig in einer Daten- menge (z.B. in Warenkörben oder bei Transaktionsdaten) zusammen auftreten, z.B. wenn Alter (X, 20-29) und

Einkommen (X, 20-29 K€) Æ kauft (X, CD-Player) mit Support = 2% und Konfidenz = 60%

• Klassifikation und Vorhersage

¾ Herausfinden von Modellen (Funktionen), die ein Konzept so beschreiben und differenzieren, dass eine Vorhersage des Konzeptnamens aufgrund von Eigenschaften möglich ist, z.B. mit Regeln, Entscheidungsbäumen, mathemati- schen Formeln oder Neuronalen Netzen.

(21)

Data Mining Funktionen (2)

• Cluster-Analyse

Im Gegensatz zur Klassifikation, bei der klassifizierte

Datenobjekte (Fälle mit Lösung) analysiert werden, werden bei der Cluster-Analyse nichtklassifizierte Datenobjekte (Fälle ohne Lösung) in ähnliche Gruppen eingeteilt. Bsp.:

Herausfinden homogener Subgruppen der Kunden.

• Ausreißer-Analyse:

Ausreißer werden häufig als Rauschen oder Ausnahmen ignoriert, aber in manchen Anwendungen ist ihre Analyse zentral, z.B. bei der Betrugsanalyse.

• Zeitliche Entwicklungs-Analyse

Entdeckung von Trends in zeitorientierten Daten

(22)

Interessantheit von Mustern

Problem: Data Mining Systeme produzieren oft Tausende oder Millionen von Mustern bzw. Regeln. Davon ist nur ein Bruchteil – wenn überhaupt – für Menschen interessant (Problem ähnlich wie bei Information Retrieval bzw. Suchmaschinen):

Lösungsaspekte:

1. Was macht Muster interessant?

2. Kann ein Data Mining System alle interessanten Muster generieren (Recall)?

3. Kann ein Data Mining System nur interessante Muster generieren (Precision)?

Kennzeichen interessanter Muster:

a) für Menschen einfach verständlich

b) auf neue Daten mit gewisser Wahrscheinlichkeit übertragbar c) potentiell nützlich

d) neu

Objektive Interessantheitskriterien:

¾ z.B. Support und Confidence bei Assoziationsregeln Subjektive Interessantheitskriterien:

¾ relevant für Zielfunktion,

¾ kein Allgemeinwissen,

¾ unerwartet im Vergleich zu bisherigem Wissensstand,

(23)

Präsentations- & Visualisierungsformen

(24)

Beschreibungsaspekte des Data Mining

(25)

Beschreibungssprache (DMQL): Toplevel

(26)

Aktuelle Themengebiete beim Data Mining

• Methoden:

¾ Mining verschiedener Arten von Wissen (s. Funktionen)

¾ Interaktives Mining auf verschiedenen Abstraktionsebenen

¾ Einbezug von Hintergrundwissen

¾ Data Mining Anfragesprachen (analog zu SQL, z.B. DMQL)

¾ Präsentation und Visualisierung von Data Mining Ergebnissen

¾ Umgang mit Rauschen und unvollständigen Daten

¾ Formalisierung der Interessantheit

• Performanz:

¾ Effizienz und Skalierbarkeit der Data Mining Algorithmen

¾ Parallele, verteilte und inkrementelle Algorithmen

• Vielfalt von Datentypen:

¾ Relationale und komplexe Datentypen

¾ Heterogene Datenbanken

¾ Web Mining