Data Warehouse und Data Mining
Seminarvortrag zum Thema:
Von
Christian Hägele
gehalten am 30. Januar 2004
Einführungsseminar Data Mining
Seite 2
Einführung − Problemstellung
Einführung
"
Unternehmen bekommen eine Unmenge von Daten
aus den unterschiedlichsten Quellen
"
Es ist sicherlich auch wichiges Wissen in diesen
Daten enthalten
"
Dieses Wissen aus der Vielfalt von Daten effektiv zu
extrahieren ist ein großes Problem
Seite 3
Einführung − Lösungsmöglichkeiten
Lösungsmöglichkeiten
"
Data Warehouse
Zum Bereitstellen der Daten
"
Online Analytic Processing (OLAP)
Zur Durchführung von Ad−hoc Anfragen in multidimensionalen Datenmodellen
"
Data Mining
Zum Aufdecken von Zusammenhängen auf Grundlage der
zugrunde liegenden Daten
ETL
Data
Warehouse
Data Mining OLAP
Data Marts Operative
Systeme
Externe Quellen
ETL − Prozess Datenspeicher Analysetools
Seite 4
Einführung − Grafischer Überblick
Seite 5
Data Warehouse
Data Warehouse
"
Was ist ein DW?
Zentraler Datenpool
"
Warum DW? Was sind die Vorteile gegenüber den
operativen Systemen?
DW ist optimiert für die Datenanalyse und Reporting
DW hat auch historische Daten gespeichert (read−only)
DW hat alle Daten zentral, aufbereitet, bereinigt und im
gleichen Format gespeichert
Seite 6
Data Warehouse − Data Marts
Data Marts
"
Was sind Data Marts?
Data Marts sind „kleine“ Data Warehouses, die nur einen Teil des Unternehmens erfassen
"
Warum Data Marts?
Passen unter Umständen besser in die unternehmensinterne IT−Struktur
Schneller zu erstellen als ein „großes“ DW / Performance
E T L
D a t a W a r e h o u s e
D a t a M i n i n g O L A P
D a t a M a r t s O p e r a t i v e
S y s t e m e
E x t e r n e Q u e l l e n
E T L − P r o z e s s D a t e n s p e i c h e r A n a l y s e t o o l s
Seite 7
Data Warehouse − Data Marts
"
Unabhängige Data Marts Vorteile:
"
Entspricht unter
Umständen der
vorhanden IT−Struktur besser
"
Schneller zu erstellen als
direkt ein großes DW
Nachteile:
"
2 malige
Datentransformation
"
Überschneidungen
zwischen den Data Marts kaum zu
vermeiden
Seite 8
Data Warehouse − Data Marts
"
Abhängige Data Marts Vorteile:
"
Keine
Überschneidungen
"
Nur eine Daten−
transformation
Nachteile:
"
In der Praxis nur mit
viel Mehraufwand
durchführbar
Seite 9
Data Warehouse − Enstehung eines DW
Entstehung eines DW
"
Planung
DW sollte von allen Stellen, die später mit dem DW arbeiten möchten, mitgeplant werden
Insbesondere sollte auch das Management in die Planungen einbezogen werden
Einbettung in die unternehmensinterne IT−Struktur
Abhängige oder unabhängige Data Marts
Seite 10
Data Warehouse − ETL
Der ETL−Prozess
"
Die Extraktionsphase (E)
Extrahieren der Daten aus den operativen Systemen bzw.
externen Quellen
"
Die Transformationsphase (T)
Alle Daten auf ein einheitliches Format (z.B. CWM) bringen
Daten bereinigen
"
Die Ladephase (L)
ETL
Data W arehouse
Data M ining OLAP
Data M arts Operative
System e
Externe Quellen
ETL − Prozess Datenspeicher Analysetools
Seite 11
Anwendungen des DW − OLAP
OLAP
"
Was ist OLAP? (Online Analytic Processing)
Multidimensionales Analysewerkzeug
"
Was hat OLAP mit Data Warehouse zu tun?
Ein DW ist ideal für die mehrdimensionalen Analysen
eines OLAP−Werkzeugs
Seite 12
Anwendungen des DW − OLAP − Werkzeuge
"
Darstellung als Datenwürfel
Beispielanfrage
"
Wie viele Produkte
der Produktgruppe G
wurden in Region 3
im 2. Quartal 2002
verkauft?
Seite 13
Anwendungen des DW − OLAP − Werkzeuge
"
Roll−Up, Drill−Down und Drill−Across
Seite 14
Anwendungen des DW − OLAP − Werkzeuge
"
Pivotierung / Rotierung
"
Slicing und Dicing
Seite 15
Anwendungen des DW − Data Mining
Data Mining
"
Was ist Data Mining?
Analysewerkzeug, das Zusammenhänge und Auffälligkeiten innerhalb der Daten aufdeckt
"
Was sind die Vorteile des Data Minings gegenüber
anderen Analysetools?
Data Mining findet selbständig Zusammenhänge innerhalb
der Daten
Seite 16
Anwendungen des DW − Data Mining
Data Mining
"
Data Mining vs. OLAP
OLAP liefert statistische Belege für die Hypothesen eines Anwenders
Data Mining liefert selbständig neue Zusammenhänge aus den Daten heraus
"
Data Mining und DW