• Keine Ergebnisse gefunden

Data Warehouse und Data Mining

N/A
N/A
Protected

Academic year: 2021

Aktie "Data Warehouse und Data Mining"

Copied!
17
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Data Warehouse und Data Mining

Seminarvortrag zum Thema:

Von

Christian Hägele

gehalten am 30. Januar 2004

Einführungsseminar Data Mining

(2)

Seite 2

Einführung − Problemstellung

Einführung

"

Unternehmen bekommen eine Unmenge von Daten

aus den unterschiedlichsten Quellen

"

Es ist sicherlich auch wichiges Wissen in diesen

Daten enthalten

"

Dieses Wissen aus der Vielfalt von Daten effektiv zu

extrahieren ist ein großes Problem

(3)

Seite 3

Einführung − Lösungsmöglichkeiten

Lösungsmöglichkeiten

"

Data Warehouse

–

Zum Bereitstellen der Daten

"

Online Analytic Processing (OLAP)

–

Zur Durchführung von Ad−hoc Anfragen in multidimensionalen Datenmodellen

"

Data Mining

–

Zum Aufdecken von Zusammenhängen auf Grundlage der

zugrunde liegenden Daten

(4)

ETL

Data

Warehouse

Data Mining OLAP

Data Marts Operative

Systeme

Externe Quellen

ETL − Prozess Datenspeicher Analysetools

Seite 4

Einführung − Grafischer Überblick

(5)

Seite 5

Data Warehouse

Data Warehouse

"

Was ist ein DW?

–

Zentraler Datenpool

"

Warum DW? Was sind die Vorteile gegenüber den

operativen Systemen?

–

DW ist optimiert für die Datenanalyse und Reporting

–

DW hat auch historische Daten gespeichert (read−only)

–

DW hat alle Daten zentral, aufbereitet, bereinigt und im

gleichen Format gespeichert

(6)

Seite 6

Data Warehouse − Data Marts

Data Marts

"

Was sind Data Marts?

–

Data Marts sind „kleine“ Data Warehouses, die nur einen Teil des Unternehmens erfassen

"

Warum Data Marts?

–

Passen unter Umständen besser in die unternehmensinterne IT−Struktur

–

Schneller zu erstellen als ein „großes“ DW / Performance

E T L

D a t a W a r e h o u s e

D a t a M i n i n g O L A P

D a t a M a r t s O p e r a t i v e

S y s t e m e

E x t e r n e Q u e l l e n

E T L − P r o z e s s D a t e n s p e i c h e r A n a l y s e t o o l s

(7)

Seite 7

Data Warehouse − Data Marts

"

Unabhängige Data Marts Vorteile:

"

Entspricht unter

Umständen der

vorhanden IT−Struktur besser

"

Schneller zu erstellen als

direkt ein großes DW

Nachteile:

"

2 malige

Datentransformation

"

Überschneidungen

zwischen den Data Marts kaum zu

vermeiden

(8)

Seite 8

Data Warehouse − Data Marts

"

Abhängige Data Marts Vorteile:

"

Keine

Überschneidungen

"

Nur eine Daten−

transformation

Nachteile:

"

In der Praxis nur mit

viel Mehraufwand

durchführbar

(9)

Seite 9

Data Warehouse − Enstehung eines DW

Entstehung eines DW

"

Planung

–

DW sollte von allen Stellen, die später mit dem DW arbeiten möchten, mitgeplant werden

–

Insbesondere sollte auch das Management in die Planungen einbezogen werden

–

Einbettung in die unternehmensinterne IT−Struktur

–

Abhängige oder unabhängige Data Marts

(10)

Seite 10

Data Warehouse − ETL

Der ETL−Prozess

"

Die Extraktionsphase (E)

–

Extrahieren der Daten aus den operativen Systemen bzw.

externen Quellen

"

Die Transformationsphase (T)

–

Alle Daten auf ein einheitliches Format (z.B. CWM) bringen

–

Daten bereinigen

"

Die Ladephase (L)

ETL

Data W arehouse

Data M ining OLAP

Data M arts Operative

System e

Externe Quellen

ETL − Prozess Datenspeicher Analysetools

(11)

Seite 11

Anwendungen des DW − OLAP

OLAP

"

Was ist OLAP? (Online Analytic Processing)

–

Multidimensionales Analysewerkzeug

"

Was hat OLAP mit Data Warehouse zu tun?

–

Ein DW ist ideal für die mehrdimensionalen Analysen

eines OLAP−Werkzeugs

(12)

Seite 12

Anwendungen des DW − OLAP − Werkzeuge

"

Darstellung als Datenwürfel

Beispielanfrage

"

Wie viele Produkte

der Produktgruppe G

wurden in Region 3

im 2. Quartal 2002

verkauft?

(13)

Seite 13

Anwendungen des DW − OLAP − Werkzeuge

"

Roll−Up, Drill−Down und Drill−Across

(14)

Seite 14

Anwendungen des DW − OLAP − Werkzeuge

"

Pivotierung / Rotierung

"

Slicing und Dicing

(15)

Seite 15

Anwendungen des DW − Data Mining

Data Mining

"

Was ist Data Mining?

–

Analysewerkzeug, das Zusammenhänge und Auffälligkeiten innerhalb der Daten aufdeckt

"

Was sind die Vorteile des Data Minings gegenüber

anderen Analysetools?

–

Data Mining findet selbständig Zusammenhänge innerhalb

der Daten

(16)

Seite 16

Anwendungen des DW − Data Mining

Data Mining

"

Data Mining vs. OLAP

–

OLAP liefert statistische Belege für die Hypothesen eines Anwenders

–

Data Mining liefert selbständig neue Zusammenhänge aus den Daten heraus

"

Data Mining und DW

–

Data Mining innerhalb eines „ großen“ DW oder Data

Mining innerhalb der vielen „ kleinen“ Data Marts

(17)

ETL

Data

Warehouse

Data Mining OLAP

Data Marts Operative

Systeme

Externe Quellen

ETL − Prozess Datenspeicher Analysetools

Seite 17

Fazit − Ende

Referenzen

ÄHNLICHE DOKUMENTE

Iterate over the whole data points: assign each data point to the cluster with the nearest centroid. Recompute cluster centroids based on contained data

Relational Database Systems 1 – Wolf-Tilo Balke – Institut für Informationssysteme – TU Braunschweig 54. 12.2 Supply

– Mining with multiple minimum supports – Mining class association rules. 9.3 Association

Iterate over the whole data points: assign each data point to the cluster with the nearest centroid. Recompute cluster centroids based on contained data

Hat ein Unternehmen allerdings eine eher zentralistische Struktur und sind noch keine kleineren Data Mart Projekte begonnen worden, ist es nat¨urlich besser gleich mit einem

•kann auch alleine für Data Mining- oder OLAP- Zwecke genutzt werden.. Der Data Mining Prozess

A) Es werden oft Windeln gekauft. B) Der Kauf von Windeln führt zum Kauf von Bier.. B) Der Kauf von Windeln führt zum Kauf

Beim Web Mining (vgl. Kapitel 4.2) kommt die Analyse von se- mistrukturierten Texten zum Einsatz, die auf die Tags einer Auszeichnungsspra- che wie HTML zugreift. Zeitreihen