Data Mining

(1)

Data Mining

Data Mining Standards Standards

am Beispiel von PMML

(2)

Data Mining (DM)

„Ein Prozess, um interessante neue Muster, Korrelationen

und Trends in großen Datenbeständen zu entdecken, um

damit entscheidungsunterstützende Prognose- Modelle zu

erstellen.“ (nach Pasquale Borelli)

Allgemeine Definitionen im Data

Mining

(3)

Knowledge Discovery in Databases (KDD)

•umfasst den gesamten Findungsprozess

•Data Mining ist somit ein Teilschritt des KDD

•beschreibt automatisierte Verfahren, mit denen unter Anwendung von Data Mining Methoden,

Regelmäßigkeiten in Mengen von Datensätzen gefunden werden können

(4)

Data Warehouse

•ist prinzipiell ein Datenspeicher

•stellt zentrale Sammelstelle für Unternehmensdaten dar

•jeder Mitarbeiter bekommt individuelle Informationen

•Löschen von Daten ist normalerweise nicht möglich

On-Line Analytical Processing (OLAP)

•Technik, die eine Vielzahl von Sichten und

Darstellungsmöglichkeiten von Basisdaten erlaubt

•ergänzt somit Datenbanken mit analytischen Funktionen

•Daten können dadurch sofort graphisch umgesetzt werden

(5)

Data Mart

•ist Subsystem eines Data Warehouse

•lediglich auf wenige Betriebsbereiche beschränkt

•kann auch alleine für Data Mining- oder OLAP- Zwecke genutzt werden

(6)

Der Data Mining Prozess nach CRISP-DM

(7)

Business Understanding

•Anfangsphase

•konzentriert sich auf Formulierung des Projektziels aus Sicht des Anwenders

•erstellt Problemdefinition und vorläufigen Plan

Data Understanding

•Beginn der Datenauswahl

•Probleme der Datenqualität, interessante Teilmengen entdecken

(8)

Data Preparation

•Generierung der endgültigen Analysedaten (durch Transformationen und Entfernen von „Datenschmutz“)

Modelling

•Auswahl verschiedener Verfahren und Festlegung zugehöriger Parameter

Evaluation

•Bewertung und Überprüfung des aufgestellten Modells

(9)

Motivation für Standards im Data Mining

•DM-Prozess meist als kleiner Teil eines größeren Prozesses

•dadurch Input-Daten oft in unterschiedlichen Formen gegeben und Output-Daten in unterschiedlichen Formen benötigt

•Probleme bei der Verwendung verschiedener Software- Tools für einzelne Teilbereiche (Datenaustausch oft nicht einfach)

(10)

Anwendungsgebiete heutiger Standards

•Modelle: Um DM- und statistische Daten zu

repräsentieren (vereinfacht den Austausch von Modellen)

•Attribute: Säuberung, Transformation und Sammeln von Attributen; richten sich an die Teilbereiche "Modelling" und

"Data Preparation“

•Interfaces und APIs: Um Verbindung zu anderen

Sprachen und Systemen zu schaffen (z.B. SQL/MM Part6:

Data Mining)

•Einstellungen: Um die internen Parameter abzubilden, die für das Aufstellen und den Gebrauch der Modelle benötigt werden

•Prozess: gesamter DM-Prozess, z.B. wie er von CRISP- DM beschreieben wird

(11)

Anforderungen an Standards

•Austausch von Daten zwischen unterschiedlichen Software-Tools muss problemlos ablaufen können

•DM-Modelle sollten standardisiert unter verschiedenen Anwendungen ausgetauscht werden können

•Standards sollten es ermöglichen, die DM-Modelle in anderen Softwareprodukten integriert anzuwenden

(12)

PMML allgemein

•wurde von der Data Mining Group (www.dmg.org) entworfen, um DM- und statistische Modell zu

beschreiben

•beinhaltet auch Beschreibung der Operationen zur Datenbereinigung und -aufbereitung

•versucht, ausreichende Infrastruktur bereitzustellen, sodass eine Anwendung ein Modell konstruieren und eine andere es verwenden kann

•PMML Produzent erstellt Modell, PMML Konsument wendet es an

•PMML erfüllt somit zumindest einen Teil der Anforderungen

(13)

Der Aufbau von PMML

Datenbeschreibungsverzeichnis:

•definiert die Input-Attribute der Modelle und die Datentypen und deren Definitionsbereiche

•kann bei mehreren verschiedenen Modellen verwendet werden

(14)

Mining Schema

•listet Attribute und deren Funktion im Modell auf

•enthält jeweils für ein Modell spezifische Informationen

Transformationsverzeichnis

•kann eine der folgenden Transformationen enthalten und ist zumindest bei manchen Modellen optional

•Normalisierung, Diskretisierung, ‚value mapping‘, Aggregation

(15)

•beinhaltet univariate Statistiken über Attribute im Modell

Modelle

•enthält die Modellparameter

•mögliche Modelle sind:

•Regressionsmodelle

•Clustermodelle

•Bäume

•neuronale Netze

•Bayes‘sche Modelle

•Sequenzmodelle

(16)

Entscheidungsbaumes

Vorhersage = „sonnig“

Vorhersage = „bedeckt“

and

Temperatur >= 30 Freibad

Y

^N

Freibad Nicht

Freibad

Y

^N

(17)

2 <Header description="Ein kleiner Entscheidungsbaum"/>

3 <DataDictionary numberOfFields="3">

4 <DataField name="Temperatur" optype="continuous"/>

5 <DataField name="Vorhersage" optype="categorical">

6 <Value value="sonnig"/>

7 <Value value="bedeckt"/>

8 <Value value="regnerisch"/>

9 </DataField>

10 <DataField name="whatIdo" optype="categorical">

11 <Value value="Freibad"/>

12 <Value value="nicht Freibad"/>

13 </DataField>

14 </DataDictionary>

15 <TreeModel modelName="Schwimmen gehen">

16 <MiningSchema>

17 <MiningField name="Temperatur"/>

18 <MiningField name="Vorhersage"/>

19 <MiningField name="whatIdo" usageType="predicted"/>

20 </MiningSchema>

(18)

21 <Node score="Freibad">

22 <Predicate field="Vorhersage" operator="equal" value="sonnig"/>

23 <Node score="Freibad" <True/> </Node>

24 <Node score="Freibad">

25 <CompoundPredicate booleanOperator="and">

26 <Predicate field="Vorhersage" operator="equal" value="bedeckt"/>

27 <Predicate field="Temperatur" operator="greaterThan" value="30"/>

28 </CompoundPredicate>

29 <Node score="Freibad"> <True/> </Node>

30 <Node score="nicht Freibad"> <True/> </Node>

31 </Node>

32 </Node>

33 </TreeModel>

34</PMML>

(19)

Verbreitung und Zukunft von PMML

•mittlerweile von vielen führenden Unternehmen in ihre Produkte integriert:

•Oracle

•Microsoft (OLE DB)

•IBM (intelligent miner)

•Schnittstellen zu:

•Java

•C++

•CORBA (z.B. mit Xelopes von Prudsys)

(20)

•SQL bietet mit neuem Standard (voraussichtlich ab Herbst 2003),

SQL Multimedia and Applications Packages Standard, die Integration von DM-Konzepten in ein Data Warehouse

(„embedded Data Mining“)

•an der PMML-Version 3.0 wird schon gearbeitet (Version 2.0 ist seit März 2003 auf dem Markt)