Data Mining
Data Mining Standards Standards
am Beispiel von PMML
am Beispiel von PMML
Data Mining (DM)
„Ein Prozess, um interessante neue Muster, Korrelationen
und Trends in großen Datenbeständen zu entdecken, um
damit entscheidungsunterstützende Prognose- Modelle zu
erstellen.“ (nach Pasquale Borelli)
Allgemeine Definitionen im Data
Mining
Knowledge Discovery in Databases (KDD)
•umfasst den gesamten Findungsprozess
•Data Mining ist somit ein Teilschritt des KDD
•beschreibt automatisierte Verfahren, mit denen unter Anwendung von Data Mining Methoden,
Regelmäßigkeiten in Mengen von Datensätzen gefunden werden können
Data Warehouse
•ist prinzipiell ein Datenspeicher
•stellt zentrale Sammelstelle für Unternehmensdaten dar
•jeder Mitarbeiter bekommt individuelle Informationen
•Löschen von Daten ist normalerweise nicht möglich
On-Line Analytical Processing (OLAP)
•Technik, die eine Vielzahl von Sichten und
Darstellungsmöglichkeiten von Basisdaten erlaubt
•ergänzt somit Datenbanken mit analytischen Funktionen
•Daten können dadurch sofort graphisch umgesetzt werden
Data Mart
•ist Subsystem eines Data Warehouse
•lediglich auf wenige Betriebsbereiche beschränkt
•kann auch alleine für Data Mining- oder OLAP- Zwecke genutzt werden
Der Data Mining Prozess nach CRISP-DM
Business Understanding
•Anfangsphase
•konzentriert sich auf Formulierung des Projektziels aus Sicht des Anwenders
•erstellt Problemdefinition und vorläufigen Plan
Data Understanding
•Beginn der Datenauswahl
•Probleme der Datenqualität, interessante Teilmengen entdecken
Data Preparation
•Generierung der endgültigen Analysedaten (durch Transformationen und Entfernen von „Datenschmutz“)
Modelling
•Auswahl verschiedener Verfahren und Festlegung zugehöriger Parameter
Evaluation
•Bewertung und Überprüfung des aufgestellten Modells
Motivation für Standards im Data Mining
•DM-Prozess meist als kleiner Teil eines größeren Prozesses
•dadurch Input-Daten oft in unterschiedlichen Formen gegeben und Output-Daten in unterschiedlichen Formen benötigt
•Probleme bei der Verwendung verschiedener Software- Tools für einzelne Teilbereiche (Datenaustausch oft nicht einfach)
Anwendungsgebiete heutiger Standards
•Modelle: Um DM- und statistische Daten zu
repräsentieren (vereinfacht den Austausch von Modellen)
•Attribute: Säuberung, Transformation und Sammeln von Attributen; richten sich an die Teilbereiche "Modelling" und
"Data Preparation“
•Interfaces und APIs: Um Verbindung zu anderen
Sprachen und Systemen zu schaffen (z.B. SQL/MM Part6:
Data Mining)
•Einstellungen: Um die internen Parameter abzubilden, die für das Aufstellen und den Gebrauch der Modelle benötigt werden
•Prozess: gesamter DM-Prozess, z.B. wie er von CRISP- DM beschreieben wird
Anforderungen an Standards
•Austausch von Daten zwischen unterschiedlichen Software-Tools muss problemlos ablaufen können
•DM-Modelle sollten standardisiert unter verschiedenen Anwendungen ausgetauscht werden können
•Standards sollten es ermöglichen, die DM-Modelle in anderen Softwareprodukten integriert anzuwenden
PMML allgemein
•wurde von der Data Mining Group (www.dmg.org) entworfen, um DM- und statistische Modell zu
beschreiben
•beinhaltet auch Beschreibung der Operationen zur Datenbereinigung und -aufbereitung
•versucht, ausreichende Infrastruktur bereitzustellen, sodass eine Anwendung ein Modell konstruieren und eine andere es verwenden kann
•PMML Produzent erstellt Modell, PMML Konsument wendet es an
•PMML erfüllt somit zumindest einen Teil der Anforderungen
Der Aufbau von PMML
Datenbeschreibungsverzeichnis:
•definiert die Input-Attribute der Modelle und die Datentypen und deren Definitionsbereiche
•kann bei mehreren verschiedenen Modellen verwendet werden
Mining Schema
•listet Attribute und deren Funktion im Modell auf
•enthält jeweils für ein Modell spezifische Informationen
Transformationsverzeichnis
•kann eine der folgenden Transformationen enthalten und ist zumindest bei manchen Modellen optional
•Normalisierung, Diskretisierung, ‚value mapping‘, Aggregation
•beinhaltet univariate Statistiken über Attribute im Modell
Modelle
•enthält die Modellparameter
•mögliche Modelle sind:
•Regressionsmodelle
•Clustermodelle
•Bäume
•neuronale Netze
•Bayes‘sche Modelle
•Sequenzmodelle
Entscheidungsbaumes
Vorhersage = „sonnig“
Vorhersage = „bedeckt“
and
Temperatur >= 30 Freibad
Y
NFreibad Nicht
Freibad
Y
N2 <Header description="Ein kleiner Entscheidungsbaum"/>
3 <DataDictionary numberOfFields="3">
4 <DataField name="Temperatur" optype="continuous"/>
5 <DataField name="Vorhersage" optype="categorical">
6 <Value value="sonnig"/>
7 <Value value="bedeckt"/>
8 <Value value="regnerisch"/>
9 </DataField>
10 <DataField name="whatIdo" optype="categorical">
11 <Value value="Freibad"/>
12 <Value value="nicht Freibad"/>
13 </DataField>
14 </DataDictionary>
15 <TreeModel modelName="Schwimmen gehen">
16 <MiningSchema>
17 <MiningField name="Temperatur"/>
18 <MiningField name="Vorhersage"/>
19 <MiningField name="whatIdo" usageType="predicted"/>
20 </MiningSchema>
21 <Node score="Freibad">
22 <Predicate field="Vorhersage" operator="equal" value="sonnig"/>
23 <Node score="Freibad" <True/> </Node>
24 <Node score="Freibad">
25 <CompoundPredicate booleanOperator="and">
26 <Predicate field="Vorhersage" operator="equal" value="bedeckt"/>
27 <Predicate field="Temperatur" operator="greaterThan" value="30"/>
28 </CompoundPredicate>
29 <Node score="Freibad"> <True/> </Node>
30 <Node score="nicht Freibad"> <True/> </Node>
31 </Node>
32 </Node>
33 </TreeModel>
34</PMML>
Verbreitung und Zukunft von PMML
•mittlerweile von vielen führenden Unternehmen in ihre Produkte integriert:
•Oracle
•Microsoft (OLE DB)
•IBM (intelligent miner)
•Schnittstellen zu:
•Java
•C++
•CORBA (z.B. mit Xelopes von Prudsys)
•SQL bietet mit neuem Standard (voraussichtlich ab Herbst 2003),
SQL Multimedia and Applications Packages Standard, die Integration von DM-Konzepten in ein Data Warehouse
(„embedded Data Mining“)
•an der PMML-Version 3.0 wird schon gearbeitet (Version 2.0 ist seit März 2003 auf dem Markt)