Oberseminar Data Mining

(1)

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(2)

Folie 2 von 56

Motivation

(3)

Inhalt

1 Das Projekt RapidMiner 2 Funktionen

3 KDD-Prozess

4 Weitere Werkzeuge von Rapid-I 5 Zusammenfassung

(4)

Folie 4 von 56 Das Projekt RapidMiner äEntwicklung

Entwicklung

entwickelt an der Technischen Universit ¨at Dortmund erschienen im Jahre 2001

anfangs unter dem Namen YALE - (”Yet Another Learning Environment”) ver ¨offentlicht

2007 umbenannt in RapidMiner

zu diesem Zeitpunkt Version 4.0

seit Februar 2010 Version 5.0

(5)

Produkt ¨ ubersicht I

lizensiert unter der AGPL bzw. propriet ¨ar Open-Souce-Software

erh ¨altlich in der Community- oder Enterprise Edition komplett in Java geschrieben und damit auf allen großen Plattformen lauff ¨ahig

bietet die M ¨oglichkeit ¨uber Java API von externen Programmen genutzt zu werden

(6)

Folie 6 von 56 Das Projekt RapidMiner äProdukt ¨ubersicht

Produkt ¨ ubersicht II

Umgebung zum maschinellen Lernen und zur Umsetzung des KDD-Prozesses (insbesondere des Data Minings)

Realisierung mittels einer Reihe von Operatoren (z.Z. ca. 500 verschiedene), z.B.:

Algorithmen zum maschinellen Lernen Datenvorverarbeitungsoperatoren Meta-Operatoren

Operatoren zur Visualisierung Operatoren zum Im- und Export . . .

RapidMiner nutzt XML um Operatorb ¨aume

darzustellen, die den KDD-Prozess modellieren

(7)

XML-Operatorbaum

1 <?xml version= ” 1 . 0 ” encoding= ” UTF−8” standalone= ” no ” ?>

2 <process version= ” 5 . 0 ”>

3 <!−− [ . . . ] −−>

4 <o p e r a t o r a c t i v a t e d = ” t r u e ” c l a s s = ” process ” expanded= ” t r u e ” name= ” Root ”>

5 <process expanded= ” t r u e ” h e i g h t = ” 541 ” w i d t h = ” 675 ”>

6 <o p e r a t o r a c t i v a t e d = ” t r u e ” c l a s s = ” r e t r i e v e ” expanded= ” t r u e ” h e i g h t = ” 60

” name= ” R e t r i e v e ” w i d t h = ” 90 ” x= ” 45 ” y= ” 30 ”>

7 <parameter key= ” r e p o s i t o r y e n t r y ” v a l u e = ” . . / . . / data / G o l f ” />

8 </ o p e r a t o r>

9 <o p e r a t o r a c t i v a t e d = ” t r u e ” c l a s s = ” d e c i s i o n t r e e ” expanded= ” t r u e ” h e i g h t = ” 76 ” name= ” D e c i s i o n T r e e ” w i d t h = ” 90 ” x= ” 180 ” y= ” 30 ” />

10 <connect from op = ” R e t r i e v e ” f r o m p o r t = ” o u t p u t ” t o o p = ” D e c i s i o n T r e e ”

t o p o r t = ” t r a i n i n g s e t ” />

11 <connect from op = ” D e c i s i o n T r e e ” f r o m p o r t = ” model ” t o p o r t = ” r e s u l t 1 ” />

12 <!−− [ . . . ]−−>

13 </ process>

14 </ o p e r a t o r>

15 </ process>

(8)

Folie 8 von 56 Das Projekt RapidMiner äProdukt ¨ubersicht

Beispiel-Operatoren

(9)

Beispiel-Operatorkette

(10)

Folie 10 von 56 Funktionen

Uberblick ¨

1 Das Projekt RapidMiner 2 Funktionen

3 KDD-Prozess

4 Weitere Werkzeuge von Rapid-I

5 Zusammenfassung

(11)

Schnittstellen

3 M ¨oglichkeiten zur Bedienung:

Server Modus (Kommandozeile)

¨uber Java API aus externen Programmen GUI Modus

(12)

Folie 12 von 56 Funktionen äSchnittstellen

Server Modus

Voraussetzungen:

Umgebungsvariable

” RAPIDMINER HOME“ auf Verzeichnis der Installation setzen

optional: PATH-Variable zu

” rapidminer.bat“ setzen Beispiel: Datei TestProcess.rmp

Aufruf allg.: rapidminer [-f] Prozessname

am Beispiel: rapidminer -f TestProcess.rmp

(13)

Einbindung in externes Programm

import com . r a p i d m i n e r . Process ; import com . r a p i d m i n e r . RapidMiner ; import com . r a p i d m i n e r . o p e r a t o r . O p e r a t o r ; import com . r a p i d m i n e r . o p e r a t o r . O p e r a t o r E x c e p t i o n ;

import com . r a p i d m i n e r . o p e r a t o r . g e n e r a t o r . ExampleSetGenerator ; import com . r a p i d m i n e r . t o o l s . O p e r a t o r S e r v i c e ;

p ub li c class P r o c e s s C r e a t o r {

p ub li c s t a t i c void main ( S t r i n g [ ] argv ) { Process process = c r e a t e P r o c e s s ( ) ;

System . o u t . p r i n t l n ( process . g e t R o o t O p e r a t o r ( ) . c r e a t e P r o c e s s T r e e ( 0 ) ) ;

t r y {

process . run ( ) ;

}catch ( O p e r a t o r E x c e p t i o n e ) { e . p r i n t S t a c k T r a c e ( ) ;

} } / / [ . . . ]

(14)

Folie 14 von 56 Funktionen äSchnittstellen

Einbindung in externes Programm

/ / [ . . . ]

p ub li c s t a t i c Process c r e a t e P r o c e s s ( ) { RapidMiner . i n i t ( ) ;

Process process =new Process ( ) ; t r y {

O p e r a t o r i n p u t O p e r a t o r = O p e r a t o r S e r v i c e . c r e a t e O p e r a t o r ( ExampleSetGenerator .class) ;

i n p u t O p e r a t o r . setPa ramete r ( ” t a r g e t f u n c t i o n ” , ” sum c l a s s i f i c a t i o n ” ) ; process . g e t R o o t O p e r a t o r ( ) . getSubprocess ( 0 ) . addOperator ( i n p u t O p e r a t o r ) ; }catch ( E x c e p t i o n e ) {e . p r i n t S t a c k T r a c e ( ) ; }

r e t u r n process ; }

/∗ Ausgabe :

∗

∗ Process [ 0 ] ( Process )

∗ subprocess ’ Main Process ’

∗ +−Generate Data [ 0 ] ( Generate Data )

∗/

}

(Quelle: nach [RI09])

(15)

Oberfl ¨ache - Start

(16)

Folie 16 von 56 Funktionen äOberfl ¨ache

Oberfl ¨ache - Neuer Prozess

(17)

Oberfl ¨ache - Design Workspace

(18)

Folie 18 von 56 Funktionen äOberfl ¨ache

Oberfl ¨ache - Operatoren und Repositories

(19)

Oberfl ¨ache - Result Workspace

(20)

Folie 20 von 56 Funktionen äVisualisierung

Visualisierung

es bestehen 3 M ¨oglichkeiten der Visualisierung von Ergebnissen

Meta-Daten-Sicht (Meta Data View) Daten-Sicht (Data View)

grafische Darstellungs-Sicht (Plot View) bei der grafischen Darstellung besteht die

M ¨oglichkeit diverse Visualisierung mittels 2D- und

3D-Grafiken zu erzeugen

(21)

Beispiel - Meta Data View

(22)

Beispiel - Data View

(23)

Beispiel - Plot View (Pie)

(24)

Beispiel - Plot View (Pie 3D)

(25)

Beispiel - Plot View (Histogramm)

(26)

Folie 26 von 56 Funktionen äErweiterungsm ¨oglichkeiten

Erweiterungsm ¨ oglichkeiten

RapidMiner bietet die M ¨oglichkeit ¨uber

Erweiterungen den Funktionsumfang zu vergr ¨oßern Beispiele f ¨ur Erweiterungen sind:

Weka Extension Parallel Processing Text Processing Web Mining

Reporting Extension

Series Processing

PMML

(27)

Datenformate

Funktion Formate

Import CSV, Excel, Access, BibTeX, Database, DBase, URL, SPSS, AML, ARFF, XRFF, Stata, Sparse, C4.5, DasyLab

Export CSV, Excel, Access, AML, ARFF, XRFF, Database

(28)

Folie 28 von 56 KDD-Prozess

Uberblick ¨

1 Das Projekt RapidMiner 2 Funktionen

3 KDD-Prozess

4 Weitere Werkzeuge von Rapid-I

5 Zusammenfassung

(29)

Wiederholung KDD-Prozess

KDD = Knowledge Discovery in Databases Schritte:

1

Datenselektion und - extraktion

2

Datenbereiningung und -transformation

3

Data Mining

4

Interpretation

Umsetzung in RapidMiner als Operatoren-Kette

(30)

Folie 30 von 56 KDD-Prozess äKDD mit dem RapidMiner

Funktionsweise im RapidMiner

Austausch von IOObjects zwischen Operatoren Datenmenge als ExampleSet bezeichnet

entspricht Tabelle

Examples sind die Zeilen

Attribute sind die Spalten

(31)

Attribute

Rollen

regular attributes special attributes

ID Label Prediction Cluster Weight Batch

Typen

(bi-/poly-)nominal numeric

date text

(32)

Folie 32 von 56 KDD-Prozess äKDD mit dem RapidMiner

Farbliche Markierung in GUI

Violett = ExampleSet Gr ¨un = Model

Braun =

PerformanceVector

Pink = Merkmalsgewicht

(33)

Datenselektion und -extraktion

Import aus Repository

verschiedenen Dateiformaten Generierung von Daten

Ausgabe als ExampleSet Speicherung im Repository m ¨oglich

(34)

Folie 34 von 56 KDD-Prozess äDatenselektion und -extraktion

Lesen aus Datenbank

(35)

Datenbereiningung und -transformation

Umbennung, Rollenzuweisung Typumwandlung

Transformation von Attributen Wertmodifikation

Datenbereinigung Filterung

Sortierung Rotation Aggregation

Operatoren (z.B. Joins)

(36)

Folie 36 von 56 KDD-Prozess äDatenbereiningung und -transformation

Beispiel Data Cleansing

Operator: Replace Missing Values Ersetzung fehlender Werte durch

Minimum Maximum Durchschnitt Null

Wert

(37)

Vorverarbeitung als Subprozess

Vorverarbeitungsschritte als Subprozess gekapselt Ô bessere ¨ Ubersicht

Utility/Subprocess

(38)

Folie 38 von 56 KDD-Prozess äData Mining

Data Mining

Klassifikation Attributgewichtung Clustering

Assoziationsanalyse Korrelation

Ahnlichkeitsberechnung ¨

(39)

Beispiel Clustering

(40)

Folie 40 von 56 KDD-Prozess äInterpretation

Interpretation

visuelle Darstellung in verschiedenen Graphen- und Diagrammtypen

Bewertung durch Benutzer

gefundene Muster beurteilen

Aussagekraft des Ergebnisses

evtl. erneutes Data Mining

(41)

Produktpr ¨asentation

1

Allgemeine ¨ Ubersicht

2

Warenkorbanalyse (FP-Growth)

3

Clustering nach Einwohnerzahlen

4

Text Mining

(42)

Folie 42 von 56 Weitere Werkzeuge von Rapid-I

Uberblick ¨

1 Das Projekt RapidMiner 2 Funktionen

3 KDD-Prozess

4 Weitere Werkzeuge von Rapid-I

5 Zusammenfassung

(43)

RapidNet

Allgemein: Struktur- und Relations-Explorer zahlreiche M öglichkeiten zur Visualisierung basiert auf Funktionen des RapidMiner einsatzf ähig auf allen g ängigen Plattformen M öglichkeiten

Strukturelle Clusteranalysen

Darstellung von hierarchischen Relationen Visualisierung von geographischen Informationen auf Karten

. . .

(44)

Folie 44 von 56 Weitere Werkzeuge von Rapid-I äRapidNet

(Quelle: [RI10b])

(45)

(Quelle: [RI10b])

(46)

Folie 46 von 56 Weitere Werkzeuge von Rapid-I äRapidSentilyzer

RapidSentilyzer

dient zur automatischen Sammlung von Informationen

Verwendung von Crawling-Techniken in Kombination mit Data- und Text Mining

basiert auf Funktionen des RapidMiner

zentrale Zusammenfassung der Informationen im sogenannten

” RapidSentilyzer BuzzBoard“, bestehend aus:

Buzz Statistics

Sentiment Statistics

Sentiment History

Sentiment Insight

(47)

(Quelle: [RI10c])

(48)

Folie 48 von 56 Weitere Werkzeuge von Rapid-I äRapidSentilyzer

(Quelle: [RI10c])

(49)

RapidAnalytics

Open Source Enterprise Analytics Server basierend auf RapidMiner

Shared Repositories

Remote und Scheduled Execution Zugriff ¨uber

RapidMiner Client Software Web-Interface

Webservices

(50)

Folie 50 von 56 Weitere Werkzeuge von Rapid-I äRapidAnalytics

(Quelle: [RIa])

(51)

RapidDoc

automatische Klassifikation von Texten Funktionsweise

Basis: Webservices

Trainingstexte und vordef. Klassen vorgeben Einordnung neuer Text in wahrscheinlichste Klasse Angabe der Sicherheit der Vorhersage

Nutzung der RapidMiner Engine Optimierung durch Rapid-I Mitarbeiter

(52)

Folie 52 von 56 Weitere Werkzeuge von Rapid-I äRapidDoc

(Quelle: [RIb])

(53)

Zusammenfassung

m ¨achtiges Open Source-Data Mining-Tool erm ¨oglicht gesamten KDD-Prozess viele Operatoren bereits vorhanden flexibel einsetz- und erweiterbar zahlreiche Visualisierungsvariaten

weitere M ¨oglichkeiten durch zus ¨atzliche Tools Einsatz z.B. bei

Allianz Siemens EADS T-Mobile PC-Ware

(54)

Folie 54 von 56

Quellen I

[RIa] RAPID-I:Rapid Analytics.http://rapid-i.com/component/

option,com_docman/task,doc_download/gid,48/. – Zugriff: 22.04.2010

[RIb] RAPID-I:Rapid Doc.http://rapid-i.com/component/

option,com_docman/task,doc_download/gid,49/. – Zugriff: 22.04.2010

[RIc] RAPID-I:RapidMiner Benutzerhandbuch.http://sourceforge.

net/projects/yale/files/1.%20RapidMiner/5.0/

rapidminer-5.0-manual-german.pdf/download. – Zugriff:

09.05.2010

[RI09] RAPID-I:RapidMiner 4.4.

http://ignum.dl.sourceforge.net/project/yale/1.

%20RapidMiner/4.4/rapidminer-4.4-tutorial.pdf.

Version: M ¨arz 2009. – Zugriff: 18.04.2010

(55)

Quellen II

[RI10a] RAPID-I:Rapid - I - RapidMiner.

http://rapid-i.com/content/view/181/190/.

Version: April 2010. – Zugriff: 20.04.2010

[RI10b] RAPID-I:RapidNet.http://rapid-i.com/component/

option,com_docman/task,doc_download/gid,50/.

Version: Februar 2010. – Zugriff: 23.04.2010

[RI10c] RAPID-I:RapidSentilyzer.http://rapid-i.com/component/

option,com_docman/task,doc_download/gid,51/.

Version: Februar 2010. – Zugriff: 23.04.2010 [TU ] TU DORTMUND:Data Mining mit RapidMiner.

http://www-ai.cs.uni-dortmund.de/LEHRE/

VORLESUNGEN/KDD/SS09/RapidMiner.pdf. – Zugriff:

22.04.2010

[Wik10] WIKIPEDIA:RapidMiner.

http://de.wikipedia.org/wiki/RapidMiner. Version: April 2010. – Zugriff: 18.04.2010

(56)

Folie 56 von 56