• Keine Ergebnisse gefunden

Oberseminar Data Mining

N/A
N/A
Protected

Academic year: 2022

Aktie "Oberseminar Data Mining"

Copied!
56
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(2)

Folie 2 von 56

Motivation

(3)

Inhalt

1 Das Projekt RapidMiner 2 Funktionen

3 KDD-Prozess

4 Weitere Werkzeuge von Rapid-I 5 Zusammenfassung

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(4)

Folie 4 von 56 Das Projekt RapidMiner äEntwicklung

Entwicklung

entwickelt an der Technischen Universit ¨at Dortmund erschienen im Jahre 2001

anfangs unter dem Namen YALE - (”Yet Another Learning Environment”) ver ¨offentlicht

2007 umbenannt in RapidMiner

zu diesem Zeitpunkt Version 4.0

seit Februar 2010 Version 5.0

(5)

Produkt ¨ ubersicht I

lizensiert unter der AGPL bzw. propriet ¨ar Open-Souce-Software

erh ¨altlich in der Community- oder Enterprise Edition komplett in Java geschrieben und damit auf allen großen Plattformen lauff ¨ahig

bietet die M ¨oglichkeit ¨uber Java API von externen Programmen genutzt zu werden

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(6)

Folie 6 von 56 Das Projekt RapidMiner äProdukt ¨ubersicht

Produkt ¨ ubersicht II

Umgebung zum maschinellen Lernen und zur Umsetzung des KDD-Prozesses (insbesondere des Data Minings)

Realisierung mittels einer Reihe von Operatoren (z.Z. ca. 500 verschiedene), z.B.:

Algorithmen zum maschinellen Lernen Datenvorverarbeitungsoperatoren Meta-Operatoren

Operatoren zur Visualisierung Operatoren zum Im- und Export . . .

RapidMiner nutzt XML um Operatorb ¨aume

darzustellen, die den KDD-Prozess modellieren

(7)

XML-Operatorbaum

1 <?xml version= ” 1 . 0 ” encoding= ” UTF−8” standalone= ” no ” ?>

2 <process version= ” 5 . 0 ”>

3 <!−− [ . . . ] −−>

4 <o p e r a t o r a c t i v a t e d = ” t r u e ” c l a s s = ” process ” expanded= ” t r u e ” name= ” Root ”>

5 <process expanded= ” t r u e ” h e i g h t = ” 541 ” w i d t h = ” 675 ”>

6 <o p e r a t o r a c t i v a t e d = ” t r u e ” c l a s s = ” r e t r i e v e ” expanded= ” t r u e ” h e i g h t = ” 60

” name= ” R e t r i e v e ” w i d t h = ” 90 ” x= ” 45 ” y= ” 30 ”>

7 <parameter key= ” r e p o s i t o r y e n t r y ” v a l u e = ” . . / . . / data / G o l f ” />

8 </ o p e r a t o r>

9 <o p e r a t o r a c t i v a t e d = ” t r u e ” c l a s s = ” d e c i s i o n t r e e ” expanded= ” t r u e ” h e i g h t = ” 76 ” name= ” D e c i s i o n T r e e ” w i d t h = ” 90 ” x= ” 180 ” y= ” 30 ” />

10 <connect from op = ” R e t r i e v e ” f r o m p o r t = ” o u t p u t ” t o o p = ” D e c i s i o n T r e e ”

t o p o r t = ” t r a i n i n g s e t ” />

11 <connect from op = ” D e c i s i o n T r e e ” f r o m p o r t = ” model ” t o p o r t = ” r e s u l t 1 ” />

12 <!−− [ . . . ]−−>

13 </ process>

14 </ o p e r a t o r>

15 </ process>

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(8)

Folie 8 von 56 Das Projekt RapidMiner äProdukt ¨ubersicht

Beispiel-Operatoren

(9)

Beispiel-Operatorkette

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(10)

Folie 10 von 56 Funktionen

Uberblick ¨

1 Das Projekt RapidMiner 2 Funktionen

3 KDD-Prozess

4 Weitere Werkzeuge von Rapid-I

5 Zusammenfassung

(11)

Schnittstellen

3 M ¨oglichkeiten zur Bedienung:

Server Modus (Kommandozeile)

¨uber Java API aus externen Programmen GUI Modus

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(12)

Folie 12 von 56 Funktionen äSchnittstellen

Server Modus

Voraussetzungen:

Umgebungsvariable

” RAPIDMINER HOME“ auf Verzeichnis der Installation setzen

optional: PATH-Variable zu

” rapidminer.bat“ setzen Beispiel: Datei TestProcess.rmp

Aufruf allg.: rapidminer [-f] Prozessname

am Beispiel: rapidminer -f TestProcess.rmp

(13)

Einbindung in externes Programm

import com . r a p i d m i n e r . Process ; import com . r a p i d m i n e r . RapidMiner ; import com . r a p i d m i n e r . o p e r a t o r . O p e r a t o r ; import com . r a p i d m i n e r . o p e r a t o r . O p e r a t o r E x c e p t i o n ;

import com . r a p i d m i n e r . o p e r a t o r . g e n e r a t o r . ExampleSetGenerator ; import com . r a p i d m i n e r . t o o l s . O p e r a t o r S e r v i c e ;

p ub li c class P r o c e s s C r e a t o r {

p ub li c s t a t i c void main ( S t r i n g [ ] argv ) { Process process = c r e a t e P r o c e s s ( ) ;

System . o u t . p r i n t l n ( process . g e t R o o t O p e r a t o r ( ) . c r e a t e P r o c e s s T r e e ( 0 ) ) ;

t r y {

process . run ( ) ;

}catch ( O p e r a t o r E x c e p t i o n e ) { e . p r i n t S t a c k T r a c e ( ) ;

} } / / [ . . . ]

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(14)

Folie 14 von 56 Funktionen äSchnittstellen

Einbindung in externes Programm

/ / [ . . . ]

p ub li c s t a t i c Process c r e a t e P r o c e s s ( ) { RapidMiner . i n i t ( ) ;

Process process =new Process ( ) ; t r y {

O p e r a t o r i n p u t O p e r a t o r = O p e r a t o r S e r v i c e . c r e a t e O p e r a t o r ( ExampleSetGenerator .class) ;

i n p u t O p e r a t o r . setPa ramete r ( ” t a r g e t f u n c t i o n ” , ” sum c l a s s i f i c a t i o n ” ) ; process . g e t R o o t O p e r a t o r ( ) . getSubprocess ( 0 ) . addOperator ( i n p u t O p e r a t o r ) ; }catch ( E x c e p t i o n e ) {e . p r i n t S t a c k T r a c e ( ) ; }

r e t u r n process ; }

/∗ Ausgabe :

Process [ 0 ] ( Process )

subprocess ’ Main Process ’

+−Generate Data [ 0 ] ( Generate Data )

∗/

}

(Quelle: nach [RI09])

(15)

Oberfl ¨ache - Start

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(16)

Folie 16 von 56 Funktionen äOberfl ¨ache

Oberfl ¨ache - Neuer Prozess

(17)

Oberfl ¨ache - Design Workspace

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(18)

Folie 18 von 56 Funktionen äOberfl ¨ache

Oberfl ¨ache - Operatoren und Repositories

(19)

Oberfl ¨ache - Result Workspace

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(20)

Folie 20 von 56 Funktionen äVisualisierung

Visualisierung

es bestehen 3 M ¨oglichkeiten der Visualisierung von Ergebnissen

Meta-Daten-Sicht (Meta Data View) Daten-Sicht (Data View)

grafische Darstellungs-Sicht (Plot View) bei der grafischen Darstellung besteht die

M ¨oglichkeit diverse Visualisierung mittels 2D- und

3D-Grafiken zu erzeugen

(21)

Beispiel - Meta Data View

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(22)

Folie 22 von 56 Funktionen äVisualisierung

Beispiel - Data View

(23)

Beispiel - Plot View (Pie)

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(24)

Folie 24 von 56 Funktionen äVisualisierung

Beispiel - Plot View (Pie 3D)

(25)

Beispiel - Plot View (Histogramm)

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(26)

Folie 26 von 56 Funktionen äErweiterungsm ¨oglichkeiten

Erweiterungsm ¨ oglichkeiten

RapidMiner bietet die M ¨oglichkeit ¨uber

Erweiterungen den Funktionsumfang zu vergr ¨oßern Beispiele f ¨ur Erweiterungen sind:

Weka Extension Parallel Processing Text Processing Web Mining

Reporting Extension

Series Processing

PMML

(27)

Datenformate

Funktion Formate

Import CSV, Excel, Access, BibTeX, Database, DBase, URL, SPSS, AML, ARFF, XRFF, Stata, Sparse, C4.5, DasyLab

Export CSV, Excel, Access, AML, ARFF, XRFF, Database

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(28)

Folie 28 von 56 KDD-Prozess

Uberblick ¨

1 Das Projekt RapidMiner 2 Funktionen

3 KDD-Prozess

4 Weitere Werkzeuge von Rapid-I

5 Zusammenfassung

(29)

Wiederholung KDD-Prozess

KDD = Knowledge Discovery in Databases Schritte:

1

Datenselektion und - extraktion

2

Datenbereiningung und -transformation

3

Data Mining

4

Interpretation

Umsetzung in RapidMiner als Operatoren-Kette

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(30)

Folie 30 von 56 KDD-Prozess äKDD mit dem RapidMiner

Funktionsweise im RapidMiner

Austausch von IOObjects zwischen Operatoren Datenmenge als ExampleSet bezeichnet

entspricht Tabelle

Examples sind die Zeilen

Attribute sind die Spalten

(31)

Attribute

Rollen

regular attributes special attributes

ID Label Prediction Cluster Weight Batch

Typen

(bi-/poly-)nominal numeric

date text

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(32)

Folie 32 von 56 KDD-Prozess äKDD mit dem RapidMiner

Farbliche Markierung in GUI

Violett = ExampleSet Gr ¨un = Model

Braun =

PerformanceVector

Pink = Merkmalsgewicht

(33)

Datenselektion und -extraktion

Import aus Repository

verschiedenen Dateiformaten Generierung von Daten

Ausgabe als ExampleSet Speicherung im Repository m ¨oglich

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(34)

Folie 34 von 56 KDD-Prozess äDatenselektion und -extraktion

Lesen aus Datenbank

(35)

Datenbereiningung und -transformation

Umbennung, Rollenzuweisung Typumwandlung

Transformation von Attributen Wertmodifikation

Datenbereinigung Filterung

Sortierung Rotation Aggregation

Operatoren (z.B. Joins)

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(36)

Folie 36 von 56 KDD-Prozess äDatenbereiningung und -transformation

Beispiel Data Cleansing

Operator: Replace Missing Values Ersetzung fehlender Werte durch

Minimum Maximum Durchschnitt Null

Wert

(37)

Vorverarbeitung als Subprozess

Vorverarbeitungsschritte als Subprozess gekapselt Ô bessere ¨ Ubersicht

Utility/Subprocess

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(38)

Folie 38 von 56 KDD-Prozess äData Mining

Data Mining

Klassifikation Attributgewichtung Clustering

Assoziationsanalyse Korrelation

Ahnlichkeitsberechnung ¨

(39)

Beispiel Clustering

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(40)

Folie 40 von 56 KDD-Prozess äInterpretation

Interpretation

visuelle Darstellung in verschiedenen Graphen- und Diagrammtypen

Bewertung durch Benutzer

gefundene Muster beurteilen

Aussagekraft des Ergebnisses

evtl. erneutes Data Mining

(41)

Produktpr ¨asentation

1

Allgemeine ¨ Ubersicht

2

Warenkorbanalyse (FP-Growth)

3

Clustering nach Einwohnerzahlen

4

Text Mining

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(42)

Folie 42 von 56 Weitere Werkzeuge von Rapid-I

Uberblick ¨

1 Das Projekt RapidMiner 2 Funktionen

3 KDD-Prozess

4 Weitere Werkzeuge von Rapid-I

5 Zusammenfassung

(43)

RapidNet

Allgemein: Struktur- und Relations-Explorer zahlreiche M ¨oglichkeiten zur Visualisierung basiert auf Funktionen des RapidMiner einsatzf ¨ahig auf allen g ¨angigen Plattformen M ¨oglichkeiten

Strukturelle Clusteranalysen

Darstellung von hierarchischen Relationen Visualisierung von geographischen Informationen auf Karten

. . .

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(44)

Folie 44 von 56 Weitere Werkzeuge von Rapid-I äRapidNet

(Quelle: [RI10b])

(45)

(Quelle: [RI10b])

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(46)

Folie 46 von 56 Weitere Werkzeuge von Rapid-I äRapidSentilyzer

RapidSentilyzer

dient zur automatischen Sammlung von Informationen

Verwendung von Crawling-Techniken in Kombination mit Data- und Text Mining

basiert auf Funktionen des RapidMiner

zentrale Zusammenfassung der Informationen im sogenannten

” RapidSentilyzer BuzzBoard“, bestehend aus:

Buzz Statistics

Sentiment Statistics

Sentiment History

Sentiment Insight

(47)

(Quelle: [RI10c])

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(48)

Folie 48 von 56 Weitere Werkzeuge von Rapid-I äRapidSentilyzer

(Quelle: [RI10c])

(49)

RapidAnalytics

Open Source Enterprise Analytics Server basierend auf RapidMiner

Shared Repositories

Remote und Scheduled Execution Zugriff ¨uber

RapidMiner Client Software Web-Interface

Webservices

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(50)

Folie 50 von 56 Weitere Werkzeuge von Rapid-I äRapidAnalytics

(Quelle: [RIa])

(51)

RapidDoc

automatische Klassifikation von Texten Funktionsweise

Basis: Webservices

Trainingstexte und vordef. Klassen vorgeben Einordnung neuer Text in wahrscheinlichste Klasse Angabe der Sicherheit der Vorhersage

Nutzung der RapidMiner Engine Optimierung durch Rapid-I Mitarbeiter

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(52)

Folie 52 von 56 Weitere Werkzeuge von Rapid-I äRapidDoc

(Quelle: [RIb])

(53)

Zusammenfassung

m ¨achtiges Open Source-Data Mining-Tool erm ¨oglicht gesamten KDD-Prozess viele Operatoren bereits vorhanden flexibel einsetz- und erweiterbar zahlreiche Visualisierungsvariaten

weitere M ¨oglichkeiten durch zus ¨atzliche Tools Einsatz z.B. bei

Allianz Siemens EADS T-Mobile PC-Ware

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(54)

Folie 54 von 56

Quellen I

[RIa] RAPID-I:Rapid Analytics.http://rapid-i.com/component/

option,com_docman/task,doc_download/gid,48/. – Zugriff: 22.04.2010

[RIb] RAPID-I:Rapid Doc.http://rapid-i.com/component/

option,com_docman/task,doc_download/gid,49/. – Zugriff: 22.04.2010

[RIc] RAPID-I:RapidMiner Benutzerhandbuch.http://sourceforge.

net/projects/yale/files/1.%20RapidMiner/5.0/

rapidminer-5.0-manual-german.pdf/download. – Zugriff:

09.05.2010

[RI09] RAPID-I:RapidMiner 4.4.

http://ignum.dl.sourceforge.net/project/yale/1.

%20RapidMiner/4.4/rapidminer-4.4-tutorial.pdf.

Version: M ¨arz 2009. – Zugriff: 18.04.2010

(55)

Quellen II

[RI10a] RAPID-I:Rapid - I - RapidMiner.

http://rapid-i.com/content/view/181/190/.

Version: April 2010. – Zugriff: 20.04.2010

[RI10b] RAPID-I:RapidNet.http://rapid-i.com/component/

option,com_docman/task,doc_download/gid,50/.

Version: Februar 2010. – Zugriff: 23.04.2010

[RI10c] RAPID-I:RapidSentilyzer.http://rapid-i.com/component/

option,com_docman/task,doc_download/gid,51/.

Version: Februar 2010. – Zugriff: 23.04.2010 [TU ] TU DORTMUND:Data Mining mit RapidMiner.

http://www-ai.cs.uni-dortmund.de/LEHRE/

VORLESUNGEN/KDD/SS09/RapidMiner.pdf. – Zugriff:

22.04.2010

[Wik10] WIKIPEDIA:RapidMiner.

http://de.wikipedia.org/wiki/RapidMiner. Version: April 2010. – Zugriff: 18.04.2010

Ricardo Hofmann, Matthias Neubert|Leipzig|11. Mai 2010

(56)

Folie 56 von 56

Vielen Dank f ¨ur die Aufmerksamkeit!

Referenzen

ÄHNLICHE DOKUMENTE

• sp¨ater per Induktion ¨uber die Syntax beweisen, dass jede Funktion die semantischen Einschr¨ankungen ihres Typs

• sp¨ater per Induktion ¨uber die Syntax beweisen, dass jede Funktion die semantischen Einschr¨ankungen ihres Typs erf¨ullt... Unerw¨unschte Ad-Hoc-Polymorphie

Die Dateigröße von Satellitendaten bewegt sich oftmals im Bereich mehrerer hundert Megabyte und kann diesen Wert bei großräumigen Mosaiken sogar bei weitem

fekts der Kombination von Kalzium und Vitamin D zeigte sich in einer weiteren placebokontrollierten Studie mit 62 GC- behandelten Patienten, dass der BMD- Abfall unter der

• durch Spezifizierung von interessanten Kalendern, können Regeln entdeckt werden, die in der gesamten Datenbasis nicht auffallen würden u.ä. BSP: Regel: pen =&gt; juice

 Ähnlich wie beim standart data mining prozess, kann der Web Usage Mining Prozess in 3 Teile geteilt werden.  Data collection &amp; pre-processing

⇒ Data Mining als Anwendung von Algorithmen auf Daten mit der Zielsetzung, Muster aus den Daten zu extrahieren.... Nach welchen Mustern

Karlsruher Institut f¨ ur Technologie Institut f¨ ur Theorie der Kondensierten Materie Klassische Theoretische Physik III WS