Enrico Seib
Data Mining - Methoden in der Simulation
Bachelorarbeit
Informatik
Bibliografische Information der Deutschen Nationalbibliothek:
Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen National- bibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d- nb.de/ abrufbar.
Dieses Werk sowie alle darin enthaltenen einzelnen Beiträge und Abbildungen sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsschutz zugelassen ist, bedarf der vorherigen Zustimmung des Verla- ges. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen, Auswertungen durch Datenbanken und für die Einspeicherung und Verarbeitung in elektronische Systeme. Alle Rechte, auch die des auszugsweisen Nachdrucks, der fotomechanischen Wiedergabe (einschließlich Mikrokopie) sowie der Auswertung durch Datenbanken oder ähnliche Einrichtungen, vorbehalten.
Impressum:
Copyright © 2008 GRIN Verlag ISBN: 9783640145478
Dieses Buch bei GRIN:
https://www.grin.com/document/114550
Enrico Seib
Data Mining - Methoden in der Simulation
GRIN Verlag
GRIN - Your knowledge has value
Der GRIN Verlag publiziert seit 1998 wissenschaftliche Arbeiten von Studenten, Hochschullehrern und anderen Akademikern als eBook und gedrucktes Buch. Die Verlagswebsite www.grin.com ist die ideale Plattform zur Veröffentlichung von Hausarbeiten, Abschlussarbeiten, wissenschaftlichen Aufsätzen, Dissertationen und Fachbüchern.
Besuchen Sie uns im Internet:
http://www.grin.com/
http://www.facebook.com/grincom http://www.twitter.com/grin_com
Bachelorarbeit
Zum Erwerb des akademischen Abschlusses Bachelor of Science in Business Informatics
Zum Thema
Data Mining - Methoden in der Simulation
Eingereicht an der
Fakultät für Informatik und Elektrotechnik der Universität Rostock
Vorgelegt von:
Enrico Seib
Studiengang:
Business Informatics
Bearbeitungszeitraum:
3 Monate
Lehrstuhl für Modellierung und Simulation
Rostock, 8. Januar 2008
I
Inhaltsverzeichnis
Seite
Abstract (Englische Zusammenfassung) ... V
Abbildungsverzeichnis ... VI Abkürzungsverzeichnis ... VII Vorwort ... XI
1. Einleitung ... 1
1.1 Data Mining ... 1
1.2 Simulation ... 2
1.3 Zusammenführung und Ziele ... 2
2. Simulation ... 3
2.1 Definitionen ... 3
2.1.1 Definition System ... 3
2.1.2 Definition Modell/Modellierung ... 4
2.1.3 Definition Simulation ... 4
2.2 Aufgabenfelder/Anwendungsbereiche ... 6
2.2.1 Vor- und Nachteile der Simulation ... 7
2.2.1.1 Vorteile der Simulation ... 7
2.2.1.2 Nachteile der Simulation ... 7
2.2.2 Simulationsarten ... 8
2.2.2.1 Kontinuierliche Simulation ... 8
2.2.2.2 Diskrete Simulation ... 9
2.2.2.3 Monte Carlo Simulation ... 10
2.3 James II ... 11
2.3.1 Hintergrund ... 11
2.3.2 Ziele ... 12
2.3.3 Einordnung und Entwicklungen ... 12
2.3.4 Entwicklungsstand ... 13
3. Data Mining ... 14
3.1. Definition ... 14
3.2 Ziel(e) des Data Mining ... 15
3.3 Data Mining als Prozess ... 18
3.4 Grundlegende Methoden ... 20
3.4.1 Klassenbildung ... 21
3.4.2 Assoziationen ... 24
3.4.3 Klassifizierung ... 25
3.4.4 Zeitreihenanalyse ... 29
3.5 Optimierung von Data Mining-Modellen und genetische Algorithmen ... 34
3.6. Einsatz von Data Mining in der Simulation ... 35
II
4. Vergleichskriterien ... 38
4.1 Evaluation der Analysearten ... 38
4.1.1 Klassenbildung ... 38
4.1.2 Assoziationen ... 38
4.1.3 Klassifizierung ... 39
4.1.4 Zeitreihenanalyse ... 40
4.2 Klassifizierung von Data Mining-Werkzeugen ... 41
4.2.1 Erweiterungen von DBMS ... 42
4.2.2 Data Mining-Suiten... 42
4.2.3 Eigenständige Data Mining-Tools ... 43
4.3 Bewertung der Data Mining-Werkzeuge ... 43
4.3.1 Generelle Eigenschaften ... 44
4.3.2 Datenbankanbindung ... 45
4.3.3 Data Mining-Aufgaben ... 48
4.3.4 Data Mining-Algorithmen ... 50
4.4 Nutzung von Data Mining in konkreten Simulationsaufgaben ... 51
5. Analyse ... 56
5.1 Analyse Modellierungs- und Simulations-Umgebungen ... 56
5.1.1 Arena ... 57
5.1.1.1 Beurteilung der Data Mining-Funktionen ... 57
5.1.1.1.1 Externe Datenquellen ... 57
5.1.1.1.2 Analyse und Optimierung ... 58
5.1.1.1.3 Präsentation... 58
5.1.2 AnyLogic ... 59
5.1.2.1 Beurteilung der Data Mining-Funktionen ... 59
5.1.2.1.1 Externe Datenquellen ... 60
5.1.2.1.2 Analyse und Optimierung ... 60
5.1.2.1.3 Präsentation... 61
5.1.3 SeSam ... 62
5.1.3.1 Beurteilung der Data Mining-Funktionen ... 63
5.1.1.3.1 Externe Datenquellen ... 63
5.1.1.3.2 Analyse und Optimierung ... 64
5.1.1.3.3 Präsentation... 64
5.2 Analyse einer Bibliothek ... 65
5.2.1 WEKA ... 65
5.2.1.1 Generelle Eigenschaften ... 65
5.2.1.2 Datenbankanbindung ... 66
5.2.1.3 Data Mining-Aufgaben ... 67
5.2.1.4 Data Mining-Algorithmen ... 69
5.3 Analyse eines Werkzeuges ... 70
5.3.1 SPSS ... 70
5.3.1.1 SPSS Basispaket („SPSS Base“) ... 72
5.3.1.1.1 Generelle Eigenschaften ... 72
5.3.1.1.2 Datenbankanbindung ... 73
5.3.1.1.3 Data Mining-Aufgaben ... 73
5.3.1.1.4 Data Mining-Algorithmen ... 74
III
5.3.1.2 SPSS Clementine ... 75
5.3.1.2.1 Generelle Eigenschaften ... 75
5.3.1.2.2 Datenbankanbindung ... 76
5.3.1.2.3 Data Mining-Aufgaben ... 77
5.3.1.2.4 Data Mining-Algorithmen ... 77
5.3.2 R-Project/R ... 78
5.3.2.1 Generelle Eigenschaften ... 78
5.3.2.2 Datenbankanbindung ... 79
5.3.2.3 Data Mining-Aufgaben ... 80
5.3.2.4 Data Mining-Algorithmen ... 81
6. Vergleich und Implementationsentscheidung ... 82
6.1 Analyse des zugrunde liegenden Datenmaterials (James II) ... 82
6.2 Abschließender Vergleich ... 82
6.2.1 Modellierungs- und Simulationsumgebungen ... 83
6.2.2 Werkzeuge ... 83
6.2.3 Bibliotheken ... 85
6.3 Ranking der Analysemethoden ... 85
6.4 Implementationsentscheidung ... 86
7. Implementierung ... 93
7.1 Zugrunde liegende Annahmen ... 93
7.2 Hilfsklassen ... 93
7.2.1 Chi-Quadrat-Berechnungen ... 94
7.2.2 Kendalls Tau ... 95
7.2.3 Lineare Korrelation nach Pearson ... 96
7.2.4 Kontingenztabellen ... 97
7.2.5 Student t-Test ... 99
7.2.6 Weitere Hilfsklassen ... 102
7.3 Klassen und Methoden des k-Means-Algorithmus ... 103
8. Auswertung von Simulationsdaten ... 106
8.1 Grundmodell ... 106
8.1.1 Vorausgesetztes Datenmaterial ... 106
8.1.2 Vorverarbeitung ... 107
8.2 Vorgaben ... 108
8.3 Ergebnisse ... 109
8.3.1 Cluster-Analyse mit SPSS ... 109
8.3.2 Cluster-Analyse mit dem in James II implementierten Algorithmus ... 111
8.4 Beurteilung des implementierten Algorithmus ... 112
9. Fazit und Zusammenfassung der Ergebnisse dieser Bachelor-Arbeit ... 113
IV
Literaturverzeichnis ... 114
V
Abstract
Principles and methods of data mining are a widespread area, i.e. retail dealer use data min- ing tools to analyze the behavior of customers, computer hardware supplier use data mining to optimize their inventory. There are multiple possibilities of using data mining techniques, even in technical and scientific areas of applications.
In regard of manyfold fields of application, there are no less than the number of techniques and methods for Data Mining in existence.
Another field to apply Data Mining technique is the domain of simulation. Simulation is the computer-based approach of executing and experimenting of and with models.
One aim of this thesis is to analyze data mining tools to see how capable they are solving data mining duties with respect to data calculated by simulation.
Different data mining tools are analyzed, commercial tools like SPSS and SPSS Clementine as well as established and freely available tools like WEKA and the R-Project. These tools are analyzed in matters of their data mining functionalities, options to access different data sources, and their complexity of different data mining algorithms.
Beyond the analysis of data mining tools with respect to functionality and simulation, envi- ronments for modeling and simulation are analyzed with respect to their possibilities of the utilization for data mining. These environments are the commercial tools Arena and Any- Logic and the freely available SeSam-Project.
The effect of all processes of analyzing is a ranking of commonly used data mining tech- niques and concepts.
The second part of the thesis occupies with the problem, which data mining method or technique is useful to analyze data provided by a simulation process. It also concerns in which way a method is suitable for the validation of a certain model.
In the long run of this thesis the chosen data mining technique is applied to data generated by a simulation process of diffusion and reaction of substances.
Keywords: data mining, simulation, tools
VI
Abbildungsverzeichnis
Seite
Abbildung 1: Phasen des Data Mining ... 20
Abbildung 2: Beispiele für Klassenbildungsverfahren ... 23
Abbildung 3: Beispiele für Assoziationsalgorithmen ... 24
Abbildung 4: Beispiele für Klassifizierungsverfahren ... 27
Abbildung 5: Beispiele für Zeitreihenanalyseverfahren ... 30
Abbildung 6: Evolutionszyklus eines einfachen genetischen Algorithmus ... 35
Abbildung 7: Datenpaare vor Durchlauf des k-Means-Algorithmus ... 90
Abbildung 8: Datenpaare während Iterationen des k-Means-Algorithmus ... 91
Abbildung 9: UML-Klassendiagramm für Chi-Quadrat-Berechnungen ... 94
Abbildung 10: UML-Klassendiagramm für Kenndalls Tau-Berechnungen ... 95
Abbildung 11: UML-Klassendiagramm lineare Korrelation nach Pearson ... 96
Abbildung 12: UML-Klassendiagramm Kontingenztabellen... 98
Abbildung 13: UML-Klassendiagramm t-Test ... 100
Abbildung 14: UML-Klassendiagramm F-Test ... 101
Abbildung 15: UML-Klassendiagramm k-Means-Algorithmus ... 103
VII
Abkürzungsverzeichnis
ARFF Attribute Relation File Format
ARMA Autoregressive Moving Average
ARIMA Autoregressive Integrated Moving Average
ART Adaptive Resonanz Theorie
BBN Bayesian Beliefs Network
bspw. beispielsweise
bzw. beziehungsweise
CART Classification and Regressions Tree Algorithm
CBR Content based reasoning
CLS Concept Learning System
CRISP Cross industry standard for data mining
CRM Customer Relationship Management
CSV Comma Separated Values
DB Datenbank
DBMS Datenbank-Management-System
DEVS Discrete Event System Specification
DFG Deutsche Forschungsgemeinschaft
DoS Denial of Service
DynDEVS Dynamic Discrete Event System Specification
d.h. das heisst
EDA Exploratory Data Analysis
et al. et alii
etc. et cetera
GPL General Public License
VIII
hrsg. herausgegeben
Hrsg. Herausgeber
HTML Hypertext Markup Language
IBM International Business Machines
inkl. inklusive
i.d.R. in der Regel
Java VM Java Vitual Machine
JDBC Java Database Connectivity
James Java-based Agent Modeling Environment for
Simulation (II), JAva-based Multipurpose Envi- ronment for Simulation (II)
James II Java-based Agent Modeling Environment for
Simulation II, JAva-based Multipurpose Envi- ronment for Simulation II
KDD Knowledge Discovery in Databases
KNIME Kontanz Information Miner
KNN Künstliche Neuronale Netze
LGPL Lesser General Public License
Mrd. Milliarden
MS Microsoft
MSE Mean Squared Error
M&S Modellierung und Simulation
NASA National Aeronautics and Space Administra-
tion
IX
OCR Optical Character Recognition
ODBC Open Database Connectivity
OLAP Online Analytical Processing
o.g. oben genannten
o.V. ohne Verfasser
PDEVS Parallel Discrete Event System Specification
QBE Query by Example
RBF Radial Basis Function
S. Seite
SAP Systemanalyse und Programmentwicklung
SeSam Shell for Simulated Agent Systems
sog. sogenannte
SOM Self Organizing Maps
SpaPi Spatial Pi
SPSS Statistical Product and Service Solution
SQL Standard Query Language / Structured Query
Language
SRT Structural Regression Trees
SSL Secure Socket Layer
s.o. siehe oben
UML Unified Modeling Language
URL Uniform Resource Locator
usw. und so weiter
US / USA United States of America
u.a. und andere
u.U. unter Umständen