• Keine Ergebnisse gefunden

Data Mining - Methoden in der Simulation

N/A
N/A
Protected

Academic year: 2022

Aktie "Data Mining - Methoden in der Simulation"

Copied!
15
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Enrico Seib

Data Mining - Methoden in der Simulation

Bachelorarbeit

Informatik

(2)
(3)

Bibliografische Information der Deutschen Nationalbibliothek:

Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen National- bibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d- nb.de/ abrufbar.

Dieses Werk sowie alle darin enthaltenen einzelnen Beiträge und Abbildungen sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsschutz zugelassen ist, bedarf der vorherigen Zustimmung des Verla- ges. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen, Auswertungen durch Datenbanken und für die Einspeicherung und Verarbeitung in elektronische Systeme. Alle Rechte, auch die des auszugsweisen Nachdrucks, der fotomechanischen Wiedergabe (einschließlich Mikrokopie) sowie der Auswertung durch Datenbanken oder ähnliche Einrichtungen, vorbehalten.

Impressum:

Copyright © 2008 GRIN Verlag ISBN: 9783640145478

Dieses Buch bei GRIN:

https://www.grin.com/document/114550

(4)

Enrico Seib

Data Mining - Methoden in der Simulation

GRIN Verlag

(5)

GRIN - Your knowledge has value

Der GRIN Verlag publiziert seit 1998 wissenschaftliche Arbeiten von Studenten, Hochschullehrern und anderen Akademikern als eBook und gedrucktes Buch. Die Verlagswebsite www.grin.com ist die ideale Plattform zur Veröffentlichung von Hausarbeiten, Abschlussarbeiten, wissenschaftlichen Aufsätzen, Dissertationen und Fachbüchern.

Besuchen Sie uns im Internet:

http://www.grin.com/

http://www.facebook.com/grincom http://www.twitter.com/grin_com

(6)

Bachelorarbeit

Zum Erwerb des akademischen Abschlusses Bachelor of Science in Business Informatics

Zum Thema

Data Mining - Methoden in der Simulation

Eingereicht an der

Fakultät für Informatik und Elektrotechnik der Universität Rostock

Vorgelegt von:

Enrico Seib

Studiengang:

Business Informatics

Bearbeitungszeitraum:

3 Monate

Lehrstuhl für Modellierung und Simulation

Rostock, 8. Januar 2008

(7)

I

Inhaltsverzeichnis

Seite

Abstract (Englische Zusammenfassung) ... V

Abbildungsverzeichnis ... VI Abkürzungsverzeichnis ... VII Vorwort ... XI

1. Einleitung ... 1

1.1 Data Mining ... 1

1.2 Simulation ... 2

1.3 Zusammenführung und Ziele ... 2

2. Simulation ... 3

2.1 Definitionen ... 3

2.1.1 Definition System ... 3

2.1.2 Definition Modell/Modellierung ... 4

2.1.3 Definition Simulation ... 4

2.2 Aufgabenfelder/Anwendungsbereiche ... 6

2.2.1 Vor- und Nachteile der Simulation ... 7

2.2.1.1 Vorteile der Simulation ... 7

2.2.1.2 Nachteile der Simulation ... 7

2.2.2 Simulationsarten ... 8

2.2.2.1 Kontinuierliche Simulation ... 8

2.2.2.2 Diskrete Simulation ... 9

2.2.2.3 Monte Carlo Simulation ... 10

2.3 James II ... 11

2.3.1 Hintergrund ... 11

2.3.2 Ziele ... 12

2.3.3 Einordnung und Entwicklungen ... 12

2.3.4 Entwicklungsstand ... 13

3. Data Mining ... 14

3.1. Definition ... 14

3.2 Ziel(e) des Data Mining ... 15

3.3 Data Mining als Prozess ... 18

3.4 Grundlegende Methoden ... 20

3.4.1 Klassenbildung ... 21

3.4.2 Assoziationen ... 24

3.4.3 Klassifizierung ... 25

3.4.4 Zeitreihenanalyse ... 29

3.5 Optimierung von Data Mining-Modellen und genetische Algorithmen ... 34

3.6. Einsatz von Data Mining in der Simulation ... 35

(8)

II

4. Vergleichskriterien ... 38

4.1 Evaluation der Analysearten ... 38

4.1.1 Klassenbildung ... 38

4.1.2 Assoziationen ... 38

4.1.3 Klassifizierung ... 39

4.1.4 Zeitreihenanalyse ... 40

4.2 Klassifizierung von Data Mining-Werkzeugen ... 41

4.2.1 Erweiterungen von DBMS ... 42

4.2.2 Data Mining-Suiten... 42

4.2.3 Eigenständige Data Mining-Tools ... 43

4.3 Bewertung der Data Mining-Werkzeuge ... 43

4.3.1 Generelle Eigenschaften ... 44

4.3.2 Datenbankanbindung ... 45

4.3.3 Data Mining-Aufgaben ... 48

4.3.4 Data Mining-Algorithmen ... 50

4.4 Nutzung von Data Mining in konkreten Simulationsaufgaben ... 51

5. Analyse ... 56

5.1 Analyse Modellierungs- und Simulations-Umgebungen ... 56

5.1.1 Arena ... 57

5.1.1.1 Beurteilung der Data Mining-Funktionen ... 57

5.1.1.1.1 Externe Datenquellen ... 57

5.1.1.1.2 Analyse und Optimierung ... 58

5.1.1.1.3 Präsentation... 58

5.1.2 AnyLogic ... 59

5.1.2.1 Beurteilung der Data Mining-Funktionen ... 59

5.1.2.1.1 Externe Datenquellen ... 60

5.1.2.1.2 Analyse und Optimierung ... 60

5.1.2.1.3 Präsentation... 61

5.1.3 SeSam ... 62

5.1.3.1 Beurteilung der Data Mining-Funktionen ... 63

5.1.1.3.1 Externe Datenquellen ... 63

5.1.1.3.2 Analyse und Optimierung ... 64

5.1.1.3.3 Präsentation... 64

5.2 Analyse einer Bibliothek ... 65

5.2.1 WEKA ... 65

5.2.1.1 Generelle Eigenschaften ... 65

5.2.1.2 Datenbankanbindung ... 66

5.2.1.3 Data Mining-Aufgaben ... 67

5.2.1.4 Data Mining-Algorithmen ... 69

5.3 Analyse eines Werkzeuges ... 70

5.3.1 SPSS ... 70

5.3.1.1 SPSS Basispaket („SPSS Base“) ... 72

5.3.1.1.1 Generelle Eigenschaften ... 72

5.3.1.1.2 Datenbankanbindung ... 73

5.3.1.1.3 Data Mining-Aufgaben ... 73

5.3.1.1.4 Data Mining-Algorithmen ... 74

(9)

III

5.3.1.2 SPSS Clementine ... 75

5.3.1.2.1 Generelle Eigenschaften ... 75

5.3.1.2.2 Datenbankanbindung ... 76

5.3.1.2.3 Data Mining-Aufgaben ... 77

5.3.1.2.4 Data Mining-Algorithmen ... 77

5.3.2 R-Project/R ... 78

5.3.2.1 Generelle Eigenschaften ... 78

5.3.2.2 Datenbankanbindung ... 79

5.3.2.3 Data Mining-Aufgaben ... 80

5.3.2.4 Data Mining-Algorithmen ... 81

6. Vergleich und Implementationsentscheidung ... 82

6.1 Analyse des zugrunde liegenden Datenmaterials (James II) ... 82

6.2 Abschließender Vergleich ... 82

6.2.1 Modellierungs- und Simulationsumgebungen ... 83

6.2.2 Werkzeuge ... 83

6.2.3 Bibliotheken ... 85

6.3 Ranking der Analysemethoden ... 85

6.4 Implementationsentscheidung ... 86

7. Implementierung ... 93

7.1 Zugrunde liegende Annahmen ... 93

7.2 Hilfsklassen ... 93

7.2.1 Chi-Quadrat-Berechnungen ... 94

7.2.2 Kendalls Tau ... 95

7.2.3 Lineare Korrelation nach Pearson ... 96

7.2.4 Kontingenztabellen ... 97

7.2.5 Student t-Test ... 99

7.2.6 Weitere Hilfsklassen ... 102

7.3 Klassen und Methoden des k-Means-Algorithmus ... 103

8. Auswertung von Simulationsdaten ... 106

8.1 Grundmodell ... 106

8.1.1 Vorausgesetztes Datenmaterial ... 106

8.1.2 Vorverarbeitung ... 107

8.2 Vorgaben ... 108

8.3 Ergebnisse ... 109

8.3.1 Cluster-Analyse mit SPSS ... 109

8.3.2 Cluster-Analyse mit dem in James II implementierten Algorithmus ... 111

8.4 Beurteilung des implementierten Algorithmus ... 112

9. Fazit und Zusammenfassung der Ergebnisse dieser Bachelor-Arbeit ... 113

(10)

IV

Literaturverzeichnis ... 114

(11)

V

Abstract

Principles and methods of data mining are a widespread area, i.e. retail dealer use data min- ing tools to analyze the behavior of customers, computer hardware supplier use data mining to optimize their inventory. There are multiple possibilities of using data mining techniques, even in technical and scientific areas of applications.

In regard of manyfold fields of application, there are no less than the number of techniques and methods for Data Mining in existence.

Another field to apply Data Mining technique is the domain of simulation. Simulation is the computer-based approach of executing and experimenting of and with models.

One aim of this thesis is to analyze data mining tools to see how capable they are solving data mining duties with respect to data calculated by simulation.

Different data mining tools are analyzed, commercial tools like SPSS and SPSS Clementine as well as established and freely available tools like WEKA and the R-Project. These tools are analyzed in matters of their data mining functionalities, options to access different data sources, and their complexity of different data mining algorithms.

Beyond the analysis of data mining tools with respect to functionality and simulation, envi- ronments for modeling and simulation are analyzed with respect to their possibilities of the utilization for data mining. These environments are the commercial tools Arena and Any- Logic and the freely available SeSam-Project.

The effect of all processes of analyzing is a ranking of commonly used data mining tech- niques and concepts.

The second part of the thesis occupies with the problem, which data mining method or technique is useful to analyze data provided by a simulation process. It also concerns in which way a method is suitable for the validation of a certain model.

In the long run of this thesis the chosen data mining technique is applied to data generated by a simulation process of diffusion and reaction of substances.

Keywords: data mining, simulation, tools

(12)

VI

Abbildungsverzeichnis

Seite

Abbildung 1: Phasen des Data Mining ... 20

Abbildung 2: Beispiele für Klassenbildungsverfahren ... 23

Abbildung 3: Beispiele für Assoziationsalgorithmen ... 24

Abbildung 4: Beispiele für Klassifizierungsverfahren ... 27

Abbildung 5: Beispiele für Zeitreihenanalyseverfahren ... 30

Abbildung 6: Evolutionszyklus eines einfachen genetischen Algorithmus ... 35

Abbildung 7: Datenpaare vor Durchlauf des k-Means-Algorithmus ... 90

Abbildung 8: Datenpaare während Iterationen des k-Means-Algorithmus ... 91

Abbildung 9: UML-Klassendiagramm für Chi-Quadrat-Berechnungen ... 94

Abbildung 10: UML-Klassendiagramm für Kenndalls Tau-Berechnungen ... 95

Abbildung 11: UML-Klassendiagramm lineare Korrelation nach Pearson ... 96

Abbildung 12: UML-Klassendiagramm Kontingenztabellen... 98

Abbildung 13: UML-Klassendiagramm t-Test ... 100

Abbildung 14: UML-Klassendiagramm F-Test ... 101

Abbildung 15: UML-Klassendiagramm k-Means-Algorithmus ... 103

(13)

VII

Abkürzungsverzeichnis

ARFF Attribute Relation File Format

ARMA Autoregressive Moving Average

ARIMA Autoregressive Integrated Moving Average

ART Adaptive Resonanz Theorie

BBN Bayesian Beliefs Network

bspw. beispielsweise

bzw. beziehungsweise

CART Classification and Regressions Tree Algorithm

CBR Content based reasoning

CLS Concept Learning System

CRISP Cross industry standard for data mining

CRM Customer Relationship Management

CSV Comma Separated Values

DB Datenbank

DBMS Datenbank-Management-System

DEVS Discrete Event System Specification

DFG Deutsche Forschungsgemeinschaft

DoS Denial of Service

DynDEVS Dynamic Discrete Event System Specification

d.h. das heisst

EDA Exploratory Data Analysis

et al. et alii

etc. et cetera

GPL General Public License

(14)

VIII

hrsg. herausgegeben

Hrsg. Herausgeber

HTML Hypertext Markup Language

IBM International Business Machines

inkl. inklusive

i.d.R. in der Regel

Java VM Java Vitual Machine

JDBC Java Database Connectivity

James Java-based Agent Modeling Environment for

Simulation (II), JAva-based Multipurpose Envi- ronment for Simulation (II)

James II Java-based Agent Modeling Environment for

Simulation II, JAva-based Multipurpose Envi- ronment for Simulation II

KDD Knowledge Discovery in Databases

KNIME Kontanz Information Miner

KNN Künstliche Neuronale Netze

LGPL Lesser General Public License

Mrd. Milliarden

MS Microsoft

MSE Mean Squared Error

M&S Modellierung und Simulation

NASA National Aeronautics and Space Administra-

tion

(15)

IX

OCR Optical Character Recognition

ODBC Open Database Connectivity

OLAP Online Analytical Processing

o.g. oben genannten

o.V. ohne Verfasser

PDEVS Parallel Discrete Event System Specification

QBE Query by Example

RBF Radial Basis Function

S. Seite

SAP Systemanalyse und Programmentwicklung

SeSam Shell for Simulated Agent Systems

sog. sogenannte

SOM Self Organizing Maps

SpaPi Spatial Pi

SPSS Statistical Product and Service Solution

SQL Standard Query Language / Structured Query

Language

SRT Structural Regression Trees

SSL Secure Socket Layer

s.o. siehe oben

UML Unified Modeling Language

URL Uniform Resource Locator

usw. und so weiter

US / USA United States of America

u.a. und andere

u.U. unter Umständen

Referenzen

ÄHNLICHE DOKUMENTE

Iterate over the whole data points: assign each data point to the cluster with the nearest centroid. Recompute cluster centroids based on contained data

Relational Database Systems 1 – Wolf-Tilo Balke – Institut für Informationssysteme – TU Braunschweig 54. 12.2 Supply

– Mining with multiple minimum supports – Mining class association rules. 9.3 Association

Iterate over the whole data points: assign each data point to the cluster with the nearest centroid. Recompute cluster centroids based on contained data

•kann auch alleine für Data Mining- oder OLAP- Zwecke genutzt werden.. Der Data Mining Prozess

A) Es werden oft Windeln gekauft. B) Der Kauf von Windeln führt zum Kauf von Bier.. B) Der Kauf von Windeln führt zum Kauf

Beim Web Mining (vgl. Kapitel 4.2) kommt die Analyse von se- mistrukturierten Texten zum Einsatz, die auf die Tags einer Auszeichnungsspra- che wie HTML zugreift. Zeitreihen

“YouTube eine weltweite, nicht-exklusive und gebührenfreie Lizenz ein (mit dem Recht der Unterlizenzierung) bezüglich der Nutzung, der Reproduktion, dem Vertrieb,