Hochschule Wismar

(1)

(2)

Hochschule Wismar

Fakultät für Wirtschaftswissenschaften

Bachelor-Thesis

Entwicklung eines Data-Mining-Moduls in einem Bankeninformationssystem.

Bachelor-Thesis zur Erlangung des Grades eines

Bachelor of Science (BSc.)

der Hochschule Wismar

eingereicht von: Andreas Hauschild

geboren am 27. April 1986 in Pritzwalk Studiengang Wirtschaftsinformatik

Betreuer: Prof. Dr. rer. nat. Jürgen Cleve Prof. Dr.-Ing. Uwe Lämmel

Wismar, den 24. August 2009

(3)

Inhaltsverzeichnis

1 Einleitung ... 1

1.1 Motivation der Ausarbeitung ... 1

2 Informationssysteme ... 2

2.1 Allgemein ... 2

2.2 Historie der Informationssysteme ... 2

2.3 Einordnung von Informationssystemen im Betrieb ... 3

2.4 Data Warehouse ... 5

2.4.1 Architektur eines Data Warehouse ... 6

2.5 Data Mart ... 7

2.6 OLAP ... 7

3 Data Mining ... 9

3.1 Einführung: ... 9

3.2 CRISP Data Mining Modell ... 10

3.2.1 Business understanding (Verstehen der Aufgabe) ... 10

3.2.2 Data understanding (Datensichtung und Verständnis) ... 11

3.2.3 Data preparation (Datenvorverarbeitung und Transformation) ... 11

3.2.4 Modeling ... 11

3.2.5 Evaluation (Auswertung und Interpretation) ... 11

3.2.6 Deployment (Umsetzung und Auslieferung) ... 11

3.3 Anwendungsgebiete des Data Minings ... 12

3.3.1 Klassifikation ... 13

3.3.2 Schätzungen ... 13

3.3.3 Vorhersage ... 13

3.3.4 Assoziation ... 14

3.3.5 Clustering ... 14

3.4 k-Means-Algorithmus ... 15

3.4.1 Euklidischer Abstand ... 15

3.4.2 Vorteile: ... 16

3.4.3 Nachteile: ... 16

3.5 k-Means-Anwendungsbeispiel ... 17

4 Ausgangssituation ... 21

4.1 MedienHaus Rostock ... 21

4.2 ROTEIRO ... 21

4.3 Das Projekt „Data Mining Engineering“ ... 21

4.3.1 Grundlagen der Fourier-Transformation ... 22

4.3.2 Diskrete Fourier-Transformation ... 22

(4)

ii

4.3.3 Algorithmus der Fourier-Transformation ... 23

4.4 Nutzen der Fourier-Transformation ... 24

4.5 Data Mining und ROTEIRO ... 26

4.6 Prozess-Kernel ... 26

4.7 Entwicklung eines Data Mining Moduls ... 27

5 Entwicklung ... 28

5.1 Einleitung ... 28

5.2 Problemdefinition und Anforderungsanalyse ... 28

5.2.1 Funktionale Anforderungen ... 29

5.2.2 Qualitative Anforderungen ... 29

5.2.3 Systembezogene Anforderungen ... 29

5.3 Pflichtenheft ... 29

5.3.1 Zielbestimmungen ... 29

5.3.2 Produkteinsatz ... 30

5.3.3 Produktübersicht ... 31

5.3.4 Produktfunktionen, -leistungen und –daten ... 31

5.3.5 Qualitätsanforderungen ... 32

5.4 Spezifikation ... 32

5.4.1 k-Means-Modul ... 32

5.4.2 Analyse-Modul ... 33

5.5 Entwurf ... 34

5.5.1 k-Means-Modul ... 35

5.5.2 Analyse-Modul ... 37

5.6 Implementierung ... 42

5.6.1 Tabellenkonventionen ... 42

5.6.2 Module ... 42

5.6.3 Administrative Oberfläche ... 42

5.6.4 Zusammenfassung ... 43

6 Anwendungsfall ... 44

6.1 Business understanding ... 44

6.2 Data understanding ... 44

6.3 Data preparation ... 45

6.4 Modeling ... 46

6.5 Evaluation (Auswertung und Interpretation) ... 46

6.5.1 Analyse 2006/2007 ... 46

6.5.2 Analyse 2007/2008 ... 50

6.6 Evaluation (Auswertung und Interpretation) ... 53

(5)

iii

6.6.1 Schattendistanz ... 53

6.6.2 Idee ... 54

6.6.3 Praktische Anwendung ... 55

6.6.4 DFT und Schattendistanz-Analyse 2007/2008 ... 55

6.6.5 Fazit ... 59

7 Schlussfolgerungen und Ausblick ... 60

Anhang I Datenbankdiagramme und -tabellen ... vii

Anhang II Screenshots der Weboberfläche... xiv

Anhang III Quellcodebeispiel ... xviii

(6)

Abbildungsverzeichnis

Abbildung 1 Historische Einordnung von Informationssystemen ... 4

Abbildung 2 Betriebliche Informationspyramide ... 5

Abbildung 3 Data Warehouse Architektur ... 6

Abbildung 4 Mehrdimensionale Abbildung von Verkaufsdaten über Region, Produkt und Quartal. ... 8

Abbildung 5 Phasen des CRISP-DM Prozessmodells ... 12

Abbildung 6 Dendogramm ... 15

Abbildung 7 Initialisierung der Clusterzentren ... 17

Abbildung 8 Verschiebung eines Zentrums nach der ersten Iteration... 19

Abbildung 9 Verschiebung beider Zentren nach der zweiten Iteration ... 20

Die Abbildung 11 zeigt zwei Zeitreihen, die einen gleichen, aber zeitlich verschobenen ... 25

Abbildung 11 Verlauf der Zeitreihen ZR1 und ZR2 ... 25

Abbildung 12 Frequenzspektren von ZR1 und ZR2 ... 25

Die Abbildung 14 zeigt die Integration des Data Mining Moduls ins ROTEIRO Informationssystem. Das Modul enthält zwei weitere Komponenten, einmal Komponente k-Means für das Clustern von Daten, sowie die eigentliche Analysekomponente für den Vergleich von Datensätzen. Die Datenbasis für die Module bildet die Kundendatenbank von ROTEIRO. ... 31

Abbildung 14 Schematische Einordung der Data Mining Komponenten ... 31

Abbildung 15 Ablauf der Datenverarbeitung im K-Means Modul ... 32

Abbildung 17 Vereinfachte Darstellung des Vergleichsprozesses ... 34

Abbildung 18 Schematische Darstellung zur Speicherung von Datensätzen ... 38

Abbildung 19 ERD Datensätze ... 38

Abbildung 20 Schematische Darstellung zur Speicherung von Übergabe und Aufrufparameter ... 39

Abbildung 21 ERD Parameter ... 39

Abbildung 22 Schematische Darstellung zur Speicherung von Clusterinformationen ... 39

Abbildung 23 ERD Cluster ... 39

Abbildung 24 ERD K-Means Prozess ... 40

Abbildung 25 Vollständiges ERD der Data Mining Komponente ... 41

Abbildung 26 Kunde K1 zeigt eine auffällige Verhaltensänderung, wohingegen Kunde K2 sein Verlauf nur eine Rechtsverschiebung der Kurve von 3 Einheiten nach rechts aufzeigt, ansonsten aber identisch ist. ... 46

Abbildung 27 Aufrufparameter für die Vergleichsanalyse ... 46

Abbildung 28 Visulisierung typischer Zeitreihen des Clusterprozesses(mit 4, 8 oder 12 zu bildenden Clustern, Datensatz 2006). Dargestellt werden zufällig ausgewählte Zeitreihen der beiden Clustern, welche die meisten Zeitreihen enthalten. ... 47

Abbildung 29 2006/2007 12 Cluster, Datensätze von Cluster 0. Wanderer von 0  5 ... 49

Abbildung 31 Auszug einer Kunde/Zeitreihe, die als verändert markiert wurde. Dargestellt sind der Ertragsverlauf von 2006(Hauptdatensatz) und 2007(Vergleichsdatensatz) ... 49

Abbildung 32 Auswahl zufälliger Zeitreihen aus den Clustern 8 und 0, bei der Analyse mit 12 zu bildenden Clustern im Datensatz von 2007 ... 50

Abbildung 33 Auswahl zufälliger Zeitreihen aus den Cluster 5 und 0, bei der Analyse mit 8 zu bildenden Clustern im Datensatz von 2007 ... 51

Abbildung 34 Auswahl zufälliger Zeitreihen aus den Cluster 2 und 3, bei der Analyse mit 8 zu bildenden Clustern im Datensatz von 2007 ... 51

(7)

v

Abbildung 37 Visualisierung der Zeitreihe Z1, vorher und nachher (links: Verlauf, rechts:

Frequenzen) ... 53

Abbildung 38 Gleiche, aber zeitlich verschobene Zeitreihen R1a und R1b ... 54

Abbildung 39 Darstellung der Schattenabstandsberechnung ... 54

Abbildung 41 Zwei Verläufe, die sich im Hauptcluster der DFT-Analyse befinden ... 56

Abbildung 42 Auswahl zufälliger Zeitreihen aus den Clustern 2 und 8, bei der Schattenanalyse mit 12 zu bildenden Clustern im Datensatz von 2007 ... 57

Abbildung 43 Zwei Zeitreihen, bei der die DFT die gleichen Frequenzspektren ermittelt ... 57

(8)

Tabellenverzeichnis

Tabelle 1 Werte der Zeitreihen ZR 1 und ZR 2 ... 25

Tabelle 2 Frequenzspektren der Zeitreihen ZR1 und ZR2 ... 25

Tabelle 3 Phasen der Softwareentwicklung (Quelle: SERD S. 21) ... 28

Tabelle 4 Übergabe und Aufrufparameter des K-Means Moduls ... 37

Tabelle 5 Beispiel für eine Monatsertragsliste ... 45

Tabelle 6 Name der Datensätze und die Anzahl der enthaltenen Zeitreihen ... 45

Tabelle 7 Ergebnisse des k-Means-Moduls zur Clusteranalyse. Dargestellt sind die Cluster sowie ihre absolute und relative Anzahl der zugeordneten Zeitreihen ... 47

Tabelle 8 Ergebnisdaten des Vergleichsprozesses 2006 mit 2007 ... 48

Tabellen 9 Menge der Wechsler sortiert nach Ursprungs- und Zielcluster aus dem Vergleich 2006 mit 2007 ... 48

Tabelle 10 Ergebnisse des k-Means Modul zur Clusteranalyse. Dargestellt sind die Cluster sowie ihre absolute und relative Anzahl der zugeordneten Zeitreihen ... 50

Tabelle 11 Ergebnisdaten des Vergleichsprozesses 2007 mit 2008 ... 51

Tabellen 12 Menge der Wechsler, sortiert nach Ursprungs- und Zielcluster aus dem Vergleich 2007 mit 2008 ... 52

Tabelle 13Beispiel für einen "Kundenverlauf" vorher und nachher ... 53

Tabelle 14 Frequenzen der Zeitreihen ... 53

Tabellen 15 Beispieldaten für die Ermittlung der Schattendistanz ... 54

Tabelle 16 Aufrufparameter der Vergleichsanalyse ... 55

Tabelle 17 Ergebnisses des Clustervorgangs für die Schattendistanz und DFT ... 56

Tabelle 18 Werte der in Abbildung 37 ausgewählten Zeitreihen ... 57

Tabelle 19 Ergebnisse der Vergleichsanalyse bei Anwendung des Schattenabstandes oder DFT ... 58

Tabelle 20 Menge der Wechsler, sortiert nach Ursprungs- und Zielcluster aus dem Schattenvergleich 2007 mit 2008 ... 58

(9)

Abkürzungsverzeichnis

CRISP Cross Industry Standard Process

DM Data Mining

DSS Decision Support Systems

EIS Executive Information Systems

ERD Entity-Relationship-Diagramm

EUS Entscheidungssünterstützende Systeme

FIS Führungsinformationssysteme

IIS Internet Information Services

IPC Inter Process Communication

MHR MedienHaus Rostock GmbH

MIS Management Information Systems

MS Microsoft

MSSQL2005 Microsoft SQL Server 2005 OLAP Online Analytical Processing

SQL Structured Query Language

(10)

1 Einleitung 1.1 Motivation der Ausarbeitung

1

1 Einleitung

1.1 Motivation der Ausarbeitung

Durch die laufende Verbesserung und Entwicklung von schnellen und stabilen Datenbanktechnologien sowie der Vergrößerung von Speichermedien in den letzten Jahren wurde es möglich, immer mehr Daten aktiv zu halten. Ein weiterer Faktor dieser Entwicklung ist die permanent ansteigende Rechenleistung, welche die Verarbeitung dieser Datenmengen überhaupt erst ermöglicht.

Um diese Datenmengen effektiv nutzen zu können, mussten und müssen entsprechende Softwaresysteme geplant und entwickelt werden. Die daraus resultierenden Informationssysteme machen es sich zur Aufgabe, die Vielfalt von vorhandenen Daten zu verarbeiten und nutzergeeignet zu präsentieren. Jedoch wird üblicherweise nur das bekannte Wissen des Datenbestandes für diese Aufgaben verwendet, was jedoch nicht das gesamte vorhandene Wissen darstellt. An genau dieser Stelle können Verfahren und Methoden des Data Minings für einen Informationsgewinn sorgen, indem sie dem großen Datenbestand nutzvolles Wissen entlocken. Dieser zusätzliche Gewinn von Informationen kann einen direkten Wettbewerbsvorteil für ein Unternehmen bedeuten.

Im Rahmen eines Projektes der Hochschule Wismar, der MedienHaus Rostock GmbH und der HypoVereinsbank AG wurde das Gebiet des Financial Engineering hinsichtlich der Eignung im Bezug auf Data-Mining-Verfahren genauer betrachtet. In diesem Projekt wurden Methoden und Verfahren untersucht und ausgewertet, die sich für die Untersuchung des Kundenzahlungsverhaltens eigneten.

Ziel dieser Arbeit ist die teilweise¹ Umsetzung und Implementierung der Projektergebnisse in das vom MedienHaus Rostock entwickelte Informationssystem ROTEIRO. Zusätzlich wird die Thematik der Informationssysteme und des Data Minings behandelt, um dem Leser ein grundlegendes Verständnis dieser Themen zu bieten.

1In Kapitel 5 erfolgt eine genauere Beschreibung der Umsetzung.

(11)

2 Informationssysteme 2.1 Allgemein

2

2 Informationssysteme

2.1 Allgemein

Informationssysteme finden bereits seit längerer Zeit Verwendung im Arbeitsalltag der Unternehmen. Diese sehen heutzutage im Informationsmanagement einen Schlüsselfaktor für den betrieblichen und somit auch wirtschaftlichen Erfolg. Durch die rasante Entwicklung der Informatik sowie der stetige Anstieg an verfügbarer Rechenleistung in den letzten Jahren haben sich Informationssysteme mehr als nur etabliert. Sie sind nicht mehr wegzudenken.

Der Begriff Informationssystem beinhaltet zwei Merkmalsausprägungen: Die Information und das System.

Information ist zweckorientiertes, aus Daten gewonnenes Wissen. Informationen sind für Unternehmen ein erfolgskritisches Attribut, strategische Stellgröße sowie Kostenfaktor.² Ein System ist eine komplexe Einheit, welche eine Menge von miteinander verbundenen Objekten besitzt. Dabei können diese Objekte in sich selbst wieder ein System darstellen (Subsystem des Systems). Subsysteme besitzen eine klare Abgrenzung voneinander.

Systeme können natürlichen (Planeten, Galaxien) oder künstlichen (Internet, Fabrik) Ursprungs sein. Ein System kann sich materiell oder abstrakt (z.B. Zahlensysteme) in seiner Existenz darstellen. Weiterhin wird zwischen offenen und geschlossenen Systemen differenziert. Ein geschlossenes System interagiert nicht mit seiner Umwelt, wohingegen offene Systeme bis zu einem bestimmten Grad dazu in der Lage sind.

Das Verhalten eines Systems kann deterministisch (zu hundert Prozent vorhersehbar), stochastisch (mind. eine Komponente verhält sich „wahrscheinlich“) oder zufällig (Verhalten/Zustände nicht vorhersehbar) sein.³

In der Informatik versteht man unter einem Informationssystem:

„Ein System zur rechnergestützten Erfassung, Speicherung, Verarbeitung, Pflege, Analyse, Benutzung, Verbreitung, Disposition, Übertragung und Anzeige von Information bzw. Daten.

Es besteht aus Hardware (Rechner oder Rechnerverbund), Datenbank(en), Software, Daten und all deren Anwendungen.“⁴

Eine allgemeine Definition liefert [AWI08 S.28]:

„Ein Informationssystem ist ein künstliches, konkretes System, das aus maschinellen und natürlichen Elementen besteht und seine Nutzer mit Informationen versorgt. Es ist gleichzeitig ein Element einer Organisation oder Organisationsbeziehung.“

2.2 Historie der Informationssysteme

2 Vgl. WEC03 S. 4 ff.

3 Vgl. WIK_SYS

4 Siehe WIK_IS.

(12)

2 Informationssysteme 2.3 Einordnung von Informationssystemen im Betrieb

3

Der erstmalige Einsatz von Informationssystemen liegt mehr als dreißig Jahre zurück. Ziel war es damals, Fach- und Führungskräfte bei ihrer Arbeit in der Entscheidungsfindung zu unterstützen. Jedoch konnten viele der ursprünglichen Systeme die gestellten Anforderungen nicht erfüllen. Gründe hierfür waren die Neuheit und die geringe Erfahrung mit solchen Systemen sowie die geringen Ressourcen damaliger Rechner.

Dennoch entwickelten und etablierten sich mit der Zeit verschiedene Systemkategorien, welche heutzutage von nahezu allen modernen Unternehmen eingesetzt werden.⁵

Den Anfang machten in den 60er Jahren die so genannten Management Information Systems (MIS). Kernziele der MIS ist es, aus den verschiedenen sich im Betrieb befindlichen funktionsorientierten Informationssystemen (z.B. Personalinformationssysteme, Marketinginformationssystem, Finanzinformationssysteme), welche über ganzheitliche Informationen verfügen, Daten zu entnehmen und zu verarbeiten und daraus Informationen abzuleiten, die zur Analyse und Entscheidungsfindung für das Management geeignet sind.⁶ Da ein MIS die Endbenutzer nur mit reinen Daten versorgt und keine Methoden zur Unterstützung im Planungs- und Entscheidungsprozess bereithält, entstanden in den 70er Jahren die Decision Support Systeme (DSS) bzw. Entscheidungsunterstützungssysteme (EUS), welche das Ziel hatten, diese Lücke zu füllen. DSS sind interaktive, elektronische Systeme, die Modelle und Methoden zur Entscheidungsunterstützung über eine Benutzeroberfläche zur Verfügung stellen. Der Methodenvorrat besteht in der Regel aus üblichen quantitativen (mathematischen und statistischen) Verfahren. Durch Extrahieren und Verdichten operativer Datenbestände können Modelle zur Entscheidungsfindung für den Endanwender generiert werden. Ein Beispiel wäre ein Modell zum Kundenaufkommen zum Zweck der Personaleinsatzplanung.⁷ Diese Systeme brachten ihren Anwendern ein höheres Maß an Autonomie. Durch die „inselartige“ Ausrichtung dieser Systeme waren diese für unternehmensweite Konzepte des Datenmanagements ungeeignet. Die Schwäche der DSS war, dass sie keine Voraussagen aus bestimmten Signalen oder Situationen treffen konnten.

Die Bewältigung dieser Probleme machten sich die Executive Information Systeme (EIS) oder Führungsinformationssysteme (FIS) zur Aufgabe. Durch die voranschreitende Vernetzung die verbesserte Infrastruktur von Datensystemen in Unternehmen und die Entstehung von anwenderfreundlichen Benutzeroberflächen waren die Voraussetzungen für solche Systeme Mitte der 80er Jahre gegeben. Das charakteristische Merkmal der FIS ist die Präsentationsorientierung. EIS vereinen in der Regel unterschiedliche Datenquellen. Mittels umfangreicher Methoden können Daten verbunden, verdichtet, aggregiert und konsolidiert werden. Die meisten FIS verwenden eine eigene unabhängige Datenbank für die Speicherung der generierten Daten. Anfang der 90er Jahre entstanden die ersten Data Warehouse Systeme, welche erstmals eine globale Sicht auf heterogene und verteilte Daten im Unternehmen ermöglichten. Mit den Data Warehouses etablierten sich auch verschiedene Verfahren zur Datenanalyse, welche in den folgenden Abschnitten genauer beschrieben werden.

2.3 Einordnung von Informationssystemen im Betrieb

Seit einigen Jahren sind die betrieblichen Organisationsformen von unterschiedlichen Veränderungen betroffen, welche die Reaktionsgeschwindigkeiten im Unternehmen positiv beeinflussen. Vor allem der Übergang zu flachen Hierarchien und die Ausweitung des

5 Vgl. CGA06, S. 6 f.

6 Vgl. WEC03, S. 167.

7 Vgl. AWI08, S. 32.

(13)

2 Informationssysteme 2.3 Einordnung von Informationssystemen im Betrieb

4

persönlichen Entscheidungsspielraumes tragen zu dieser Entwicklung bei. Durch die Einbindung von qualifizierten Fachkräften in den Entscheidungsprozess können Probleme schneller, unbürokratischer und vor allem effektiver im Unternehmen gelöst werden. Dieses Merkmal führt zu einer tätigkeitsbezogenen Einteilung von Informationssystemen, weshalb die Arbeitsfelder genauer betrachtet werden müssen. So bilden Administrationssysteme den Einsatz der Elementarfaktoren (Potenzial- und Verbrauchsfaktoren) im Leistungsprozess einer Unternehmung ab und stellen damit Dokumentations- und Bewertungsfunktionalität bereit.⁸ Zusätzlich existieren Dispositionssysteme, welche die kurzfristigen dispositiven Entscheidungen vorbereiten. Sie finden Verwendung in der Außendienststeuerung und der Tourenplanung im Vertrieb, dem Bestellwesen im Handel, der Materialbeschaffung und der Werkstattsteuerung in der Fertigung. Ihr Einsatzgebiet befindet sich hauptsächlich in den unteren und mittleren Führungsebenen.⁹ Administrative und dispositive Informationssysteme werden der Gruppe der operativen Systeme zugeordnet. Da die von den operativen Systemen erfüllten Aufgaben in nahezu jedem Unternehmen gleich sind, existieren bereits einsatzbereite und seit Jahren erprobte Systeme auf dem Markt. Wesentlich komplizierter wird es, wenn Informationssysteme analytische Aufgaben übernehmen sollen. Die Vergangenheit hatte gezeigt, dass viele Systeme zur Entscheidungsunterstützung noch nicht ausgereift waren (Starrheit, keine Interaktivität, zu viele Informationen, mangelnde Datenanbindung). In den letzten Jahren wurden vielversprechende Konzepte entwickelt, welche die Probleme der früheren Systeme lösen können. Schlagwörter sind hier Data Warehouse, On-Line Analytical Processing (OLAP) sowie Data Mining. Ein großer Nachteil dieser neuen Konzepte ist die Umsetzung, da solche Konzepte sehr speziell sind und daher für jedes Unternehmen speziell entwickelt werden müssen, was einen hohen Arbeits- und Kostenaufwand bedeutet. Systeme, welche diese Konzepte implementieren werden als

„Analytische Informationssysteme“ bezeichnet. In der Literatur werden Systeme mit analytischen Ansätzen oftmals als Management unterstützende Systeme bezeichnet.

Abbildung 1 Historische Einordnung von Informationssystemen (Quelle: DAB S.15)

8 Siehe AIS S.10.

9 Vgl. SH_EWI S. 328.

(14)

2 Informationssysteme 2.4 Data Warehouse

5

Abbildung 2 Betriebliche Informationspyramide (Quelle: CGA06 S. 11)

2.4 Data Warehouse

Nach [CGA06 S. 12] wird unter einem Data Warehouse ein unternehmensweites Konzept verstanden, dessen Ziel es ist, eine logisch zentrale, einheitliche und konsistente Datenbasis für die vielfältigen Anwendungen zur Unterstützung der analytischen Aufgaben von Fach- und Führungskräften aufzubauen, die losgelöst von den operativen Datenbanken betrieben werden. Dabei erfolgt eine strikte Trennung von entscheidungsunterstützenden, operationalen Daten und Systemen in der Unternehmung. Der Begriff Data Warehouse wird in der Literatur oft mit „Daten-Warenhaus“ übersetzt, was jedoch nicht korrekt ist. Die richtige Übersetzung für den Begriff Warehouse ist Lager oder Depot. Dennoch kann die Übersetzung als Warenhaus oder besser noch Handelshaus als durchaus passend bezeichnet werden, wenn man den Datenfluss mit dem Warenfluss im Handel vergleicht. Die operativen Systeme im Unternehmen und externe Quellen wären die Lieferanten dieses fiktiven Warenhauses. Datei-, Archivierungs- und Datenbanksysteme könnten als Zwischenlager verstanden werden. Aus diesen wird dann das Produktportfolio nach den Bedürfnissen des Endverbrauchers im Handelshaus zusammengestellt. Damit die Waren schnell und ohne Verzögerung zu finden sind, muss ein hoher Grad an Ordnung im Warenhaus vorhanden sein. Diese Ordnung wird durch ein fundiertes und konzeptionelles Modell sichergestellt.¹⁰

10 In Anlehnung an MB_DWK S.35.

(15)

2 Informationssysteme 2.4 Data Warehouse

6 2.4.1 Architektur eines Data Warehouse 2.4.1.1 Allgemein

Bei einem Data Warehouse handelt es sich um ein komplexes System. Aus Sicht der Informationssystemarchitektur befindet es sich als Schicht zwischen Anfrage- und Analysewerkzeugen und den Datenquellen.¹¹

Abbildung 3 Data Warehouse Architektur (Quelle: IN1)

2.4.1.2 Datenschnittstelle

Die Input-Schicht ist die Schnittstelle zwischen internen und externen Daten des Data Warehouse. Bei Daten aus internen Datenquellen handelt es sich um Daten, die aus unternehmenseigenen Datenquellen (meist operativen Systeme) zur Verfügung gestellt werden. Daten aus externen Datenquellen sind alle Daten, die von unternehmensexternen Quellen (z. B. allgemeine Daten zur Wirtschaftslage) stammen. Dabei findet die Übertragung meist über das Internet statt. Bevor die Daten aus internen und externen Quellen in das Data Warehouse übernommen werden können, müssen diese gründlich aufbereitet und gereinigt werden („Data Scrubbing“). Ziel dieses Prozesses ist die Schaffung einer einheitlichen Datenbasis für das Data Warehouse. Gegenüber Daten aus operativen Systemen lassen sich für die Datenhaltung der Informationseinheiten in einem Data Warehouse vier typische Merkmale festlegen:¹²

Themenorientierung:

Operativen Anwendungssystemen, welche für das effiziente Erledigen der Tagesaufgaben ausgelegt sind, sind für die Entscheidungsunterstützung im Management nur geringfügig geeignet sind. Daher steht bei der Konzeption eines Data Warehouse eine klare datenorientierte Herangehensweise im Vordergrund, wobei Informationseinheiten auf inhaltliche Sachverhalte fokussiert werden. Die Konzentration der Inhalte basiert vielmehr auf Themenschwerpunkte, wie Produkte und Kunden, regionale Umsatzdaten oder die Unternehmensstruktur (z.B. Geschäftsbereiche, Subunternehmen). Da die

11 Vgl. AWI08 S. 246.

12 Vgl. MB_DWK S.37 ff. und CGA06 S.13 f.

(16)

2 Informationssysteme 2.5 Data Mart

7

Themenschwerpunkte für jedes Unternehmen individuell sind, sind sie nicht auf die hier genannten Bereiche beschränkt.

Zeitraumbezug:

Eine zeitpunktexakte Betrachtung von Daten, wie es in den operativen Informationssystemen im Unternehmen der Fall ist, ist für die Entscheidungsfindung auf Management-Ebene eher überflüssig und kann daher vernachlässigt werden. Für die Analyse sind Zeitreihen und die Entwicklung bestimmter unternehmensspezifischer Daten viel interessanter. Daher sind üblicherweise in einem Data Warehouse Daten über einem Zeitraum von mehreren Jahren vorhanden. Dabei werden die Daten abhängig von ihrem Alter in unterschiedlichen Aggregationsstufen (Verdichtungen) gespeichert.

Struktur und Formatvereinheitlichung:

Die Vereinheitlichung der Input-Daten ist ein zentrales Merkmal des Data Warehouse- Konzeptes. Ziel ist die Schaffung eines in sich konsistenten Datenbestandes, der korrekt und akzeptabel verwertet und ausgegeben werden kann. Die Vereinheitlichung bezieht sich häufig auf Kodierung, Namensgebung und Bemaßung verschiedener Input-Daten.

Beständigkeit:

Grundsätzlich werden korrekt importierte Daten nicht verändert und sind somit ewig im System vorhanden. Durch diese Beständigkeit von Daten kommen in Data Warehouses diverse Kumulationsverfahren und optimierte Speichertechniken zum Einsatz. Ziel dieser Methoden ist es, die Zeit für einzelne Abfragen und Analysen mit wachsender Datenmenge in einem für den Entscheidungsträger akzeptablen Zeitraum zu ermöglichen.

2.5 Data Mart

Data Marts können als kleine „spezialisierte“ Data Warehouses verstanden werden. Sie beinhalten eine bestimmte Teilmenge der Daten aus dem Data Warehouse. Umsatzdaten könnten zum Beispiel regionen- oder produktspezifisch aus dem Data Warehouse extrahiert und in den Data Mart importiert werden. Die hierbei entstehende redundante Datenhaltung wird bewusst in Kauf genommen. Mittels einer gezielten Analyse des Informationsbedarfs der Geschäftsprozesse können Data Marts so gestaltet werden, dass sie 80% der Anfragen mit 20% der gesamten Daten abdecken können.¹³ Die somit gewonnnenen Performancevorteile können beachtlich sein, da der Datenzugriff im Data Mart und nicht im Data Warehouse stattfindet.

2.6 OLAP

Das Konzept des On Line Analytical Processing ist eine Weiterentwicklung des relationalen Datenmodells und wurde im Jahre 1993 von E.F. Codd eingeführt.¹⁴ Mithilfe von OLAP- Abfragen können die Schwächen des relationalen Datenmodells, welches keine einfachen Ad-hoc-Analysen erlaubt, umgangen werden. Es ist zwar durchaus möglich, mit Hilfe von komplexen SQL-Abfragen detaillierte Informationen zu erhalten. Dafür wird aber ein in SQL

13 Vgl. MH_DWK S.41.

14 Vgl. DWD Lusti S. 147.

(17)

2 Informationssysteme 2.6 OLAP

8

geschulter Anwender benötigt, der nicht immer vorausgesetzt werden kann. Vor allem Anwender von Führungs- und Entscheidungsunterstützungssystemen besitzen keine tiefgreifende Schulung in SQL, brauchen aber dennoch eine effektive Möglichkeit zur Analyse von Was-Wäre-Wenn-Fällen sowie eine grafische Aufbereitung von mehrdimensionalen Daten.

Abbildung 4 Mehrdimensionale Abbildung von Verkaufsdaten über Region, Produkt und Quartal.

(Quelle: IN2)

OLAP ermöglicht als Methode zur Datenabfrage eine effektive und benutzerfreundliche Analyse von Daten aus Datamarts oder Data Warehouses. Lusti¹⁵ beschreibt die grundsätzlichen Eigenschaften wie folgt:

benutzerfreundlich, weil Objekte durch den Benutzer veränderbar sind und Ergebnisse übersichtlich dargestellt werden

mehrdimensional, weil es Objekte nach ihren Dimensionen analysiert werden

detaillierend und zusammenfassend, einfacheres Wechseln und Bewegen von hierarchischen Dimension

analysierend und synthetisiernd, Hinzufügen und Entfernen von Dimensionen durch den Benutzer, ohne dass er vorher ein komplexes Datenmodell genau kennen und durchsuchen muss

vorberechnend, weil aufwendige Ad-hoc-Analysen, durch vordefinierte und aggregierte Daten

schnell, weil die meisten Abfragen in kürzester Zeit beantwortet werden

Data Mart/Warehouse-orentiert, weil es in der Regel nicht auf die Produktionsdatenbank zugreift

Der große Vorteil von OLAP-Anwendungen besteht in der Verbindung der gleichzeitigen Abfrage und Analyse von Daten. Betriebliche Anwendungen sind zum Beispiel:

Soll-Ist-Vergleich Bestandsanalysen Qualitätsanaylsen

Was-Wäre-Wenn-Analysen

15 Vgl. DWD Lusti S. 147.

(18)

3 Data Mining 3.1 Einführung:

9

3 Data Mining

Dieses Kapitel ist eine grundlegende Einführung in die Thematik des Data Minings. Dazu werden einige Methoden, Verfahren und Ziele des Data Minings aufgezeigt. Ein besonderer Schwerpunkt dieses Kapitels ist die Darstellung des Clusteralgorithmus k-Means, da dieser die Grundlage für die weitere Arbeit bildet. Weiterhin wird auf die Darstellung und Beschreibung von neuronalen Netzen verzichtet, da diese nicht Gegenstand der Arbeit sind.

3.1 Einführung:

Unternehmen, Behörden, Forschungseinrichtungen und das Militär besitzen durch die Möglichkeiten der Digitalisierung gigantische Datenbestände. Dennoch wissen viele Organisationen nicht, was sie alles wissen könnten. Brachliegende Informationen sind wertlos, wenn sie gar nicht oder erst zu spät entdeckt werden.

Man kann sich diesen Datenhaufen als Gebirge mit reichhaltigen Rohstoffvorkommen vorstellen und diese Rohstoffe können mit Hilfe des Data Minings (minen „schürfen“) ans Tageslicht befördert werden. Anhand eines Beispiels soll diese Problematik aufgezeigt werden.

Marketing-Abteilungen stehen immer wieder vor der Frage, welchem Kunden sie welches Angebot unterbreiten möchten. Bei Versicherungen bestimmen meistens das Alter sowie das Einkommen die Offerte an den Kunden. Mit dieser Methode erreicht man zwar sehr viele Menschen, aber oft wenig potentielle Kunden. Es kann durchaus sein, dass jemand stets dasselbe Angebot erhält, das er schon die vorhergehenden Male unpassend fand. Dies würde mit hoher Wahrscheinlichkeit zu einer Verärgerung des Empfängers führen. Weiterhin sind die entstehenden Kosten durch den Druck und Versand von Werbeschreiben nicht zu vernachlässigen. Mittels Data Mining besteht nun die Möglichkeit, anhand des vorhandenen Datenbestandes zu klassifizieren. So könnten Teilgruppen von Kunden mit spezifischen Merkmalen gebildet werden wie:

Verheiratete Kunden, die haftpflichtversichert sind, haben meist auch eine Lebensversicherung

Ledige Kunden haben meist eine Haftpflicht-, aber meist keine Lebensversicherung Solche Informationen sind ein klarer Kostenvorteil, da die Marketingabteilung nun weiß, dass sie bei ledigen Kunden keine Werbung für Lebensversicherungen zu machen braucht, da diese nur wenig Erfolg versprechen. Verheiratet Personen ohne Lebensversicherung sind dahingegen viel besser für diese Werbung geeignet, da sie mit hoher Wahrscheinlichkeit eine Lebensversicherung abschließen würden. Ziele des Data Minings sind das Erkennen von Regeln und Mustern sowie statistische Besonderheiten in großen bis sehr großen Datenmengen, wobei kleinere Datenbestände auch durchaus geeignet sein können. Je nach Analysekontext sind verschiedene Muster von Interesse, z.B.:¹⁶

Warenmuster Sprachmuster Gebrauchsmuster

16 Vgl. DMP S. 10 f.

(19)

3 Data Mining 3.2 CRISP Data Mining Modell

10 Verhaltensmuster

Bildmuster

Geschmacksmuster Kaufmuster

3.2 CRISP Data Mining Modell¹⁷

Trotz der im Detail hohen Komplexität des Data Mining Prozesses ist man seit jeher ambitioniert die Teilschritte, welche für einen erfolgreichen Projektablauf nötig sind, zu standardisieren. Das CRISP Modell wurde im Jahre 2000 nach vierjähriger Entwicklungszeit von den Firmen NCR Systems Engineering (USA, Dänemark), SPSS Inc. (USA), OHRA Verzekeringen Bank Groep B.V. (Niederlande) und der DaimlerChrysler AG (Deutschland) vorgestellt. CRISP-DM steht für Cross Industry Standard Process for Data Mining und hat sich mittlerweile als industrieller Standart etabliert.¹⁸

Bei der CRISP-Data-Mining-Methodologie handelt es sich um ein hierarchisches, vier- stufiges Prozess-Modell. Dabei unterscheiden sich die einzelnen Level (Stufen) durch ihren Abstrahierungsgrad (allgemein bis spezifisch) voneinander.

Auf dem ersten Level ist der Data-Mining-Prozess in abstrakten Phasen organisiert (z.B.

Datenvorverarbeitung). Jede Phase besitzt wiederum verschiedene untergeordnete Level- Zwei-Prozesse.

Der zweite Level ist der generische Level (allgemein), um alle Situationen und Applikationen, die während des Data Minings auftreten, berücksichtigen zu können (z.B.

Füllen von Datenlücken).

Der dritte Level beschreibt, wie die im zweiten Level festgelegten Situationen speziell behandelt werden sollen. So wird zum Beispiel im dritten Level genauer beschrieben, bei welcher Situation welches Verfahren verwendet werden soll (zum Beispiel Lückenfüllung von Zahlen oder Zeichenketten.). Der vierte Level diskutiert die konkreten Aktionen, Entscheidungen und Resultate, die während des Data Minings Vorgang entstanden sind.

Weiterhin enthält [CRP1] ein Referenzmodel, welches den zeitlichen Ablauf eines Data Mining Projektes in sechs Phasen spezifiziert. Diese Abläufe sind dabei so organisiert, dass während der Projektdurchführung zurückliegende Phasen betrachtet und gegebenenfalls wiederholt werden können.

3.2.1 Business understanding (Verstehen der Aufgabe)

In dieser Phase versucht der Daten-Analytiker durch Gespräche und Interviews mit dem Klienten, die Anforderungen und Ziele aus der Sicht des Auftragsgebers zu ergründen.

Zusätzlich werden auch die Kosten und Ressourcen sowie Restriktionen und Risiken diskutiert. Ziel ist es, die für das Data Mining benötigten Kernaspekte herauszufinden und mit Hilfe der erworbenen Informationen eine Data Mining Projektdefinition (Erfolgskriterien und Ziele) festzulegen sowie einen anfänglichen Projektplan zu erstellen.

17 Vgl. CRP1.

18 Vgl. DMIP S.59.

(20)

3 Data Mining 3.2 CRISP Data Mining Modell

11

3.2.2 Data understanding (Datensichtung und Verständnis)

Im Teil des „Data understanding“ geht es um die erste Sichtung der Daten, um eine grundlegende Übersicht über die vorhandenen Daten zu erhalten. Weiterhin werden die Art und Größe der Datenquellen sowie die vorhandenen Datentypen ermittelt. Zusätzlich findet eine grundlegende Analyse der Daten in Bezug auf zukünftige Zielattribute und Zusammenhänge zwischen Attributen statt. Zum Schluss wird der Datenbestand hinsichtlich Fehlerquote und Datenqualität bewertet und ein Qualitätsreport erstellt.

3.2.3 Data preparation (Datenvorverarbeitung und Transformation)

Im ersten Abschnitt dieser Phase wird eine Liste erstellt, welche die Daten für den späteren Analyseprozess enthält. Die Daten werden anhand der relevanten Data-Mining-Ziele, Qualität und Datentypen ausgewählt. Anschließend werden die Daten gesäubert und aufbereitet (z.B. Lückenbefüllung). Danach werden neue, für die Analyse nützliche Datensätze aus den vorhandenen und bereinigten Daten generiert (z.B. durch Zusammenführung von Tabellen, „Umsatz pro Filiale zu Umsatz pro Region“). Der letzte Schritt ist die Transformation der Daten in ein von dem „Modeling Tool“ gefordertes Format.

3.2.4 Modeling

Als erster Schritt wird die anzuwendende Analysetechnik festgelegt (z.B. Clusterbildung via k-Means Algorithmus) und dokumentiert. Anschließend wird ein „Test Design“ erstellt und das ausgewählte Verfahren auf die Testdaten angewendet. Unter „Test Design“ wird hier die Aufteilung in Training-, Test- und Validationsdaten verstanden, da bestimmte Methoden (z.B. Klassifikationsverfahren) diese voraussetzen. Während dieser Phase werden mehrere Analysen mit unterschiedlichen Parametern bzw. Konfigurationen durchgeführt, so dass zum Schluss mehre Ergebnisses existieren, die hinsichtlich Genauigkeit und Qualität bewertet werden können.

3.2.5 Evaluation (Auswertung und Interpretation)

Mit Hilfe der aus Phase vier erworbenen Informationen wird das Modell ermittelt, welches am besten die festgelegten Ziele erfüllt. Die übrigen Modelle, welche die Zielvorgaben weniger gut erreichten, werden hinsichtlich ihrer zukünftigen Eignung bewertet. Weiterhin wird der gesamte Prozess bis hierher sowie das erhaltene Model genauestens überprüft und getestet, so dass Fehler (übersehene Aspekte der Aufgabenstellung), welche in früheren Phasen eventuell entstanden sind, beseitigt werden können.

3.2.6 Deployment (Umsetzung und Auslieferung)

Die Ergebnisse des Data Minings sowie alle Teilschritte werden in einem Report zusammengestellt, so dass die Anforderungen seitens des Auftragsgebers erfüllt sind. Das Projekt kann mit der Präsentation abschließen oder anhand der Ergebnisse weitergeführt werden. Ein automatisierter, kontinuierlich ablaufender Data Mining Prozess innerhalb des Unternehmens wäre als Weiterführung denkbar.

(21)

3 Data Mining 3.3 Anwendungsgebiete des Data Minings

12

Abbildung 5 Phasen des CRISP-DM Prozessmodells (Quelle: CRP2)

3.3 Anwendungsgebiete des Data Minings

Grundsätzlich lassen sich die Problemstellungen der Wissenschaft und Wirtschaft, welche mit Data Mining je nach Branchenbezug, Mustertyp und Data Mining-Methoden, bearbeitet werden können, in folgende fünf Aufgabenbereiche gliedern:¹⁹

Klassifikation Schätzungen Vorhersage Assoziation Clustering

Bei den ersten drei Bereichen handelt es sich um direktes Data Mining. Ziel ist hierbei die direkte Zuordnung eines Objektes zu einer Gruppe. Zum Beispiel gehört der Schäferhund zu der Gruppe der Hunde. Die anderen sind nicht direktes Data Mining. Hierbei ist das Ziel das Auffinden von bisher unbekannten Zusammenhängen innerhalb von Datensätzen. So können z.B. Verhaltensmuster entdeckt werden, wie der Kunde, der zu seinem Bier noch zusätzlich Chips kauft. Ein Einzelhändler könnte daraufhin sein Produktanordnung überdenken und Bier und Chips weit auseinander platzieren, so dass der Kunde an möglichst vielen anderen Waren vorbei gehen muss und dadurch eventuell zusätzlich zum Kauf angeregt wird.

19 Vgl. DMT Seite 8 ff.

(22)

13 3.3.1 Klassifikation

Ziel von Klassifikations-Verfahren ist die Bildung von Gruppen durch Zusammenfassung von Datensätzen des Datenbestandes mittels ihrer Merkmalsausprägungen durch eine konkret vorgegebene Problemstellung. Klassifizierung ist die Zuordnung von Datensätzen anhand ihrer Merkmale zu einer Klasse, wobei die Zielklassen bereits bekannt sind. Nicht klassifizierte Datensätze (z.B. Neukunden) können somit fest definierten Gruppen beziehungsweise Klassen zugeordnet werden. Mittels der zugeordneten Klasse können später entscheidungsunterstützende Informationen abgeleitet werden.

Beispiele für die Klassifizierung von Daten sind:

Klassifizierung der Kundenbonität in schlecht, mittel und gut Einordnung von Versicherungsnehmern in Risikogruppen

Geeignete Techniken für die Klassifizierung von Daten sind Entscheidungsbäume, sowie sogenannte „Nearest Neighbour Verfahren“. Neuronale Netzte sind unter gewissen Umständen ebenfalls geeignet.

3.3.2 Schätzungen

Gegenüber einer Klassifikation, welche auf einem Eingabewert eine diskrete Zuweisung trifft, wird bei einer Schätzung eine Zuweisung oder Ergebnis vermutet. In der Praxis werden Schätzungen häufig für Klassifizierungsaufgaben verwendet, wobei ein Klassenmodel häufig auf Erfahrungswerte basiert. Ein Kreditkartenunternehmen könnte Werbeplatz auf ihren Rechnungen an einen Hersteller für Wintersportartikel verkaufen. Dafür müsste ein Modell entwickelt werden, das die Kreditkartenkunden in zwei Gruppen aufteilt (Wintersportler und Nicht-Wintersportler) oder nach einem Punktesystem bewertet. Das Punktesystem ist hier die bessere Methode, weil eine Sortierung der Kundeneignung erfolgen kann. Hat der Wintersportartikel-Hersteller ein Budget von 100.000 Werbeplätzen veranschlagt, die Kreditkartenfirma aber 10.000.000 Kunden, so können die 100.000 erfolgsversprechenden Kunden beworben werden.²⁰

Weitere Anwendungen sind:

Schätzen der Kinder in einem Haushalt Schätzen des Haushaltseinkommen

Schätzen des Wertes (für das Unternehmen) eines Kunden

Regressionsanalysen und Neuronale Netze sind für Schätzungsaufgaben sehr gut geeignet.

3.3.3 Vorhersage

Vorhersage ist im Grunde genommen mit Klassifizierung und Schätzung gleichzusetzen, nur dass hier die Datensätze nach einem zukünftig vermuteten Verhalten klassifiziert werden.

Die meisten Vorhersagemodelle basieren grundsätzlich auf Erfahrungswerten aus der Vergangenheit. Weiterhin können solche Modelle nicht auf Richtigkeit überprüft werden, da hier eine Überprüfung erst zu einem späteren Zeitpunkt stattfinden kann (rückblickender Vergleich). Beispiele für Vorhersagen sind:

20 Vgl. DTM Seite 9 ff.

(23)

14

Welcher Kunde wird voraussichtlich innerhalb der nächsten 12 Monate unser Unternehmen verlassen?

Welches Produkt kann dem Kunden in Zukunft angeboten werden?

Viele Data-Mining-Verfahren eignen sich für Vorhersagen, wobei die geeigneten Verfahren von der Aufgabenstellung abhängen.

3.3.4 Assoziation

Mittels einer Häufigkeitsanalyse untersuchen Assoziationsalgorithmen einen Datenbestand hinsichtlich der Häufigkeiten des gleichzeitigen Auftretens von Objekten und Ereignissen.²¹ Ein typisches Anwendungsgebiet dieser Algorithmen ist die Warenkorbanalyse bezüglich der Frage: „Was wird zusammen mit was gekauft?“. Ausgangspunkt einer solchen Analyse ist eine Menge von Transaktionen T, die alle kaufbaren Produkte enthält. Die hierfür nötigen Informationen werden über die Kassensysteme erfasst und in einer Datenbank abgelegt.

Mittels Assoziationsverfahren werden Regeln in der Form: XY mit der Annahme, dass mit dem Kauf des Produktes X (Prämisse) auch das Produkt Y (Konklusion) erstanden wird.

Grundsätzlich werden zwei Maße bei Regeln definiert. Der Support einer Regel gibt an, mit welcher Wahrscheinlichkeit eine Regel auf die Gesamtzahl der in der Menge befindlichen Transaktionen zutrifft.

Das zweite Maß ist die Konfidenz. Sie gibt die Wahrscheinlichkeit an, mit der die Konklusion eintritt, wenn die Prämisse erfüllt ist.

Die Relevanz der Regeln hängt maßgeblich von der Höhe des Supports und der Konfidenz ab, wobei der Anwender bestimmen muss, ab wann eine Regel als maßgebend betrachtet werden soll.

3.3.5 Clustering

Bei der Clusteranalyse werden die Objekte repräsentierender Datensätze zu Gruppen (Cluster) dahingehend zusammengefasst, dass die Datensätze innerhalb eines Clusters möglichst homogen und Datensätze aus unterschiedlichen Clustern dagegen möglichst heterogen sind. Im Gegensatz zur Klassifikation sind die zu bildenden Gruppen vorher nicht bekannt, sondern das Ergebnis des Clusterverfahrens. Mittels dieser Verfahren soll Wissen über Ähnlichkeiten der Objekte einer Datenmenge entdeckt werden.²² Typische Anwendungen für Clusteranalysen befinden sich im Marketing etwa beim Auffinden neuer Kundengruppen oder für die Individualisierung der Kundenansprache.²³ Grundsätzlich lassen sich Clusteranalyseverfahren in zwei Verfahren gliedern:

21 Vgl. DMP S.28.

22 Vgl. CGA06 S. 265.

23 Vgl. CGA06 S. 266.

(24)

3 Data Mining 3.4 k-Means-Algorithmus

15

Erstere sind hierarchische Analyseverfahren, welche sich wiederum in agglomerative und divisive unterteilen lassen. Zu Beginn eines divisiven Verfahrens sind alle Objekte einer einzigen Klasse zugeordnet und werden nacheinander in jeweils zwei Unterklassen aufgeteilt bis eine weitere Unterteilung nicht mehr möglich ist. Agglomerative Verfahren gehen den umgekehrten Weg: Sie fassen Objekte in Klassen zusammen bis maximal nur noch zwei Klassen existieren. Nachteile der hierarchischen Verfahren sind die nicht umkehrbare Zuordnung von Objekten zu Klassen. Das heißt, fehlerhafte Zuordnungen sind nicht korrigierbar.

Abbildung 6 Dendogramm (Quelle: DMP S. 28)

Bei dem zweiten Verfahrenstyp handelt es sich um partitionierende Verfahren, welche nach optimalen Partitionen suchen, wobei von einer konkreten Partitionierung ausgegangen wird.²⁴ Einer der bekanntesten Vertreter dieser Verfahren ist der k-Means-Algorithmus.

3.4 k-Means-Algorithmus

Bei dem k-Means-Algorithmus handelt es sich um ein iteratives Clusteranalyseverfahren, welches Objekte mit n-Dimensionen (Ausprägungen) einer Menge M in k-Gruppen mit ähnlichen Objekten zusammenfasst, so dass die Entfernung innerhalb eines Clusters minimiert ist. Zur Berechnung der Entfernung wird üblicherweise die euklidische Distanz als Abstandsmaß verwendet.

3.4.1 Euklidischer Abstand

„Der euklidische Abstand ist ein Begriff, der den Abstand zweier Punkte der Ebene oder des Raumes verallgemeinert. Im dreidimensionalen Raum stimmt der euklidische Abstand d(x,y) mit dem anschaulichen Abstand überein. Im allgemeineren Fall des n-dimensionalen

24 Vgl. DMP S. 26 f.

(25)

3 Data Mining 3.4 k-Means-Algorithmus

16

euklidischen Raumes ist er für zwei Punkte oder Vektoren definiert durch die euklidische Norm des Differenzvektors zwischen den beiden Punkten. Sind die Punkte x und y

gegeben durch die Koordinaten und , so gilt:“²⁵

Eine anschauliche Beschreibung des k-Means-Algorithums findet sich in [NHND S.12]:

„Der Algorithmus benötigt als Eingabe eine Matrix von M Punkten in N Dimensionen.

NC(C) bezeichnet die Anzahl der Punkte im Cluster C. D(I, Z) ist die euklidische Entfernung zwischen dem Punkt I und das Zentrum Z vom Cluster C.

Die Hauptidee des Verfahrens ist es, nach einer k-Partition mit einer lokal optimierten Summe der Euklidischen Entfernungen zu suchen, indem man Punkte von einem Cluster zum anderen verschiebt.

Der Algorithmus läuft wie folgt ab:

1. Initialisiere Cluster C(j = 1, 2, ..., k) und berechne für jedes Cluster das Zentrum Z(j = 1, 2, ..., k).

2. Für jeden Punkt I(i = 1, 2, ..., M)finde das nächstgelegene Zentrum Z(j), und füge I dem Cluster C(j) zu:

a. Berechne D(I(i), Z(j)) für alle j=1,2...,k.

b. Bestimme Zentrum Z(j) sodass D(I(i), Z(j)) minimal ist (bei mehreren Zentren entscheide zufällig).

c. Füge Punkt I dem Cluster C(j) zu.

3. Berechne für die Cluster C(j = 1, 2, ..., k) die neuen Zentren Z(j) 4. Wiederhole Schritte 2 und 3 bis die Endbedingung erreicht ist.

Die Endbedingung ist erreicht, wenn keine Punkte innerhalb der Cluster verschoben werden. Der Einfachheit halber kann der Algorithmus gestoppt werden, wenn eine be- stimmt Anzahl an Iterationen erreicht ist.“

3.4.2 Vorteile:

Relativ einfach zu implementieren

Lineare Komplexität O (z*n*i) (z=Zentren, n=Objekte, i= Iterationen) Auch auf große Datensätze anwendbar

Gute Ergebnisse 3.4.3 Nachteile:

Clusterzentren werden zufällig initialisiert Entstehung von leeren Clustern

Ergebnis ist nicht zwangsläufig das Optimum (lokales vs. globales Optimum)

25 Siehe WIK_EK.

(26)

3 Data Mining 3.5 k-Means-Anwendungsbeispiel

17 Ergebnis abhängig von der Anzahl der Cluster Theoretisch unendliche Laufzeit möglich

3.5 k-Means-Anwendungsbeispiel

Um ein grundlegendes Verständnis zur Arbeitsweise von k-Means zu vermitteln wird eine kleine Clusteranalyse als Beispiel dargestellt. Es ist eine Menge M mit vier Elementen gegeben, wobei jedes Element zwei Dimensionen hat. Bei den Elementen handelt es sich um vier Kunden, welche als Merkmalsausprägung ihr Alter (X-Koordinate) und Einkommen in tausend Euro (Y-Koordinate) besitzen. Mittels des k-Means Algorithmus sollen diese Kunden in zwei Gruppen (Cluster k=2) aufgeteilt werden. Somit sind folgende Punkte gegeben:

Kunde 1 Kunde 2 Kunde 3 Kunde 4

X-Koordinate 20 25 45 50

Y-Koordinate 10 20 60 70

Iteration 0  Schritt 1

Zunächst müssen die zwei Clusterzentren initialisiert werden. Ihre Koordinaten können zufällig sein oder anhand von existierenden Punkten festgelegt werden. In diesem Beispiel werden die Koordinaten für C1 die des Kunden 1, sowie C2 die des Kunden 2. Damit ergeben sich folgende Initialkoordinaten für C1 und C2:

C1 C2 X-Koordinate 20 25 Y-Koordinate 10 20 Der aktuelle Sachverhalt sieht grafisch folgendermaßen aus:

Abbildung 7 Initialisierung der Clusterzentren (Quelle: eigene Darstellung)

0 10 20 30 40 50 60 70 80

0 10 20 30 40 50 60

Attribut 1 (X): Alter

Attribut 2 (Y): Einkommen in Tausend

Clusterzentren Kundenobjekte

(27)

18 Iteration 0  Schritt 2

Für jeden Punkt wird nun die Entfernung zu allen Clusterzentren berechnet. Durch Anwendung des euklidischen Abstandes erhält man:

Kunde 1 Kunde 2 Kunde 3 Kunde 4 Distanz zu C1 0 11,1803399 55,9016994 67,0820393 Distanz zu C2 11,1803399 0 44,7213595 55,9016994

Anschließend wird jeder Punkt dem Cluster zugeordnet, zu dem der Abstand am kleinsten ist. Daraus folgt: C1=(Kunde 1) und C2=(Kunde 2, Kunde 3, Kunde 4)

Nachdem die Zuordnung erfolgt ist, werden die Koordinaten der Clusterzentren neu berechnet.

Für C1:

Für C2:

C1 C2

X-Koordinate 20 40

Y-Koordinate 10 50

Zwischenbilanz 0

Die erste Iteration des Algorithmus ist abgeschlossen. Es wurden die ersten Punkte in ihre Cluster verschoben. Da eine Verschiebung stattfand wird der Algorithmus ab Schritt 2 erneut durchlaufen. Die grafische Darstellung der Daten sieht im Moment wie folgt aus:

(28)

19

Abbildung 8 Verschiebung eines Zentrums nach der ersten Iteration (Quelle: eigene Darstellung)

Iteration 1 Schritt 2

Da sich die Koordinaten der Clusterzentren im letzten Durchlauf verändert haben, müssen die Distanzen zu den Clusterzentren neu berechnet werden.

C1 C2 X-Koordinate 20 40 Y-Koordinate 10 50 Es ergeben sich folgende Distanzen:

Kunde 1 Kunde 2 Kunde 3 Kunde 4 Distanz zu C1 0 11,18034 55,901699 67,082039 Distanz zu C2 44,72136 33,54102 11,18034 22,36068

Anschließend wird wieder jeder Punkt dem Cluster zugeordnet, zu dem der Abstand am geringsten ist. Daraus folgt: C1=(Kunde 1, Kunde 2) und C2=( Kunde 3, Kunde 4)

Nachdem die Zuordnung erfolgt ist, werden die Koordinaten der Clusterzentren wieder neu berechnet.

C1 C2 X-Koordinate 22,5 47,5 Y-Koordinate 15 65 Zwischenbilanz 1

Die zweite Iteration des Algorithmus ist abgeschlossen. Auch hier fand eine Verschiebung der Punkte in einen anderen Cluster statt (weitere Iteration erforderlich), da Kunde 2 sich nun in C1 befindet. Die grafische Darstellung der Daten sieht daher wie folgt aus:

0 10 20 30 40 50 60 70 80

0 10 20 30 40 50 60

(29)

20

Abbildung 9 Verschiebung beider Zentren nach der zweiten Iteration (Quelle: eigene Darstellung)

Iteration 2 Schritt 2

Da sich die Koordinaten der Clusterzentren im letzten Durchlauf verändert haben, müssen die Distanzen zu den Clusterzentren neu berechnet werden.

C1 C2

X-Koordinate 22,5 47,5

Y-Koordinate 15 65

Es ergeben sich folgende Distanzen:

Kunde 1 Kunde 2 Kunde 3 Kunde 4 Distanz zu C1 5,5901699 5,5901699 50,311529 61,491869 Distanz zu C2 61,491869 50,311529 5,5901699 5,5901699 Algorithmus Ende und Interpretation

Es wird wieder jeder Punkt dem Cluster zugeordnet, zu dem der Abstand am geringsten ist.

Daraus folgt: C1=(Kunde 1, Kunde 2) und C2=( Kunde 3, Kunde 4). Da kein einziger Punkt verschoben wurde, ist die Abbruchbedingung des Algorithmus erfüllt. Nun liegt es am Analysten das Ergebnis angemessen zu interpretieren. Hier ist der Zusammenhang zu erkennen, dass Kunden mit einem höheren Alter auch über ein höheres Einkommen verfügen.

0 10 20 30 40 50 60 70 80

0 10 20 30 40 50 60

(30)

4 Ausgangssituation 4.1 MedienHaus Rostock

21

4 Ausgangssituation

4.1 MedienHaus Rostock

Bei dem MedienHaus Rostock (MHR) handelt es sich um einen kleinen IT-Dienstleister. Der Kerngeschäftsbereich des MedienHaus Rostock GmbH ist die Entwicklung und Programmierung von Datenbanken und neuronalen Netzen. Weiterhin entwickelt, integriert und betreibt das MedienHaus Rostock Informations- und Kommunikationssysteme sowie eCommerce Applikationen speziell im Internet auf eigenen Servern.²⁶ Das Kerngeschäft von MHR ist die fortlaufende Entwicklung des Informationssystems ROTEIRO. Hierbei handelt es sich um eine Eigenentwicklung, welche bereits seit über 12 Jahren im Einsatz ist.

4.2 ROTEIRO ²⁷

Das Informationssystem ist als zentralisierte Datenbanklösung auf Basis MS SQL Server aufgebaut. Alle Funktionen des Systems sind mittels Webbrowser einfach und intuitiv bedienbar.

Zur Erfassung von Daten verfügt das System über Module zum automatisierten Datenimport, so dass die Daten ständig auf dem aktuellen Stand gehalten werden können. Zusätzlich ist eine manuelle Datenerfassung möglich.

Das Informationssystem stellt dem Anwender wichtige Informationen über Kunden schnell und übersichtlich zur Verfügung. So beinhaltet das System u.a. folgende Kundendaten:

Adressen, Konten, Produkte, Dienstleistungen betriebswirtschaftliche Daten

Informationen zur EDV-Ausstattung

Informationen zur Nutzung Produkten und Dienstleistungen Informationen zum Produkt-Nutzungsverhalten

erbrachte Serviceleistungen inkl. Abrechnungen

4.3 Das Projekt „Data Mining Engineering“

Hierbei handelt es sich um ein im Jahre 2005 vom Ministerium für Bildung des Landes Mecklenburg-Vorpommern gefördertes Projekt zur Untersuchung von Data-Mining- Methoden bezüglich ihrer Eignung für die Analyse von Daten aus dem Zahlungsverkehr einer Bank. Projektpartner waren die HypoVereinsbank AG (ehemals Vereins- und Westbank), das MedienHaus Rostock und die Hochschule Wismar. Ziel war es, anhand der Umsatzentwicklung der Konten eines Kunden eine Veränderung im Geschäftsumfeld zu

26 Siehe MHR1.

27 Siehe MHR2.

(31)

4 Ausgangssituation 4.3 Das Projekt „Data Mining Engineering“

22

erkennen. Auf dieser Grundlage können rechtzeitig Maßnahmen zur Sicherung des Kundenbestandes ergriffen werden. Mögliche Szenarien sind:²⁸

Erkennen von Verhaltensänderungen bei Kunden, eventuelles Abwandern eines Kunden verhindern

Untersuchung der Produkteignung für einen Kunden, Ermittlung des am besten passenden Produktes für den Kunden

Verbesserte Auswertung vorhandener Daten über Kunden, Ziel ist die Steigerung der Kundenbetreuung und Kundenzufriedenheit

Im Projekt wurden anonymisierte Zahlungsverkehrsdaten mit unterschiedlichen Methoden analysiert, wobei die Daten so aufbereitet wurden, dass sie eine Zeitreihe von einem Jahr bildeten. Der aufsummierte Zahlungsverkehr eines jeden Monats repräsentiert dabei die Datenpunkte der Zeitreihe. Ein besonderer Teil der Analyse war der Einsatz der Diskreten Fourier Transformation, als Verfahren zur Signaltransformation. Ihre Funktion und die daraus entstehenden Vorteile werden im folgenden Abschnitt dargestellt.

Die Experimente des Projektes zeigten, dass durch die Verwendung der Diskreten Fourier- Transformation ein verschiebungsinvariantes Clustering von Zeitreihen durch Data-Minin- Algorithmen möglich ist. Es wurden erfolgreich Cluster gebildet, die Datensätze mit ähnlichen Umsatzverläufen beinhalten. Grundsätzlich zeigen die Ergebnisse vielversprechende Anwendungsmöglichkeiten für Data-Mining-Verfahren in einem Informationssystem.

4.3.1 Grundlagen der Fourier-Transformation²⁹

„Eine Fourier-Reihe besteht aus einer Anzahl von Sinus und Cosinusschwingungen. Durch additive Überlagerung ist es möglich, jede stetige periodische Funktion annähernd nachzubilden. Die Frequenzen der einzelnen Funktionen sind dabei ganzzahlige Vielfache der Grundfrequenz , wobei T dem Betrachtungszeitraum entspricht. Die resultierende Schwingung ergibt sich aus:

Da eine Sinusfunktion einer phasenverschobenen Cosinusfunktion entspricht, lässt sich die Fourier-Reihe auch als Cosinus- und Phasenspektrum darstellen:

Die Fourier-Reihe einer Schwingung oder Funktion kann durch die Fourier-Transformation erzeugt werden. Je nach Eigenschaft der zu zerlegenden Funktion kommen dabei spezielle Varianten der Fourier-Transformation zum Einsatz.“

4.3.2 Diskrete Fourier-Transformation³⁰

„Die diskrete Fourier-Transformation (DFT) ist Voraussetzung für viele Anwendungen in der digitalen Signalverarbeitung. Sie erlaubt die Transformation von Signalen, die durch

28 Siehe WDP S.4 f.

29 Siehe WDP S.10.

30 Siehe WDP S.10 ff.

(32)

4 Ausgangssituation 4.3 Das Projekt „Data Mining Engineering“

23

Abtastung als Reihe diskreter reeller Messwerte vorliegen, vom Zeitspektrum in das Frequenzspektrum. Für die Erkennung eines Signalanteils der Frequenz n sind mindestens 2n+1 Abtastpunkte notwendig. Die Diskrete Fourier-Transformation entspricht der komplexen Multiplikation des Signalvektors mit dem Abtastsignal, in diesem Fall der Sinusfunktion für den Frequenzanteil und der Cosinusfunktion für den Phasenanteil. Der Fourier-transformierte Vektor F eines gegebenen Signalvektors V der Länge N ergibt sich für den Sinusanteil der Frequenzen f=[0,…,N-1] aus:

Analog dazu für den Cosinusanteil:

Der resultierende Vektor enthält die Sinus und Cosinusanteile als komplexe Fourier- Koeffizienten. Diese können leicht durch Trigonometrie in Paare [Amplitude, Phase]

überführt werden.“

Berechnung der Amplitude(Magnitude)³¹

„Dabei ist zu beachten, dass die Koeffizienten invers symmetrisch sind, da der Signalvektor überabgetastet wird. entspricht dabei einer vertikalen Verschiebung des Signals und ist genau einmal vorhanden, während sich die Sinus- Cosinusanteile für n = [1,..,(N-1)/2] aus + || || zusammensetzen.“

4.3.3 Algorithmus der Fourier-Transformation

Der Algorithmus wird folgend als Pseudocode wie in [WDP S.12] und als Perlcode dargestellt. Der Perlcode enthält bereits die für die Datenanalyse nötige Überführung in die Amplitudenanteile. Die Algorithmen führen eine Fourier-Transformation eines Signalvektors der Länge N durch.

31 Siehe KPPT Seite 3.

(33)

4 Ausgangssituation 4.4 Nutzen der Fourier-Transformation

24 Nach [WDP S.12]:

Perl-Code:

Die Algorithmen entsprechen der im Abschnitt 4.3.2 dargestellten formalen Beschreibung.

4.4 Nutzen der Fourier-Transformation

Die direkte Verwendung von Zeitreihen ist nicht geeignet, um Cluster mit ähnlichen Zeitreihen zu bilden. Clusterverfahren wie k-Means verwenden Abstandsmaße, die eine horizontale Verschiebung in Daten nicht berücksichtigen, da alle Attribute unabhängig von einander betrachtet werden. Durch Verwendung der Fourier-Transformation kann eine Zeitreihe der Form [Zeitpunkt, Amplitude] in die Form [Frequenz, Amplitude, Phase]

überführt werden. Durch die Eigenschaft, das jedes Element eines Fourier-Vektors ein vector S;

complex vector E;

for i=0 to N{

for j=0 to N{

angle=i*2*pi/N*j

E.real[i]=E.real[i]+S[j]*sin(angle)/N;

E.imag[i]=E.imag[i]+ S[j]*sin(angle)/N;

} }

(34)

4 Ausgangssituation 4.4 Nutzen der Fourier-Transformation

25

Attribut der Zeitreihe über ihren gesamten Intervall beschreibt, wird die Reihenfolge der Elemente eines Fourier-Vektors für Data Mining irrelevant.³²

Die Abbildung 10 zeigt zwei Zeitreihen, die einen gleichen, aber zeitlich verschobenen

Umsatzverlauf darstellen. Abstandbasierte Verfahren wie k-Means würden diese Zeitreihen mit einer hohen Wahrscheinlich zwei unterschiedlichen Clustern zuordnen, obwohl es sich um einen identischen Verlauf handelt. Durch Die Fourier-Transformation und die anschließende Berechnung der Frequenzspektren lässt sich das Problem der Verschiebung eliminieren.

X 1 2 3 4 5 6 7 8 9 10 11 12 ZR 1: 0 0 0 50 50 50 0 25 0 0 0 0 ZR 2: 0 0 0 0 0 0 50 50 50 0 25 0

Tabelle 1 Werte der Zeitreihen ZR 1 und ZR 2

Abbildung 11 Verlauf der Zeitreihen ZR1 und ZR2

Analog dazu die Frequenzspektren:

ZR 1: 11,5726 6,2500 4,6584 2,0833 3,6937 ZR 2: 11,5726 6,2500 4,6584 2,0833 3,6937 Tabelle 2 Frequenzspektren der Zeitreihen ZR1 und ZR2

Abbildung 12 Frequenzspektren von ZR1 und ZR2

32 Vgl. WDP S.21 f.

0 2 4 6 8 10 12 14

1 2 3 4 5

ZR1: Frequenzspektrum

0 2 4 6 8 10 12 14

1 2 3 4 5

Hochschule Wismar