Data Mining

(1)

(2)

2

 „Data Mining ist, wenn man vorher nicht so genau weiß, wonach man eigentlich sucht!“

 Definition des Data Mining:

„nicht triviale Entdeckung gültiger, neuer, potentiell nützlicher und verständlicher Muster in großen

Datenbeständen“ [Fayyad]

 besteht, aus mathematisch-statistischen

Rechenverfahren, kombiniert mit selbstlernenden Systemen

 „intelligente“ Anwendung auf Basis einer Data Warehouse- Architektur

 Analyseziel: „Finde Gold in Deinen Daten!“

Was bedeutet Data Mining?

(3)

 „Klassisches“ Data Mining

– Strukturierte Daten (z.B. relationale Datenbanken)

 Multimedia Mining

– Text Mining

– Image Mining

– Audio Mining

– Video Mining

 Web Mining

 Spatial Data Mining (Geodaten)

Data Mining Facetten

(4)

4

Evolution / Geschichte

(5)

 Drastischer Anstieg des Datenvolumens

– Alle 18 Jahre verdoppelt sich Speicherkapazität im Unternehmen [IBM 2009]

 Dauerhafte Speicherung von Daten wird immer günstiger

 steigende Anzahl an Data-Warehouse-Anwendungen

 riesige Datenfriedhöfe in Wissenschaft und Wirtschaft manuelle Sichtung unmöglich

 Unzufriedenheit mit existierenden Analysemethoden (mehr Automatismus)

 SQL-,OLAP-Queries nicht ausreichend, da die Datenqualität oft nicht hoch ist

Ausgangssituation

(6)

6

 Aussagen über Grundgesamtheit treffen, wenn nur eine zufällige Stichprobe zur Verfügung steht

 gewachsene Strukturen ausschöpfen

 Aufdeckung latenter Zusammenhänge zwischen Daten, Daten → Wissen

 aus Daten Informationen gewinnen (meist Wettbewerbs- vorteile) und Entscheidungen schneller treffen

– Kundenzufriedenheit

– Marktkenntnis

– Vorsprung vor der Konkurrenz

– Erschließung neuer Vertriebskanäle

Motivation

(7)

Data Mining vs. KDD



Data Mining

– Teilschritt des KDD-Prozesses

– besteht aus Algorithmen

 die in akzeptabler Rechenzeit aus einer

vorgegebenen Datenbasis eine Menge von Mustern liefern.



Knowledge Discovery in Databases (KDD)

– nichttrivialen Prozess der Identifikation valider, neuartiger, potentiell nützlicher und klar

verständlicher Muster in Daten

(8)

8

Der Prozess des KDD

(Knowledge Discovery in Databases)

(9)

Auswahl (Selektion)



Auswahl der zu analysierenden Daten aus einer Rohdatenmenge



Zusammenfügen von Daten aus mehreren Quellen, z.B. in ein Data Warehouse



Problem: heterogene Daten

– Redundanzen

– Wie kann man sicher sein, dass einzelne Attribute denselben Inhalt haben? (z.B. cust_id und

cust_number)

(10)

Vorverarbeitung (1)



Warum Vorverarbeitung?

– 10% des Zeitaufwandes im KDD entfallen auf die Ausführung von Data-Mining-Methoden

– 90% des Aufwandes für Datenaufbereitung und Nachbearbeitung

– Untersuchungen belegen Fehlerwahrscheinlichkeit in Rohdaten von bis zu 30% [Cabena u.a. 1997]



Ziel: einheitliche Struktur und Format,

Steigerung der Datenqualität besonders bei

heterogenen Quellen

(11)

Vorverarbeitung (2)

 Semantische Probleme

– Synonyme, Homonyme

→ Lösung mit Hilfe von Metadaten und bereichsspezifischem Wissen

 Syntaktische Probleme

– Verschiedene Schreibweisen

→ Nutzung eines einheitlichen Schemas und von Katalogen (z.B.

Straßenverzeichnis)

 Redundanzen

 Fehlende Werte (unbestimmbar bzw. unbestimmt) → Säubern (verschiedene Varianten …)

 Falsche Werte → Transformation

 Zu „genaue“ Werte → Aggregation

(12)

Transformation

 Glättung. d.h. „Ausreißer“ entfernen

– Nützlich für Entscheidungsbäume, Hierarchien

 Erzeugen abgeleiteter Attribute (z.B. Aggregationen für bestimmte Dimensionen, Umsatzänderungen)

 Diskretisierung numerischer Attribute (Aufteilung von Wertebereichen in Intervalle, z.B. Altersgruppen)

 Normierung - Vergleichbarkeit herstellen

 Datenreduktion

– Dimensionalität

– Werteanzahl

– Beispiel:

Land Bundesland

Stadt Straße

3

16 2076 392.466

(13)

Data Mining Verfahren



Clustering

Zusammenfassen ähnlicher Objekte



Assozationsanalyse

Auffinden von Regeln (→ Ausführliches Anwendungsbeispiel)



Klassifikation

Zuordnen von Datenobjekten zu vorgegebenen Klassen



Anomalieentdeckung

Auffinden von „Ausreißern“

(14)

14

 Ziel: Objekte einer Eingabedatenmenge zu

(vorgegebenen) Klassen zuzuordnen (lernt anhand von Daten)

 Problem: Merkmale der Objekte in einen „funktionalen Zusammenhang“ bringen, dass deren Abbildung auf eine Klasse möglich wird

 Schritte:

 Training - Lernen der Kriterien zur Zuordnung von Objekten

 Anwendung - Zuordnung von Objekten zu Klassen …

 Beispiel: Kreditwürdigkeit

Klassifikation

(15)

Klassifikation – Beispiel



Beispiel: Kreditwürdigkeit von Bankkunden feststellen

– Entscheidungsbäume

– Nearest Neighbour

– ….

Berufstätig?

30 < Alter < 45 Vermögen Einkommen < 100.000

Schulden > 250.000 …

… … …

J N

J

J J

N N

N

J

(16)

Clustering – Beispiel



Gruppeneinteilung von Kunden

Anzahl

Ferngespräche

Anzahl

Ortsgespräche

(17)

Spatial Data Mining - Beispiel

 im Jahr 1854 kam es in London zu einer Cholera- Epidemie

 der englische Arzt John Snow fand mittels „Spatial Data Mining“-Methoden die Ursache für diese

Krankheit

(18)

(19)

(20)

(21)

(22)

Spatial Data Mining – Beispiel (Forts.)

Trinkwasserbrunnen in der Broad Street

(23)

Assoziationsanalyse - Beispiel

 Definition Assoziationsanalyse:

– Auffinden von Assoziationsregeln, die das Auftreten eines Items in Abhängigkeit vom Auftreten anderer Items vorhersagen.

 Anwendung: Warenkorbanalyse

 Beispiele für Assoziationsregeln:

{Käse}  {Butter} (s = 0.6, k = 0.75) {Brot}  {Käse, Butter, Eier} (s = 0.2, k = 0.25)

(24)

Assoziationsanalyse - Grundbegriffe

 Item-Menge

Kollektion von einem oder mehreren Items, z.B. {Milch, Brot, Wurst}

k-Item-Menge: Item-Menge mit k Elementen

 Support-Anzahl  einer Item-Menge

absolute Häufigkeit des Auftretens dieser Menge

 Support s einer Item-Menge

relative Häufigkeit, z.B. s ({Brot,Wurst}) = 3/5

 Assoziationsregel XY mit X, Y als Item-Mengen

 Support s der Assoziationsregel XY: s(XY):= (X Y) / |T|

relative Häufigkeit der Transaktionen, in denen beide Item-Mengen X und Y auftreten

 Konfidenz k der Assoziationsregel XY: k(XY):= (X Y) / (X) Häufigkeit des Auftretens von Items in Y in den Transaktionen, die X enthalten

(25)

A-Priori-Algorithmus



A-Priori-Prinzip:

Ist eine Item-Menge häufig auftretend, dann sind es auch alle ihre Teilmengen



A-Priori-Algorithmus

k=1

Generiere häufig auftretende Item-Mengen der Länge 1

Wiederhole bis keine häufig auftretenden Item-Mengen mehr identifiziert werden:

Generiere aus den häufig auftretenden k-Item-Mengen Kandidaten Item-Mengen Länge k+1

Entferne Kandidaten Item-Mengen, die nicht häufig auftretende Teilmengen der Länge k enthalten

Ermittle den Support jedes Kandidaten

Entferne Kandidaten, die nicht häufig vorkommend sind

(26)

A-Priori-Algorithmus (Beispiel)

 Zum Vergleich:

6 1-Item-Mengen + 15 2-Item-Mengen

+ 20 3-Item-Mengen = 41 zu untersuchende Mengen (wäre Brute-Force- Algorithmus)

1-Item-Mengen

2-Item-Mengen

(keine Kombinationen

mit Milch und Eiern mehr bilden)

3-Item-Mengen Annahme:

Minimale Support-Anzahl 3

(27)

 Ablauf

 Visualisierungen der gefundenen Muster

 Einordnung/Bewertung der Muster

 Handelt es sich um bekannte oder überraschende Muster?

 Verallgemeinerung für zukünftige Daten möglich?

 Vorhersagekraft steigt mit Größe und Repräsentativität der Stichprobe!

 schlechte Bewertung: erneutes Data Mining mit

anderem Verfahren, anderen Parametern oder anderen Daten

 gute Bewertung: Integration des gefundenen Wissens in die Wissensbasis und Nutzung für zukünftige KDD- Prozesse

Interpretation

(28)

Anwendungen in der Industrie (Beispiel)

(29)

 Einzelhandel

 oft gemeinsam gekaufte Produkte

 treue Kunden, Premium-Kunden und Schnäppchen- Jäger

 Spezifische Interessensgruppen

 Erfolg einer Marketing-Aktion

 Absatzchancen neuer Produktsegmente

 Cross-Selling (Partnerschaft mit anderen Anbietern)

 Bestandsplanung: Wann kaufen Kunden wieviel wovon?

Anwendungsbeispiele (1)

(30)

30

 Banken

 Finden von Kriterien für die Kreditwürdigkeit von Kunden

 Prognose von Aktienkursen

 Wissenschaft

 Wirksamkeit von Medikamenten

 Zusammenhang von Umwelteinflüssen und Krankheiten

 Finden von Genen in DNA-Strängen

Anwendungsbeispiele (2)

(31)

 Web (Clickstream Analysis)

 Identifikation von Web-Transaktionen

 Häufigkeit des Seitenbesuchs

 Verweildauer auf einer Seite

 Häufige Navigationspfade durch Web-Site

 Welche Faktoren führen zu Abbruch?

 Welche Navigationspfade führen zu erfolgreichen Abschlüssen?

 Profiling in Social Networks

 Ansätze:

 Inhaltsanalyse - Web Content Mining

 Strukturanalyse - Web Structure Mining

 Nutzungsanalyse - Web Usage Mining

Anwendungsbeispiele (3)

(32)

32



Behauptung:

Data Mining diene dazu, Zusammenhänge automatisch zu

entdecken, an die bisher noch nicht einmal jemand gedacht hat, und Fragen zu beantworten, die nicht einmal noch jemand gestellt hat.

 verständlicher Wunsch…

• z.B. Nutzung der riesigen Datenbestände einer Firma

• Problem hierbei: Qualität der gefundenen Muster

Probleme (1)

(33)

 Verständlichkeit

– keine Zahlenkolonnen, Visualisierungen wichtig

 Interessantheit / Trivialität

– keine Trivialitäten, die auch durch Datenbankabfragen oder Statistiken zu erhalten wären

 Bedeutungslosigkeit

– Aussage bezieht sich auf 1 Element, keine Repräsentativität

 Bekanntheit

– Aussage ist einem Benutzer mit Fachwissen längst bekannt

 Irrelevanz

– unbeeinflussbare Faktoren (z.B. Exportzölle)

 Effizienz

– Rechenzeit

Probleme (2)

(34)

34

Data Mining Tools

Produkt Hersteller

 SPSS SPSS

 Scenario, 4Thougth Cognos

 Enterprise Miner SAS

 MS SQL Server (Analytics

Services) Microsoft

 Intelligent Miner for Data IBM

 Data Mining Suite (Darwin) Oracle

 Teradata Warehouse Miner NCR

 Waikato (WEKA) mit

Schwerpunkt Maschinelles

Lernen Open Source

 RapidMiner Open Source

(ehemals YALE, Uni Dortmund)

(35)



„

Als Data Mining bezeichnet man die softwaregestützte Ermittlung bisher unbekannter Zusammenhänge, Muster und Trends in sehr großen Datenbanken. Dabei kann der Benutzer bestimmte Ziele vorgeben, für die das

System angemessene Beurteilungskriterien ableitet und damit die Objekte der Datenbank(en) analysiert.“

 zahlreiche Nutzungsmöglichkeiten: Kundensegmentierung, Vorhersage des Kundenverhaltens, Warenkorbanalyse, …

 Problem: Interpretation der Ergebnisse nicht immer einfach

 zunehmende Unterstützung durch kommerzielle DBS,

z.B. über MS-SQL Server 2005 mit Data Mining Funktionalität

Zusammenfassung

(36)

36

 Was Data Mining nicht ist…

 SQL / Ad Hoc Queries / Reporting

 Softwareagentensystem

 Online Analytical Processing (OLAP)

 Datenvisualisierung

 Verzicht auf exakte Kenntnis der zugrundeliegenden Daten (Semantik)

 Datenschutz

Data Mining

2

Was bedeutet Data Mining?

Data Mining Facetten

4

Evolution / Geschichte

Ausgangssituation

6

Motivation

Data Mining vs. KDD

Data Mining

Knowledge Discovery in Databases (KDD)

8

Der Prozess des KDD

Auswahl (Selektion)

Auswahl der zu analysierenden Daten aus einer Rohdatenmenge

Zusammenfügen von Daten aus mehreren Quellen, z.B. in ein Data Warehouse

Problem: heterogene Daten

Vorverarbeitung (1)

Warum Vorverarbeitung?

Ziel: einheitliche Struktur und Format,

Steigerung der Datenqualität besonders bei

heterogenen Quellen

Vorverarbeitung (2)

Transformation

Data Mining Verfahren

Clustering

Assozationsanalyse

Klassifikation

Anomalieentdeckung

14

Klassifikation

Klassifikation – Beispiel

Beispiel: Kreditwürdigkeit von Bankkunden feststellen

Clustering – Beispiel

Gruppeneinteilung von Kunden

Spatial Data Mining - Beispiel

Spatial Data Mining – Beispiel (Forts.)

Assoziationsanalyse - Beispiel

Assoziationsanalyse - Grundbegriffe

A-Priori-Algorithmus

A-Priori-Prinzip:

Ist eine Item-Menge häufig auftretend, dann sind es auch alle ihre Teilmengen

A-Priori-Algorithmus

A-Priori-Algorithmus (Beispiel)

Interpretation

Anwendungen in der Industrie (Beispiel)

Anwendungsbeispiele (1)

30

Anwendungsbeispiele (2)

Anwendungsbeispiele (3)

32

Behauptung:

Probleme (1)

Probleme (2)

34

Data Mining Tools

„

Zusammenfassung

36

Vorsicht ;)