• Keine Ergebnisse gefunden

DATA MINING ALS EXPERIMENT

N/A
N/A
Protected

Academic year: 2022

Aktie "DATA MINING ALS EXPERIMENT"

Copied!
21
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

PROSEMINAR:

INFORMATIONSGEWINN DURCH EXPERIMENTE

WS 09/10

DATA MINING ALS EXPERIMENT

VORTRAG: CHRISTOPH NÖLLENHEIDT

26.01.10

(2)

Ablauf

Das CRISP-DM-Modell

Zwei verschiedene Standpunkte über die Theoriebildung im Prozess

Ein verändertes CRISP-DM-Modell

Ein verändertes CRISP-DM-Modell

Die Idee des „anything goes“ für das Data Mining

Wie sieht das Experiment in RapidMiner aus?

Literatur

(3)

CRISP-DM

(„Cross Industry Standard Process for Data Mining“)

Inhaltliche Ausprägung vollständig aus

Projekterfahrungen zum Data Mining abgeleitet

Beteiligt an der Entwicklung seit 1996:

Beteiligt an der Entwicklung seit 1996:

- DaimlerChrysler (damals Daimler-Benz)

- Integral Solutions Ltd. (seit 1999 Teil von SPSS) - NCR („National Cash Register“)

Ziel: Etablierung eines Standards zur Vorgehensweise bei Data Mining Projekten

(4)

CRISP-DM-Modell

Projekt- Verständnis

Daten- Verständnis Anwendung

KDD

Datenvorverarbeitung

Modellbildung Bewertung

Data Mining

Daten

(5)

Die Phasen des CRISP-DM

1. Projekt-Verständnis

Ziel: Eckpunkte eines Data Mining Projektes festlegen

festlegen Teilschritte:

Situationsanalyse und Aufgabendefinition

Formulierung der Data Mining Ziele

Erstellung des Projektplans

(6)

Die Phasen des CRISP-DM

2. Verständnis der Daten erreichen

Datenbeschaffung

Erste Einblicke in die Daten

Erste Einblicke in die Daten

Probleme mit der Qualität der Daten ausfindig machen

Hinzunahme externer Daten?

(7)

Die Phasen des CRISP-DM

3. Datenvorverarbeitung

schließt alle Aktivitäten ein, um den für die

Modellbildung verwendeten Datensatz aus den Modellbildung verwendeten Datensatz aus den Rohdaten zu erhalten

für den Projekterfolg von großer Bedeutung

enthält bereits Verfahren des maschinellen Lernens

(8)

Die Phasen des CRISP-DM

3. Datenvorverarbeitung

Aufgaben sind z.B. Merkmalsauswahl,

Transformation als auch Datenbereinigung Transformation als auch Datenbereinigung

Fehlerkorrektur: Fehlende Werte ersetzen

Wie gehe ich mit Ausreißern um?

Stichproben ziehen

(9)

Die Phasen des CRISP-DM

4. Modellbildung

Anwendung der Data Mining Verfahren

Ziel: hohe Aussage- bzw. Interpretationsfähigkeit des

Ziel: hohe Aussage- bzw. Interpretationsfähigkeit des Analyseergebnisses

Einige Verfahren haben spezielle Anforderungen an die Form der Daten, zur Vorverarbeitung

zurückzukehren ist daher oftmals nötig

(10)

Die Phasen des CRISP-DM

5. Bewertung

Bevor das gefundene Modell zur abschließenden Analyse verwendet wird, muss es bewertet werden

Einzelne Schritte, die ausgeführt wurden, um das Modell zu bilden, werden überprüft

Wurden die Data Mining Ziele erreicht?

(11)

Die Phasen des CRISP-DM

6. Anwendung

Wissen für den Kunden darstellen Phase kann enthalten:

Phase kann enthalten:

- Bericht

- wiederholbaren Data Mining Prozess implementieren

Wichtig für den Kunden: Welche Aktionen müssen ausgeführt werden, um das Modell zu verwenden?

(12)

Experiment

Experiment setzt zwingend Theorie voraus

Messung macht ohne Theorie keinen Sinn (Kuhn)

Bateson: „Theorien können sich im Laufe der Untersuchung ändern“

2 verschiedene Sichtweisen über die Bildung einer Theorie im Data Mining Prozess

(13)

Theoriebildung im Data Mining Prozess

Projekt- Verständnis

Daten- Verständnis Anwendung

Theoriebildung A)

Datenvorverarbeitung

Modellbildung Bewertung

Daten

Theoriebildung B)

(14)

CRISP-DM

Im CRISP-DM gibt es keinen datengenerierenden Prozess

Informatik: „Ihr gebt uns die Daten, ob wir damit die

Informatik: „Ihr gebt uns die Daten, ob wir damit die Realität abbilden, wissen wir nicht“

Erkenntnisse aufgrund der Daten

Statistik: betont datengenerierenden Prozess

(15)

Was macht Wissenschaft aus?

Projekt- Verständnis

Daten- Verständnis Anwendung

Datengenerierende Prozess

Datenvorverarbeitung

Modellbildung Bewertung

(16)

Paul Feyerabend

anything goes“

Wir müssen nicht ab einem gewissen Punkt anfangen und an einem gewissen Punkt ankommen

und an einem gewissen Punkt ankommen

Wissenschaft sollte nicht „durch Zwänge eingeschränkt werden“

(17)

Idee des „anything goes“

Bedeutung im Data Mining:

Kreativität

Vielleicht erhalten wir durch neue Betrachtungen bessere Ergebnisse

(18)

Idee des „anything goes“

Projekt- Verständnis

Daten- Verständnis Anwendung

Theorie

Verständnis

Datenvorverarbeitung

Modellbildung Bewertung

Daten

Theorie

(19)

RapidMiner (vormals YALE)

Open-Source Umgebung für Data Mining

Rapid-I (http://www.rapid-i.com)

Mittlerweile meist genutzte open-source Umgebung für Data Mining

Anwendungen in Forschung und Praxis

(20)

RapidMiner

Wichtigste Eigenschaft: Prozesse des Data Mining als Operator-Bäume modellieren

Operator in RapidMiner bedeutet: einzelne Methode,

Operator in RapidMiner bedeutet: einzelne Methode, z.B. Methode des maschinellen Lernens

Experimente können auf der Grundlage einer großen Anzahl von beliebig ineinander verschachtelbaren Operatoren durchgeführt werden

(21)

Literatur

Mierswa, I. et al., YALE: Rapid Prototyping for

Complex Data Mining Tasks, In: Proceedings of the ACM SIGKDD International Conference on

Knowledge Discovery and Data Mining (KDD 2006), 2006.

2006), 2006.

Gabriel, R. et al.: Data Warehouse & Data Mining (2009), W3L-Verlag, Herdecke, Witten.

Für das CRISP-DM-Modell:

http://www.crisp-dm.org

Referenzen

ÄHNLICHE DOKUMENTE

Iterate over the whole data points: assign each data point to the cluster with the nearest centroid. Recompute cluster centroids based on contained data

•kann auch alleine für Data Mining- oder OLAP- Zwecke genutzt werden.. Der Data Mining Prozess

A) Es werden oft Windeln gekauft. B) Der Kauf von Windeln führt zum Kauf von Bier.. B) Der Kauf von Windeln führt zum Kauf

Beim Web Mining (vgl. Kapitel 4.2) kommt die Analyse von se- mistrukturierten Texten zum Einsatz, die auf die Tags einer Auszeichnungsspra- che wie HTML zugreift. Zeitreihen

Entferne Kandidaten Item-Mengen, die nicht häufig auftretende Teilmengen der Länge k enthalten. Ermittle den Support

• durch Spezifizierung von interessanten Kalendern, können Regeln entdeckt werden, die in der gesamten Datenbasis nicht auffallen würden u.ä. BSP: Regel: pen => juice

 Ähnlich wie beim standart data mining prozess, kann der Web Usage Mining Prozess in 3 Teile geteilt werden.  Data collection & pre-processing

“YouTube eine weltweite, nicht-exklusive und gebührenfreie Lizenz ein (mit dem Recht der Unterlizenzierung) bezüglich der Nutzung, der Reproduktion, dem Vertrieb,