• Keine Ergebnisse gefunden

Data Mining &

N/A
N/A
Protected

Academic year: 2022

Aktie "Data Mining & "

Copied!
36
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Data Mining &

Knowledge Discovery

Seminar Business Intelligence

Teil II

(2)

Was ist Data Mining?

Sabine Queckbörner

(3)

Übersicht

Data Mining

Was ist Data Mining?

Nach welchen Mustern wird gesucht?

Wie wird gesucht?

Knowledge Discovery in Databases (KDD)

Der KDD-Prozess

Gegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)

OLAP-Funktionen

Gegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

Was ist Data Mining?

(4)

Was ist Data Mining?

Data Mining

Begriffsbestimmung

Analyse großer Datenmengen mit

automatischen oder halbautomatischen Werkzeugen (Berry, Linoff)

Methode zur Problemlösung um logische oder mathematische, zum Teil komplexe

Beschreibungen von Mustern und

Regelmäßigkeiten in Datensätzen zu entdecken (Decker, Focardy)

(5)

Was ist Data Mining?

Data Mining

Begriffsbestimmung

Teilschritt des KDD-Prozesses, der aus der Anwendung von Datenanalysealgorithmen besteht und zu einer Auflistung von Mustern, die aus Daten gewonnen wurden, führt

(Fayyad, Piatetsky-Shapiro und Smyth)

⇒ Data Mining als Anwendung von Algorithmen auf Daten mit der Zielsetzung, Muster aus den Daten zu extrahieren.

(6)

Nach welchen Mustern wird gesucht

Data Mining

Data Mining

Was ist Data Mining?

Nach welchen Mustern wird gesucht?

Wie wird gesucht?

Knowledge Discovery in Databases (KDD)

Der KDD-Prozess

Gegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)

OLAP-Funktionen

Gegenüberstellung Data Mining und OLAP

(7)

Nach welchen Mustern wird gesucht

Data Mining

Ausprägungen

Regeln und Abhängigkeiten Gruppen (Cluster)

Verbindungsmuster (Link) Zeitliche Muster (Sequence) Abweichungen

Formeln und Gesetzmäßigkeiten

(8)

Nach welchen Mustern wird gesucht

Data Mining

Nicht alle gefundenen Muster sind für den Benutzer interessant!

Nicht alle für den Benutzer relevanten

Muster werden gefunden!

(9)

Wie wird gesucht?

Data Mining

Data Mining

Was ist Data Mining?

Nach welchen Mustern wird gesucht?

Wie wird gesucht?

Knowledge Discovery in Databases (KDD)

Der KDD-Prozess

Gegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)

OLAP-Funktionen

Gegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

(10)

Wie wird gesucht?

Data Mining

Möglichkeiten

Nach mehreren Mustern parallel suchen

In verschiedenen Abstraktionsebenen suchen Nach verschiedenen Schwerpunkten

(11)

Wie wird gesucht?

Data Mining

Methoden

Künstliche neuronale Netze Kohonen-Netze

Lineare Regression

Genetische Algorithmen CHAID

Regelbasierte Systeme

(12)

Der KDD-Prozess

KDD

Data Mining

Was ist Data Mining?

Nach welchen Mustern wird gesucht?

Wie wird gesucht?

Knowledge Discovery in Databases

Der KDD-Prozess

Gegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)

OLAP-Funktionen

Gegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

(13)

Der KDD-Prozess

KDD

Daten Wissen

Prozess zur Identifikation von Mustern

Gültig

Neuartig

Potentiell nützlich

Verständlich

(14)

Auswahl

Zieldaten

Daten Vorbereitete

Daten Integration Bereinigung

Reduktion Projektion

Transformierte Daten

Muster Wissen

Data Mining Interpreta- tion

Der KDD-Prozess

KDD

Auswahl

Zieldaten Daten

(15)

Auswahl

Zieldaten

Daten Vorbereitete

Daten Integration Bereinigung

Reduktion Projektion

Transformierte Daten

Muster Wissen

Data Mining Interpreta- tion

Der KDD-Prozess

KDD

Vorbereitete Daten

Integration Bereinigung

Zieldaten

(16)

Der KDD-Prozess

KDD

Vorbereitete Daten

Reduktion Projektion

Auswahl

Zieldaten

Daten Vorbereitete

Daten Integration Bereinigung

Reduktion Projektion

Transformierte Daten

Muster Wissen

Data Mining Interpreta- tion

Transformierte Daten

(17)

Der KDD-Prozess

KDD

Data Mining

Auswahl

Zieldaten

Daten Vorbereitete

Daten Integration Bereinigung

Reduktion Projektion

Transformierte Daten

Muster Wissen

Data Mining Interpreta- tion

Transformierte Daten

Muster

(18)

Der KDD-Prozess

KDD

Interpretation

Auswahl

Zieldaten

Daten Vorbereitete

Daten Integration Bereinigung

Reduktion Projektion

Transformierte Daten

Muster Wissen

Data Mining Interpreta- tion

Muster Wissen

(19)

Data Mining KDD

KDD

Data Mining

Was ist Data Mining?

Nach welchen Mustern wird gesucht?

Wie wird gesucht?

Knowledge Discovery in Databases

Der KDD-Prozess

Gegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)

OLAP-Funktionen

Gegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

(20)

KDD

Alle Daten

Wissen

Auswahl

Zieldaten Muster

Data

Mining Interpretation Integration

Bereinigung

Vorbereitete Daten

Reduktion Projektion

Transformierte Daten

Data Mining ist ein Teilschritt des KDD-Prozesses

Data Mining KDD

(21)

OLAP-Funktionen

OLAP

Data Mining

Was ist Data Mining?

Nach welchen Mustern wird gesucht?

Wie wird gesucht?

Knowledge Discovery in Databases (KDD)

Der KDD-Prozess

Gegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)

OLAP-Funktionen

Gegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

(22)

OLAP-Funktionen

OLAP

Datenwürfel

n Dimensionen

n Attribute

Beispiel:

3 Dimensionen:

Ort, Zeit, Produkt

Ort

Zeit

Produkt

(23)

OLAP-Funktionen

OLAP

Datenwürfel

n Dimensionen

n Attribute

Wertebereich

kontinuierlich diskret

Hierarchien

Abstraktionsebenen

(24)

OLAP-Funktionen

OLAP

Hierarchien

Beispiel: Hierarchie auf Attribut „Zeit“

Januar 2003 Februar 2003 März 2003 Dezember 2003

1.Quartal 2003 ... 4. Quartal 2003

2003

Monat Quartal

Jahr

...

(25)

OLAP-Funktionen

OLAP

OLAP-Funktionen

Roll-Up

Drill-Down

Januar 2003 Februar 2003 März 2003 1.Quartal 2003

Roll-Up

Drill-Down

(26)

OLAP-Funktionen

OLAP

OLAP-Funktionen

Roll-Up

Drill-Down

Slice Zeit

Ort Produkt

Produkt = Radio

Zeit Ort

Zeit

Ort Produkt

Ort = KL

Zeit

Produkt

(27)

OLAP-Funktionen

OLAP

OLAP-Funktionen

Roll-Up

Drill-Down Slice

Dice

Zeit

Ort Produkt

Ort = RLP Zeit = 4.Quartal

Produkt = Rundfunkgeräte

Zeit

Ort Produkt

(28)

OLAP-Funktionen

OLAP

OLAP-Funktionen

Roll-Up

Drill-Down Slice

Dice

Rotate (Pivote)

(29)

Data Mining OLAP

OLAP

Data Mining

Was ist Data Mining?

Nach welchen Mustern wird gesucht?

Wie wird gesucht?

Knowledge Discovery in Databases (KDD)

Der KDD-Prozess

Gegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)

OLAP-Funktionen

Gegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

(30)

Data Mining OLAP

OLAP

Rennpferd ⇔ Arbeitspferd

OLAP = Arbeitspferd

Data Mining = Rennpferd

(31)

Data Mining OLAP

OLAP

Data Mining als Erweiterung des OLAP

Ergebnis sind Zusammenhänge und Muster in den Daten

Ergebnis ist eine andere

Darstellungsform der Daten

Automatische Analyse

(computergestützte Algorithmen) Benutzerinteraktive Analyse

(aktive Auswertung der Daten)

Daten können vollkommen unbekannt sein

Daten müssen bekannt sein

(Benutzer wählt aus)

Ergebnis steht nicht fest, unbekannte Muster möglich Ergebnis steht fest

(z.B. Bestätigung der Hypothese)

Kein Analyseziel notwendig (kann Hypothesen liefern)

Analyseziel notwendig

(z.B. Hypothese)

Data Mining

OLAP

(32)

Data Mining OLAP

OLAP

OLAP Mining

integrierte, konsistente und gesäuberte Daten Anwendung von Data-Mining-Algorithmen

Interaktive Analyse und anschauliche Interpretation wie bei OLAP

OLAP-Mining-Funktionen (Auszug)

Cubing then Mining Mining then Cubing

(33)

Problemfelder des Data Mining

Problemfelder

Data Mining

Was ist Data Mining?

Nach welchen Mustern wird gesucht?

Wie wird gesucht?

Knowledge Discovery in Databases (KDD)

Der KDD-Prozess

Gegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)

OLAP-Funktionen

Gegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

(34)

Problemfelder des Data Mining

Problemfelder

Speichergröße

Problem: Daten passen nicht vollständig in den Speicher

Lösung: Algorithmen, die zum Beispiel in mehreren Durchgängen analysieren

Antwortzeit

Problem: schnellere Analysen gewünscht – kürzere Antwortzeiten des Systems

Lösung: parallele Analysetechniken

Vielfalt der Datentypen

Problem: neue Datentypen, Videos ...

Benutzerfreundlichkeit

Datenschutz und Sicherheit

(35)

Zusammenfassung

Was ist Data Mining?

Data Mining

Muster, Verfahren

KDD-Prozess

Data Mining als Teilschritt des KDD-Prozesses

OLAP

Datenmodell, OLAP-Funktionen

Data Mining als Erweiterung des OLAP

Problemfelder

(36)

Vielen Dank

Referenzen

ÄHNLICHE DOKUMENTE

“YouTube eine weltweite, nicht-exklusive und gebührenfreie Lizenz ein (mit dem Recht der Unterlizenzierung) bezüglich der Nutzung, der Reproduktion, dem Vertrieb,

A) Es werden oft Windeln gekauft. B) Der Kauf von Windeln führt zum Kauf von Bier.. B) Der Kauf von Windeln führt zum Kauf

Beim Web Mining (vgl. Kapitel 4.2) kommt die Analyse von se- mistrukturierten Texten zum Einsatz, die auf die Tags einer Auszeichnungsspra- che wie HTML zugreift. Zeitreihen

Entferne Kandidaten Item-Mengen, die nicht häufig auftretende Teilmengen der Länge k enthalten. Ermittle den Support

 Ähnlich wie beim standart data mining prozess, kann der Web Usage Mining Prozess in 3 Teile geteilt werden.  Data collection & pre-processing

– Mining with multiple minimum supports – Mining class association rules. 9.3 Association

Iterate over the whole data points: assign each data point to the cluster with the nearest centroid. Recompute cluster centroids based on contained data

•kann auch alleine für Data Mining- oder OLAP- Zwecke genutzt werden.. Der Data Mining Prozess