Data Mining &
Knowledge Discovery
Seminar Business Intelligence
Teil II
Was ist Data Mining?
Sabine Queckbörner
Übersicht
Data Mining
Was ist Data Mining?
Nach welchen Mustern wird gesucht?
Wie wird gesucht?
Knowledge Discovery in Databases (KDD)
Der KDD-Prozess
Gegenüberstellung Data Mining und KDD
Online Analytical Processing (OLAP)
OLAP-Funktionen
Gegenüberstellung Data Mining und OLAP
Problemfelder des Data Mining
Was ist Data Mining?
Was ist Data Mining?
Data Mining
Begriffsbestimmung
Analyse großer Datenmengen mit
automatischen oder halbautomatischen Werkzeugen (Berry, Linoff)
Methode zur Problemlösung um logische oder mathematische, zum Teil komplexe
Beschreibungen von Mustern und
Regelmäßigkeiten in Datensätzen zu entdecken (Decker, Focardy)
Was ist Data Mining?
Data Mining
Begriffsbestimmung
Teilschritt des KDD-Prozesses, der aus der Anwendung von Datenanalysealgorithmen besteht und zu einer Auflistung von Mustern, die aus Daten gewonnen wurden, führt
(Fayyad, Piatetsky-Shapiro und Smyth)
⇒ Data Mining als Anwendung von Algorithmen auf Daten mit der Zielsetzung, Muster aus den Daten zu extrahieren.
Nach welchen Mustern wird gesucht
Data Mining
Data Mining
Was ist Data Mining?
Nach welchen Mustern wird gesucht?
Wie wird gesucht?
Knowledge Discovery in Databases (KDD)
Der KDD-Prozess
Gegenüberstellung Data Mining und KDD
Online Analytical Processing (OLAP)
OLAP-Funktionen
Gegenüberstellung Data Mining und OLAP
Nach welchen Mustern wird gesucht
Data Mining
Ausprägungen
Regeln und Abhängigkeiten Gruppen (Cluster)
Verbindungsmuster (Link) Zeitliche Muster (Sequence) Abweichungen
Formeln und Gesetzmäßigkeiten
Nach welchen Mustern wird gesucht
Data Mining
Nicht alle gefundenen Muster sind für den Benutzer interessant!
Nicht alle für den Benutzer relevanten
Muster werden gefunden!
Wie wird gesucht?
Data Mining
Data Mining
Was ist Data Mining?
Nach welchen Mustern wird gesucht?
Wie wird gesucht?
Knowledge Discovery in Databases (KDD)
Der KDD-Prozess
Gegenüberstellung Data Mining und KDD
Online Analytical Processing (OLAP)
OLAP-Funktionen
Gegenüberstellung Data Mining und OLAP
Problemfelder des Data Mining
Wie wird gesucht?
Data Mining
Möglichkeiten
Nach mehreren Mustern parallel suchen
In verschiedenen Abstraktionsebenen suchen Nach verschiedenen Schwerpunkten
Wie wird gesucht?
Data Mining
Methoden
Künstliche neuronale Netze Kohonen-Netze
Lineare Regression
Genetische Algorithmen CHAID
Regelbasierte Systeme
Der KDD-Prozess
KDD
Data Mining
Was ist Data Mining?
Nach welchen Mustern wird gesucht?
Wie wird gesucht?
Knowledge Discovery in Databases
Der KDD-Prozess
Gegenüberstellung Data Mining und KDD
Online Analytical Processing (OLAP)
OLAP-Funktionen
Gegenüberstellung Data Mining und OLAP
Problemfelder des Data Mining
Der KDD-Prozess
KDD
Daten Wissen
Prozess zur Identifikation von Mustern
• Gültig
• Neuartig
• Potentiell nützlich
• Verständlich
Auswahl
Zieldaten
Daten Vorbereitete
Daten Integration Bereinigung
Reduktion Projektion
Transformierte Daten
Muster Wissen
Data Mining Interpreta- tion
Der KDD-Prozess
KDD
Auswahl
Zieldaten Daten
Auswahl
Zieldaten
Daten Vorbereitete
Daten Integration Bereinigung
Reduktion Projektion
Transformierte Daten
Muster Wissen
Data Mining Interpreta- tion
Der KDD-Prozess
KDD
Vorbereitete Daten
Integration Bereinigung
Zieldaten
Der KDD-Prozess
KDD
Vorbereitete Daten
Reduktion Projektion
Auswahl
Zieldaten
Daten Vorbereitete
Daten Integration Bereinigung
Reduktion Projektion
Transformierte Daten
Muster Wissen
Data Mining Interpreta- tion
Transformierte Daten
Der KDD-Prozess
KDD
Data Mining
Auswahl
Zieldaten
Daten Vorbereitete
Daten Integration Bereinigung
Reduktion Projektion
Transformierte Daten
Muster Wissen
Data Mining Interpreta- tion
Transformierte Daten
Muster
Der KDD-Prozess
KDD
Interpretation
Auswahl
Zieldaten
Daten Vorbereitete
Daten Integration Bereinigung
Reduktion Projektion
Transformierte Daten
Muster Wissen
Data Mining Interpreta- tion
Muster Wissen
Data Mining ⇔ KDD
KDD
Data Mining
Was ist Data Mining?
Nach welchen Mustern wird gesucht?
Wie wird gesucht?
Knowledge Discovery in Databases
Der KDD-Prozess
Gegenüberstellung Data Mining und KDD
Online Analytical Processing (OLAP)
OLAP-Funktionen
Gegenüberstellung Data Mining und OLAP
Problemfelder des Data Mining
KDD
Alle Daten
Wissen
Auswahl
Zieldaten Muster
Data
Mining Interpretation Integration
Bereinigung
Vorbereitete Daten
Reduktion Projektion
Transformierte Daten
Data Mining ist ein Teilschritt des KDD-Prozesses
Data Mining ⇔ KDD
OLAP-Funktionen
OLAP
Data Mining
Was ist Data Mining?
Nach welchen Mustern wird gesucht?
Wie wird gesucht?
Knowledge Discovery in Databases (KDD)
Der KDD-Prozess
Gegenüberstellung Data Mining und KDD
Online Analytical Processing (OLAP)
OLAP-Funktionen
Gegenüberstellung Data Mining und OLAP
Problemfelder des Data Mining
OLAP-Funktionen
OLAP
Datenwürfel
n Dimensionen
⇔ n Attribute
Beispiel:
3 Dimensionen:
⇒ Ort, Zeit, Produkt
Ort
Zeit
Produkt
OLAP-Funktionen
OLAP
Datenwürfel
n Dimensionen
⇔ n Attribute
Wertebereich
kontinuierlich ⇔ diskret
Hierarchien
⇒ Abstraktionsebenen
OLAP-Funktionen
OLAP
Hierarchien
Beispiel: Hierarchie auf Attribut „Zeit“
Januar 2003 Februar 2003 März 2003 Dezember 2003
1.Quartal 2003 ... 4. Quartal 2003
2003
Monat Quartal
Jahr
...
OLAP-Funktionen
OLAP
OLAP-Funktionen
Roll-Up
Drill-Down
Januar 2003 Februar 2003 März 2003 1.Quartal 2003
Roll-Up
Drill-Down
OLAP-Funktionen
OLAP
OLAP-Funktionen
Roll-Up
Drill-Down
Slice Zeit
Ort Produkt
Produkt = Radio
Zeit Ort
Zeit
Ort Produkt
Ort = KL
Zeit
Produkt
OLAP-Funktionen
OLAP
OLAP-Funktionen
Roll-Up
Drill-Down Slice
Dice
Zeit
Ort Produkt
Ort = RLP Zeit = 4.Quartal
Produkt = Rundfunkgeräte
Zeit
Ort Produkt
OLAP-Funktionen
OLAP
OLAP-Funktionen
Roll-Up
Drill-Down Slice
Dice
Rotate (Pivote)
Data Mining ⇔ OLAP
OLAP
Data Mining
Was ist Data Mining?
Nach welchen Mustern wird gesucht?
Wie wird gesucht?
Knowledge Discovery in Databases (KDD)
Der KDD-Prozess
Gegenüberstellung Data Mining und KDD
Online Analytical Processing (OLAP)
OLAP-Funktionen
Gegenüberstellung Data Mining und OLAP
Problemfelder des Data Mining
Data Mining ⇔ OLAP
OLAP
Rennpferd ⇔ Arbeitspferd
OLAP = Arbeitspferd
Data Mining = Rennpferd
Data Mining ⇒ OLAP
OLAP
Data Mining als Erweiterung des OLAP
Ergebnis sind Zusammenhänge und Muster in den Daten
Ergebnis ist eine andere ⇒
Darstellungsform der Daten
Automatische Analyse
(computergestützte Algorithmen) Benutzerinteraktive Analyse ⇒
(aktive Auswertung der Daten)
Daten können vollkommen unbekannt sein
Daten müssen bekannt sein ⇒
(Benutzer wählt aus)
Ergebnis steht nicht fest, unbekannte Muster möglich Ergebnis steht fest ⇒
(z.B. Bestätigung der Hypothese)
Kein Analyseziel notwendig (kann Hypothesen liefern)
Analyseziel notwendig ⇒
(z.B. Hypothese)
Data Mining
⇒
OLAP
Data Mining ⇐ OLAP
OLAP
OLAP Mining
integrierte, konsistente und gesäuberte Daten Anwendung von Data-Mining-Algorithmen
Interaktive Analyse und anschauliche Interpretation wie bei OLAP
OLAP-Mining-Funktionen (Auszug)
Cubing then Mining Mining then Cubing
Problemfelder des Data Mining
Problemfelder
Data Mining
Was ist Data Mining?
Nach welchen Mustern wird gesucht?
Wie wird gesucht?
Knowledge Discovery in Databases (KDD)
Der KDD-Prozess
Gegenüberstellung Data Mining und KDD
Online Analytical Processing (OLAP)
OLAP-Funktionen
Gegenüberstellung Data Mining und OLAP
Problemfelder des Data Mining
Problemfelder des Data Mining
Problemfelder
Speichergröße
• Problem: Daten passen nicht vollständig in den Speicher
• Lösung: Algorithmen, die zum Beispiel in mehreren Durchgängen analysieren
Antwortzeit
• Problem: schnellere Analysen gewünscht – kürzere Antwortzeiten des Systems
• Lösung: parallele Analysetechniken
Vielfalt der Datentypen
• Problem: neue Datentypen, Videos ...
Benutzerfreundlichkeit
Datenschutz und Sicherheit
Zusammenfassung
Was ist Data Mining?
Data Mining
Muster, Verfahren
KDD-Prozess
Data Mining als Teilschritt des KDD-Prozesses
OLAP
Datenmodell, OLAP-Funktionen
Data Mining als Erweiterung des OLAP