Oberseminar Datenbanken Carsten Severin
Tobias Sorgatz
Datamining
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
Überblick Überblick
1. Einleitung
2. Eingaben
3. Ausgaben
4. Algorithmen
5. Glaubwürdigkeit
6. Maschinelles
Lernen in der Praxis
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
1.0. Beispiele 1.0. Beispiele
Beispiel 1: Künstliche Befruchtung
Eigenschaften definieren, die größte Überlebenschance garantieren
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
1.1. Beispiele 1.1. Beispiele
Beispiel 2: Vieh wird geschlachtet
Gesundheit
Lebenserwartung
Fruchtbarkeit
Gewicht
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
1.2. Situation 1.2. Situation
Immer mehr Daten werden gespeichert
Internet
Preiswerte Speichermedien
Mehr Anwendungen: Bilder, Filme
Alle 20 Monate Verdopplung der Daten
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
1.3. Lösung: Data Mining 1.3. Lösung: Data Mining
Es ist eine Möglichkeit gesucht, die Datenflut zu analysieren
Daten sollen ausgewertet werden
Lösung: Data Mining
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
1.4.1. Datamining 1.4.1. Datamining
Verarbeitung elektronisch gespeicherter Daten
Lernen: Wissen durch Studium aneignen
Prozess der autom. oder halbautom.
Mustererkennung
Maschinelles Lernen: Lernen automatisieren
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
1.4.2. Data Mining 1.4.2. Data Mining
Aneignen von Wissen
Fähigkeit es zu verwenden
Gezielte Suche in Datenbanken
Analyse bereits vorhandener Daten
Suche nach Mustern
Ergebnisse ein weiteres Handeln einbeziehen
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
1.5. Data Mining und Ethik 1.5. Data Mining und Ethik
problematisch sind rassische und sexuelle Informationen
Undurchschaubarkeit von Daten (unvorhersehbare Auswertungen)
Viele Daten werden für neue Analysen zusammengefasst
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
1.6. Bias: Lernverfahren 1.6. Bias: Lernverfahren
Zur Bestimmung des Lernverfahrens
Sprachbias:
Ist die Beschreibung universal?
Wird domänenwissen genutzt
Suchbias:
bestmögliche Beschreibung finden
Bias zur Vermeidung der Überanpassung
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2. Eingabe 2. Eingabe
Wie werden die Daten zur Analyse eingegeben?
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.1. Eingabe der Daten 2.1. Eingabe der Daten
Konzepte
Instanzen
Attribute
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.1.1. Konzepte 2.1.1. Konzepte
Unabhängig von Art des Lernens
Beschreibt was gelernt werden soll
Ausgabe des Lernverfahrens:
Baum
Regelmenge
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.1.2. Instanzen 2.1.2. Instanzen
Jede Instanz ist ein eigenes Beispiel
Zeile in einer Tabelle
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.1.3.1. Attribute 2.1.3.1. Attribute
Attribut ist Spalte einer Tabelle
Problem: Instanzen mit unterschiedlichen Attributen -> Möglichst viele Attribute
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.1.3.2. Attribute 2.1.3.2. Attribute
Numerische Attribute
Nominale Attribute
Ordinale Attribute
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.2. Beispiel 2.2. Beispiel
Wie sehen einzulesende Datenmengen aus?
Wie sehen Regelmengen aus?
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.2.1. Beispiel: Datensatz
2.2.1. Beispiel: Datensatz
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.2.2. Beispiel: Baum
2.2.2. Beispiel: Baum
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.2.3. Beispiel: Regelmenge
2.2.3. Beispiel: Regelmenge
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.3. Aufbereitung 2.3. Aufbereitung
Aufbereitung der Eingabedaten
Integration von verschiedenen Datenquellen
Datacleaning
Data Warehousing
ARFF-Dateien
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.3.1. Data Warehousing 2.3.1. Data Warehousing
Zusammenfassung von Datenquellen
Unternehmensweite Datenbankintegration
Keine Abteilungsgrenzen
Aggregation von Daten
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.4. Eingabe: Fehlende Daten 2.4. Eingabe: Fehlende Daten
Einträge außerhalb Gültigkeit (-1)
Unterscheidung von fehlenden Daten(-1,-2)
Wegen verändertes Experiment
Wegen Messfehlern
Wegen Verweigerung
Ist Auftreten zufällig oder wichtig für Analyse?
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.5. Eingabe: Genauigkeit 2.5. Eingabe: Genauigkeit
Daten für andere Zwecke gespeichert
Ungenauigkeiten plötzlich von anderer Bedeutung
Schreibfehler (sind Daten gleich?)
Bewusste Manipulation
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.6. Arten des Lernens 2.6. Arten des Lernens
Klassifizierendes Lernen
Vorhandene Daten in Klassen fassen
Numerische Vorhersage
Numerische statt diskrete Werte
Clustering
Gruppieren von Instanzen
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
3. Ausgabe 3. Ausgabe
3.1 Entscheidungstabellen 3.2 Entscheidungsbäume 3.3 Klassifikationsregeln 3.4 Assoziationsregeln
3.5 Regeln mit Ausnahmen
3.6 Bäume für numerische Vorhersage
3.7 Instanzbasierte Darstellung
3.8 Cluster
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
3.1 Entscheidungstabellen 3.1 Entscheidungstabellen
Einfachste, elementarste Methode
weniger einfach bei spezieller Auswahl von Attributen
Kompliziert: Auswahl der die Entscheidung nicht beeinflussenden Attribute
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
3.2 Entscheidungsbäume 3.2 Entscheidungsbäume
Ansatz: Teile und Herrsche
Knoten eines Baumes bedingen Auswertung eines Attributs
Blätter stellen Klassifikationen dar
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
3.3 Klassifikationsregeln 3.3 Klassifikationsregeln
Anwendung einer Regel verlangt
Auswertung einer Menge von Attributen
Allgemein logische UND Verknüpfung der Bedingungen
Aus Baum: pro Blatt eine Regel,
Auswertung jeder Regel eines Knotens auf dem Pfad von Wurzel zu Blatt
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
3.4 Assoziationsregeln 3.4 Assoziationsregeln
Können nicht nur Klassen vorhersagen, sondern auch Attribute
Damit Vorhersage beliebiger Attributkombinationen
if temperatur =kalt
then luftfeuchtigkeit = normal
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
3.5 Regeln mit Ausnahmen 3.5 Regeln mit Ausnahmen
Vermeidung falscher Klassifikation durch Zulassen von Ausnahmen
Schaffen einer neuen Entscheidungsebene
Bei Fortsetzung erhält man Baumstruktur
if stimme = hoch then Frau
except if eunuch then Mann
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
3.6 Bäume für numerische 3.6 Bäume für numerische
Vorhersagen Vorhersagen
Auswertung eines numerischen Attributes
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
3.7 Instanzbasierte 3.7 Instanzbasierte
Darstellung Darstellung
Auswendiglernen durch Merken von Trainingsinstanzen
Neue Instanz wird mit vorhandenen
verglichen und der Klasse der ähnlichsten vorhandenen Instanz zugeordnet
BSP: Buchstabenerkennung
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
3.8 Cluster 3.8 Cluster
Ausgabe eines Diagramms: Anzeige der in die Cluster eingeordneten Instanzen
Einfachster Fall: Zuweisung einer Clusternummer zu jeder Instanz
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
4. Algorithmen 4. Algorithmen
4.1 Ableitung
elementarer Regeln
4.2 statistische Modellierung
4.3 Teile und Herrsche
4.4 Abdeckungs- algorithmen
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
4.1 Ableitung elementarer 4.1 Ableitung elementarer
Regeln Regeln
Baum auf einer Ebene
Auswertung einer Regelmenge eines Attributes
für jedes attribut
für jeden wert des attributes
zählen, wie oft jede klasse erscheint
klasse mit häufigsten auftreten ermitteln
regel aufstellen die diesem attributwert klasse zuordenet
fehlerrate der regeln berechnen
regelmenge mit kleinsten fehler auswählen
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
4.2 Statistische Modellierung 4.2 Statistische Modellierung
Nutzung aller Attribute
Gewichtung für alle Attribute gleich
Attribute werden als unabhängig voneinander angesehen
Rechnen mit Wahrscheinlichkeiten
Auswertung von Hypothesen und zugehörigen Ereignissen
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
4.3 Teile und Herrsche 4.3 Teile und Herrsche
Wahl eines Wurzelattributes
Anlegen einer Verzweigung für jeden Wert
Zerlegung der Beispielmenge in Untermengen, eine für jeden Wert des Attr.
Rekursive Anwendung für jede Verzweigung, nur Instanzen die Verzweigung erreichen
Alle Instanzen eines Knotens gleiche Klasse:
Konstruktion des Baumabschn. fertig
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
4.4 Abdeckungs-Algorithmen 4.4 Abdeckungs-Algorithmen
Betrachtung einzelner Klassen nacheinander
Abdeckung aller Instanzen
Auschluss klassenfremder Instanzen
Ableitung einer Regel in jedem Schritt die einige Instanzen abdeckt
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
5. Glaubwürdigkeit 5. Glaubwürdigkeit
5.1 Trainieren und Testen
5.2 Leistungsvorhersage
5.3 Kreuzvalidierung
5.3.1 Leave one out
5.4 Vorhersage von Wahrscheinlichkeiten
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
5.1 Trainieren und Testen 5.1 Trainieren und Testen
Bei richtiger Klassifikation: Erfolg
Andernfalls : Fehler
Angabe des Verhältnisses zwischen Erfolg und Fehler: Gesamtleistung des
Klassifizierers
Nicht effektiv, da mit alten Daten gearbeitet wird, Vorhersage schwer möglich
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
5.2 Leistungsvorhersage 5.2 Leistungsvorhersage
Fehlerrate (fr) sei bestimmt (5.1)
Bestimmung von Erfolgsrate (er): 1-fr
Mit Mitteln der
Wahrscheinlichkeitsrechnung Bestimmung der Wahrscheinlichkeit von er.
Bei grossen Testreihen: Normalverteilung
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
5.3 5.3 Kreuzvalidierung Kreuzvalidierung
Aufteilung der Datenmenge in Test und Trainingsmenge, feste Partitionen (Bsp3)
Garantiert beste Mischung der Beispiele aller Klassen
Nacheinander Ausführung von:
Testen einer Partition, trainieren mit den zwei Anderen
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
5.3.1 Leave-one-out 5.3.1 Leave-one-out
N-fache Kreuzvalidierung
N ist Anzahl der Instanzen in der Datenmenge
Nacheinander:
Weglassen einer Instanz
Training mit restlichen Instanzen
Auswertung aller N Ergebnisse durch Mittelwertbildung
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
5.4 Vorhersage von 5.4 Vorhersage von Wahrscheinlichkeiten Wahrscheinlichkeiten
Bisheriges Ziel: hohe Erfolgsrate für Vorhersage
Nicht mehr wahr oder falsch (Vorhersage hat tatsächlichen Wert der Instanz)
Einführung beliebig vieler Abstufungen
Verschiedene Gewichtung von
unterschiedlichen Vorhersageergebnissen
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
6. Maschinelles Lernen in der 6. Maschinelles Lernen in der
Praxis Praxis
Algorithmen sind in Praxis viel komplexer
Behandlung realer Probleme
Schwerpunkte: numerische Attribute
Fehlerbehandlung
Anwendung von Statistiken
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
6.1 Entscheidunsbäume 6.1 Entscheidunsbäume
Erweiterung des Teile-und-herrsche Algo:
Behandlung numerischer und fehlender Werte
Beschneidung (wegen Überanpassung)
Umwandlung der Entscheidungsäume in Klassifikationsregeln
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
6.1.1 Numerische Werte 6.1.1 Numerische Werte
Anpassung an nominale (boolsche) Struktur
Beispiel: Temperaturabfrage
no yes
yes no
no yes
no yes
yes yes
no yes
85 83
81 80
75 72
71 70
69 68
65 64
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
6.1.2 Fehlende Werte 6.1.2 Fehlende Werte
Zerlegung der Instanz, unter Verwendung numerischer Gewichtung, und Bearbeitung mit allen Verzweigungen des Baumes
Bei Erreichen eines Blattknotens:
Zusammenfügen der Entscheidungen des Blattknotens unter Verwendung der
Gewichtung, die mit “durchgesickert” ist
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
6.1.3 Pruning 6.1.3 Pruning
6.1.3.1 Postpruning:
Nachträgliches Beschneiden des fertigen
Baumes („usammengehörige Attribute“
6.1.3.2 Prepruning
Beschneidung während der Baumbildung (Arbeitseinsparung)
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
6.1.4 Von Bäumen zu Regeln 6.1.4 Von Bäumen zu Regeln
Pro Blatt eine Regel
Alle Auswertungen von Wurzel zum Blatt werden UND-verknüpft
Löschen von Bedingungen, die keinen, oder schlechten, Einfluß auf Regel haben
Entfernen von Regelduplikaten
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
6.2 Clustering 6.2 Clustering
Ziel: Einteilung der Instanzen in natürliche Gruppen
Arten von Clustern:
Ausschliessende
Überlappende
Wahrscheinlichkeitsverteilte
Hierarchisch (Vererbungsebenen)
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
6.2.1 k-Mittelwert Clustering 6.2.1 k-Mittelwert Clustering
Bildung von k Clustern in numerischen Domänen, durch Aufteilung der Instanzen in disjunkte
(elementefremd) Cluster
Wahl von Zentren und Zuweisung der Instanzen zum nächstliegenden Zentrum
Mittelwertbildung aller Instanzen-neues Zentrum
Wiederholung bis keine neuen Zentren entstehen
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
6.2.2 inkrementelles 6.2.2 inkrementelles
Clustering Clustering
Hierarchische Gruppierung der Instanzen aufgrund eines
„Quallitätsmasses
“(auch Kategorienützlichkeit) für Cluster
Inkrementell (feinere Aufteilung Instanz für Instanz)
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
6.2.3 Statistisches Clustering 6.2.3 Statistisches Clustering
Mischmodell aus verschiedenen Wahrscheinlichkeitsverteilungen
Eine Verteilung pro Cluster
Jede Verteilung gibt Wahrscheinlichkeit für Clusterzugehörigkeit einer Instanz an (jede Instanz genau zu einem Cluster)
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
Vielen Dank für die Vielen Dank für die
Aufmerksamkeit Aufmerksamkeit
Wir wünschen ein allseits schönes Wochenende.
Noch Fragen? (rhetorische Frage)
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
Quellen Quellen
Titel: Data Mining
Praktische Werkzeuge und Techniken für das maschinelles Lernen
Autoren: Ian H. Witten, Eibe Frank