Datamining Oberseminar DatenbankenCarsten Severin Tobias Sorgatz

(1)

Oberseminar Datenbanken Carsten Severin

Tobias Sorgatz

Datamining

(2)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

Überblick Überblick

 1. Einleitung

 2. Eingaben

 3. Ausgaben

 4. Algorithmen

 5. Glaubwürdigkeit

 6. Maschinelles

Lernen in der Praxis

(3)

1.0. Beispiele 1.0. Beispiele

 Beispiel 1: Künstliche Befruchtung

 Eigenschaften definieren, die größte Überlebenschance garantieren

(4)

1.1. Beispiele 1.1. Beispiele

 Beispiel 2: Vieh wird geschlachtet

 Gesundheit

 Lebenserwartung

 Fruchtbarkeit

 Gewicht

(5)

1.2. Situation 1.2. Situation

 Immer mehr Daten werden gespeichert

 Internet

 Preiswerte Speichermedien

 Mehr Anwendungen: Bilder, Filme

 Alle 20 Monate Verdopplung der Daten

(6)

1.3. Lösung: Data Mining 1.3. Lösung: Data Mining

 Es ist eine Möglichkeit gesucht, die Datenflut zu analysieren

 Daten sollen ausgewertet werden

 Lösung: Data Mining

(7)

1.4.1. Datamining 1.4.1. Datamining

 Verarbeitung elektronisch gespeicherter Daten

 Lernen: Wissen durch Studium aneignen

 Prozess der autom. oder halbautom.

Mustererkennung

 Maschinelles Lernen: Lernen automatisieren

(8)

1.4.2. Data Mining 1.4.2. Data Mining

 Aneignen von Wissen

 Fähigkeit es zu verwenden

 Gezielte Suche in Datenbanken

 Analyse bereits vorhandener Daten

 Suche nach Mustern

 Ergebnisse ein weiteres Handeln einbeziehen

(9)

1.5. Data Mining und Ethik 1.5. Data Mining und Ethik

 problematisch sind rassische und sexuelle Informationen

 Undurchschaubarkeit von Daten (unvorhersehbare Auswertungen)

 Viele Daten werden für neue Analysen zusammengefasst

(10)

1.6. Bias: Lernverfahren 1.6. Bias: Lernverfahren

 Zur Bestimmung des Lernverfahrens

 Sprachbias:

 Ist die Beschreibung universal?

 Wird domänenwissen genutzt

 Suchbias:

 bestmögliche Beschreibung finden

 Bias zur Vermeidung der Überanpassung

(11)

2. Eingabe 2. Eingabe

 Wie werden die Daten zur Analyse eingegeben?

(12)

2.1. Eingabe der Daten 2.1. Eingabe der Daten

 Konzepte

 Instanzen

 Attribute

(13)

2.1.1. Konzepte 2.1.1. Konzepte

 Unabhängig von Art des Lernens

 Beschreibt was gelernt werden soll

 Ausgabe des Lernverfahrens:

 Baum

 Regelmenge

(14)

2.1.2. Instanzen 2.1.2. Instanzen

 Jede Instanz ist ein eigenes Beispiel

 Zeile in einer Tabelle

(15)

2.1.3.1. Attribute 2.1.3.1. Attribute

 Attribut ist Spalte einer Tabelle

 Problem: Instanzen mit unterschiedlichen Attributen -> Möglichst viele Attribute

(16)

2.1.3.2. Attribute 2.1.3.2. Attribute

 Numerische Attribute

 Nominale Attribute

 Ordinale Attribute

(17)

2.2. Beispiel 2.2. Beispiel

 Wie sehen einzulesende Datenmengen aus?

 Wie sehen Regelmengen aus?

(18)

2.2.1. Beispiel: Datensatz

(19)

2.2.2. Beispiel: Baum

(20)

2.2.3. Beispiel: Regelmenge

(21)

2.3. Aufbereitung 2.3. Aufbereitung

 Aufbereitung der Eingabedaten

 Integration von verschiedenen Datenquellen

 Datacleaning

 Data Warehousing

 ARFF-Dateien

(22)

2.3.1. Data Warehousing 2.3.1. Data Warehousing

 Zusammenfassung von Datenquellen

 Unternehmensweite Datenbankintegration

 Keine Abteilungsgrenzen

 Aggregation von Daten

(23)

2.4. Eingabe: Fehlende Daten 2.4. Eingabe: Fehlende Daten

 Einträge außerhalb Gültigkeit (-1)

 Unterscheidung von fehlenden Daten(-1,-2)

 Wegen verändertes Experiment

 Wegen Messfehlern

 Wegen Verweigerung

 Ist Auftreten zufällig oder wichtig für Analyse?

(24)

2.5. Eingabe: Genauigkeit 2.5. Eingabe: Genauigkeit

 Daten für andere Zwecke gespeichert

 Ungenauigkeiten plötzlich von anderer Bedeutung

 Schreibfehler (sind Daten gleich?)

 Bewusste Manipulation

(25)

2.6. Arten des Lernens 2.6. Arten des Lernens

 Klassifizierendes Lernen

 Vorhandene Daten in Klassen fassen

 Numerische Vorhersage

 Numerische statt diskrete Werte

 Clustering

 Gruppieren von Instanzen

(26)

3. Ausgabe 3. Ausgabe

3.1 Entscheidungstabellen 3.2 Entscheidungsbäume 3.3 Klassifikationsregeln 3.4 Assoziationsregeln

3.5 Regeln mit Ausnahmen

3.6 Bäume für numerische Vorhersage

3.7 Instanzbasierte Darstellung

3.8 Cluster

(27)

3.1 Entscheidungstabellen 3.1 Entscheidungstabellen

 Einfachste, elementarste Methode

 weniger einfach bei spezieller Auswahl von Attributen

 Kompliziert: Auswahl der die Entscheidung nicht beeinflussenden Attribute

(28)

3.2 Entscheidungsbäume 3.2 Entscheidungsbäume

 Ansatz: Teile und Herrsche

 Knoten eines Baumes bedingen Auswertung eines Attributs

 Blätter stellen Klassifikationen dar

(29)

3.3 Klassifikationsregeln 3.3 Klassifikationsregeln

 Anwendung einer Regel verlangt

Auswertung einer Menge von Attributen

 Allgemein logische UND Verknüpfung der Bedingungen

 Aus Baum: pro Blatt eine Regel,

Auswertung jeder Regel eines Knotens auf dem Pfad von Wurzel zu Blatt

(30)

3.4 Assoziationsregeln 3.4 Assoziationsregeln

 Können nicht nur Klassen vorhersagen, sondern auch Attribute

 Damit Vorhersage beliebiger Attributkombinationen

 if temperatur =kalt

 then luftfeuchtigkeit = normal

(31)

3.5 Regeln mit Ausnahmen 3.5 Regeln mit Ausnahmen

 Vermeidung falscher Klassifikation durch Zulassen von Ausnahmen

 Schaffen einer neuen Entscheidungsebene

 Bei Fortsetzung erhält man Baumstruktur

 if stimme = hoch then Frau

 except if eunuch then Mann

(32)

3.6 Bäume für numerische 3.6 Bäume für numerische

Vorhersagen Vorhersagen

 Auswertung eines numerischen Attributes

(33)

3.7 Instanzbasierte 3.7 Instanzbasierte

Darstellung Darstellung

 Auswendiglernen durch Merken von Trainingsinstanzen

 Neue Instanz wird mit vorhandenen

verglichen und der Klasse der ähnlichsten vorhandenen Instanz zugeordnet

 BSP: Buchstabenerkennung

(34)

3.8 Cluster 3.8 Cluster

 Ausgabe eines Diagramms: Anzeige der in die Cluster eingeordneten Instanzen

 Einfachster Fall: Zuweisung einer Clusternummer zu jeder Instanz

(35)

4. Algorithmen 4. Algorithmen

4.1 Ableitung

elementarer Regeln

4.2 statistische Modellierung

4.3 Teile und Herrsche

4.4 Abdeckungs- algorithmen

(36)

4.1 Ableitung elementarer 4.1 Ableitung elementarer

Regeln Regeln

 Baum auf einer Ebene

 Auswertung einer Regelmenge eines Attributes

 für jedes attribut

 für jeden wert des attributes

 zählen, wie oft jede klasse erscheint

 klasse mit häufigsten auftreten ermitteln

 regel aufstellen die diesem attributwert klasse zuordenet

 fehlerrate der regeln berechnen

 regelmenge mit kleinsten fehler auswählen

(37)

4.2 Statistische Modellierung 4.2 Statistische Modellierung

 Nutzung aller Attribute

 Gewichtung für alle Attribute gleich

 Attribute werden als unabhängig voneinander angesehen

 Rechnen mit Wahrscheinlichkeiten

 Auswertung von Hypothesen und zugehörigen Ereignissen

(38)

4.3 Teile und Herrsche 4.3 Teile und Herrsche

 Wahl eines Wurzelattributes

 Anlegen einer Verzweigung für jeden Wert

 Zerlegung der Beispielmenge in Untermengen, eine für jeden Wert des Attr.

 Rekursive Anwendung für jede Verzweigung, nur Instanzen die Verzweigung erreichen

 Alle Instanzen eines Knotens gleiche Klasse:

Konstruktion des Baumabschn. fertig

(39)

4.4 Abdeckungs-Algorithmen 4.4 Abdeckungs-Algorithmen

 Betrachtung einzelner Klassen nacheinander

 Abdeckung aller Instanzen

 Auschluss klassenfremder Instanzen

 Ableitung einer Regel in jedem Schritt die einige Instanzen abdeckt

(40)

5. Glaubwürdigkeit 5. Glaubwürdigkeit

 5.1 Trainieren und Testen

 5.2 Leistungsvorhersage

 5.3 Kreuzvalidierung

 5.3.1 Leave one out

 5.4 Vorhersage von Wahrscheinlichkeiten

(41)

5.1 Trainieren und Testen 5.1 Trainieren und Testen

 Bei richtiger Klassifikation: Erfolg

 Andernfalls : Fehler

 Angabe des Verhältnisses zwischen Erfolg und Fehler: Gesamtleistung des

Klassifizierers

 Nicht effektiv, da mit alten Daten gearbeitet wird, Vorhersage schwer möglich

(42)

5.2 Leistungsvorhersage 5.2 Leistungsvorhersage

 Fehlerrate (fr) sei bestimmt (5.1)

 Bestimmung von Erfolgsrate (er): 1-fr

 Mit Mitteln der

Wahrscheinlichkeitsrechnung Bestimmung der Wahrscheinlichkeit von er.

 Bei grossen Testreihen: Normalverteilung

(43)

5.3 5.3 Kreuzvalidierung Kreuzvalidierung

 Aufteilung der Datenmenge in Test und Trainingsmenge, feste Partitionen (Bsp3)

 Garantiert beste Mischung der Beispiele aller Klassen

 Nacheinander Ausführung von:

 Testen einer Partition, trainieren mit den zwei Anderen

(44)

5.3.1 Leave-one-out 5.3.1 Leave-one-out

 N-fache Kreuzvalidierung

 N ist Anzahl der Instanzen in der Datenmenge

 Nacheinander:

 Weglassen einer Instanz

 Training mit restlichen Instanzen

Auswertung aller N Ergebnisse durch Mittelwertbildung

(45)

5.4 Vorhersage von 5.4 Vorhersage von Wahrscheinlichkeiten Wahrscheinlichkeiten

 Bisheriges Ziel: hohe Erfolgsrate für Vorhersage

 Nicht mehr wahr oder falsch (Vorhersage hat tatsächlichen Wert der Instanz)

 Einführung beliebig vieler Abstufungen

 Verschiedene Gewichtung von

unterschiedlichen Vorhersageergebnissen

(46)

6. Maschinelles Lernen in der 6. Maschinelles Lernen in der

Praxis Praxis

 Algorithmen sind in Praxis viel komplexer

 Behandlung realer Probleme

 Schwerpunkte: numerische Attribute

Fehlerbehandlung

 Anwendung von Statistiken

(47)

6.1 Entscheidunsbäume 6.1 Entscheidunsbäume

 Erweiterung des Teile-und-herrsche Algo:

 Behandlung numerischer und fehlender Werte

 Beschneidung (wegen Überanpassung)

 Umwandlung der Entscheidungsäume in Klassifikationsregeln

(48)

6.1.1 Numerische Werte 6.1.1 Numerische Werte

 Anpassung an nominale (boolsche) Struktur

 Beispiel: Temperaturabfrage

no yes

yes no

no yes

yes yes

no yes

85 83

81 80

75 72

71 70

69 68

65 64

(49)

6.1.2 Fehlende Werte 6.1.2 Fehlende Werte

 Zerlegung der Instanz, unter Verwendung numerischer Gewichtung, und Bearbeitung mit allen Verzweigungen des Baumes

 Bei Erreichen eines Blattknotens:

Zusammenfügen der Entscheidungen des Blattknotens unter Verwendung der

Gewichtung, die mit “durchgesickert” ist

(50)

6.1.3 Pruning 6.1.3 Pruning

6.1.3.1 Postpruning:

Nachträgliches Beschneiden des fertigen

Baumes („usammengehörige Attribute“

6.1.3.2 Prepruning

Beschneidung während der Baumbildung (Arbeitseinsparung)

(51)

6.1.4 Von Bäumen zu Regeln 6.1.4 Von Bäumen zu Regeln

 Pro Blatt eine Regel

 Alle Auswertungen von Wurzel zum Blatt werden UND-verknüpft

 Löschen von Bedingungen, die keinen, oder schlechten, Einfluß auf Regel haben

 Entfernen von Regelduplikaten

(52)

6.2 Clustering 6.2 Clustering

 Ziel: Einteilung der Instanzen in natürliche Gruppen

 Arten von Clustern:

 Ausschliessende

 Überlappende

 Wahrscheinlichkeitsverteilte

 Hierarchisch (Vererbungsebenen)

(53)

6.2.1 k-Mittelwert Clustering 6.2.1 k-Mittelwert Clustering

 Bildung von k Clustern in numerischen Domänen, durch Aufteilung der Instanzen in disjunkte

(elementefremd) Cluster

 Wahl von Zentren und Zuweisung der Instanzen zum nächstliegenden Zentrum

 Mittelwertbildung aller Instanzen-neues Zentrum

 Wiederholung bis keine neuen Zentren entstehen

(54)

6.2.2 inkrementelles 6.2.2 inkrementelles

Clustering Clustering

 Hierarchische Gruppierung der Instanzen aufgrund eines

„Quallitätsmasses

“(auch Kategorienützlichkeit) für Cluster

 Inkrementell (feinere Aufteilung Instanz für Instanz)

(55)

6.2.3 Statistisches Clustering 6.2.3 Statistisches Clustering

 Mischmodell aus verschiedenen Wahrscheinlichkeitsverteilungen

 Eine Verteilung pro Cluster

 Jede Verteilung gibt Wahrscheinlichkeit für Clusterzugehörigkeit einer Instanz an (jede Instanz genau zu einem Cluster)

(56)

Vielen Dank für die Vielen Dank für die

Aufmerksamkeit Aufmerksamkeit

 Wir wünschen ein allseits schönes Wochenende.

 Noch Fragen? (rhetorische Frage)

(57)

Quellen Quellen

 Titel: Data Mining

 Praktische Werkzeuge und Techniken für das maschinelles Lernen

 Autoren: Ian H. Witten, Eibe Frank