• Keine Ergebnisse gefunden

Datamining Oberseminar DatenbankenCarsten Severin Tobias Sorgatz

N/A
N/A
Protected

Academic year: 2022

Aktie "Datamining Oberseminar DatenbankenCarsten Severin Tobias Sorgatz"

Copied!
57
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Oberseminar Datenbanken Carsten Severin

Tobias Sorgatz

Datamining

(2)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

Überblick Überblick

1. Einleitung

2. Eingaben

3. Ausgaben

4. Algorithmen

5. Glaubwürdigkeit

6. Maschinelles

Lernen in der Praxis

(3)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

1.0. Beispiele 1.0. Beispiele

Beispiel 1: Künstliche Befruchtung

Eigenschaften definieren, die größte Überlebenschance garantieren

(4)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

1.1. Beispiele 1.1. Beispiele

Beispiel 2: Vieh wird geschlachtet

Gesundheit

Lebenserwartung

Fruchtbarkeit

Gewicht

(5)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

1.2. Situation 1.2. Situation

Immer mehr Daten werden gespeichert

Internet

Preiswerte Speichermedien

Mehr Anwendungen: Bilder, Filme

Alle 20 Monate Verdopplung der Daten

(6)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

1.3. Lösung: Data Mining 1.3. Lösung: Data Mining

Es ist eine Möglichkeit gesucht, die Datenflut zu analysieren

Daten sollen ausgewertet werden

Lösung: Data Mining

(7)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

1.4.1. Datamining 1.4.1. Datamining

Verarbeitung elektronisch gespeicherter Daten

Lernen: Wissen durch Studium aneignen

Prozess der autom. oder halbautom.

Mustererkennung

Maschinelles Lernen: Lernen automatisieren

(8)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

1.4.2. Data Mining 1.4.2. Data Mining

Aneignen von Wissen

Fähigkeit es zu verwenden

Gezielte Suche in Datenbanken

Analyse bereits vorhandener Daten

Suche nach Mustern

Ergebnisse ein weiteres Handeln einbeziehen

(9)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

1.5. Data Mining und Ethik 1.5. Data Mining und Ethik

problematisch sind rassische und sexuelle Informationen

Undurchschaubarkeit von Daten (unvorhersehbare Auswertungen)

Viele Daten werden für neue Analysen zusammengefasst

(10)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

1.6. Bias: Lernverfahren 1.6. Bias: Lernverfahren

Zur Bestimmung des Lernverfahrens

Sprachbias:

Ist die Beschreibung universal?

Wird domänenwissen genutzt

Suchbias:

bestmögliche Beschreibung finden

Bias zur Vermeidung der Überanpassung

(11)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2. Eingabe 2. Eingabe

Wie werden die Daten zur Analyse eingegeben?

(12)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.1. Eingabe der Daten 2.1. Eingabe der Daten

Konzepte

Instanzen

Attribute

(13)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.1.1. Konzepte 2.1.1. Konzepte

Unabhängig von Art des Lernens

Beschreibt was gelernt werden soll

Ausgabe des Lernverfahrens:

Baum

Regelmenge

(14)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.1.2. Instanzen 2.1.2. Instanzen

Jede Instanz ist ein eigenes Beispiel

Zeile in einer Tabelle

(15)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.1.3.1. Attribute 2.1.3.1. Attribute

Attribut ist Spalte einer Tabelle

Problem: Instanzen mit unterschiedlichen Attributen -> Möglichst viele Attribute

(16)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.1.3.2. Attribute 2.1.3.2. Attribute

Numerische Attribute

Nominale Attribute

Ordinale Attribute

(17)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.2. Beispiel 2.2. Beispiel

Wie sehen einzulesende Datenmengen aus?

Wie sehen Regelmengen aus?

(18)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.2.1. Beispiel: Datensatz

2.2.1. Beispiel: Datensatz

(19)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.2.2. Beispiel: Baum

2.2.2. Beispiel: Baum

(20)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.2.3. Beispiel: Regelmenge

2.2.3. Beispiel: Regelmenge

(21)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.3. Aufbereitung 2.3. Aufbereitung

Aufbereitung der Eingabedaten

Integration von verschiedenen Datenquellen

Datacleaning

Data Warehousing

ARFF-Dateien

(22)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.3.1. Data Warehousing 2.3.1. Data Warehousing

Zusammenfassung von Datenquellen

Unternehmensweite Datenbankintegration

Keine Abteilungsgrenzen

Aggregation von Daten

(23)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.4. Eingabe: Fehlende Daten 2.4. Eingabe: Fehlende Daten

Einträge außerhalb Gültigkeit (-1)

Unterscheidung von fehlenden Daten(-1,-2)

Wegen verändertes Experiment

Wegen Messfehlern

Wegen Verweigerung

Ist Auftreten zufällig oder wichtig für Analyse?

(24)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.5. Eingabe: Genauigkeit 2.5. Eingabe: Genauigkeit

Daten für andere Zwecke gespeichert

Ungenauigkeiten plötzlich von anderer Bedeutung

Schreibfehler (sind Daten gleich?)

Bewusste Manipulation

(25)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.6. Arten des Lernens 2.6. Arten des Lernens

Klassifizierendes Lernen

Vorhandene Daten in Klassen fassen

Numerische Vorhersage

Numerische statt diskrete Werte

Clustering

Gruppieren von Instanzen

(26)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

3. Ausgabe 3. Ausgabe

3.1 Entscheidungstabellen 3.2 Entscheidungsbäume 3.3 Klassifikationsregeln 3.4 Assoziationsregeln

3.5 Regeln mit Ausnahmen

3.6 Bäume für numerische Vorhersage

3.7 Instanzbasierte Darstellung

3.8 Cluster

(27)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

3.1 Entscheidungstabellen 3.1 Entscheidungstabellen

Einfachste, elementarste Methode

weniger einfach bei spezieller Auswahl von Attributen

Kompliziert: Auswahl der die Entscheidung nicht beeinflussenden Attribute

(28)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

3.2 Entscheidungsbäume 3.2 Entscheidungsbäume

Ansatz: Teile und Herrsche

Knoten eines Baumes bedingen Auswertung eines Attributs

Blätter stellen Klassifikationen dar

(29)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

3.3 Klassifikationsregeln 3.3 Klassifikationsregeln

Anwendung einer Regel verlangt

Auswertung einer Menge von Attributen

Allgemein logische UND Verknüpfung der Bedingungen

Aus Baum: pro Blatt eine Regel,

Auswertung jeder Regel eines Knotens auf dem Pfad von Wurzel zu Blatt

(30)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

3.4 Assoziationsregeln 3.4 Assoziationsregeln

Können nicht nur Klassen vorhersagen, sondern auch Attribute

Damit Vorhersage beliebiger Attributkombinationen

if temperatur =kalt

then luftfeuchtigkeit = normal

(31)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

3.5 Regeln mit Ausnahmen 3.5 Regeln mit Ausnahmen

Vermeidung falscher Klassifikation durch Zulassen von Ausnahmen

Schaffen einer neuen Entscheidungsebene

Bei Fortsetzung erhält man Baumstruktur

if stimme = hoch then Frau

except if eunuch then Mann

(32)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

3.6 Bäume für numerische 3.6 Bäume für numerische

Vorhersagen Vorhersagen

Auswertung eines numerischen Attributes

(33)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

3.7 Instanzbasierte 3.7 Instanzbasierte

Darstellung Darstellung

Auswendiglernen durch Merken von Trainingsinstanzen

Neue Instanz wird mit vorhandenen

verglichen und der Klasse der ähnlichsten vorhandenen Instanz zugeordnet

BSP: Buchstabenerkennung

(34)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

3.8 Cluster 3.8 Cluster

Ausgabe eines Diagramms: Anzeige der in die Cluster eingeordneten Instanzen

Einfachster Fall: Zuweisung einer Clusternummer zu jeder Instanz

(35)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

4. Algorithmen 4. Algorithmen

4.1 Ableitung

elementarer Regeln

4.2 statistische Modellierung

4.3 Teile und Herrsche

4.4 Abdeckungs- algorithmen

(36)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

4.1 Ableitung elementarer 4.1 Ableitung elementarer

Regeln Regeln

Baum auf einer Ebene

Auswertung einer Regelmenge eines Attributes

für jedes attribut

für jeden wert des attributes

zählen, wie oft jede klasse erscheint

klasse mit häufigsten auftreten ermitteln

regel aufstellen die diesem attributwert klasse zuordenet

fehlerrate der regeln berechnen

regelmenge mit kleinsten fehler auswählen

(37)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

4.2 Statistische Modellierung 4.2 Statistische Modellierung

Nutzung aller Attribute

Gewichtung für alle Attribute gleich

Attribute werden als unabhängig voneinander angesehen

Rechnen mit Wahrscheinlichkeiten

Auswertung von Hypothesen und zugehörigen Ereignissen

(38)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

4.3 Teile und Herrsche 4.3 Teile und Herrsche

Wahl eines Wurzelattributes

Anlegen einer Verzweigung für jeden Wert

Zerlegung der Beispielmenge in Untermengen, eine für jeden Wert des Attr.

Rekursive Anwendung für jede Verzweigung, nur Instanzen die Verzweigung erreichen

Alle Instanzen eines Knotens gleiche Klasse:

Konstruktion des Baumabschn. fertig

(39)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

4.4 Abdeckungs-Algorithmen 4.4 Abdeckungs-Algorithmen

Betrachtung einzelner Klassen nacheinander

Abdeckung aller Instanzen

Auschluss klassenfremder Instanzen

Ableitung einer Regel in jedem Schritt die einige Instanzen abdeckt

(40)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

5. Glaubwürdigkeit 5. Glaubwürdigkeit

5.1 Trainieren und Testen

5.2 Leistungsvorhersage

5.3 Kreuzvalidierung

5.3.1 Leave one out

5.4 Vorhersage von Wahrscheinlichkeiten

(41)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

5.1 Trainieren und Testen 5.1 Trainieren und Testen

Bei richtiger Klassifikation: Erfolg

Andernfalls : Fehler

Angabe des Verhältnisses zwischen Erfolg und Fehler: Gesamtleistung des

Klassifizierers

Nicht effektiv, da mit alten Daten gearbeitet wird, Vorhersage schwer möglich

(42)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

5.2 Leistungsvorhersage 5.2 Leistungsvorhersage

Fehlerrate (fr) sei bestimmt (5.1)

Bestimmung von Erfolgsrate (er): 1-fr

Mit Mitteln der

Wahrscheinlichkeitsrechnung Bestimmung der Wahrscheinlichkeit von er.

Bei grossen Testreihen: Normalverteilung

(43)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

5.3 5.3 Kreuzvalidierung Kreuzvalidierung

Aufteilung der Datenmenge in Test und Trainingsmenge, feste Partitionen (Bsp3)

Garantiert beste Mischung der Beispiele aller Klassen

Nacheinander Ausführung von:

Testen einer Partition, trainieren mit den zwei Anderen

(44)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

5.3.1 Leave-one-out 5.3.1 Leave-one-out

N-fache Kreuzvalidierung

N ist Anzahl der Instanzen in der Datenmenge

Nacheinander:

Weglassen einer Instanz

Training mit restlichen Instanzen

Auswertung aller N Ergebnisse durch Mittelwertbildung

(45)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

5.4 Vorhersage von 5.4 Vorhersage von Wahrscheinlichkeiten Wahrscheinlichkeiten

Bisheriges Ziel: hohe Erfolgsrate für Vorhersage

Nicht mehr wahr oder falsch (Vorhersage hat tatsächlichen Wert der Instanz)

Einführung beliebig vieler Abstufungen

Verschiedene Gewichtung von

unterschiedlichen Vorhersageergebnissen

(46)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

6. Maschinelles Lernen in der 6. Maschinelles Lernen in der

Praxis Praxis

Algorithmen sind in Praxis viel komplexer

Behandlung realer Probleme

Schwerpunkte: numerische Attribute

Fehlerbehandlung

Anwendung von Statistiken

(47)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

6.1 Entscheidunsbäume 6.1 Entscheidunsbäume

Erweiterung des Teile-und-herrsche Algo:

Behandlung numerischer und fehlender Werte

Beschneidung (wegen Überanpassung)

Umwandlung der Entscheidungsäume in Klassifikationsregeln

(48)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

6.1.1 Numerische Werte 6.1.1 Numerische Werte

Anpassung an nominale (boolsche) Struktur

Beispiel: Temperaturabfrage

no yes

yes no

no yes

no yes

yes yes

no yes

85 83

81 80

75 72

71 70

69 68

65 64

(49)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

6.1.2 Fehlende Werte 6.1.2 Fehlende Werte

Zerlegung der Instanz, unter Verwendung numerischer Gewichtung, und Bearbeitung mit allen Verzweigungen des Baumes

Bei Erreichen eines Blattknotens:

Zusammenfügen der Entscheidungen des Blattknotens unter Verwendung der

Gewichtung, die mit “durchgesickert” ist

(50)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

6.1.3 Pruning 6.1.3 Pruning

6.1.3.1 Postpruning:

Nachträgliches Beschneiden des fertigen

Baumes („usammengehörige Attribute“

6.1.3.2 Prepruning

Beschneidung während der Baumbildung (Arbeitseinsparung)

(51)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

6.1.4 Von Bäumen zu Regeln 6.1.4 Von Bäumen zu Regeln

Pro Blatt eine Regel

Alle Auswertungen von Wurzel zum Blatt werden UND-verknüpft

Löschen von Bedingungen, die keinen, oder schlechten, Einfluß auf Regel haben

Entfernen von Regelduplikaten

(52)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

6.2 Clustering 6.2 Clustering

Ziel: Einteilung der Instanzen in natürliche Gruppen

Arten von Clustern:

Ausschliessende

Überlappende

Wahrscheinlichkeitsverteilte

Hierarchisch (Vererbungsebenen)

(53)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

6.2.1 k-Mittelwert Clustering 6.2.1 k-Mittelwert Clustering

Bildung von k Clustern in numerischen Domänen, durch Aufteilung der Instanzen in disjunkte

(elementefremd) Cluster

Wahl von Zentren und Zuweisung der Instanzen zum nächstliegenden Zentrum

Mittelwertbildung aller Instanzen-neues Zentrum

Wiederholung bis keine neuen Zentren entstehen

(54)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

6.2.2 inkrementelles 6.2.2 inkrementelles

Clustering Clustering

Hierarchische Gruppierung der Instanzen aufgrund eines

„Quallitätsmasses

“(auch Kategorienützlichkeit) für Cluster

Inkrementell (feinere Aufteilung Instanz für Instanz)

(55)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

6.2.3 Statistisches Clustering 6.2.3 Statistisches Clustering

Mischmodell aus verschiedenen Wahrscheinlichkeitsverteilungen

Eine Verteilung pro Cluster

Jede Verteilung gibt Wahrscheinlichkeit für Clusterzugehörigkeit einer Instanz an (jede Instanz genau zu einem Cluster)

(56)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

Vielen Dank für die Vielen Dank für die

Aufmerksamkeit Aufmerksamkeit

Wir wünschen ein allseits schönes Wochenende.

Noch Fragen? (rhetorische Frage)

(57)

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

Quellen Quellen

Titel: Data Mining

Praktische Werkzeuge und Techniken für das maschinelles Lernen

Autoren: Ian H. Witten, Eibe Frank

Referenzen

ÄHNLICHE DOKUMENTE

Franz Kohnle Seite 1 von

10.Speicherung von XML-Dokumenten in (objekt)relationalen Datenbanken (2 Vorträge) Die Speicherung von XML-Dokumenten als Daten empfiehlt sich, wenn das XML-Dokument eine

Multimediale Datenbanken mit Oracle interMedia Audio, Image, Video (1 Vortrag zu Audio, 1 Vortrag zu Image, jeweils mit Implementierung).. Oracle8i interMedia Audio, Image and Video

Plattform für E-Learning an der HTWK, später Koppelung und Integration anderer E-Learning Anwendungen.  Schritt 1:

Das bedeutet, dass eine Obergrenze für die Speichernutzung festgelegt werden kann und alte automatisch entfernt werden.. Für die Auswahl des zu entfernenden Schlüssel gibt

commit: 24b9da commit: 31fa5a commit: 8b5cx3 commit: d3aff1 commit: aa85fg.

● HashMap: schnelle Hash-Tabelle → Schlüssel ohne Reihenfolge ACHTUNG: Zusammenhang equals und hashCode. ● LinkedHashMap: Hash-Tabelle + verkettete Liste → Schlüssel

Raphaela Etzold: Gleichberechtigung in erster Instanz — 2019/3/6 — Seite III — le-tex..