• Keine Ergebnisse gefunden

Wissensentdeckung in Datenbanken

N/A
N/A
Protected

Academic year: 2022

Aktie "Wissensentdeckung in Datenbanken"

Copied!
9
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Wissensentdeckung in Datenbanken

Katharina Morik und Claus Weihs

Fakult¨aten Informatik und Statistik Technische Universit¨at Dortmund

Sommersemester 2009

Bekannte Anwendungen

Google ordnet die Suchergebnisse nach der Anzahl der auf sie verweisenden Hyperlinks an.

Amazon empfiehlt einem Kunden, der A gekauft hat, das Produkt B, weil alle (viele) Kunden, die A kauften, auch B kauften.

Der Markt wird beobachtet: wie ¨außern sich Verbraucher im WWW ¨uber ein Produkt? (Sentiment Analysis) Versicherungen bewerten ihre Produkte nach den Schadensf¨allen.

Verkaufszahlen werden vorhergesagt.

Daten physikalischer Vorg¨ange werden analysiert, z.B.

Terrabytes von Messungen der Astrophysik.

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Einl. Anwendungen Modellbildung – Aufgaben Zusammenfassung Vorlesungsablauf 3

Interesse an Anwendungen

Business Reporting soll automatisiert werden. On-line Analytical Processing beantwortet nur einfache Fragen.

Zus¨atzlich sollen Vorhersagen getroffen werden.

Wissenschaftliche Daten sind so umfangreich, dass Menschen sie nicht mehr analysieren k¨onnen, um Gesetzm¨aßigkeiten zu entdecken.

Ger¨ate sollen besser gesteuert werden, indem aus den log-Dateien gelernt wird.

Das Internet soll nicht nur gesamte Dokumente liefern, sondern Fragen beantworten.

Multimedia-Daten sollen personalisiert strukturiert und gezielter zugreifbar sein.

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Einl. Anwendungen Modellbildung – Aufgaben Zusammenfassung Vorlesungsablauf 4

CRISP-DM: CRoss Industry Standard Process for Data Mining

(http://www.crisp-dm.org) Motivation

Zusammenarbeit von NCR, SPSS und DaimlerChrysler NCR: Mehrwert f¨ur Data Warehouse Kunden

SPSS: Konzept f¨ur Data Mining Produkt ’Clementine’

DaimlerChrysler: Praktische Erfahrung

KEINE theoretische, akademische Entwicklung, SONDERN Entwicklung aus praktischer Erfahrung an realen Problemen.

+++ Eigene langj¨ahrige Erfahrung bei CIBA(-Geigy)

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

(2)

CRISP-DM: ¨ Ubersicht

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

CRISP-DM: Schritte

Problem verstehen: Analyseziele, Situationsbewertung, Datenanalyseziele, Projektplan

Daten verstehen: Sammeln, beschreiben, untersuchen, Qualit¨at von Rohdaten

Daten aufbereiten: Ein- und Ausschluss, Bereinigung, Transformation von Variablen

Modellierung: Methoden- und Testdesignwahl, Sch¨atzung, Modellqualit¨at

Evaluierung: Modell akzeptieren, Prozess ¨uberpr¨ufen, n¨achste Schritte

Nachbereitung: Anwendungs- und Wartungsplan, Pr¨asentation, Bericht

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Einl. Anwendungen Modellbildung – Aufgaben Zusammenfassung Vorlesungsablauf 7

CRISP-DM: Datenvorbereitung

Problem verstehen

Daten verstehen

Daten

aufbereiten Modellierung Evaluation Nach- bereitung

Daten auswählen

Daten bereinigen

Abgeleitete Variablen konstruieren

Datensatz

Beschreibung des Datensatzes

Kriterien für Einschluss, Ausschluss

Bericht über Daten- bereinigung

Abgeleitete Variablen

Generierte Datensätze

Daten formatieren

Zusammen- gefügte

Daten

Neuforma- tierte Daten Daten

vereinigen

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Einl. Anwendungen Modellbildung – Aufgaben Zusammenfassung Vorlesungsablauf 8

CRISP: Beispiel: Verteilungsstudien:

Problemanalyse

Problem: Charakterisierung der Verteilung von Medikamentenklassen im K¨orper

Studientyp: Verteilung von 14C-markierten Substanzen in Ratten 5-6 Minuten nach intraven¨oser Injektion.

Rohdaten: 26 Experimente, 20 Substanzen, 3-4 Ratten / Experiment, 85 Ratten, 24 Organe, 6 physico-chemische Eigenschaften: 3 S¨aure-Konstanten (pka), Lipophilit¨at (log p), Molekulargewicht (WE), Wasserl¨oslichkeit (SO) Datenanalyseziel: Finden von typischen

Verteilungsmustern f¨ur Medikamentenklassen auf der Basis von physico-chemischen Eigenschaften

Projektplan: Deskription, Ersetzen fehlender Werte, Klassifikationregeln

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

(3)

Verteilungsstudien: Datenaufbereitung

Univariate Analyse: Viele fehlende Werte, insbesondere wegen nicht definierten Werten bei pka

Bivariate Analyse: Niveau von 14C-Konzentrationen variiert mit Substanz-Dosen

Transformation 1: Normalisierung der 14C-Werte mit Blut := 1

Transformation 2: Bilden von physico-chemischen Klassen (z.B. S¨auregehaltsklassen mit wohldefinierten pka-Werten)

Transformation 3: Bilden von Therapieklassen f¨ur die Medikamente

Variablenselektion: Weglassen der Verdauungsorgane 20 Organe

Beobachtungsselektion: 78 vollst¨andige Beobachtungen

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Verteilungsstudien: Klassifikation

Therapieklassen: Klassifikationsregel bei Linearer Diskriminanzanalyse mit 6 Organen

Therapieklassen: Neuroleptica / Antidepressiva, Betablocker / Ca-Antagonisten, alle anderen Klassen zusammen sehr gut getrennt mit 96% Richtigkeit S¨auregehaltsklassen: LDA mit 95% Richtigkeit S¨auregehaltsklassen: RDA (Regularisierte DA) nach Box-Cox-Transformation mit 99% Richtigkeit

S¨auregehaltsklassen: Prognosef¨ahigkeit genauso gut (Kreuzvalidierung)

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Einl. Anwendungen Modellbildung – Aufgaben Zusammenfassung Vorlesungsablauf 11

Verteilungsstudien: Therapieklassen

Trennung der Therapieklassen mit 2 Diskriminanzkomponenten aus 6 Organen

- 2 - 1 0 1 2 3 4 5 6

CX1_1 - 4

- 3 - 2 - 1 0 1 2

C X 2 _ 1

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Einl. Anwendungen Modellbildung – Aufgaben Zusammenfassung Vorlesungsablauf 12

Verteilungsstudien: S¨ auregehaltsklassen

Fehlerraten bei 2-Organ-Kombinationen

111 22 2 22222

6 6 66 66 6 2 22 2 22 2

4 444

11 1

666 666 6

11111111 11111 111

1 1

1

222 2 22

222 444

222 4 4 444 Error: 0.051

!2!10123

111 2222 2222

66 6 66 66

2 2 2 2 2 22

4444

1 11

6 66

66 6 6

1 11 1 11 11111 11 111

1 1

1 222

22 2

222 444

222 4 444 4 Error: 0.051

!2!1 0 1 2 3

1112222 22

2 2

6 6 6 66 66

22 22 22 2

44 44

11 1

66 6 6666

1111 111 11 11 1 1 111 1

1 1

222 22 2 222

444 222

44 4 4 4 Error: 0.103

!3!1012

11 12222

2222 6 6 6666 6

222 2

22 2 4 444

1 11

6 66

66 6 6

1 111 11 1111 1 1 1 111 1 1

1 22 2 22 2

2 22

444

222 4444 4 Error: 0.103

!3 !1 0 1 2

111 2222 22

2 2

6 6 66 6 6 6

22 22 222 4444 11 1

66 6 6 6 66

11 11 1 111111 1

1

111 1

11 222

22 2 222

444 222

4444 4 Error: 0.064

11 1

22222222 6 6 6 6

6 6 6 222 2

22 2 4 4 44

11 1

66 6 6666

111 11 111 11 111 111 1 1

1

22 2 222

222 444

222 4444 4 Error: 0.064

111 2 22 2 2222

6 66 66 66

22 2 2 2 2 2

4444

1 11

666

6666

11111111 11111 111111

2 2 2

22 2

2 22

444

222 4 44 44 Error: 0.077

!10123

!1 0 1 2 3

11122 222222 66666 66

22 2 2 2 2 2

44 44

1 11

6 66

66 6 6

1111 11 1111111 111 1 1 1

22 2 222

222 4 44

222 4 444 4 Error: 0.077

!10 1 2 3

!10123

11 1

22 22 2222

6 666 6 6 6

22 2 2 2 2 2

44 44

111 666

66 66

1 11 11 111111 11

111 111

22 2

22 2

2 22

4 44

222 4 444 4 Error: 0.064

!2!1 0 1 2 3

11 1

2 22 2 2222

6 666 66 6 22 22 22 2

44 44

11 1

666 66 66

1111 1 11 111111 111 1 1 1

22 2 2 22

222 4 44

22 2

4 444 4 Error: 0.064

!2!10123

11 1 22 22

2222 6 6 6 66 6 6

222 2

22 2

4444

1 11

66 6

66 66

111 11 111 11 11 1 111 1 11

2 2 2 22 2

2 2 2

4 44

222 4444 4 Error: 0.09

!3 !1 0 1 2 11122 22

22 2 2

6 6666 66

22 22 22 2 4444

11 1

66 6 66 66

11 11 1 11 1111 1 1 1111 1 1

22 2 22

2 222

4 44 222

4444 4 Error: 0.09

!3!1012

!2!10123

!2!1 0 1 2 3

v3

v6

v14

!2 0 1 2 3 4

!201234

v17

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

(4)

Datenanalyse – generische Aufgabe

Population: Eine Menge von Objekten, um die es geht.

Merkmale: Eine Menge von Variablen (quantitativ oder qualitativ) beschreibt die Objekte.

Ausgabe: Ein quantitativer Wert (Messwert) oder ein qualitativer geh¨ort zu jeder Beobachtung (Zielvariable).

Ein Lernverfahren findet eine Funktion, die Objekten einen Ausgabewert zuordnet. Oft minimiert die Funktion einen Fehler.

Modell: Das Lernergebnis (die gelernte Funktion) wird auch als Modell bezeichnet.

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Notation

Der Raum m¨oglicher Beobachtungen wird als p-dimensionale Zufallsvariable X geschrieben.

Jede Dimension der Beobachtungen wird als Xi

notiert (Merkmal).

Die einzelnen Beobachtungen werden als x!1, ...,x!N notiert.

Die Zufallsvariable Y ist die Ausgabe (Zielvariable).

N Beobachtungen von

Vektoren mit pKomponenten ergeben eine N ×p-Matrix.

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Einl. Anwendungen Modellbildung – Aufgaben Zusammenfassung Vorlesungsablauf 15

Lernaufgabe Clustering

Gegeben

eine MengeT ={x!1, ...,x!N}⊂X von Beobachtungen, eine AnzahlK zu findender Gruppen C1, ...,CK,

eine Abstandsfunktion d(!x,x!!) und eine Qualit¨atsfunktion.

Finde

Gruppen C1, ...,CK, so dass

alle!x ∈X einer Gruppe zugeordnet sind und die Qualit¨atsfunktion optimiert wird: Der Abstand zwischen Beobachtungen der selben Gruppe soll minimal sein; der Abstand zwischen den Gruppen soll maximal sein.

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Einl. Anwendungen Modellbildung – Aufgaben Zusammenfassung Vorlesungsablauf 16

Lernaufgabe Klassifikation

Gegeben

Klassen Y, oft y ∈{+1,−1},

eine Menge T ={(!x1,y1), ...,(x!N,yN)}⊂X ×Y von Beispielen,

eine Qualit¨atsfunktion.

Finde

eine Funktion f :X Y, die die Qualit¨atsfunktion optimiert.

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

(5)

Lernaufgabe Regression

Gegeben

Zielwerte Y mit Werten y ∈R,

eine MengeT ={(!x1,y1), ...,(x!N,yN)}⊂X ×Y von Beispielen,

eine Qualit¨atsfunktion.

Finde

eine Funktionf :X →Y, die die Qualit¨atsfunktion optimiert.

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Funktionsapproximation

Wir sch¨atzen die wahre, den Beispielen unterliegende Funktion. Gegeben

eine Menge von Beispielen

T ={(!x1,y1), ...,(x!N,yN)}⊂X ×Y,

eine Klasse zul¨assiger Funktionen fθ (Hypothesensprache), eine Qualit¨atsfunktion,

eine feste, unbekannte Wahrscheinlichkeitsverteilung P(X).

Finde

eine Funktion fθ :X Y, die die Qualit¨atsfunktion optimiert.

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Einl. Anwendungen Modellbildung – Aufgaben Zusammenfassung Vorlesungsablauf 19

Zur Erinnerung: Verteilung

Wird in der n¨ achsten Vorlesung wiederholt!!

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Einl. Anwendungen Modellbildung – Aufgaben Zusammenfassung Vorlesungsablauf 20

Wenn wir die Verteilung kennen, k¨ onnen wir eine gute Prognose machen!

Wenn wir wissen, dass pi = 0,01 ist, dann ist es nicht so schlimm, wenn wir uns bei xi irren – wir irren uns dann selten.

Wenn wir wissen, dass P(Y = +1) = 0,99 ist, dann sagen wir immer +1 voraus und sind in 99% der F¨alle richtig. Wir haben nur ein Risiko von 1%, uns zu irren.

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

(6)

Qualit¨ atsfunktion – Fehlerfunktion

Fehlerrisiko:

R(Y,f(X)) =

!N i=1

Q(yi,x!i)p(!xi) (1) wobei p(!xi) die Wahrscheinlichkeit ist, dass das Beispielx!i aus X gezogen wird.

Mittlerer Quadratischer Fehler:

MSE(Y,f(X)) = 1 N

!N i=1

(yi−f(!xi))2 (2) Mittlerer 0-1-Verlust: Q(Y,f(X)) = N1 "N

i=1Q(!xi,f), wobei Q(yi,f(!xi)) =

# 0,falls f(x!i) =y 1,falls f(!xi)&=y

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Problem

Wir haben nur eine endliche Menge von Beispielen. Alle Funktionen, deren Werte durch die Beispiele verlaufen, haben einen kleinen Fehler.

Wir wollen aber f¨ur alleBeobachtungen das richtige y voraussagen. Dann sind nicht mehr alle Funktionen, die auf die Beispiele gepasst haben, gut.

Wir kennen nicht die wahre Verteilung der Beispiele.

Wie beurteilen wir da die Qualit¨at unseres Lernergebnisses?

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Einl. Anwendungen Modellbildung – Aufgaben Zusammenfassung Vorlesungsablauf 23

Lern- und Testmenge

Wir teilen die Daten, die wir haben, auf:

Lernmenge: Einen Teil der Daten ¨ubergeben wir unserem Lernalgorithmus. Daraus lernt er seine Funktion f(x) = ˆy.

Testmenge: Bei den restlichen Daten vergleichen wir ˆy mit y.

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Einl. Anwendungen Modellbildung – Aufgaben Zusammenfassung Vorlesungsablauf 24

Aufteilung in Lern- und Testmenge

Vielleicht haben wir zuf¨allig aus lauter Ausnahmen gelernt und testen dann an den normalen F¨allen. Um das zu vermeiden, ver¨andern wir die Aufteilung mehrfach.

leave-one-out: Der Algorithmus lernt aus N−1

Beispielen und testet auf dem ausgelassenen.

Dies wird N mal gemacht, die Fehler addiert.

Aus Zeitgr¨unden wollen wir den Algorithmus nicht zu oft anwenden.

Kreuzvalidierung: Die Lernmenge wird zuf¨allig inn Mengen aufgeteilt. Der Algorithmus lernt aus n−1 Mengen und testet auf der

ausgelassenen Menge. Dies wird n mal gemacht.

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

(7)

Kreuzvalidierung

Man teile alle verf¨ugbaren Beispiele in n Mengen auf. z.B.

n= 10.

F¨ur i=1 bis i=n:

W¨ahle die i-te Menge als Testmenge, die restlichenn1 Mengen als Lernmenge.

Messe die Qualit¨at auf der Testmenge.

Bilde das Mittel der gemessenen Qualit¨at ¨uber allen n Lernl¨aufen. Das Ergebnis gibt die Qualit¨at des

Lernergebnisses an.

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Fragestellungen des maschinellen Lernens / Statistik

Welche Zusicherungen kann ich meinen Kunden geben?

(Fehlerschranken)

Wieviele Beispiele brauche ich?

Welche Eigenschaften sollen die Beispiele haben, um gut vorherzusagen und wie finde (erzeuge) ich sie?

Welche Modellklasse soll ich w¨ahlen?

Welcher Algorithmus wird mit vielen Beispielen und vielen Dimensionen in kurzer Zeit fertig?

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Einl. Anwendungen Modellbildung – Aufgaben Zusammenfassung Vorlesungsablauf 27

Was wissen Sie jetzt?

Sie haben das CRISP kennengelernt, das den gesamten Ablauf der Wissensentdeckung beschreibt.

Als Aufgaben der Modellbildung haben Sie Clustering, Klassifikation, Regressiongesehen.

Sie wissen, was dieKreuzvalidierung ist.

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Einl. Anwendungen Modellbildung – Aufgaben Zusammenfassung Vorlesungsablauf 28

Was wissen Sie noch nicht?

Es gibt viele verschiedene Modellklassen. Damit werden die Lernaufgaben spezialisiert.

Es gibt unterschiedliche Qualit¨atsfunktionen. Damit werden die Lernaufgaben als Optimierungsaufgaben definiert.

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

(8)

Themen

statistische Grundbegriffe lineare Modelle

Klassifikation

Entscheidungsb¨aume

Datengenerierung: Versuchsplanung, Stichproben St¨utzvektormethode (SVM) und strukturelle Risikominimierung

stetige Modelle Zeitreihen Clustering

Finden h¨aufiger Mengen

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Vorlesungen und ¨ Ubungen 1

Vorlesung Ausgabe Abgabe Übung

14.4. Übersicht, Einführung, Gruppen Mo,We Blatt 1 (Statistik) Marco &

16.4. Statistik (E-Wert, Var., Cov., Dichte, We 17.4. Julia Software-Einführung

21.4. Lineare Modelle 1 Mo Blatt 2 (lineare Modelle) Blatt 1

23.4. Lineare Modelle 2 Mo 24.4. Julia Blatt 1

28.4. Lineare Modelle 3 Mo Blatt 3 (lineare Modelle) Blatt 2

30.4. Klassifikation 1 We 1.5. Feiertag

05.5. Klassifikation 2 We Blatt 4 (Klassifikation) Blatt 3

07.5. Klassifikation 3 We 8.5. Marco Blatt 2 und 3

12.5. Versuchplanung, Stichproben We Blatt 5 (VP, Stichproben) Blatt 4

14.5. Bäume Mo 16.5. Julia Blatt 4

19.5. random forests, bagging, boosting We Blatt 6 (Bäume, random forests) Blatt 5

21.5. Feiertag 22.5. Julia Blatt 5

26.5. SVM 1 Mo Blatt 7 (SVMs) Blatt 6

28.5. SVM 2 Mo 29.5. Marco Blatt 6

Pfingsten

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Einl. Anwendungen Modellbildung – Aufgaben Zusammenfassung Vorlesungsablauf 31

Vorlesungen und ¨ Ubungen 2

09.6. SVM 3 Mo Blatt 8 (SVMs) Blatt 7

11.6. Feiertag 12.6. Marco Blatt 7

16.6. SVM 4 Mo Blatt 9 (SVMs) Blatt 8

18.6. SVM 5 Mo 19.6. Marco Blatt 8

23.6. stetige Modelle 1 We Blatt 10 (stetige Modelle) Blatt 9

25.6. stetige Modelle 2 We 26.6. Marco Blatt 9

30.6. stetige Modelle 3 We Blatt 11 (stetige Modelle & Zeitreihen) Blatt 10

02.7. Zeitreihen 1 We 3.7. Julia Blatt 10

07.7. Zeitreihen 2 We Blatt 12 (Zeitreihen & MCMC) Blatt 11

09.7. MCMC We 10.7. Julia Blatt 11

14.7. Clustern Mo Blatt 13 Blatt 12

16.7. APRIORI Mo 17.7. Julia Blatt 12

21.7. FPGrowth Mo Blatt 13

23.7. Zusammenfassung, Rückblick Mo,We 24.7. Marco Blatt 13

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Einl. Anwendungen Modellbildung – Aufgaben Zusammenfassung Vorlesungsablauf 32

Ubungen ¨

Julia Schiffner und Marco Stolpe betreuen die ¨Ubungen und stehen auch f¨ur Fragen zur Verf¨ugung.

Wir verwenden das System RapidMiner und k¨onnen damit (fast) alle Vorverarbeitungsschritte und

Verfahren und

Validierungen der Ergebnisse durchf¨uhren.

Außerdem verwenden wir R, das Funktionen anbietet f¨ur (fast) alle Vorverarbeitungsschritte und

Verfahren und

Validierungsmethoden.

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

(9)

Wof¨ ur bekommen Sie einen Schein?

Kommen Sie in jede Vorlesung – dann k¨onnen Sie auch das Tempo bestimmen und Fragen stellen.

Gehen Sie in die ¨Ubungsgruppe! Sie d¨urfen nur max. 2 mal unentschuldigt fehlen.

L¨osen Sie jede ¨Ubungsaufgabe:

Werden 50% der Punkte erreicht, h¨ochstens 3 Bl¨atter nicht abgegeben und

mindestens eine Aufgabe in der ¨Ubung vorgerechnet bekommt man einen Schein.

Nutzen Sie die Vorlesung/¨Ubung zur Vorbereitung auf eine Fachpr¨ufung!

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Wir sehen uns...

In der ersten ¨Ubung werden RapidMiner und R vorgestellt. Sie findet statt:

Am Freitag 17.4.2009 In GB IV (Campus S¨ud) Raum 113 Gruppeneinteilung JETZT!

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Einl. Anwendungen Modellbildung – Aufgaben Zusammenfassung Vorlesungsablauf 35

Literatur

Trevor Hastie, Robert Tibshirani, and Jerome Friedman.

The Elements of Statistical Learning: Data Mining, Inference, and Prediction.

Springer series in statistics. Springer, New York, USA, 2001.

Gerald Teschl and Susanne Teschl.

Mathematik f¨ur Informatiker.

Springer, 2006.

Katharina Morik und Claus Weihs:Wissensentdeckung in Datenbanken Sommersemester 2009

Referenzen

ÄHNLICHE DOKUMENTE

Benutzen Sie zudem k-Means, Data to Similarity, Log und Cluster Density Performance innerhalb der Parameter-Schleife, um die Cluster zu bewerten. Cluster Density Performance

Tiofil N Ghonse Fiassap Elvis

Aufgabe 1.2 – bedingte Wahrscheinlichkeiten und Satz von Bayes (4 Punkte) Die Eing¨ ange eines Supermarkts sind mit einer Alarmanlage gegen Diebstahl gesichert. Wir betrachten die

(b) Starten Sie das Experiment jeweils f¨ ur die zuvor genannten Werte von p und lassen Sie sich das Histogramm der vom Operator ExampleSet2Similarity paarweise berechne- ten

(a) Klassifizieren Sie Spam einmal anhand des Operators NaiveBayes und einmal mit Hilfe eines Entscheidungsbaums DecisionTree und notieren Sie die jeweils

Ziehen Sie außerdem zum Vergleich eine einfache Zufallsstichprobe der Gr¨ oße N = 20 und berechnen ebenfalls den Mittelwert ¯ X des Merkmals Petal.Width und seine gesch¨ atzte

c) Sch¨ atzen Sie den Trend der Zeitreihe durch eine lineare Trendfunktion nach der Metho- de der Kleinsten Quadrate. Zeichnen Sie die gesch¨ atzte Trendgerade in das Schaubild

(a) Warum kann man allein anhand dieses Kriteriums den Parameter k nicht mit Hilfe einer herk¨ ommlichen Parameter-Optimierung bestimmen.. (b) Der k-Means-Algorithmus l¨ asst sich