• Keine Ergebnisse gefunden

¨Ubungen zur Vorlesung Wissensentdeckung in Datenbanken Sommersemester 2008 Blatt 7

N/A
N/A
Protected

Academic year: 2022

Aktie "¨Ubungen zur Vorlesung Wissensentdeckung in Datenbanken Sommersemester 2008 Blatt 7"

Copied!
1
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Prof. Dr. Katharina Morik, JProf. Dr. Uwe Ligges

Dipl.-Math. Christian Bockermann, Dipl.-Stat. Gero Szepannek

Dortmund, 3. Juni Abgabe: bisMi, 11.6., 23:59 h an

szepannek@statistik.uni-dortmund.de

Ubungen zur Vorlesung ¨

Wissensentdeckung in Datenbanken Sommersemester 2008

Blatt 7

Aufgabe 7.1 (6 Punkte)

Im Netz liegt der Datensatz:beispiel1.txt. Dieser enth¨alt in SpalteX Beobachtungswerte und in Spalte Y Klassenlabels i∈ {1,2}.

a)Sch¨atzen sie die Verteilungsparameter µi beider Klassen durch den jeweiligen Klassenmit- telwert und stellen Sie die Verteilungen grafisch dar unter Annahme von Normalverteilung mit und σi = 1, i= 1,2 .

b) Berechnen Sie die (datenabh¨angige) Bayes Klassifikationsregel auf Basis der gesch¨atzten Verteilungsparameter bei symmetrischen Kosten c(i, j) = 1−I{j}(i) (mit I{·}(·) der Indika- torfunktion) und gleichen a priori Wahrscheinlichkeiten der Klassen?

c) Wie ¨andert sich die optimale Klassifikationsregel, wenn Ihnen zus¨atzlich bekannt ist, dass eine Beobachtung – wenn Sie x nicht kennen – mit einer Wahrscheinlichkeit von 2/3 aus Klasse zwei stammt?

d) Bestimmen sie das minimale Risiko, d.h. denjenigen Klassifikationsfehler der unvermeid- bar ist.

Aufgabe 7.2 (4 Punkte)

Im Netz liegt der Datensatz spam.txt, sowie eine weitere Datei info.txt.

a)Beschreiben Sie kurz den Datensatz sowie die Bedeutung der Ber¨ucksichigung von Fehlklas- sifikationskosten f¨ur das gegebene Klassifikationsproblem! Wie lautet die datenunabh¨angige Klassifikationsregel?

b) Bilden Sie ein Klassifikationsmodell f¨ur die Variable type mit Hilfe des Naive BayesAn- satzes (in R in den Paketen klaR bzw. e1071 zu finden)!

c) Bilden Sie ein Klassifikationsmodell f¨ur die Variable type mit Hilfe von logistischer Re- gression (in R durch die Funktion glm)!

Beschreiben Sie die Modelle!

Referenzen

ÄHNLICHE DOKUMENTE

Katharina Morik Julia Schiffner, Felix Jungermann.

Benutzen Sie zudem k-Means, Data to Similarity, Log und Cluster Density Performance innerhalb der Parameter-Schleife, um die Cluster zu bewerten. Cluster Density Performance

Aufgabe 1.2 – bedingte Wahrscheinlichkeiten und Satz von Bayes (4 Punkte) Die Eing¨ ange eines Supermarkts sind mit einer Alarmanlage gegen Diebstahl gesichert. Wir betrachten die

(b) Starten Sie das Experiment jeweils f¨ ur die zuvor genannten Werte von p und lassen Sie sich das Histogramm der vom Operator ExampleSet2Similarity paarweise berechne- ten

(a) Klassifizieren Sie Spam einmal anhand des Operators NaiveBayes und einmal mit Hilfe eines Entscheidungsbaums DecisionTree und notieren Sie die jeweils

Ziehen Sie außerdem zum Vergleich eine einfache Zufallsstichprobe der Gr¨ oße N = 20 und berechnen ebenfalls den Mittelwert ¯ X des Merkmals Petal.Width und seine gesch¨ atzte

(a) Warum kann man allein anhand dieses Kriteriums den Parameter k nicht mit Hilfe einer herk¨ ommlichen Parameter-Optimierung bestimmen.. (b) Der k-Means-Algorithmus l¨ asst sich

Stellen Sie sich vor, das Pr¨ ufungsamt einer Universit¨ at h¨ atte zur Erfassung von Pr¨ ufungsergebnissen folgendes Relationenschema aufgestellt:?. Pruefungen(MatNr,