TECHNISCHE UNIVERSIT ¨AT DORTMUND Wintersemester 2007/2008
FAKULT ¨AT STATISTIK 11.12.2007
Prof. Dr. G. Trenkler Blatt 9
Dipl.-Stat. M. Arnold
Ubungen zur Vorlesung¨
Multivariate Statistik
Aufgabe 31
Aus Stichproben der beiden Klassen Π1 und Π2 wurden die Mittelwertvektoren ¯x1= (5,5)0 f¨ur die erste Klasse und ¯x2 = (3,1)0 f¨ur die zweite Klasse berechnet. Bestimmen und skizzieren Sie f¨ur die folgenden vier Situationen jeweils die diskriminierende Funktion unter Normalverteilungsannahme bei gleichen Missklassifikationskosten und gleichen a-priori Wahrscheinlichkeiten. Interpretieren Sie die Resultate.
a) Die Kovarianzmatrizen beider Klassen sind gleich und werden gesch¨atzt durch
Spooled=
1 0 0 1
.
b) Die Kovarianzmatrizen beider Klassen sind gleich und werden gesch¨atzt durch
Spooled=
4 0 0 1
.
c) Die Kovarianzmatrizen beider Klassen sind verschieden und werden gesch¨atzt durch
S1=
1 0 0 1
, S2 =
9 0 0 9
.
d) Die Kovarianzmatrizen beider Klassen sind verschieden und werden gesch¨atzt durch
S1=
4 0 0 1
, S2 =
1 0 0 4
.
Aufgabe 32
Unterhttp://www.statistik.uni-dortmund.de/∼arnold finden Sie in der DateiOl.txt¨ die Ergebnisse einer chemischen Analyse f¨ur Proben von Roh¨ol aus drei verschiedenen F¨ordergebieten. Die ersten f¨unf Spalten enthalten die Werte f¨ur Vanadium, Eisen, Beryllium, ges¨attigte Kohlenwasserstoffe sowie aromatische Kohlenwasserstoffe. Die ersten drei Variablen sind in Prozent der Asche ange- geben, die letzten beiden geben die Fl¨ache unterhalb einer Chromatographen-Kurve an. Die letzte Spalte steht f¨ur das F¨ordergebiet, aus dem die jeweilige Probe stammt.
a) Bestimmen Sie die Diskriminanzregel mit kleinster Wahrscheinlichkeit f¨ur Fehlklassifikationen unter der Annahme, dass die Daten f¨ur die verschiedenen F¨ordergebiete jeweils multivariat nor- malverteilt sind mit identischer Kovarianzmatrix und die a-priori Wahrscheinlichkeiten jeweils 13 betragen.
b) Klassifizieren Sie die Proben nach der Regel aus (a). Wieviele Proben werden falsch zugeordnet?
c) Klassifizieren Sie die 56 Proben erneut, wobei Sie zur Bestimmung der Diskriminanzregel aus (a) jeweils nur die 55 anderen Proben heranziehen (die zu klassifizierende Beobachtung soll also
jeweils keinen Einfluss auf die Diskriminanzregel aus¨uben). Wieviele Proben werden nun falsch zugeordnet?
Aufgabe 33(doppelte Punktzahl)
Die ZufallsvariableXseiN(µ,4)-verteilt. FallsXaus Population Π1stammt, istµgleich 10; stammt Xaus Population Π2, so ist µgleich 14. Die a-priori Wahrscheinlichkeiten seienπ1 =π2= 0,5 und die Missklassifikationskostenc(2|1) und c(1|2) seien identisch.
a) Wie lautet die Diskriminanzregel mit der geringsten Wahrscheinlichkeit f¨ur Fehlklassifikation?
Mit welcher Wahrscheinlichkeit wird ein Objekt falsch klassifiziert?
b) In der Praxis sind die m¨oglichen Erwartungswerte (10 bzw. 14) sowie die Varianz (4) unbekannt und m¨ussen durch die Sch¨atzer ¯x1, ¯x2 sowieSpooledersetzt werden. Untersuchen Sie per Simulation, welche Auswirkungen diese Vorgehensweise auf die Wahrscheinlichkeit einer Fehlklassifikation hat.
Erzeugen Sie dazu zun¨achst 10.000 Mal jeweils 10 Realisationen aus Π1 und 10 Realisationen aus Π2. Berechnen Sie anschließend f¨ur jeden der 10.000 Datens¨atze ¯x1, ¯x2 sowie Spooled und klassifi- zieren Sie die jeweils 20 Beobachtungen. Welcher Anteil der insgesamt 200.000 Realisationen wird dabei falsch klassifiziert?
c) Wiederholen Sie die Prozedur aus (b) mit folgender ¨Anderung, die den Einfluss der einzelnen Beobachtung auf die Diskriminanzregel ausschaltet: Berechnen Sie in jeder der 10.000 Wiederholun- gen die Diskriminanzregel zur Klassifizierung einer einzelnen Beobachtung nur aus den 19 anderen Beobachtungen. Welcher Anteil der 200.000 Beobachtungen wird nun falsch klassisiziert?
Abgabebis Montag, 17.12.2007, 14:00 Uhr, in den Briefkasten im Mathefoyer.