Wintersemester 2003/04 Abgabe am 09.12.2003 Dr. I. Grosse, B. Moeller, D. Williams
6. ¨ Ubung
” Algorithmen der Bioinformatik II“
Aufgabe 1. Lesen Sie die Kapitel ”Sch¨atzung von Parametern” und ”Bayessche Verfahren” unter
http://www.statoek.wiso.uni-goettingen.de/veranstaltungen/statistik3alt/daten/
Aufgabe 2. Gegeben seien zwei M¨unzen A und B. Die Wahrscheinlichkeit, dass M¨unze A eine Zahl (und kein Wappen) wirft, seipA = 0.01. Die Wahrscheinlichkeit, dass M¨unze B eine Zahl (und kein Wappen) wirft, seipB = 0.6. Eine der beiden M¨unzen wird uns gegeben, und wir werfen diese M¨unzeN = 10mal, und wir beobachten k = 2 mal Zahl. Beantworten Sie die Frage: Welche M¨unze (A oder B) wurde uns gegeben?
(a) Benutzen Sie zur Beantwortung dieser Frage die folgenden beiden Strategien:
– Strategie I:
1. Sch¨atzen Sie mit der Maximum Likelihood Methode die Wahrscheinlichkeitpder uns ge- geben M¨unze, alsopˆ=k/N.
2. Vergleichen Sie diesen Sch¨atzwert mit den beiden gegebenp-WertenpAundpB, und ent- scheiden Sie sich f¨ur die M¨unze (A oder B), derenp-Wert n¨aher anpˆliegt. Also
θˆ=argminθ∈{A,B}{ |pˆ−pθ| }.
Diesen Sch¨atzerθˆnennen wir Minimum-Abstand-Sch¨atzer.
3. Wie lautet der Minimum-Abstand-Sch¨atzwertθ? D.h., welche M¨unze (A oder B) favorisiertˆ der Minimum-Abstand-Sch¨atzer?
– Strategie II:
1. Schreiben Sie die Likelihoodfunktion P(k|θ) auf, und berechnen SieP(k|θ = A) und P(k|θ=B).
2. Berechnen Sie den Maximum Likelihood Sch¨atzerθˆ=argmaxθ∈{A,B}P(k|θ).
3. Wie lautet der Maximum-Likelihood-Sch¨atzwertθ? D.h., welche M¨unze (A oder B) favo-ˆ risiert der Maximum-Likelihood-Sch¨atzer?
Fragen:
– Liefern beide Sch¨atzer das gleiche Ergebnis? D.h., favorisieren beide Sch¨atzer dieselbe M¨unze?
– Wenn nicht, welchen Sch¨atzer w¨urden Sie bevorzugen?
(b) Nun erhalten wir die Zusatzinformation, dass uns M¨unze A mit Wahrscheinlichkeit P(A) = 0.9 und M¨unze B mit Wahrscheinlichkeit P(B) = 0.1 gegeben wurde. Berechnen Sie die a posteriori WahrscheinlichkeitenP(A|k)undP(B|k), und berechnen Sie den MAP Sch¨atzer
θˆ=argmaxθ∈{A,B}P(θ|k).
– Liefern der ML Sch¨atzer und der MAP Sch¨atzer das gleiche Ergebnis?
– Wenn nicht, welchen Sch¨atzer w¨urden Sie bevorzugen?
Aufgabe 3.
a) Schreiben Sie eine Matlab Routine, dieM unabh¨angige und auf [0,1] gleichverteilte Zufallsvariable x1, x2, ..., xM erh¨alt, und die die M Komponenten y1, y2, ..., yM eines auf dem M-dimensionalen Simplex gleichverteilten Zufallsvektors zur¨uckgibt.
b) freiwillig: Schreiben Sie eine weitere Matlab Routine, basierend auf einem alternativen Algorithmus.
c) freiwillig: Schreiben Sie eine Matlab Routine, dieM unabh¨angige und auf [0,1] gleichverteilte Zu- fallsvariablex1, x2, ..., xM erh¨alt, den Parameterαsowie die M Parameterq1, q2, ..., qM erh¨alt, und die die M Komponenten y1, y2, ..., yM eines auf dem M-dimensionalen Simplex dirichletverteilten Zufallsvektors zur¨uckgibt.
d) freiwillig: Schreiben Sie eine weitere Matlab Routine, basierend auf einem alternativen Algorithmus.
Aufgabe 4.
a) Eine M¨unze wurde N=5 mal geworfen und lieferte den folgenden DatensatzX = x1x2x3x4x5 = ZW W ZW. Hierbei steht Z f¨ur Zahl und W f¨ur Wappen. Definieren Sie nun – f¨urn= 1,2, . . . , N – den TeildatensatzYn=x1, ..., xnbestehend aus den ersten n Datenpunkten, und definieren Sie – f¨ur n= 1,2, . . . , N – den TeildatensatzZn=xN, ..., xN−n+1bestehend aus den letzten n Datenpunkten.
Plotten Sie f¨ur jeden Datensatz Yn undZn die Likelihood sowie die a-posteriori Dichte unter der a-priori Annahme P(p) = 1, und sch¨atzen Sie f¨ur jeden Datensatz Yn und Zn den Parameter p mit Hilfe des ML Prinzips, des MP Prinzips und des MAP Prinzips. Der Parameter p sei hier die Wahrscheinlichkeit, dass die M¨unze eine Zahl (und kein Wappen) wirft.
b) Benutzen Sie denselben DatensatzX und wiederholen Sie Aufgabe a) unter Annahme der a-priori DichteP(p) =p5(1−p)5.
c) Ein Gaussprozess mit Standardabweichung 1 und unbekanntem Parameterµliefert die Daten X =
−1.2,0.3,−0.7,−0.2,+0.9. Definieren Sie – wie oben – die beiden Teildatens¨atzeYnundZn. Plotten Sie f¨ur jeden DatensatzYnundZn die Likelihood sowie die a-posteriori Dichte unter der a- priori AnnahmeP(µ) = √1
2πe−µ2/2, und sch¨atzen Sie f¨ur jeden DatensatzYnundZnden Parameter pmit Hilfe des ML Prinzips, des MP Prinzips und des MAP Prinzips.
d) Benutzen Sie denselben DatensatzX und wiederholen Sie Aufgabe c) unter Annahme der a-priori DichteP(µ) = √1
2πe−(µ−1)2/2.
Aufgabe 5. Gegeben sei ein Datensatzx1, x2, ..., xN, mit xn ∈ (−∞,∞) f¨ur alle n = 1,2, ..., N. Das Histogramm vonxnsei ”ganz klar” bimodal, so dass die Modellierung der Daten durch eine gauss-sche Li- kelihoodfunktion keinen Sinn macht. Das Histogramm vonxn”sieht aber ganz danach aus”, dass es durch eine Superposition zweier Gaussverteilungen mit Standardabweichung 1 und mit verschiedenen Mittelwer- ten entstanden sein k¨onnte. Wir entschliessen uns daher, den Datensatz mit Hilfe der folgenden Likelihood- funktion zu modellieren.
P(x1, x2, ..., xN|µ1, µ2) =Y
n
P(xn|µ1, µ2), mit P(xn|µ1, µ2) = 1
2[P(xn|µ1) +P(xn|µ2)], wobeiP(x|µ)die Dichte einer eindimensionalen Gaussverteilung mit Standardabweichung 1 und Mittel- wertµbezeichnet.
Berechnen Sie die Maximum Likelihood Sch¨atzerµˆ1 undµˆ2f¨ur die Parameterµ1undµ2.
Hinweise: Versuchen Sie, diese Aufgabe analytisch zu l¨osen, und zeigen Sie, wie weit Sie analytisch kom- men k¨onnen. Formulieren Sie, wo und warum Sie analytisch nicht weiter kommen. Schlagen Sie zwei Ver- fahren vor, die Maximum Likelihood Sch¨atzerµˆ1undµˆ2numerisch zu berechnen.
2