” Algorithmen der Bioinformatik II“

(1)

Wintersemester 2003/04 Abgabe am 09.12.2003 Dr. I. Grosse, B. Moeller, D. Williams

6. ¨ Ubung

” Algorithmen der Bioinformatik II“

Aufgabe 1. Lesen Sie die Kapitel ”Sch¨atzung von Parametern” und ”Bayessche Verfahren” unter

http://www.statoek.wiso.uni-goettingen.de/veranstaltungen/statistik3alt/daten/

Aufgabe 2. Gegeben seien zwei Münzen A und B. Die Wahrscheinlichkeit, dass Münze A eine Zahl (und kein Wappen) wirft, seip_A = 0.01. Die Wahrscheinlichkeit, dass Münze B eine Zahl (und kein Wappen) wirft, seipB = 0.6. Eine der beiden Münzen wird uns gegeben, und wir werfen diese MünzeN = 10mal, und wir beobachten k = 2 mal Zahl. Beantworten Sie die Frage: Welche Münze (A oder B) wurde uns gegeben?

(a) Benutzen Sie zur Beantwortung dieser Frage die folgenden beiden Strategien:

– Strategie I:

1. Sch¨atzen Sie mit der Maximum Likelihood Methode die Wahrscheinlichkeitpder uns gegeben M¨unze, alsopˆ=k/N.

2. Vergleichen Sie diesen Schätzwert mit den beiden gegebenp-WertenpAundpB, und ent- scheiden Sie sich für die Münze (A oder B), derenp-Wert näher anpˆliegt. Also

θˆ=argmin_θ∈{A,B}{ |pˆ−p_θ| }.

Diesen Sch¨atzerθˆnennen wir Minimum-Abstand-Sch¨atzer.

3. Wie lautet der Minimum-Abstand-Schätzwertθ? D.h., welche Münze (A oder B) favorisiertˆ der Minimum-Abstand-Schätzer?

– Strategie II:

1. Schreiben Sie die Likelihoodfunktion P(k|θ) auf, und berechnen SieP(k|θ = A) und P(k|θ=B).

2. Berechnen Sie den Maximum Likelihood Sch¨atzerθˆ=argmaxθ∈{A,B}P(k|θ).

3. Wie lautet der Maximum-Likelihood-Schätzwertθ? D.h., welche Münze (A oder B) favo-ˆ risiert der Maximum-Likelihood-Schätzer?

Fragen:

– Liefern beide Schätzer das gleiche Ergebnis? D.h., favorisieren beide Schätzer dieselbe Münze?

– Wenn nicht, welchen Sch¨atzer w¨urden Sie bevorzugen?

(b) Nun erhalten wir die Zusatzinformation, dass uns Münze A mit Wahrscheinlichkeit P(A) = 0.9 und Münze B mit Wahrscheinlichkeit P(B) = 0.1 gegeben wurde. Berechnen Sie die a posteriori WahrscheinlichkeitenP(A|k)undP(B|k), und berechnen Sie den MAP Schätzer

θˆ=argmaxθ∈{A,B}P(θ|k).

– Liefern der ML Sch¨atzer und der MAP Sch¨atzer das gleiche Ergebnis?

– Wenn nicht, welchen Sch¨atzer w¨urden Sie bevorzugen?

(2)

Aufgabe 3.

a) Schreiben Sie eine Matlab Routine, dieM unabhängige und auf [0,1] gleichverteilte Zufallsvariable x₁, x₂, ..., x_M erhält, und die die M Komponenten y₁, y₂, ..., y_M eines auf dem M-dimensionalen Simplex gleichverteilten Zufallsvektors zurückgibt.

b) freiwillig: Schreiben Sie eine weitere Matlab Routine, basierend auf einem alternativen Algorithmus.

c) freiwillig: Schreiben Sie eine Matlab Routine, dieM unabhängige und auf [0,1] gleichverteilte Zu- fallsvariablex₁, x₂, ..., x_M erhält, den Parameterαsowie die M Parameterq₁, q₂, ..., q_M erhält, und die die M Komponenten y₁, y₂, ..., y_M eines auf dem M-dimensionalen Simplex dirichletverteilten Zufallsvektors zurückgibt.

d) freiwillig: Schreiben Sie eine weitere Matlab Routine, basierend auf einem alternativen Algorithmus.

Aufgabe 4.

a) Eine Münze wurde N=5 mal geworfen und lieferte den folgenden DatensatzX = x₁x₂x₃x₄x₅ = ZW W ZW. Hierbei steht Z für Zahl und W für Wappen. Definieren Sie nun – fürn= 1,2, . . . , N – den TeildatensatzYn=x1, ..., xnbestehend aus den ersten n Datenpunkten, und definieren Sie – für n= 1,2, . . . , N – den TeildatensatzZ_n=x_N, ..., xN−n+1bestehend aus den letzten n Datenpunkten.

Plotten Sie für jeden Datensatz Y_n undZ_n die Likelihood sowie die a-posteriori Dichte unter der a-priori Annahme P(p) = 1, und schätzen Sie für jeden Datensatz Yn und Zn den Parameter p mit Hilfe des ML Prinzips, des MP Prinzips und des MAP Prinzips. Der Parameter p sei hier die Wahrscheinlichkeit, dass die Münze eine Zahl (und kein Wappen) wirft.

b) Benutzen Sie denselben DatensatzX und wiederholen Sie Aufgabe a) unter Annahme der a-priori DichteP(p) =p⁵(1−p)⁵.

c) Ein Gaussprozess mit Standardabweichung 1 und unbekanntem Parameterµliefert die Daten X =

−1.2,0.3,−0.7,−0.2,+0.9. Definieren Sie – wie oben – die beiden Teildatens¨atzeYnundZn. Plotten Sie f¨ur jeden DatensatzY_nundZ_n die Likelihood sowie die a-posteriori Dichte unter der a- priori AnnahmeP(µ) = ^√¹

2πe^−µ²^/2, und sch¨atzen Sie f¨ur jeden DatensatzY_nundZ_nden Parameter pmit Hilfe des ML Prinzips, des MP Prinzips und des MAP Prinzips.

d) Benutzen Sie denselben DatensatzX und wiederholen Sie Aufgabe c) unter Annahme der a-priori DichteP(µ) = ^√¹

2πe^−(µ−1)²^/2.

Aufgabe 5. Gegeben sei ein Datensatzx1, x2, ..., xN, mit xn ∈ (−∞,∞) f¨ur alle n = 1,2, ..., N. Das Histogramm vonx_nsei ”ganz klar” bimodal, so dass die Modellierung der Daten durch eine gauss-sche Li- kelihoodfunktion keinen Sinn macht. Das Histogramm vonx_n”sieht aber ganz danach aus”, dass es durch eine Superposition zweier Gaussverteilungen mit Standardabweichung 1 und mit verschiedenen Mittelwer- ten entstanden sein k¨onnte. Wir entschliessen uns daher, den Datensatz mit Hilfe der folgenden Likelihood- funktion zu modellieren.

P(x1, x2, ..., xN|µ1, µ2) =Y

n

P(xn|µ1, µ2), mit P(xn|µ1, µ2) = 1

2[P(xn|µ1) +P(xn|µ2)], wobeiP(x|µ)die Dichte einer eindimensionalen Gaussverteilung mit Standardabweichung 1 und Mittel- wertµbezeichnet.

Berechnen Sie die Maximum Likelihood Sch¨atzerµˆ₁ undµˆ₂f¨ur die Parameterµ₁undµ₂.

Hinweise: Versuchen Sie, diese Aufgabe analytisch zu lösen, und zeigen Sie, wie weit Sie analytisch kommen können. Formulieren Sie, wo und warum Sie analytisch nicht weiter kommen. Schlagen Sie zwei Ver- fahren vor, die Maximum Likelihood Schätzerµˆ1undµˆ2numerisch zu berechnen.

2