• Keine Ergebnisse gefunden

Ubungen Sequenzanalyse I ¨ Sommersemester 2007

N/A
N/A
Protected

Academic year: 2022

Aktie "Ubungen Sequenzanalyse I ¨ Sommersemester 2007"

Copied!
3
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Ubungen Sequenzanalyse I ¨ Sommersemester 2007

Dr. Ivo Große Institut f¨ur Informatik

Universit¨at Halle

Blatt 3

Aufgabe 3.1 (6 Punkte)

Ein Datensatz X computergenerierter DNA-Sequenzen bestehe aus 5000 Sequenzen der L¨angeL= 9 bp, die durch ein homogenes Markov Modell nullter Ordnung mit den Wahrscheinlichkeiten p(A) = p(T) = 0.45 und p(C) = p(G) = 0.05 generiert wurden, und aus weiteren 5000 Sequenzen der L¨ange L = 9 bp, die durch ein homogenes Markov Modell nullter Ordnung mit den Wahrscheinlichkeiten p(A) = p(T) = 0.05 und p(C) = p(G) = 0.45 generiert wurden.

(a) Wie sieht die PWM des Datensatzes X aus? Welche falschen Schlussfolgerungen k¨onnten Sie aus dieser PWM ¨uber den Datensatz ziehen, wenn Sie nicht w¨ussten, wie der Datensatz tats¨achlich generiert wurde?

(b) Wie sieht die Dinukleotid-PWM (also die WAM) des Datensatzes X aus? Wel- che falschen Schlussfolgerungen k¨onnten Sie aus dieser Dinukleotid-PWM ¨uber den Datensatz ziehen, wenn Sie nicht w¨ussten, wie der Datensatz X tats¨achlich generiert wurde?

(c) Wie sehen die L×L Matrizen Y1(i, j), Y2(i, j) und Y3(i, j) des Datensatzes X aus? Welche falschen Schlussfolgerungen k¨onnten Sie aus diesen Matrizen ¨uber den Datensatz ziehen, wenn Sie nicht w¨ussten, wie der Datensatz X tats¨achlich generiert wurde?

(d) Welche der folgenden Modelle w¨urden sich gut zur Modellierung der Sequenzen des DatensatzesXeignen? Geben Sie f¨ur jedes Modell stichpunktartig Gr¨unde an, warum es sich gut bzw. schlecht zur Modellierung der Sequenzen des Datensatzes X eignen w¨urde.

(i) PWM-Modell - inhomogenes Markov Modell nullter Ordnung (ii) WAM-Modell - inhomogenes Markov Modell erster Ordnung (iii) inhomogenes Markov Modell zweiter Ordnung

(iv) Bayes Netz, welches auch statistische Abh¨angigkeiten zwischen nicht- n¨achsten Nachbarn modelliert

(v) PWM-Mischmodell mit 2 Klassen (vi) WAM-Mischmodell mit 2 Klassen

(2)

(vii) Mischung zweier inhomogener Markov Modelle zweiter Ordnung (viii) Bayes Netz Mischmodell mit 2 Klassen

(ix) PWM-Mischmodell mit 3 Klassen (x) WAM-Mischmodell mit 3 Klassen

(xi) Mischung dreier inhomogener Markov Modelle zweiter Ordnung (xii) Bayes Netz Mischmodell mit 3 Klassen

Aufgabe 3.2 (6 Punkte)

Berechnen Sie – f¨ur jede der vier Sequenzenseq_1,seq_2,seq_3und seq_4–Y1(i, j), Y2(i, j) und Y3(i, j) f¨ur alle Positionen i, j = 1,2, ..., L, und stellen Sie die zw¨olfL×L Matrizen Y1, Y2 und Y3 grafisch dar. Unter der Annahme der Nullhypothese, daß es keine statistischen Abh¨angigkeiten zwischen Xj−1 und Xj gibt, sind Y1, Y2 und Y3 χ2- verteilt mit 9 Freiheitsgraden. Beantworten Sie die folgenden Fragen f¨ur jede der zw¨olf Matrizen: F¨ur welche Paare (i, j) finden Sie statistisch signifikante Abh¨angigkeiten, wenn Sie einen P-Wert kleiner als 0.01 als signifikant betrachten? Gibt es statistisch signifikante Abh¨angigkeiten auch zwischen nicht-n¨achsten Nachbarn? Beschreiben Sie Ihre Beobachtungen. Welche Schlußfolgerungen ergeben sich daraus f¨ur die Modellie- rung von Donorstellen und Nicht-Donorstellen? Sind WAM-Modelle tats¨achlich ideal f¨ur die Modellierung von Donorstellen und Nicht-Donorstellen geeignet?

Aufgabe 3.3 (4 Punkte)

Der Datensatz coin enth¨alt 100 Bin¨arsequenzen der L¨ange L = 10, die durch ein Mischmodell zweier homogener Markov Modelle nullter Ordnung generiert wurden.

Hierbei stehenZ f¨ur Zahl undW f¨ur Wappen. Die beiden Klassenwahrscheinlichkeiten π1 = π2 = 0.5 sind extern vorgegeben. Die einzigen zu sch¨atzenden Parameter dieses Modells sind die Wahrscheinlichkeiten q1 und q2 der beiden M¨unzen 1 und 2, Zahl zu werfen.

(a) Sch¨atzen Sie die Parameter q1 undq1 mittels Maximum Likelihood Prinzip unter Nutzung der gegebenen Klassenzugeh¨origkeiten.

(b) Ignorieren Sie f¨ur die folgenden drei Teilaufgaben die Klassenzugeh¨origkeiten, d. h. betrachten Sie die Klassenzugeh¨origkeiten im folgenden als nicht gegeben.

Plotten Sie die Log-Likelihood als Funktion von q1 und q2.

(c) Bestimmen Sie die Maxima und Maximalstellen dieser Funktion mit geringem Aufwand durch ein Verfahren Ihrer Wahl (gitterbasierte Abrasterung, Maxi- mumssuche per Auge, Gradientenanstieg, etc.). Vergleichen Sie die Maximal- stellen mit den in Aufgabe 3.3 (a) gesch¨atzten Werten, und diskutieren Sie die Unterschiede.

(3)

(d) Versuchen Sie, die Maximalstellen analytisch zu bestimmen, indem Sie die Log- Likelihood nach q1 und q2 ableiten und beide Ableitungen Null setzen. Worin liegt das Problem, dieses Gleichungssystem (mit lediglich zwei Gleichungen und zwei Unbekannten) analytisch zu l¨osen?

Abgabetermin: 23. Mai

Referenzen

ÄHNLICHE DOKUMENTE

(F¨ ur N ~ 3 und N ~ 4 enth¨ alt jeder Datensatz nat¨ urlich 106 Dinukleotide.) Vergleichen Sie nun f¨ ur jede der vier Teststatistiken die acht

Aufgabe 3.2 Erweitern Sie Ihre Implementierung des naiven Exact-Matching Al- gorithmus aus der ersten ¨ Ubung um die bad character rule kombiniert mit Rechts- Links-Vergleichen.

Aufgabe 4.1 Im Folgenden sollen die Laufzeiten des naiven Algorithmus ( ¨ Ubung 1), des Z-Algorithmus ( ¨ Ubung 2) und des naiven Algorithmus mit bad character rule ( ¨ Ubung 3) in

Alternativ k¨ onnen ausgehende Kanten ¨ uber eine verkettete Liste oder einen balancierten bin¨ aren Suchbaum im Knoten repr¨ asentiert werden. Vergleichen Sie die drei M¨

(a) ¨ Uberlegen Sie sich einen in der Gr¨ osse eines Suffixbaums linearen Algorithmus, der f¨ ur jeden inneren Knoten entscheidet, ob dieser links-divergent ist oder nicht und

Aufgabe 11.2 Die Kostenmatrix D(i, j) aus dem Algorithmus zum Finden optimaler globaler Alignments von zwei Strings enth¨ alt auch ohne zus¨ atzlich abzuspeichernde Links zu

(b) Formulieren Sie einen Algorithmus, der die Ergebnisse aus Aufgabe a) nutzt, um die Suche nach einem optimalen globalen Alignment im average-case zu beschleu- nigen..

Vergleichen Sie die Parameter und dazugeh¨ origen Log- Likelihood Werte mit denen des EM-Algorithmus und denen des stochastischen EM- Algorithmus.. Welche Schlussfolgerungen k¨