• Keine Ergebnisse gefunden

Ubungen Algorithmen der Bioinformatik II ¨ Wintersemester 2006/07

N/A
N/A
Protected

Academic year: 2022

Aktie "Ubungen Algorithmen der Bioinformatik II ¨ Wintersemester 2006/07"

Copied!
2
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Ubungen Algorithmen der Bioinformatik II ¨ Wintersemester 2006/07

Dr. Ivo Große, Dipl.-Bioinf. Jan Grau

Institut f¨ur Informatik Universit¨at Halle

Blatt 8

Aufgabe 8.1 Auf der Webseite zur Vorlesung finden Sie in der DateidnaSeq.txteine hypothetische DNA-Sequenz D1000 mit 1000 Basen als String gegeben. Jedes Zeichen im String wurde, unabh¨angig von den anderen Zeichen, mit dem gleichen DNA-W¨urfel gew¨urfelt. Dabei hatte jede SeiteX ∈ {A, C, G, T}des W¨urfels die gleiche Wahrschein- lichkeit pX = 1/4. Wir bezeichnen dieses W¨urfelmodell mit M0.

(a) Bestimmen Sie anhand der ersten L Basen der DNA-Sequenz m¨ogliche Modell- parameter {pLA, pLC, pLG, pLT} durch Auswertung der relativen H¨aufigkeiten von A, C, G, T f¨ur Werte L ∈ {25,50,100}. Die zugeh¨origen Modelle seien mit ML bezeichnet.

(b) Betrachten Sie im folgenden Modelle M(pC) wobei pA = 1/4, pC ∈ [0,1/2], pG = 1/2 −pC und pT = 1/4. Es existiert also ein freier Parameter (pC) im Modell. W¨ahlen Sie ein Gitter f¨ur diesen Parameter und berechnen Sie f¨ur alle Parameterwerte die Likelihood-WerteP(Dn|M(pC)) f¨urn∈ {50,100,500,1000}.

F¨ur jeden Wertnnormalisieren Sie die erhaltenen FunktionswerteP(Dn|M(pC)), so dass das Maximum eins betr¨agt, und zeichnen die normalisierten Werte als Funktion von pC in ein Diagramm. Diskutieren Sie das Diagramm.

Aufgabe 8.2 Betrachten Sie N statistisch unabh¨angige ZufallsvariablenXn, die alle einer Normalverteilung N(x|µ, σ2) folgen. Leiten Sie den Erwartungswert des Maxi- mum Likelihood Sch¨atzers von µ und σ2 her. Ist der Sch¨atzer erwartungstreu? Falls nicht, wie k¨onnte ein erwartungstreuer Sch¨atzer aussehen? Generieren Sie 10 normal- verteilte Zufallszahlen xn mit der Dichtefunktion

P(X =x) = 1

√2πe−x22 ,

und berechnen Sie aus dieser Stichprobe den Maximum Likelihood Sch¨atzer vonµund σ2. Wiederholen Sie das ganze 106 mal und erstellen Sie Histogramme von ˆµ und ˆσ2. Welchen Zusammenhang gibt es zwischen den Histogrammen und den Erwartungswer- ten E(ˆµ) und E( ˆσ2)? Welchen Zusammenhang gibt zwischen den Histogrammen und den Sch¨atzern, wenn wir diese als Zufallsvariable betrachten? Wiederholen Sie alles.

Andert sich etwas?¨

Hinweis (f¨ur octave): help normal rnd

Abgabe: 12.12.06

(2)

Aufgabe 8.3 Leiten Sie die Maximum Likelihood Sch¨atzer der Parameter pbzw. λ der geometrischen bzw. Poisson Verteilung her. Leiten Sie die Erwartungswerte dieser Sch¨atzer wenn m¨oglich analytisch her. Sind die Sch¨atzer erwartungstreu? ¨Uberpr¨ufen Sie Ihre Aussagen durch Simulationen mit einem Stichprobenumfang von N = 10 f¨ur p= 0.5,0.8,0.95 bzw. λ= 1.0,4.0,19.0.

Aufgabe 8.4 Der Datensatz exons.txt enth¨alt L¨angen von protein-kodierenden Exons, und der Datensatz introns.txt enth¨alt L¨angen von Introns. F¨uhren Sie f¨ur beide Datens¨atze separat die folgenden Aufgaben durch.

(a) Stellen Sie das Histogramm der L¨angen grafisch dar.

(b) Stellen Sie f¨ur die geometrische bzw. die Poisson Verteilung die Log-Likelihood als Funktion von pbzw. λ grafisch dar.

(c) Berechnen Sie die Maximum Likelihood Sch¨atzwerte ˆp bzw. ˆλ und deren Log- Likelihhod. Welcher der beiden Log-Likelihood-Werte ist gr¨oßer? Welche der beiden Verteilungen scheint Ihnen (f¨ur diesen Datensatz) geeigneter?

(d) Stellen Sie die beiden VerteilungenP(k|p) bzw.ˆ P(k|ˆλ) grafisch dar und vergleichen Sie sie mit dem oben erstellten Histogramm? Welche der beiden Verteilungen scheint Ihnen rein visuell (f¨ur diesen Datensatz) geeigneter?

Abgabe: 12.12.06

Referenzen

ÄHNLICHE DOKUMENTE

Aus den gegebenen Nukleotidsequenzen der TFBSs haben Sie die Parameter eines ho- mogenen Markov-Modells 0. Er sagt Ihnen ausserdem, dass er geh¨ ort hat, dass zur L¨ osung

Wir nehmen an, daß diese Bande einen gewissen Anteil an funktionalen und nicht- funktionalen Sequenzen enth¨ alt, wobei die funktionalen Sequenzen auf Grund Ihrer Funktionalit¨ at

Leiten Sie weiterhin den Erwartungs- wertvektor und die Kovarianzmatrix eines polynomialverteilten Zufallsvektors her und beweisen Sie, dass die Randverteilung

Falls nicht, geben Sie einen er- wartungstreuen Sch¨ atzer von µ und σ 2 an und berechnen Sie diesen sowie die dazugeh¨ orige Log-Likelihood.. Vergleichen Sie die vier Sch¨

Aufgabe 10.2 Sie gehen ohne Misstrauen in eine Spielh¨ olle, in der mit einer M¨ unze gespielt wird: Der Spieler oder die Spielerin setzt gegen den “Direktor” des Etablis-

Aufgabe 12.1 Der Datensatz sigma70.txt auf der Homepage zur Vorlesung besteht aus 238 Sigma-70 Bindungsstellen der L¨ ange 12.?. a) Modellieren Sie eine Sigma-70 Bindungsstelle

Aufgabe 9.1 Betrachten Sie folgendes Gl¨ ucksspiel, welches in Ihrer Lieblingsspielh¨ olle angeboten wird: Sie starten mit einem Kapital von i, 0 < i < S Euro, der Spielh¨

Teilen Sie beide Datens¨ atze jeweils in zwei H¨ alften, so dass Sie zwei TFBS-Datens¨ atze F 1 und F 2 und zwei Hintergrunddatens¨ atze B 1 und B 2 erhalten.. F¨ ur diese Datens¨