• Keine Ergebnisse gefunden

Ubungen Algorithmen der Bioinformatik II ¨ Wintersemester 2007/08

N/A
N/A
Protected

Academic year: 2022

Aktie "Ubungen Algorithmen der Bioinformatik II ¨ Wintersemester 2007/08"

Copied!
1
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Ubungen Algorithmen der Bioinformatik II ¨ Wintersemester 2007/08

Prof. Dr. Stefan Posch, Dr. Birgit M¨ oller

Institut f¨ur Informatik Universit¨at Halle

Blatt 11

Aufgabe 11.1 Der Datensatz ”sigma70 fg.txt” auf der Homepage zur Vorlesung be- steht aus 238 Sigma-70 Bindungsstellen der L¨ange 12. Der Datensatz ”sigma70 bg.txt”

ist ein zugeh¨origer Hintergrunddatensatz von ebenfalls 238 Sequenzen der L¨ange 12.

Teilen Sie beide Datens¨atze jeweils in zwei H¨alften, so dass Sie zwei TFBS-Datens¨atze F1 und F2 und zwei Hintergrunddatens¨atze B1 und B2 erhalten. F¨ur diese Datens¨atze sollen nun verschiedene Bayes-Klassifikatoren trainiert und getestet werden.

(a) 1. Konstruieren Sie zun¨achst zwei Bayes-KlassifikatorenK1M LundK2M L, indem Sie jeweils aufBiundFi, i∈ {1,2},ein inhomogenes bzw. homogenes MM(0) f¨ur die TFBS bzw. den Hintergrund trainieren. Sch¨atzen Sie die Parameter der Modelle dabei mittels ML-Ansatz.

2. Konstruieren Sie dann zwei Bayes-KlassifikatorenK1M AP undK2M AP, indem wieder jeweils auf Bi und Fi, i ∈ {1,2}, ein inhomogenes bzw. homogenes MM(0) f¨ur die TFBS bzw. den Hintergrund trainiert wird. Diesmal sollen die Parameter der Modelle jedoch mittels MAP-Ansatz gesch¨atzt werden.

Nehmen Sie f¨ur die MAP-Sch¨atzung einen Dirichlet-Prior D(~p|~a) an, f¨ur dessen Parametervektor~a∈RD gelten soll: ai =λ,∀i= 1. . . D.

Setzen Sie f¨ur diesen ersten Trainingsdurchgang λ= 2.

(b) Wenden Sie die Klassifikatoren zum Testen jeweils auf beide Datens¨atze an und bestimmen Sie die Fehlerraten.

(c) Variieren Sie nun f¨urK1M AP undK2M AP den Parameterλdes Priors und sch¨atzen Sie die Modelle neu. Welchen Einfluss hat λ auf die Klassifikationsergebnisse?

Vergleichen Sie insbesondere die Fehlerraten eines Klassifikators auf seiner Trai- ningsmenge mit der Rate auf dem jeweils unbekannten Datensatz.

(d) Berechnen Sie f¨ur alle Markov-Modelle ausK1M L,K2M L,K1M AP undK2M AP jeweils das Sequenz-Logo. F¨urK1M AP und K2M AP sollen dabei die Modelle mit λ= 2 zu Grunde gelegt werden.

Aufgabe 11.2 Gegeben seienN DNA-Sequenzen der L¨angeLin einem Trainingsda- tensatz. Auf diesen Sequenzen wollen wir homogene und inhomogene Markov-Modelle der Ordnung d trainieren. Geben Sie allgemein f¨ur ein homogenes bzw. inhomogenes Markov-Modell die Anzahl der zu sch¨atzenden Parameter in Abh¨angigkeit von N, L und d an.

Abgabe: 11.01.08

Referenzen

ÄHNLICHE DOKUMENTE

3 Diese Vorgehensweise wird oft vorgeschlagen, man vgl. Es gibt jedoch auch Kritik, vgl.. Folgenden k genannt, vorgegeben werden. Daf¨ur k¨onnen unterschiedli- che Kriterien

¨ Andern Sie nun im Skript aufg02script01.m die Variablen nach eigenem Gutd¨ unken, welche mit einem Kommentar der Form <--- Hier d¨ urfen Sie beschriftet sind und diskutieren

Definition 1.1 Eine Aussage ist ein sprachlicher Satz, der seinem Inhalt entsprechend wahr oder falsch ist. Definition

Bemerkung: Falls m das einzige minimale (maximale) Element einer partialgeordneten Menge M ist, so muss m nicht zwangsweise das kleinste (gr¨oßte)) Element in M sein..

Integrals -atze der Vektor

Unter Kritik verstehe ich hier, dass die Individuen eine praktische Haltung einnehmen, die insbesondere vermeintliche Gewissheiten und Machtverhälmisse in Frage stellt und sich

Institut f¨ ur Physikalische Chemie

(c) In einer ringf¨ ormigen Spule (Torus mit Radius R, Wicklungsradius r mit r R, N Windungen, Strom I) befinde sich ein Eisenkern mit Permeabilit¨ at µ, der aus zwei H¨