• Keine Ergebnisse gefunden

Ubungen Algorithmen der Bioinformatik I ¨ Sommersemester 2007

N/A
N/A
Protected

Academic year: 2022

Aktie "Ubungen Algorithmen der Bioinformatik I ¨ Sommersemester 2007"

Copied!
1
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Ubungen Algorithmen der Bioinformatik I ¨ Sommersemester 2007

Prof. Dr. Stefan Posch, Dipl. Bioinform. Jan Grau Institut f¨ur Informatik Universit¨at Halle

Blatt 4

Aufgabe 4.1 Im Folgenden sollen die Laufzeiten des naiven Algorithmus ( ¨Ubung 1), des Z-Algorithmus ( ¨Ubung 2) und des naiven Algorithmus mit bad character rule ( ¨Ubung 3) in Abh¨angigkeit von Alphabetgr¨oße und Musterl¨ange untersucht werden.

Zur Analyse der Laufzeiten soll jeweils die Anzahl durchgef¨uhrter Vergleiche herange- zogen werden. Inkrementieren Sie dazu einen Z¨ahler vor oder nach jedem erfolgten Zeichenvergleich. Der Grund f¨ur diese (und keine m¨oglicherweise effizientere) Z¨ahlung ist, dass wir nun die Operation Zeichenvergleich und Z¨ahlerinkrementierung als eine komplexere Vergleichsoperation betrachten k¨onnen und somit die Laufzeiten f¨ur die verschiedenen Algorithmen in gleichem Maße beeinflusst werden. Außerdem soll die Laufzeit (Realtime oder Usertime, je nach M¨oglichkeit) gemessen werden.

Auf der Internetseite zur Vorlesung finden sich Texte ¨uber einem Alphabet von 40 bzw. 80 Zeichen. Suchen Sie in diesen beiden Texten jeweils nach Mustern der L¨angen 10, 20, 50, 100, 200, 500, 1000, 2000 und 5000. Erstellen Sie anschließend f¨ur beide Alphabetgr¨oßen Diagramme, die die ben¨otigte Anzahl an Vergleichen pro Musterl¨ange zeigen, und Diagramme, die die Laufzeit pro Musterl¨ange zeigen, jeweils in Abh¨angig- keit der Musterl¨ange. Was l¨asst sich daraus ersehen? Welcher Algorithmus braucht f¨ur jede Musterl¨ange am wenigsten Vergleiche? Welcher Algorithmus braucht real am wenigsten Zeit? (5 Punkte)

Aufgabe 4.2 Gegeben sei ein StringS, in dem das Abschlußzeichen $ nicht vorkommt.

(a) Warum wird der String S mit einem Abschlußzeichen versehen, wenn der zu- geh¨orige Suffixbaum aufgebaut wird? (1 Punkt)

(b) Zeigen Sie, dass f¨ur den Suffixbaum ST(S$) gilt: Anzahl der inneren Knoten

≤ |S$|. (2 Punkte)

(c) Zeigen Sie, dass f¨ur den SuffixbaumST(S$) gilt: Anzahl der Kanten≤2|S$| −1.

(2 Punkte)

Aufgabe 4.3 Skizzieren Sie die Konstruktion der impliziten Suffixb¨aume f¨ur den String AGGTAGG mit Hilfe des Ukkonen-Algorithmus. (2 Punkte)

Abgabe per E-Mail an grau@informatik.uni-halle.de oder in Raum 4.12.

Abgabe: 02.05.2007

Referenzen

ÄHNLICHE DOKUMENTE

Erweitern Sie Ihre Implementierung des naiven Exact-Matching Algorithmus aus der ersten ¨ Ubung um die bad character rule kombiniert mit Rechts-Links-Vergleichen. Uberpr¨ufen Sie

Im Folgenden sollen die Laufzeiten des naiven Algorithmus ( ¨ Ubung 1), des Z- Algorithmus ( ¨ Ubung 2), des naiven Algorithmus mit bad character rule ( ¨ Ubung 3) und

Tragen Sie die bei der Konstruktion des Suffixbaumes angewandten Regeln (I, IIa, IIb oder III) in eine Tabelle ein, wobei die Zeilen den Pha- sen i + 1 = 1, 2,.. Tragen Sie dabei

Die Kostenmatrix D(i, j) aus dem Algorithmus zum Finden optimaler globaler Align- ments von zwei Strings enth¨alt auch ohne zus¨atzlich abzuspeichernde Links zu den mi-

b) (Zusatzaufgabe) Welche Folgen h¨atte es, wenn man statt der maximalen ¨ Ahnlichkeit minimale Kosten f¨ur das optimale approximative maximale Pair verlangen w¨urde3.

(2 Punkte) Aufgabe 2.3 Implementieren Sie eine Funktion, die f¨ ur einen gegebenen String die Gr¨ oße der Z-Boxen an allen Positionen berechnet (Z-Algorithmus). Schreiben Sie dann

(ii) Beweisen Sie, dass in jeder Phase i + 1 des Ukkonen-Algorithmus alle Anwen- dungen von Regel I am Anfang durchgef¨ uhrt werden und dies so oft der Fall ist, wie es Bl¨ atter

Ziel dieses ¨ Ubungsblattes soll es sein, eine funktionst¨uchtige Programmierumgebung zur Verf¨ugung zu haben, die als Ausgangspunkt zur L¨osung der Programmieraufgaben auf sp¨ateren