” Algorithmen der Bioinformatik I“

(1)

Sommersemester 2005 Abgabe am 6.5.2005 Prof. Dr. Stefan Posch, Dipl.-Inf. Birgit M¨oller

4. ¨ Ubung

” Algorithmen der Bioinformatik I“

1. Wir betrachten das Good Suffix Preprocessing im Boyer-Moore-Algorithmus.

i) Beweisen Sie, dassN_j(P) =Z_n

−j+1(P^r)gilt.

ii) Beweisen Sie, dass der Algorithmus zur Berechnung derL⁰(i)aus denN_j(P)korrekt arbeitet.

2. Implementieren Sie den Boyer-Moore-Algorithmus mit einfacher Bad Character Rule und dem Strong Good Suffix Preprocessing. Verwenden Sie dabei den in der Vorlesung vorgestellten Algorithmus zur Berechnung derl⁰(i)in linearer Laufzeit.

3. Im Folgenden sollen die Laufzeiten vom naiven Algorithmus mit Bad Character Rule und dem Boyer- Moore-Algorithmus in Abhängigkeit von Alphabetgröße und Musterlänge untersucht werden.

Zur Analyse der Laufzeiten soll jeweils die Anzahl durchgef¨uhrter Vergleiche herangezogen werden.

Inkrementieren Sie dazu einen Zähler vor oder nach jedem erfolgten Zeichenvergleich. Der Grund für diese (und keine möglicherweise effizientere) Zählung ist, dass wir nun die Operation Zeichenver- gleich und Zählerinkrementierung als eine komplexere Vergleichsoperation betrachten können und somit die Laufzeiten für die verschiedenen Algorithmen in gleichem Maße beeinflusst werden. Des weiteren soll die durchschnittliche Länge durchgeführter Shifts unter Anwendung der einzelnen Re- geln ermittelt werden.

Auf der Internetseite zur Vorlesung finden sich Texte ¨uber einem Alphabet von 40 bzw. 80 Zeichen.

Suchen Sie in diesen Texten jeweils nach Mustern der Längen 10, 20, 50, 100, 200, 500, 1000, 2000 und 5000. Erstellen Sie anschließend für beide Alphabetgrößen Diagramme, die die benötigte Anzahl an Vergleichen pro Musterlänge sowie die durchschnittliche Länge von Shifts jeweils für beide Re- geln (bad character und good suffix) zeigen, in Abhängigkeit der Musterlänge. Was lässt sich daraus ersehen?