• Keine Ergebnisse gefunden

” Algorithmen der Bioinformatik I“

N/A
N/A
Protected

Academic year: 2022

Aktie "” Algorithmen der Bioinformatik I“"

Copied!
1
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Sommersemester 2004 Abgabe am 19.5.2004 Prof. Dr. Stefan Posch, Dipl.-Inf. B. M¨oller, Dr. J. Wensch

6. ¨ Ubung

” Algorithmen der Bioinformatik I“

1. In der Vorlesung wurden die Begriffe maximales Paar(i, j, k)und maximaler Repeat (wiederholter Teilstring) eingef¨uhrt und Eigenschaften dazu bewiesen. Außerdem wurde ein Algorithmus angege- ben, der alle maximalen Repeats ermittelt.

Formulieren Sie eine Hypothese ¨uber die maximale Anzahl von maximalen Repeats in einem String der L¨angenund beweisen Sie sie.

2. (a) Beschreiben Sie eine Methode, mit der alle maximalen Paare eines StringsSder L¨angengefun- den werden k¨onnen und diskutieren Sie ihre Korrektheit und Laufzeit. Welchen Speicherplatz- bedarf hat Ihr Algorithmus (abgesehen vom Bedarf f¨ur den ¨ublichen Suffixbaum)? Modifizieren Sie den Algorithmus so, dass der SpeicherplatzbedarfO(n)nicht ¨ubersteigt.

Hinweis: F¨ur jeden inneren Knoten v des Suffixbaums vonS sollen maximal soviele Listen erzeugt werden, wie es Buchstaben im Alphabet gibt. Die Liste im Knoten v, die zum Buch- stabenxgeh¨ort, soll alle Anfangspositionen von Teilstrings des StringsS enthalten, die mit der Pfadbeschriftung vonvim Suffixbaum ¨ubereinstimmen und als linkes Zeichen einxhaben. Aus diesen Listen k¨onnen nun die maximalen Paare konstruiert werden.

(b) Was m¨usste an Ihrem Algorithmus zum Finden aller maximalen Paare ge¨andert werden, wenn nur maximale Paare einer minimalen L¨ange mgesucht sind? Welchen Einfluss hat das auf die Laufzeitabsch¨atzung?

3. F¨ur die Implementierung eines Suffixbaums f¨ur einen String muß man sich eine geeignete Daten- struktur f¨ur die inneren Knoten ¨uberlegen. Ein Punkt dabei ist, wie die vom Knoten ausgehenden Kanten im Knoten repr¨asentiert werden k¨onnen. Dabei spielen sowohl der ben¨otigte Speicherbedarf als auch die Zugriffszeit auf eine gesuchte Kante (um sie zu verfolgen) eine wichtige Rolle.

Wenn Σdas Alphabet aller m¨oglichen Zeichen im String ist, dann gibt es maximal|Σ|ausgehende Kanten pro inneren Knoten. Damit k¨onnen alle Kanten mit einem Feld der L¨ange |Σ| repr¨asentiert werden (der erste Buchstabe der Kantenbeschriftung wird als Index verwendet). Alternativ k¨onnen ausgehende Kanten ¨uber eine verkettete Liste oder einen balancierten bin¨aren Suchbaum im Knoten repr¨asentiert werden.

Vergleichen Sie die drei M¨oglichkeiten hinsichtlich ihres Zeitbedarfs zum Finden einer Kante und ih- res Speicherbedarfs (ein Verweis auf ein Listenelement bzw. einen Kindknoten ben¨otige genausoviel Speicher wie ein Verweis auf eine Kante). ¨Uberlegen Sie sich, in welchen Ebenen des Suffixbaums (obere, mittlere, untere) Sie welche Art der Repr¨asentation anwenden w¨urden und begr¨unden Sie Ihre Entscheidung.

4. Skizzieren Sie den generalisierten Suffixbaum f¨ur die folgende Menge von Strings {ababbababba, abbaabbaabba, babbababbab}

Referenzen

ÄHNLICHE DOKUMENTE

Beschreiben Sie eine Methode, mit der alle maximalen Paare eines Strings der L¨ange gefunden werden k¨onnen und diskutieren Sie ihre Korrektheit.. Finden Sie nun auch

aus dem Algorithmus zum Finden optimaler globaler Ali- gnments von zwei Strings enth¨alt auch ohne zus¨atzlich abzuspeichernde Links zu den minimie- renden Vorg¨angern

PAM steht f¨ur point accepted mutations oder percent accepted mutations in Anbetracht der Tatsa- che, dass die 1-PAM Matrix gerade die Menge an Evolution wiederspiegelt, die

Insbesondere sollen grundlegende Ein- und Ausgabeoperationen in der Programmiersprache Ihrer Wahl (Java oder C++) realisiert werden sowie ein String-Objekt zur Verf¨ugung

Erstellen Sie anschließend f¨ur beide Alphabetgr¨oßen Diagramme, die die ben¨otigte Anzahl an Vergleichen pro Musterl¨ange sowie die durchschnittliche L¨ange von Shifts jeweils

a) Implementieren Sie den Write Only Top Down Algorithmus zur Konstruktion eines Suffixbaums zu einem gegebenen Text T. Die Baumstruktur und der Inhalt des Baums sollen mit einer

Zeigen Sie dazu zuerst, dass f¨ur jedes am Anfang von Phase i + 1 vorhandene Blatt die Regel I in Phase i + 1 genau einmal angewendet wird und dass es keine weiteren Anwendungen

Der Suffixbaum liege dabei wie in der Vorlesung angegeben mit einem gemeinsamen Termina- tionssymbol f¨ur alle Strings sowie mit Listen f¨ur die Markierungen in den Bl¨attern