Grundprinzipien des Sequenzalignments - Alignment: Operationalisierung von Ähnlichkeit

Sequenzanalyse

3.2 Alignment: Operationalisierung von Ähnlichkeit

3.2.1 Grundprinzipien des Sequenzalignments

3.2 Alignment: Operationalisierung von Ähnlichkeit

3.2 Alignment: Operationalisierung von

3 Konzepte und Verfahren der computerbasierten Sequenzanalyse

Vergleich eines Objektes mit sich selbst 0 sein. Darüber hinaus muss der Abstand symmetrisch sein und die Summe zweier Teildistanzen zwischen zwei Objekten (xundy) und einem dritten (xzuz bzw.y zuz) darf nicht kleiner sein als die direkte Distanz zwischen den beiden erstgenannten (x zuy):¹⁷

d(x, y)≥0, d(x, y) = 0↔x=y d(x, y) =d(y, x) d(x, y)≤d(x, z) +d(z, y),(∀z∈X)

Diese formalen Bedingungen einer Distanz im mathematischen Sinne stellen insofern Mindestanforderungen dar. Somit ist prinzipiell nicht festgelegt, welche Metrik einem solchen Objektvergleich zugrunde gelegt wird. Im Rahmen der Analyse biologischer Sequenzen hat sich ein Modell als nütz-lich erwiesen, das neben Punktmutationen in einzelnen Objektpaaren auch andere Editieroperationen abbildet, da so auch Sequenzen abweichender Länge entsprechend repräsentiert werden können.¹⁸ Das Konzept, den Ab-stand von Zeichenketten entsprechend der Anzahl von Editieroperationen zu bewerten, ist alsLevenshtein-Distanz bekannt und dient als Grundlage für die exakten Verfahren zum paarweisen Sequenzvergleich.¹⁹ Zusätzlich zur Substitution eines Objektes durch ein anderes wird hierbei das mögliche Einfügen von Lücken an geeigneten Positionen berücksichtigt, um Zeichen-ketten auf dieselbe Länge zu bringen. Die Einführung der Lücken bildet, je nachdem welche Direktionalität im Vergleich der beiden Zeichenketten angenommen wird, die möglichen Operationen derInsertion bzw.Deletion

17 Vgl. Mer15, S. 158–159.

18 Vgl. Mer15, S. 160; NW70, S. 443; Bra+65, thematisiert auftretende Lücken im Mutationsprozess.

19 Zudem werden auch heuristische Vergleichsverfahren im Rahmen großer Datenban-ken verwendet, die bei geringerer Sensitivität eine bessere Laufzeit versprechen.

Siehe hierzu Mer15, S. 203; Dur+98, S. 33–35.

148

3.2 Alignment: Operationalisierung von Ähnlichkeit von Elementen ab. Als eigentliche Distanz zwischen zwei Zeichenketten wird in diesem Zuge die minimale Distanz unter der Einfügung von Lücken an beliebigen Stellen aufgefasst. Hierbei wird ein Abstand zwischen einem beliebigen Symbol und einer eingefügten Lücke berücksichtigt.²⁰

Das grundlegende Verfahren zum vollständigen Vergleich zweier Sequenzen wird alsglobales Alignment bezeichnet, zum Auffinden ähnlicher (Teil-)Ab-schnitte wird ein lokales Alignment verwendet.²¹ Das Verfahren zum Erstellen eines globalen Alignments wird auch als Needleman-Wunsch-Algorithmus²² bezeichnet. Zum lokalen Alignment wird ein modifiziertes Verfahren verwendet, auch Smith-Waterman-Algorithmus²³genannt. Eben-so sind auch zahlreiche Modifikationen bekannt.²⁴

Um ein Alignment durchzuführen, müssen zunächst Kosten für die entspre-chenden Editieroptionen festgelegt werden, zunächst für die Substitution eines Symbols in ein anderes. Im einfachsten Fall kann hier, je nachdem ob die Differenz oder die Ähnlichkeit bewertet werden soll, 0 und 1 gewählt werden. Soll ein Ähnlichkeits-Score Teil des Ergebnisses sein, sollte der Fall, dass zwei Symbole identisch sind, mitd(x, y) = 1 bewertet werden.

In Abhängigkeit dazu werden die Kosten für das Einfügen von Lücken (Insertion und Deletion) in Form einer so genanntengap penalty festgelegt.

Da das Verfahren keine Lücke einfügt, solange kein Vorteil in Form einer Maximierung der übereinstimmenden Symbolpaare entsteht, stellen diese Kosten eine Barriere dar, die überschritten werden muss, um Lücken zu erlauben.²⁵Durch die Festlegung dieser Kosten kann somit die Wahrschein-lichkeit beeinflusst werden, mit der Gaps eingefügt werden. So muss, wenn entstehende Gaps dazu dienen sollen, die Zahl der Übereinstimmungen zu

20 Vgl. Mer15, S. 161–162.

21 Vgl. bspw. Mer15, S. 167.

22 NW70.

23 SW81.

24 Vgl. hierzu bspw. Dur+98, S. 25–32; Got82.

25 Vgl. NW70, S. 444.

149

3 Konzepte und Verfahren der computerbasierten Sequenzanalyse

maximieren, dieser Wert niedriger sein als die Kosten der unvorteilhaftesten Substitution.

Die weitere Umsetzung folgt dem von Richard Bellman entwickelten Prinzip derdynamischen Programmierung²⁶, das die Lösung größerer Optimierungs-probleme auf der optimalen Lösung voneinander unabhängiger TeilOptimierungs-probleme basieren lässt. Infolge der Berechnung der Teillösungen wird dann basierend auf den Teilergebnissen die optimale Lösung des Gesamtproblems berechnet.

Im Rahmen eines Alignments wird hierzu eine (n+ 1)×(m+ 1)-Matrix (F) verwendet, wobeinder Länge der ersten SequenzA undmder Länge der zweiten SequenzBentspricht. Die erste Zeile bzw. Spalte wird je nachdem, ob ein globales oder ein lokales Alignment vorgenommen wird, auf andere Weise initialisiert. Im Fall eines lokalen Alignments werden sämtliche Ele-mente der Initialzeile wie auch -spalte mit 0 initialisiert. Dieses Verfahren soll an dieser Stelle aber nur dort thematisiert werden, wo es vom globalen Alignment abweicht. Im Fall eines globalen Alingments wirdF0,0= 0 in-itialisiert und dann die Elemente der Initialzeile und -spalte aufsteigend entsprechend ihres Index aufaddierten Kosten für Lückenc(ε) initialisiert.

F_0,n=

∑︂

i=1

c(ε) undF_0,m=

∑︂

j=1

c(ε)

Nachdem diese Matrix initialisiert wurde, wird nun zeilen- und spaltenweise durch sämtliche Elemente iteriert, um dort, basierend auf den direkten Vorgängerspalten – diagonal, links und über der aktuellen Spalte – die kostengünstigste Editieroperation zu wählen. Eine Substitution erfolgt da-bei immer basierend auf dem diagonalen ElementF_i−1,j−1+d(ai, bj) und ergibt einen Wert abhängig vom verglichenen Symbolpaar. Eine Deletion, bzw. Insertion, erfolgt je nachdem ob eine Lücke in A oderB eingefügt

26 Vgl. für einen Überlick über das Konzept u. a. Mer15, S. 156–158; bzw. neben anderen Publikationen Bel54.

150

3.2 Alignment: Operationalisierung von Ähnlichkeit

F_i−1,j−1 F_i,j−1

Fi−1,j Fi,j

d(a

i, b_j )

c(ε)

Abbildung 3.3: Berechnung eines Teilschrittes in der Matrix. Der kostengüns-tigste Wert der drei Operationen wird verwendet und in die Zelle eingetragen.

Gleichzeitig wird gespeichert, welche Operation diesem Ergebnis zugrunde liegt.

werden soll. Wird eine Lücke inAeingefügt, dient das links benachbarte Element F_i−1,j +c(ε) als Ausgangswert. Soll eine Lücke inB eingefügt werden, wird stattdessen das darüber gelegene ElementFi,j−1+c(ε) ver-wendet. Der günstigste Wert wird dann als Ergebnis fürFi,j gewählt und eingetragen. Die so gewählte Operation für diesen Teilschritt wird zudem in einer Zeigervariable gesspeichert. Würden zwei mögliche Operationsrich-tungen den gleichen Wert ergeben, sind zusätzliche Kriterien nötig um den Zeiger festzulegen.²⁷ Auf diese Weise wird die gesamte Matrix befüllt, also jedes Symbol der einen Sequenz mit jedem Symbol der anderen Sequenz verglichen.

Um nun basierend auf den Teillösungen die optimale Gesamtlösung zu ermitteln wird ein Traceback durchgeführt. Dieser startet beim letzten Element (Fn_m) und folgt den Zeigervariablen durch die gesamte Matrix

27 Vgl. HD16, S. 176.

151

3 Konzepte und Verfahren der computerbasierten Sequenzanalyse

und ergibt so den optimalen Lösungsweg.²⁸ Soll ein lokales Alignment durchgeführt werden, wird in diesem Prozess eine weitere Modifikation vorgenommen. Zunächst wird, um negative Ähnlichkeiten zu vermeiden, als vierte Möglichkeit das Eintragen einer Fi,j = 0 erlaubt, wenn bis zum aktuellen Element keine positive Ähnlichkeit vorliegt. Auch wird der Traceback modifiziert. Dieser beginnt zunächst bei der Zelle mit dem günstigsten Ähnlichkeitswert und verfolgt die Zeigervariablen bis dieser Weg entweder bei einem Endpunkt ankommt oder an einer Zelle mit dem Wert 0 abbricht. Darüber hinaus existieren nun mehrere mögliche optimale Pfade, weswegen dieser Prozess dann jeweils ausgehend von dem zweitgünstigsten Wert wiederholt wird usw., solange diese Scorewerte nicht bereits Teil eines bereits existierenden Tracebacks sind.²⁹

Außerdem können statt einem linearen Gap-Modell sog.affineGap-Modelle verwendet werden. Hierbei werden unterschiedliche Kosten dafür vergeben, dass eine neue Lücke eingeführt bzw. eine bestehende erweitert wird. Auf diesem Weg kann das Einführen längerer Lücken erzwungen werden, wenn die Erzeugung vieler kürzerer Lücken vermieden werden soll. Selbstverständ-lich ist eine Implementierung affiner Gap-Penalties um einiges komplexer als die Verwendung einer linearen Kostenfunktion.³⁰

Damit ist das Prinzip des Needleman-Wunsch-Algorithmus, mit seinen verschiedenen Modifikationen, zum Vergleich zweier Symbolketten grund-sätzlich generisch anwendbar: Beide Symbolketten werden auf eine Matrix aufgetragen, die dann systematisch mit den einzelnen Vergleichen von Sym-bolpaaren gefüllt wird. Diese Vergleiche umfassen die Entscheidung für eine optimale Operation innerhalb einer vordefinierten Menge möglicher Operationen, die jeweils mit einem vordefinierten Aufwand zu bemessen sind. Basierend auf allen möglichen Teilvergleichen wird zuletzt der

op-28 Vgl. NW70, S. 444; Got82, S. 706; Dur+98, S. 21.

29 SW81, S. 196.

30 Vgl. Mer15, S. 169–171; Dur+98, S. 16, 29–32.

152

3.2 Alignment: Operationalisierung von Ähnlichkeit

G E Ä C H Z E

0 2 4 6 8 10 12 14

G 2 0 2 4 6 8 10 12

E 4 2 0 2 4 6 8 10

L 6 4 2 3 5 7 9 11

Ä 8 6 4 2 4 6 8 10

C 10 8 6 4 2 4 6 8

H 12 10 8 6 4 2 4 6

T 14 12 10 8 6 4 5 7

E 16 14 12 10 8 6 7 5

R 18 16 14 12 10 8 9 7

(a) Die berechnete Matrix inkl. Traceback.

G E L Ä C H T E R

| | | | | |

G E Ä C H Z E

(b) Das resultierende Alignment.

Abbildung 3.4: Beispiel für ein globales Alignment mitGeächze undGelächter. (c(ε) = 2;d(a, b) = 3⇔a̸=b,d(a, b) = 0⇔a=b)

timale Gesamtvergleich ermittelt. Zentrale Bedeutung kommt in diesem Rahmen selbstverständlich der Definition der möglichen Operationen zu, inklusive der damit zu vergebenden Kosten. Genau hier liegt die wesentliche Größe, mit der sich das Verfahren entsprechend gegenstandsspezifischem Wissen über die Anwendungsdomäne beeinflussen lässt.³¹ Ebenso ist es

31 Vgl. Mer15, S. 166.

153

3 Konzepte und Verfahren der computerbasierten Sequenzanalyse

auch möglich, die Kostenfunktionen für Substitutionen entsprechend auszu-differenzieren. So werden beispielsweise im Rahmen von DNA-Vergleichen sehr einfache Bewertungsverfahren durchgesetzt, während sich für den Ver-gleich von Proteinsequenzen aufwendigere Modelle etabliert haben, die auf sog.Substitutionsmatrizenberuhen.³²Hierbei handelt es sich um Modelle, die auf der Basis empirischer Beobachtungen angemessene Subsitutionskos-ten für bestimmte Aminosäuren vorgeben.³³ Die Leistungsfähigkeit eines Alignments hängt damit also wesentlich von dem ihm zugrunde gelegten Scoring-Modell ab. Wie an dem obigen Beispiel (siehe Abb. 3.4) zu be-obachten ist, muss die zugrundeliegende Menge möglicher Elemente nicht unbedingt der biologischen Domäne entspringen. Die prinzipielle Übertrag-barkeit des Konzeptes auf musikbezogene Fragestellungen ist, wie bereits im Rahmen des Sequenzbegriffs festgestellt wurde³⁴, unter der Voraussetzung der Nutzung eines entsprechend adäquaten Modells gegeben.

Im Dokument Modelle zur computergestützten Analyse von Überlieferungen der Mensuralmusik : Empirische Textforschung im Kontext phylogenetischer Verfahren (Seite 168-175)