Distanzmaÿ und Gruppierung der Bewegungen

Das cb des Glycins. Glycin hat das für die Berechnung der Rotationsvektoren nötige cb nicht. Durch die Bedeutung von Glycinen für die Dynamik im Protein ist es wichtig, Glycine nicht von dieser Betrachtung auszuschlieÿen. Der hier verwendete Lösungsansatz benutzt die Starrheit des Dreibeins, um bei Glycinen ein cb dahin zu setzen, wo es bei einer Aminosäure mit Seitenkette wäre. Hierzu wurden bei dem zuvor bestimmten Standarddreibein die Ortsvektoren des n, c und cb im Bezug zum ca betrachtet. Daraus ergeben sich die Skalarprodukte des Ortsvektors des cb mit dem Ortsvektor des n und des c und mit dem Kreuzprodukt der Ortsvektoren von n und c. Die Skalarprodukte lassen sich in Matrixform zusammenfassen zu:



wobei bbb die Skalarprodukte enthält und rrrn, rrrc und rrrcb die Spaltenvektoren der drei-beininternen Koordinaten⁶von n ,c bzw. cb sind. Einsetzen der Dreibeinkoordinaten in (2.1) gibt den Vektor bbb. Für die Glycine im Strukturensemble, kann Gleichung (2.1) mit diesem bbb nach der hypothetischen cb-Position rrr_cbaufgelöst werden.

Da rrrnund rrrcnicht linear abhängig sind, ist auch ihr Kreuzprodukt von ihnen linear unab-hängig. Dadurch hat die Matrix links in Gleichung (2.1) hat eine Determinante ungleich null und kann invertiert werden.

Durch die Verwendung des Kreuzproduktes in diesem Ansatz wird sichergestellt, dass das Glycin mit cb immer die gleiche Chiralität aufweist. Anderenfalls könnte es beim Vergleich zweier Glycine zu einem Sprung kommen, falls diese nicht die gleiche Händigkeit haben. Ist für jedes Glycin ein cb gesetzt, kann genau wie für die anderen Aminosäuren dann die Rotation von einer Struktur zur nächsten bestimmt werden.

2.3 Distanzmaÿ und Gruppierung der Bewegungen

Nun ist für jede Aminosäure in allen Strukturen des Ensembles ein Rotationsvektor bestimmt. Diese Information auszuwerten und zu klassizieren ist Teil dieses Schrittes.

Distanzmaÿ und Distance Geometry. Um Aussagen über die Ähnlichkeit bzw. Un-ähnlichkeit der Rotationsvektoren untereinander machen zu können, wurde ein Distanz-maÿ zwischen je zwei Vektoren bestimmt. Die Rotationsvektoren sind Elemente des R³. Auf diesem ist das Standardskalarprodukt

6 die n/c/cb-Koordinaten abzüglich der ca-Koordinaten

gegeben. Dieses induziert eine Norm

induziert. Aus einem Satz von N Rotationsvektoren⁸kann auf diesem Wege eine N×N -Matrix generiert werden. Das Element (i,j)dieser Matrix enthält den durch die Metrik bestimmten Abstand zwischen dem Rotationsvektor der i-ten Aminosäure und dem der j -ten Aminosäure. Aus diesem Distanzmaÿ können mit Distance Geometry (siehe An-hang a) Koordinaten von Punkten generiert werden, die den Abständen genügen. Diese Punkte haben nichts mehr mit den Koordinaten des Proteins zu tun. Der ihnen zu Grun-de liegenGrun-de Raum ist auch nicht notwendigerweise dreidimensional. JeGrun-der dieser Punkte repräsentiert eine Aminosäure und der Abstand zwischen zwei Punkten in diesem Raum ist gleich dem Abstand (durch das Distanzmaÿ bestimmt) der zugehörigen Rotationsvek-toren.

Damit Distance Geometry erfolgreich angewendet werden kann, ist es notwendig, dass die Einträge der Distanzmatrix wirklich die Axiome der Metrik erfüllen. Durch das hier denierte Abstandsmaÿ ist dies gesichert⁹. Hiermit hat Distance Geometry jedoch erst eine Menge von Punkten für die Verschiebung zu einer concoord-Struktur bestimmt.

Um nun die Information aller Ensemblestrukturen einzubeziehen, werden die Distanz-matrizen der einzelnen Verschiebungen einfach addiert. So ist die Distanz zwischen zwei Aminosäuren i und j gegeben durch die Metriken zwischen den zugehörigen Rotations-vektoren über alle Strukturen des Ensembles summiert:

d(i,j)≡

t=1

d(i,j;t).

Auch diese Denition ergibt wieder eine Metrik und Distance Geometry kann benutzt werden.

Hierzu sei der Beweis angeführt. Seien d1 und d2beliebige Metriken über dem selben Raum, dann ist auch d=d1+d2eine Metrik (über diesem Raum). Die Überprüfung der Metrikaxio-me ergibt:

d(a,b) =0⇒d¹(a,b) +d²(a,b) = 0⇒d¹(a,b) = 0∧d²(a,b) = 0⇒a=b, a=b⇒d1(a,b) = 0∧d2(a,b) = 0⇒d1(a,b) +d2(a,b) = 0⇒d(a,b) =0 d(a,b) =d1(a,b) +d2(a,b) =d1(b,a) +d2(b,a) =d(b,a),

d(a,b) =d1(a,b) +d2(a,b)≤d1(a,c) +d1(c,b) +d2(a,c) +d2(c,b) =d(a,c) +d(c,b). Dieses Ergebnis lässt sich auch auf beliebig viele aufzusummierende Metriken erweitern, indem ein Summand durch die Summe von zwei Summanden ersetzt wird.

7 Zu den Eigenschaften einer Metrik sei auf Anhang a verwiesen.

8 In unserem Fall ist N die Anzahl der Aminosäuren.

9 Hierzu sei auf auf einschlägige Mathematikbücher verwiesen, z.B. [1], S. 624

2.3 Distanzmaÿ und Gruppierung der Bewegungen 25

Aus der N×N -Distanzmatrix erzeugt Distance Geometry einen Satz von N Koordinaten, die möglichst gut die Abstände der Matrix erfüllen.

Es ist im Allgemeinen nicht gegeben, dass der Raum dieser Koordinaten niedrigdimensional ist. Eine exakte Übereinstimmung ist erst in(N−1) Dimensionen zu erwarten. Distance Geometry sortiert die Koordinaten fallend nach ihrem Beitrag zu den Distanzen. So reicht es oft, die ersten Dimensionen der Punkte zu verwenden und die hohen Dimensionen wegzulassen.

Es hat sich hier gezeigt, dass die Verwendung der Koordinaten, deren zugehörige Eigenwerte der Gram'schen Matrix in Summe mindestens 80% der Summe aller Eigenwerte ausmacht, eine gute Genauigkeit liefert und dabei die Dimensionalität klein lässt¹⁰.

Gruppierung mit k-means. Um in diesem neuen Raum die Punkte zu gruppieren, d.h. ähnliche Rotationsvektoren zusammenzufassen, wurde das Clustering-Verfahren k-means [20] verwendet. Seine Arbeitsweise ist wie folgt. Man wählt eine Anzahl k an Clustern, in die man die Punktwolke einteilen will. Es werden in dem Raum k Punkte, die die Rolle von Cluster-Mittelpunkten spielen, zufällig generiert. Jeder Punkt der Da-tenmenge wird darauf dem Cluster zugeordnet, zu dessen Mittelpunkt er am nächsten ist. Im nächsten Schritt werden die Mittelpunkte auf die Positionen geschoben, die dem arithmetischen Mittel der einzelnen Cluster entsprechen. Nun werden die Datenpunkte erneut den nächsten Clustern zugeordnet usw. Das Verfahren wird solange fortgesetzt, bis sich die Zuordnung nicht mehr ändert. K-means ist ein schnelles Verfahren, das auf Grund der Mittelwertbildung zu sphärischen Clustern neigt. Andere Verfahren bevor-zugen z.B. eher längliche, zusammenhängende Gebilde, in denen jedes Element nah an mindestens einem anderen ist. Für die hier vorgestellte Arbeit sind jedoch möglichst kompakte Cluster besser geeignet und so ist k-means eine gute Wahl.

Ermitteln der besten Gruppierung. Im Gegensatz zu manchen komplexeren Algo-rithmen ist es beim k-means-Clustering nötig die gewünschte Anzahl an Clustern vorzuge-ben. Gesucht ist die Klassizierung, die im Endeekt ein gutes tls-Renement ergibt. In dieser Methode werden die Rotationsvektoren in unterschiedlich viele Cluster aufgeteilt (z.B. zwei bis acht). Mit diesen Gruppen wird ein tls-Renement durchgeführt. Die Be-trachtung des gewöhnlichen und freien R-Faktors der einzelnen Renements entscheidet dann, welche Aufteilung am sinnvollsten ist. Diese kann dann ein besseres Strukturmodell des Proteins im Kristall darstellen.

10 Gerade wenn die ermittelten Koordinaten visualisiert werden sollen, sind z.B. drei Dimensionen sehr viel dankbarer als zehn.

3 Anwendung der Methode

Zum Test der hier vorgestellten Methode wurden drei Systeme ausgewählt. Zunächst ein Lysozym, das aus einer Molekülkette besteht und bei dem bekannt ist, dass es eine Biegebewegung um die zentrale Bindungstasche vollführt. Das zweite System, eine Ribo-nuklease (RiboRibo-nuklease T1), besteht aus vier Molekülketten, die in recht loser Bindung miteinander sich nahezu unabhängig voneinander bewegen. Das dritte System liegt zwischen diesen zwei Extremen. Es ist eine aus zwei Ketten bestehende Oxidoredukta-se. Beide Ketten sind miteinander verhakt und beeinussen sich so maÿgeblich in ihrer Dynamik. Diese drei Systeme sollen beispielhaft die Funktionsweise, die Stärken und die Schwächen dieser Methode erläutern.

3.1 System eins: 2epe

Das System. Bei 2epe [22] handelt es sich um die 2.5Å Röntgenkristallographiestruk-tur eines Lysozyms des Hühnereiweiÿ. Lysozym zerstört bakterielle Zellwände, indem es Zuckerketten des Peptidoglucangerüsts dieser Wände zerschneidet. In Grak 3.1 ist die Cartoondarstellung von 2epe zu sehen.

Das Ensemble. Mit concoord wurde von 2epe ein Ensemble von 1000 Strukturen erzeugt. In Abbildung 3.2 ist ein Unterensemble von zehn Strukturen dargestellt. Es ist zu erkennen, dass die Schleifen (rot) eine stärkere Mobilität aufweisen als die anderen Sekundärstrukturelemente. Dennoch sind die Schleifen in ihrer Bewegung nicht ganz frei, sondern zeigen alle eine ähnliche Struktur.

Die Analyse. Die normierte Distanzmatrix der Rotationsvektoren für 2epe ist in Gra-k 3.3 zu sehen. Hat ein Element (i,j)den Wert eins, so sind die Aminosäuren i und j die im Rotationssinn am stärksten unkorrelierten Aminosäuren des Ensembles. Ist der Wert null, so zeigen i und j gleiches Rotationsverhalten. Hier lässt sich erkennen, dass die Rotationsvektoren der Residuen von eins bis ca. 40 und von ca. 80 bis 129 gut kor-reliert sind. Der Block dazwischen weist eine kleine Lücke um die 56. Residue auf. Zur Veranschaulichung sind in Abbildung 3.4 einzelne Bereiche des Proteins anhand dieser Blöcke eingefärbt. Der grüne und der gelbe Teil könnten im Blick auf die Distanzmatrix zusammengenommen werden. Der blaue Bereich wird von einer kleinen Schleife (rot), die in Kontakt zum grünen und gelben Bereich steht, unterbrochen. Aus dieser Distanz-matrix wurde mit Distance Geometry eine sechsdimensionale Punktmenge erzeugt. Die sechs Dimensionen stellten eine Repräsentation dar, die dem in Abschnitt 2.3 gewählten Kriterium genügt. Diese Punkte wurden mit k-means in zwei bis acht Cluster gruppiert.

In den Bilderserien 3.5 und 3.6 sind links jeweils die von Distance Geometry erzeugten Punkte dargestellt, wobei die Farben das Ergebnis des Clusterings verdeutlichen. Dabei sind von den sechs Dimensionen die ersten drei dargestellt. Rechts ist das Protein 2epe

Tabelle 3.1: Eigenschaften der Testsysteme

System Anzahl der

Aminosäurereste Molekülketten

2epe 129 1

5hoh 416 4

1zz6 364 2

Bild 3.1: Cartoondarstellung von 2epe; die Sekundärstrukturelemente sind farblich unterschie-den

Bild 3.2: Cartoondarstellung eines concoord-Ensemles von zehn Strukturen von 2epe; die Sekundärstrukturelemente sind farblich unterschieden

3.1 System eins: 2epe 29

Bild 3.3: Distanzmatrix der Rotationen für 2epe

Bild 3.4: Visualisierung der Distanzmatrix am Protein 2epe; Residuen 1-40: grün, 41-54, 58-79: blau, 80-129: gelb, 55-57: rot

zu sehen, wobei die jeweils dem Clustering im Rotationsdistanzraum entsprechenden Residuen gleich gefärbt sind.

Das Renement und die Bewertung. Die von k-means ermittelten Gruppen wur-den als tls-Gruppen dem Renementprogramm refmac [30] übergeben. Als Quali-tätsmaÿ für das Renement sind in Grak 3.7 freier (rot) und gewöhnlicher R-Faktor (schwarz) für die tls-Renements in Abhängigkeit von der Gruppenanzahl aufgetragen.

Die zwei Geraden zeigen freien (rot) und gewöhnlichen (schwarz) R-Faktor des Modells ohne tls-Renement. Das tls-Renement mit zwei Gruppen hat den freien R-Faktor um ca. drei Prozent fallen lassen. Die weiteren Gruppierungen senken zwar den R-Faktor, he-ben den freien R-Faktor jedoch an. Eine Verwendung von mehr als zwei tls-Gruppen stellt also bereits eine Überanpassung dar. Die Einteilung in sechs Gruppen stellt hier eine Ausnahme dar. Sie bendet sich auf ähnlichem Qualitätsniveau wie die Zweiteilung, verwendet jedoch mehr Parameter als diese. Die Einteilung in zwei Gruppen ist also vorzuziehen.

Genauer: Die hier verwendete Aufteilung in zwei Gruppen ist den anderen Aufteilungen vorzuziehen. Damit ist nicht gesagt, dass jede Zweiteilung des Proteins das tls-Renement verbessert. Ebenso ist es möglich, dass Einteilungen in mehr als zwei Gruppen die Messdaten passender beschreiben, wenn sie besser vorgenommen werden als dies hier der Fall ist.

Im Dokument Vesper 2008 diploma thesis (Seite 29-36)