• Keine Ergebnisse gefunden

Clustering. Einer der nächsten Punkte, die bei der Methode verbessert werden kön-nen, ist das Clustering. K-means hat den Nachteil, dass die Anzahl der erwünschten Cluster vorgegeben werden muss. Es wäre wünschenswert, wenn die Methode das ideale Clustering ermitteln würde, um nur eine Renementrechnung durchzuführen. Denn das Renement stellt den zeitaufwendigsten Schritt im ganzen Prozess dar.

Einige Verfahren, die nach einem Abbruchkriterium oder Ähnlichem selbst die Clus-teranzahl bestimmen, wurden schon ausprobiert. Keines hat sich bis jetzt als ideal heraus-gestellt. Auf diesem Feld gibt es jedoch viele Verfahren, die ausprobiert werden können.

Eine andere Möglichkeit ist es, ein Clustering wie in dieser Arbeit für einen bestimm-ten Anzahlbereich (hier zwei bis acht) durchzuführen und die einzelnen Gruppierungen mit einem Qualitätsmaÿ zu bewerten. So könnte das beste Clustering vor dem Renement bestimmt werden. Typische Qualitätsmaÿe für Clusterings belohnen groÿe Abstände zwi-schen Clustern und bestrafen groÿe Abstände innerhalb von Clustern.

Kristallkontakte. Eine weitere Verbesserung könnte sein, in concoord neben den Wechselwirkungen im Protein auch Wechselwirkungen zu Proteinen in benachbarten Ele-mentarzellen im Kristall zu betrachten. Solche Kristallkontakte des Proteins stellen Wech-selwirkung dar, die Einuÿ auf die Dynamik des Systems haben könnten und sich somit in den anisotropen B-Faktoren wiedernden lassen sollte.

Andere Aufteilungen. Um mehr Aussagen über die Qualität der Aufteilungen ma-chen zu können, könnten an Stelle von concoord-Ensembles auch Ensembles aus md-Simulationen untersucht werden. Für kleine Systeme wäre es auch möglich systematisch alle möglichen Gruppierungen auszuprobieren und im Renement zu bewerten. Hierbei müssen zusätzliche Annahmen gemacht werden, um sinnlose Gruppierungen im Vorhinein auszuschlieÿen. Die Anzahl der Möglichkeiten wächst sonst über alle Maÿen.

Ensemblegrösse. Rechenzeit und Qualität der Ergebnisse können weiter aufeinander abgestimmt werden, indem die Anzahl der ermittelten concoord-Strukturen aus der Anzahl der Aminosäuren im Protein bestimmt wird. Dieser Schritt würde auÿerdem eine weitere Automatisierung des gesamten Prozesses darstellen.

Mehr Beispiele. Um die Methode auf sichere Füÿe zu stellen, müssen natürlich mehr Beispiele getestet werden.

Dynamikuntersuchung. Die Rotationsanalyse und das daraus ermittelte Distanzmaÿ könnten sich unabhängig vom tls-Renement als nützlich zur Betrachtung dynami-scher Eigenschaften von Proteinen herausstellen.

Anhang

a Distance Geometry

Distance Geometry ist ein Verfahren, das aus allen paarweisen Abständen von Punk-ten die KoordinaPunk-ten dieser Punkte generiert [31, 11]. Genauer gesagt wird ein möglicher Satz an Koordinaten erzeugt, der diesen Distanzen genügt. Denn eine Verschiebung oder Rotation aller Punkte verändert nicht die internen Abstände.

a.1 Theorie

Im Allgemeinen sind n Punkte in einen n−1-dimensionalen Raum einbettbar. So liegen zum Beispiel drei Punkte immer auf einer Ebene und zwei immer auf einer Geraden. Die paarweisen Abstände seien in einer n×n-Matrix(di,j)1≤i,jnzusammengefasst, wobei dij

den Abstand des Punktes i zum Punkt j bedeute. Diese Abstände müssen die Denition einer Metrik erfüllen. Es gilt:

Denition a.1: Metrik

Sei M eine beliebige Menge. Eine Abbildung d:M ×M →Rheiÿt Metrik, wenn für alle a,b,c∈M gilt:

1. d(a,b) = 0⇔a=b

2. d(a,b) =d(b,a)(Symmetrie)

3. d(a,b)≤d(a,c) +d(c,b)(Dreiecksungleichung) 4. d(a,b)≥0(Positivität)1

Das Problem des Aundens der Koordinaten ist verknüpft mit der Diagonalisierung der sogenannten Gram'schen Matrix.

Denition a.2: Gram'sche Matrix

In einem d-dimensionalen Raum seien die Koordinaten eines jeden der n Punkte durch

xxx=

gegeben. Durch Aneinanderreihung der n Ortsvektoren ergibt sich die Koordinaten-matrix

Bild a.1: Zur Veranschaulichung zum Kosinussatz Die Gram'sche Matrix GGG ist deniert als:

GG G≡XXXTXXX

Das bedeutet insbesondere, dass GGGijgleich dem Skalarprodukt des i-ten und j-ten Vektors ist:

G

GGij =xxxi·xxxj

Das Skalarprodukt zweier Vektoren lässt sich unter Verwendung des Kosinussatzes (siehe Grak a.1) umschreiben:

(xxxi−xxxj)2=xxx2i +xxx2j −2|xxxi||xxxj|cos (∠(xxxi,xxxj))

=xxx2i +xxx2j −2xxxi·xxxj

⇒xxxi·xxxj =1 2

xxx2i +xxx2j −(xxxi−xxxj)2

=1

2 d12i+d12j−dij2

Die letzte Zeile folgt, indem der Ursprung OOO des Koordinatensystems an den Ort des ersten Punktes gesetzt wird2 und die Distanzen der Matrix ddd entnommen werden. Es ist also möglich die Gram'sche Matrix nur aus den Distanzen zu bestimmen:

G GGij =1

2 d12i+d12j−dij2

. (a.1)

2 Die Koordinaten welchen Punktes man wählt ist nicht entscheidend. Hier sei o.B.d.A. der erste Punkt gewählt. Wichtig ist nur, dass ein Punkt aus dem Datensatz gewählt wird, da dann alle Distanzen zu ihm bekannt sind.

a.2 Anwendung 51

Diagonalisierung von GGG führt zu

LLL=YYY GGGYYYT, (a.2)

wobei LLL die Diagonalmatrix der Eigenwerte und YYY die entsprechende Transformations-matrix bedeuten3. Die Wahl

Die Koordinaten XXX undXXX ergeben also die gleiche Gram'sche Matrix. Umgekehrt liest˜ sich die Aussage so: Die Koordinaten XXX undXXX erfüllen die gleiche Distanzmatrix! Also˜ ist

XXX =

√L

√L

√LYYY (a.3)

ein Koordinatensatz, der mit den gegebenen Distanzen verträglich ist.

a.2 Anwendung

Die Anwendungsschritte von Distance Geometry bei einer gegebenen Distanzmatrix ddd sind:

1. Berechnung der Gram'schen Matrix mithilfe von GGGij =12 d12i+d12j−dij2

2. Diagonalisierung von GGG, so dass LLL=YYY GGGYYYT, mit der Diagonalmatrix LLL 3. Berechnung der Koordinatenmatrix XXX durch XXX =√

√L

√L LYYY

Wenn die Elemente auf der Diagonalen von LLL in absteigender Gröÿe geordnet sind, so sind die zugehörigen Koordinaten ebenfalls absteigend nach Ausdehnung geordnet. So ist Distance Geometry auch geeignet, für ein vorgegebenes Distanzmaÿ eine möglichst niedrig-dimensionale Repräsentation durch eine Punktwolke zu bestimmen.

3 Im Folgenden ist mit

L

L

L die Diagonalmatrix mit den Quadratwurzeln der Diagonaleinträge von LLL bezeichnet.

Bild a.2: Eigenwerte der Gram'schen Matrix

a.3 Beispiel

Um die Arbeitsweise von Distance Geometry zu erläutern, folgt ein kurzes Beispiel. Für ein System von fünf Punkten sei die Distanzmatrix

ddd =

gegeben. Mit etwas Zeit lieÿe sich die Struktur, die dieser Matrix zu Grunde liegt, viel-leicht rekonstruieren. Es ist jedoch nicht ohne Weiteres gegeben, dass der zu Grunde liegende Raum weniger als vier Dimensionen hat. Gehen wir den Distance Geometry Weg. Die Gram'sche Matrix berechnet sich nach (a.1) zu

GGG=

Die Diagonalisierung von GGG gibt uns nur zwei Eigenwerte ungleich null (siehe Grak a.2).

Das bedeutet, die gesuchten Koordinaten lassen sich in zwei Dimensionen einbetten. Mit (a.3) errechnen sich die Koordinaten zu der in Abbildung a.3 gezeigten Figur. Es ist leicht zu sehen, dass die Punkte den Distanzen genügen.

a.3 Beispiel 53

Bild a.3: Beispielgur: Eckpunkte eines Quadrates mit Mittelpunkt; Kantenlänge in beliebigen Einheiten

b Bonus: Fitfreie Hauptkomponentenanalyse

Als Nebenprodukt dieser Arbeit ist durch die Beschäftigung mit Distance Geometry die Idee zu einer Methode entstanden, die eine Alternative zur Hauptkomponentenanalyse darstellen könnte. Die Idee ist es dabei, alle paarweisen Distanzen zwischen gegebenen Strukturen zu bestimmen und daraus mittels Distance Geometry eine niedrigdimensiona-le Repräsentation dieser Distanzverteilung zu erhalten. Die Distanzen werden dabei durch eine Methode berechnet, für die es nicht nötig ist, die Strukturen aufeinander zu tten1. Dadurch können eventuell mit dem Fit verbundene Artefakte vermieden werden, die bei der Hauptkomponentenanalyse vor allem von exiblen Systemen häug auftreten.

b.1 Einleitung

b.1.1 Hauptkomponentenanalyse von Proteintrajektorien

Ein Protein mit N Atomen lässt sich durch N Punkte in einem dreidimensionalen Raum darstellen oder durch einen Punkt in einem 3N -dimensionalen Raum. Letztere Darstel-lung hat den Vorteil, dass in diesem hochdimensionalen Raum Trajektorien durch Punkt-wolken beschrieben werden können, wobei jeder Punkt eine Struktur der Trajektorie darstellt. Die hohe Dimensionalität des Raumes erfordert jedoch weitere Maÿnahmen, um die verwertbare Aussagen zu erhalten.

Eine Möglichkeit hierzu ist die Hauptkomponentenanalyse (pca2). Die pca betrach-tet die Korrelationen der Schwankungen der einzelnen Datenpunkte. Diese sind in der Kovarianzmatrix bestimmt:

Cij =h(xxxi− hxxxii) (xxxj − hxxxji)i,

wobei xxxi der Ortsvektor der i-ten Struktur in dem 3N -dimensionalen Raum ist. Die Eigenwerte der Kovarianzmatrix geben an, wie stark die Schwankung entlang des zuge-hörigen Eigenvektor ist. Bei der Untersuchung der Dynamik von Proteinen wurde fest-gestellt, dass nur ein geringer Teil der Eigenvektoren signikant zu den Schwankungen des Gesamtsystems beträgt und so eine sinnvolle, niedrigdimensionale Näherung erlaubt.

Werden die Eigenwerte fallend geordnet, so ist die Projektion auf die ersten Eigenvekto-ren eine niedrigdimensionale Repräsentation des gesamten Datensatzes, die die grössten Schwankungen beschreibt.

Die Einsatzgebiete der pca sind vielfältigster Natur. Genauere Informationen zur pca sind in [5] gegeben.

Die pca benötigt eine gemittelte Struktur, bezüglich derer die Schwankungen berech-net werden. Diese wird zu allererst berechberech-net. Um nicht Bewegungen des Proteins als

1 Dabei wird eine Struktur solange rotiert und translatiert, bis die Summe der quadratischen Abwei-chungen der Koordinaten zu der anderen Struktur minimal wird.

2 englisch: principal component analysis

Bild b.1: Veranschaulichung der zwei unterschiedlichen Distanzbestimmungen zwischen Struk-turen; Erklärungen im Text

Ganzes im Lösungsmittel zu ermitteln, wird jede einzelne Struktur der Referenzstruktur angepasst und dann die Abweichungen der einzelnen Atome betrachtet. Dieses Fitten kann bei sich stark unterscheidenden Strukturen recht willkürlich sein und eventuell Artefakte zum Ergebnis beitragen.

Bei Überlegungen zu Alternativen zur pca kam die Idee auf, alle paarweisen Distanzen zwischen gegebenen Strukturen zu bestimmen und daraus mittels Distance Geometry eine niedrigdimensionale Repräsentation dieser Distanzverteilung zu erhalten.

b.1.2 Abweichung der Koordinaten oder der Distanzen?

Das Problem des Fittens kann umgangen werden, indem nicht die Koordinaten, sondern die internen Distanzen der einzelnen Strukturen miteinander verglichen werden. Diese Distanzen stellen relative Koordinaten dar. In Grak b.1 sei dies verdeutlicht. Die zwei zu vergleichenden Strukturen sind durch schwarze und blaue Punkte dargestellt. Bei der Abweichung der Distanzen werden im ersten Schritt für jede Struktur alle internen Abstände (rote Linien) bestimmt. In dem Beispiel wurde von der schwarzen zur blauen Struktur nur Punkt eins verschoben, d.h. alle Distanzen zu diesem Punkt sind verändert alle anderen unverändert. Im zweiten Schritt werden die Unterschiede entsprechender Distanzen zueinander aufsummiert:

Bei der Abweichung der Koordinaten werden die zwei Strukturen so gut wie möglich in

b.2 Anwendung 57

Bild b.2: Zwei Zustände des Peptids: gefaltet (grün) und entfaltet (rot)

Deckung gebracht und dann die Dierenzen (rote Linie) in den Koordinaten aufsummiert:

dt(t1,t2) = v u u t 1 N

N

X

i=1

k(rrri(t1)−rrrj(t2)k2.

b.2 Anwendung

Zum Test der Methode wurde eine lange md-Simulation eines kleinen, reversibel fal-tenden Peptids betrachtet. In Grak b.2 sind zwei Zustände des Peptids gezeigt: Der gefaltete Zustand ist grün und der entfaltete rot dargestellt. Die Trajektorie wurde mit herkömmlicher pca und der neuen tfreien pca untersucht.

b.2.1 pca

Abbildung b.3 sind die Eigenwerte der pca zu sehen. Grak b.4 zeigt die Projektion der Trajektorie auf die ersten zwei Eigenvektoren. In grun und rot sind zwei Punkte markiert, die zu dem gefalteten und dem entfalteten Zustand gehören.

b.2.2 Fitfreie pca

Die Eigenwerte der tfreien pca sind in Abbildung b.5 dargestellt. Grak b.6 zeigt die Projektion der Trajektorie auf die zwei ersten Eigenwerte. Auch hier sind in grun und rot der gefalteten und der entfalteten Zustand markiert.

Bild b.3: Eigenwerte der pca

Bild b.4: Projektion der Trajektorie auf den ersten und zweiten Eigenvektor der pca

b.2 Anwendung 59

Bild b.5: Eigenwerte der tfreien pca

Bild b.6: Projektion der Trajektorie auf den ersten und zweiten Eigenvektor der tfreien pca

b.2.3 Auswertung

Die Eigenwertverteilungen der zwei Methoden deuten darauf hin, dass die gewöhnliche pca mehr Dimensionen benötigt, um einen relevanten Unterraum darzustellen, als die tfreie pca. In der zweidimensionalen Projektion ist die tfreie pca besser in der Lage, den gefalteten von dem entfalteten Zustand des Peptids zu trennen.

b.3 Diskussion und Ausblick

Die Entwicklung dieser Methode steckt noch in den Kinderschuhen. Das neue Verfahren hat in diesem Beispiel die einzelnen Strukturen der Trajektorie anders zueinander ange-ordnet als die pca. Es fehlen jedoch weitere Beispiele, die zeigen können, ob die neue Methode in der Lage ist, dynamisch Aspekte der Proteindynamik besser aufzlösen als die pca.

Literaturverzeichnis

[1] Bronstein, I. N., K. A. Semendjajew, G. Musiol und H. Mühling: Taschenbuch der Mathematik. Verlag Harri Deutsch, 2001.

[2] Brünger, A. T.: Free R value: a novel statistical quantity for assessing the accuracy of crystal structures. Nature, 355:472475, 1992.

[3] Cantor, C. R. und P. R. Schimmel: Biophysical chemistry. pt. 2, techniques for the study of biological structure and function. San Francisco: WH Freeman, 1980.

[4] Cruickshank, D. W. J.: The analysis of the anisotropic thermal motion of molecules in crystals. Acta Crystallographica, 9(9):754756, Sep 1956.

[5] de Groot, B. L.: Native state protein dynamics: a theoretical approach. Dissertation, University of Groningen, 1999.

[6] de Groot, B. L., R. A. Böckmann und H. Grubmüller: Molekulare Nanomaschinen unter der Lupe: Proteindynamik-Simulationen. Physik in unserer Zeit, 37(2):7379, 2006.

[7] de Groot, B. L., D. M. F. van Aalten, R. M. Scheek, A. Amadei, G. Vriend und H. J. C.

Berendsen: Prediction of protein conformational freedom from distance constraints.

Proteins-Structure Function And Genetics, 29(2):240251, 1997.

[8] Grubmüller, H.: Force probe molecular dynamics simulations. Methods in Molecular Biology, 305:493515, 2005.

[9] Harata, K., Y. Abe und M. Muraki: Full-matrix least-squares renement of lysozymes and analysis of anisotropic thermal motion. Proteins Structure Function and Genetics, 30(3):232243, 1998.

[10] Harata, K., Y. Abe und M. Muraki: Crystallographic evaluation of internal motion of humanα-lactalbumin rened by full-matrix least-squares method. Journal of Molecular Biology, 287(2):347358, 1999.

[11] Havel, T. F., I. D. Kuntz und G. M. Crippen: The theory and practice of distance geometry. Bulletin Of Mathematical Biology, 45(5):665720, 1983.

[12] Hayward, S. und H. J. C. Berendsen: Systematic analysis of domain motions in proteins from conformational change: New results on citrate synthase and t4 lysozyme. Proteins:

Structure Function And Genetics, 30(2):144154, Februar 1998.

[13] Hayward, S., A. Kitao und H. J. C. Berendsen: Model-free methods of analyzing domain motions in proteins from simulation: A comparison of normal mode analysis and

molecular dynamics simulation of lysozyme. Proteins: Structure, Function, and Genetics, 27:425437, 1997.

[14] Higgins, L. J., F. Yan, P. Liu, H. Liu und C. L. Drennan: Structural insight into antibiotic fosfomycin biosynthesis by a mononuclear iron enzyme. Nature, 437:838844, 2005.

[15] Holbrook, S. R., R. E. Dickerson und S. H. Kim: Anisotropic thermal-parameter renement of the DNA dodecamer CGCGAATTCGCG by the segmented rigid-body method. Acta crystallographica. Section B, Structural crystallography and crystal chemistry, 41(4):255262, 1985.

[16] Holbrook, S. R. und S. H. Kim: Local mobility of nucleic acids as determined from crystallographic data. I. RNA and B form DNA. J Mol Biol, 173(3):36188, 1984.

[17] Kendrew, J. C., G. Bodo, H. M. Dintzis, R. G. Parrish und H. Wycko: A three-dimensional model of the myoglobin molecule obtained by x-ray analysis. Nature, 181(4610):662666, 1958.

[18] Lander, E. S., L. M. Linton, B. Birren, C. Nusbaum, M. C. Zody, J. Baldwin, K. Devon, K. Dewar, M. Doyle, W. Fitzhugh et al.: Initial sequencing and analysis of the human genome. Nature, 409(6822):860921, 2001.

[19] Langhorst, U., R. Loris, V. P. Denisov, J. Doumen, P. Roose, D. Maes, B. Halle und J. Steyaert: Dissection of the structural and functional role of a conserved hydration site in RNase T1. Protein Science, 8(4):722730, 1999.

[20] MacQueen, J.: Some methods for classication and analysis of multivariate. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, University of California Press, Volume I, Statistics:281297, 1967.

[21] Müller, P.: Crystal Structure Renement: A Crystallographer's Guide to SHELXL.

Oxford University Press, USA, 2006.

[22] Naresh, M. D., Subramanian V. Jaimohan S.M. Rajaram A. Arumugam V. Usha R.

Mandal A. B.: Crystal structure analysis of hen egg white lysozyme grown by capillary method. unveröentlicht, Deposition: 29.03.2007, Release 17.04.2007.

[23] Perutz, M. F., M. G. Rossman, A. F. Cullis, H. Muirhaed, G. Will und A. C. T. North:

Structure of haemoglobin. a three dimensional fourier synthesis at 5.5, 8, resolution obtained by x-ray analysis. Nature (Lond.), 185:416422, 1960.

[24] Schomaker, V. und K. N. Trueblood: On the rigid-body motion of molecules in crystals.

Structural Crystallography and Crystal Chemistry, 24(1):6376, 1968.

[25] Trueblood, K. N., H.-B. Bürgi, H. Burzla, J. D. Dunitz, C. M. Gramaccioli, H. H.

Schulz, U. Shmueli und S. C. Abrahams: Atomic dispacement parameter nomenclature.

report of a subcommittee on atomic displacement parameter nomenclature. Acta Crystallographica Section A, 52(5):770781, Sep 1996.

[26] van Gunsteren, W. F., D. Bakowies, R. Baron, I. Chandrasekhar, M. Christen, X. Daura, P. Gee, D. P. Geerke, A. Glattli, P.H. Hunenberger et al.: Biomolecular modeling:

Goals, problems, perspectives. Angewandte Chemie International Edition in English, 45(25):4064, 2006.

Literaturverzeichnis 63

[27] van Gunsteren, W. F., H. J. C. Berendsen et al.: Computer simulation of molecular dynamics: Methodology, applications, and perspectives in chemistry. Angewandte Chemie International Edition in English, 29(9):9921023, 1990.

[28] Venter, J. C., M. D. Adams, E. W. Myers, P. W. Li, R. J. Mural, G. G. Sutton, H. O.

Smith, M. Yandell, C. A. Evans, R. A. Holt et al.: The sequence of the human genome.

Science, 291(5507):13041351, 2001.

[29] Wilson, M. A. und A. T. Brunger: The 1.0 Å crystal structure of Ca2+-bound calmodulin:

an analysis of disorder and implications for functionally relevant plasticity. Journal of Molecular Biology, 301(5):12371256, 2000.

[30] Winn, M. D., M. N. Isupov und G. N. Murshudov: Use of TLS parameters to model anisotropic displacements in macromolecular renement. Acta Cryst. D: Biological Crystallography, 57:12233, 2001.

[31] Young, G. und A. S. Householder: Discussion of a set of points in terms of their mutual distances. Psychometrika, 3(1):1922, 1938.

Im Dokument Vesper 2008 diploma thesis (Seite 51-69)