• Keine Ergebnisse gefunden

eiS  eedi i:w

N/A
N/A
Protected

Academic year: 2021

Aktie "eiS  eedi i:w"

Copied!
231
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Knowledge-based Approahes for Loop Predition

and Model Quality Assessment

I n au g ur al - D i s s er ta t i on

zur

Erlangung des Doktorgrades

der Mathematish-Naturwissenshaftlihen Fakultät

der Universitätzu Köln

vorgelegtvon

Pasal Benkert

aus Wetzikon(Shweiz)

Köln2007

(2)

Tag der mündlihen Prüfung: 30. November2007

(3)
(4)
(5)

I wish toexpress my sinere thanks tomy supervisor Prof. Shomburg for hissupport

and for giving me the opportunity to join CUBIC for the postgraduate ourse in

bioinformatis and for the PhD thesis.

The Federal Ministry of Eduation and Researh (BMBF) is aknowledged for the

nanialsupport.

Ialsowanttoexpress mygratitude toProf.Shraderforreadilyaepting theposition

of the seond examiner.

My speial thanks are addressed to my ooperation partner and friend Prof. Silvio

Tosatto forthe fruitfulexhangeof ideas,many suggestions and hisvaluablehelp asa

proof-reader.

IalsoowemysinerethankstoDr.PhilippHeuserforprove-readingandforintroduing

meto the fasinatingeld of strutural biology.

Finally,Ithank allmyendsand olleaguesI metatCUBICfortheir supportand the

friendlyworking limate.

(6)
(7)

Knowledge of the three-dimensional struture of proteins is of vital importane for

understandingtheirfuntionandfortherationaldevelopmentofnewdrugs. Homology

modelling is urrently the most suessful method for the predition of the struture

of a protein from its sequene. A strutural model is thereby built by inorporating

informationfrom experimentally solved proteinsshowing an evolutionary relationship

to the target protein. The aurate predition of loop regions whih frequently

ontribute to the funtional speiity of proteins as well as the assessment of the

quality of the models are major determinants of the appliability of the generated

models inorder to answer biologialquestions.

The modelling pipeline established in the ourse of this work is able to produe very

aurate models as shown in a reent ommunity-wide blind test experiment: From

18 proessed protein struture predition test ases, 3 very good models have been

submitted (rank 2, 4 and 6 of over130 partiipatinggroups) and the vastmajority of

the remainingmodels was above the ommunity average.

The loopmodellingroutinerelies onaomprehensive database of fragmentsextrated

from known protein strutures. After the seletionof fragments from the database, a

variety of lters are applied in order to redue the number of fragments. In ontrast

to other knowledge-based loop predition methods desribed in the literature, whih

mostly perform a ranking based on the geometrial t of the fragments tothe anhor

groups in the protein, the present method ranks the remaining andidates with an

all-atom statistial potential soring funtion whih investigates the ompatibility of

the loop inluding sidehains with its strutural environment. On a large test set of

over 200 loops, the loop predition method is able to model loops with median root

meansquare deviationperlooplengthbelow1Åfor loops uptoalength of7residues

if allfragments, originatingfrom proteinssharingmore than50% sequene identityto

the proteinsof thetest set, are exluded. Onthe same data basis,the present method

outperforms 3out of 4 ommerial loopmodelling programs tested inthis work.

Furthermore, a omposite soring funtion onsisting of 3 statistial potential terms

overingthe majoraspets ofproteinstabilityandtwoadditionaltermsdesribing the

agreement between predition features of the sequene and alulated harateristis

(8)

of the model is presented. The soring funtion performs signiantly better than

ve well-established methods in the disrimination of good from bad models based

on a omprehensive test set of 22,420 models and represents a valuable tool for the

assessment of the quality of proteinmodels.

(9)

Das Wissen über die dreidimensionale Struktur von Proteinen ist von entsheidender

Bedeutung für das Verständnis der biologisher Funktion und ist eine wihtige Vo-

raussetzungfürdiemoderneArzneimittelforshung. DieVorhersage derStruktureines

Proteinsaus derenSequenzmitHilfevonomputergestütztenMethoden wirddeutlih

erleihtert, wenn Informationen von experimentellgelösten Proteinen benutzt werden

können, welhe eine evolutionäre Verwandtshaft zum gesuhten Protein aufweisen

(Homologiemodellierung). Dabei spielen die präzise Strukturvorhersage von Loopre-

gionen, welhe häug die funktionelle Spezität von Proteinen ausmahen, sowie die

Fähigkeit, dieQualitätder erzeugten Modelle zu bewerten,eine wihtige Rollefür die

spätereVerwendbarkeit der Modelle zur Beantwortung biologisher Fragestellungen.

Die im Laufe dieser Arbeit entwikelte Modellierungsumgebung wurde kürzlih an

einem internationalenBlindversuhzur Proteinstrukturvorhersage getestet und es hat

sih gezeigt, dass sehr genaue Vorhersagen erreiht werden können: Von den 18

untersuhten Vorhersagetestfällen wurden 3 sehr gute Modelle eingereiht (Platz 2,

4und 6vonüber 130teilnehmenden Arbeitsgruppen) unddieüberwiegendeMehrzahl

der restlihen Modelle waren besser alsder Durhshnitt.

Die intergrierte Loopmodellierungsroutinebasiert auf einerumfangreihen Datenbank

von Proteinfragmenten extrahiert aus experimentell gelösten Strukturen. Im Vorher-

sageprozess werden mehrere Qualitätslter verwendet, um die Anzahl der Fragmente

zu reduzieren. Im Gegensatz zu anderen beshriebenen wissensbasierten Ansätzen, in

welhen das Soringmeist überdiePassgenauigkeit derFragmentezu den Ankergrup-

pen imProteindurhgeführtwird, verwendetdiehiervorgestelltenMethode eineSor-

ingfunktionbasierend aufstatistishePotentialen,welhe dieKompatibilitätderLoops

inklusive Seitenketten mit der strukturellen Umgebung bewertet. Die Methode wurde

aufeinemDatensatzvonüber200Loopsgetestet. DerMediandes RMSD(Wurzel der

mittleren quadratishen Abweihung) pro Looplänge liegt dabei unter 1 Å für Loops

bis 7 Residuen. Dabei wurden Fragmente aus Proteinen extrahiert, die weniger als

50% Sequenzidentität zu den Proteinen im Testdatensatz haben. Mit dem gleihen

DatensatzliefertdabeidievorliegendeMethodegenauere Loopstrukturvorhersagenals

3 von 4untersuhten kommerziellenLoopvorhersage-Programmen.

(10)

Zusätzlih wurde eine zusammengesetzte Soringfunktion entwikelt, bestehend aus

fünf Termen: Drei statistishen Potentiale erfassen vershiedene Faktoren der Pro-

teinstabilität und zwei zusätzlih Terme beshreiben die Übereinstimmung zwishen

aus der Sequenz vorhergesagten Eigenshaften und gemessenen Eigenshaften des

Proteinmodells. Eine statistish signikante Verbesserung gegenüber fünf etablierten

Energiefunktionen bezüglih der Fähigkeit, zwishen guten und shlehten Modellen

zu unersheiden, wird erreiht, basierend auf einem umfangreihen Testdatensatz

von 22'420 Modellen und einer Vielzahl von Qualitätsmaÿen. Die hier vorgestellte

Soringfunktionstellt einwertvolles Hilfsmittelzur Bewertungder Modellqualitätdar.

(11)

Å Ångström (1Å=

10

−10 m)

API AdvanedProgramming Interfae

B-fator atomi displaement parameter;temperaturefator

BLAST Basi LoalAlignmentSearhTool[5℄

CATH Class, Arhiteture, Topologyand Homologoussuperfamily[153℄

CASP Critial Assessment of tehniques for protein Strutur Predition [147℄

DSSP Ditionary of Seondary Strutureof Proteins [107℄

FM CASP7 ategory: (template-)Free Modelling

FSSP Families of Struturally SimilarProteins [92℄

GDT/GDT_TS Global Distane Test (Tertiary Struture) [244℄

HA-TBM CASP7 ategory: HighAuray Template-Based Modelling

HMM Hidden Markov Model

HOMSTRAD HOMologous STRuture AlignmentDatabase

LGA Loal/GlobalAlignment[244℄

MD Moleular Dynamis

MM Moleular Mehanis

MQAP Model Quality Assessment Program

NMR spetrosopy Nulear Magneti Resonane spetrosopy

nr NCBI's non-redundant sequnee database

PDB Protein DataBank [18℄

pdbaa sequene database of protein strutures fromthe PDB

PSI-BLAST Position-Spei Iterative BLAST [6℄

PSSM Position Spei Soring Matries

QMEAN QualitativeModelEnergy ANalysis

(12)

RMSa RMSD between terminalfragment residues and

anhor groups residues aftertting

RMSD RootMean Square Deviation

ROC urves Reeiver Operator Charateristi urves

SCOP Strutural Classiation of Proteins[148℄

SCWRL Side Chainplaement WithaRotamer Library [31℄

SSE Seondary Struture Element

TBM CASP7 athgory: Template-Based Modelling

TXXXX Targetsof CASP7, e.g. T0298

X-rays Röntgen rays

Znat Z-sore of the native struture ompared to the ensemble

(13)

2.1 Gap open and gap extension penalties . . . . . . . . . . . . . . . . . . 38

2.2 Fragmentdatabase tables . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.3 Fieldsof the fragment tables . . . . . . . . . . . . . . . . . . . . . . . . 48

2.4 Thresholds inloop predition . . . . . . . . . . . . . . . . . . . . . . . 50

2.5 Loaland global energy funtions . . . . . . . . . . . . . . . . . . . . . 68

3.1 Overview on CASP7 results . . . . . . . . . . . . . . . . . . . . . . . . 79

3.2 CASP7 detailedresults . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

3.3 Templatedetetion by BLAST. . . . . . . . . . . . . . . . . . . . . . . 84

3.4 Detailed CASP7 results with omments . . . . . . . . . . . . . . . . . . 93

3.6 Desriptionof soring funtionterms . . . . . . . . . . . . . . . . . . . 110

3.7 Optimisationof the interation potential . . . . . . . . . . . . . . . . . 111

3.8 Optimisationof the all-atominteration potential . . . . . . . . . . . . 111

3.9 Optimisationof the solvation potential . . . . . . . . . . . . . . . . . . 112

3.10 Optimisationof the torsion angle potential . . . . . . . . . . . . . . . . 113

3.11 Optimisationof the agreement terms . . . . . . . . . . . . . . . . . . . 113

3.12 Correlationbetween soring funtionterms and GDT_TS . . . . . . . 114

3.13 Cross-orrelationanalysis. . . . . . . . . . . . . . . . . . . . . . . . . . 116

3.14 Comparisonto other methodson Deoys 'R' us . . . . . . . . . . . . . 118

3.15 Resultson the moleulardynamis simulationdeoy set . . . . . . . . . 120

3.16 Comparisonto other methodson CASP7 set . . . . . . . . . . . . . . . 122

3.18 Comparisonof soring funtion terms . . . . . . . . . . . . . . . . . . . 140

3.19 Loops results length 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

3.20 Loops results length 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

3.21 Loops results length 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

3.22 Resultson seond looptest set . . . . . . . . . . . . . . . . . . . . . . . 151

3.23 Analysisof anhor regions . . . . . . . . . . . . . . . . . . . . . . . . . 158

3.24 Anhor group predition for insertions . . . . . . . . . . . . . . . . . . 162

3.25 Anhor group predition for deletions . . . . . . . . . . . . . . . . . . . 162

5.1 CASP7 targetlassiation . . . . . . . . . . . . . . . . . . . . . . . . 169

5.2 QMEAN:omparison to othermethods(TBM targets) . . . . . . . . . 175

(14)

5.4 QMEAN:omparison to othermethods(FM targets) . . . . . . . . . . 176

5.6 Loops results length 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

5.7 Loops results length 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

5.8 Loops results length 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

5.9 Loops results length 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

5.10 Loops results length 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

5.11 Loops results length 12 . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

(15)

1.1 Importantangles inproteins . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Ramahandran plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 Propertiesof the 20amino aids . . . . . . . . . . . . . . . . . . . . . . 5

1.4 The 20amino aids . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.5 The

α

-helix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.6 The

β

-sheet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.7 Energy landsape . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.8 Relationshipbetween sequene and struture similarity . . . . . . . . . 12

1.9 Sequene alignment myoglobinand hemoglobin . . . . . . . . . . . . . 12

1.10 Superposition of myoglobinand hemoglobin . . . . . . . . . . . . . . . 13

1.11 Diration map and eletron density map . . . . . . . . . . . . . . . . 14

1.12 Growth of the PDB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.13 New strutures from the strutural genomis enters . . . . . . . . . . . 17

1.14 Sidehain rotamers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.15 Physialfores inproteins . . . . . . . . . . . . . . . . . . . . . . . . . 31

1.16 Shematirepresentation of hydrophobiity . . . . . . . . . . . . . . . . 31

2.1 Comparativemodellingpipeline . . . . . . . . . . . . . . . . . . . . . . 35

2.2 Strutural oreand struturally variable regions . . . . . . . . . . . . . 41

2.3 Model informationoutput . . . . . . . . . . . . . . . . . . . . . . . . . 43

2.4 Looppredition shema . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2.5 Radial distributionof atoms . . . . . . . . . . . . . . . . . . . . . . . . 59

2.6 Two-sided t-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

2.7 C++lass shema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

3.1 BLAST sampleoutput . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

3.2 BLAST searh for targetT0360 . . . . . . . . . . . . . . . . . . . . . . 82

3.3 PSI-BLASTsearh fortarget T0360 . . . . . . . . . . . . . . . . . . . . 82

3.4 Target overage for T0360 . . . . . . . . . . . . . . . . . . . . . . . . . 83

3.5 Useof multipletemplates . . . . . . . . . . . . . . . . . . . . . . . . . 86

3.6 AlignmentqualityT0375 . . . . . . . . . . . . . . . . . . . . . . . . . . 87

3.7 Targets T0341: superposition of modeland target . . . . . . . . . . . . 89

Abbildung

Figure 1.11: Typial images in X-ray rystallography: an expample of a diration
Figure 1.12: Growth of the Protein Data Bank from 1972-2007 (data soure:
Figure 1.13: New strutures solved by the strutural genomis enters (As of:
Figure 2.3: Example of a model information" output le used for the positioning
+7

Referenzen

ÄHNLICHE DOKUMENTE

Sofern noh niht vorhanden, füge das neue Element als Blatt. so ein, dass die Suhbaumeigenshaft erfüllt ist,

Idee: zunähst Entsheidung, ob s[0℄ und t[0℄ einander. gegenübergestellt, oder eines

Dies soll jedoh in linearisierter Form erfolgen,.. insbesondere eine Operation immer nur

(i) Wir sagen, die Kar dinalzahl von M ist kleiner oder gleih der Kardinalzahl von N (i.Z. #M B #N ) genau dann, wenn es eine injektive Abbildung M N gibt. Diese Bedingung hängt

alulating the root value of the tree using the value Y ϕ and the authentiation data stored in the MSS signature.. First Y ϕ is onatenated and hashed with Auth

Lösung: Es gibt keine solhe positive ganze Zahl. Beweis: Denn für jede positive ganze Zahl n beweist die Umfomung

Es gibt eine konkret berehenbare Zahl w , so dass gilt: Jede ungerade Zahl n ≥ w kann als eine Summe aus drei Primzahlen geshrieben werden. Winogradow selbst konnte keinen Wert für

Dann gibt es für einen Streifen 6 , für einen anderen Streifen 5 und für den.. dritten Streifen