• Keine Ergebnisse gefunden

2.3. Material und Methoden

2.3.6. Die Hauptkomponentenanalyse zur Auswertung von MIFs

beteilig-ten Moleküle können in ihrer Position festgesetzt werden – beides hat Auswirkungen auf die Entropie des Systems. Diese kann in GRID durch die Berechnung eines „hydrophoben Effektes“

berücksichtigt werden. Er wird als inverse Interaktionsenergie eines Wassermoleküls berechnet, da ein solches keine Kontakte mehr zum Zielmolekül ausbilden kann, wenn die hydrophobe Sonde DRYbindet [167].

X

l

T E

x

P

Abbildung 2.2. |Schematische Darstellung einer PCA nach [170].

der betreffenden Variablen im Modell führt. Dies kann eine Skalierung5 notwendig machen, au-ßerdem wird der Mittelwert zur besseren Interpretierbarkeit häufig subtrahiert, um die Daten auf einen gemeinsamen Ursprung bezogen darzustellen.

Formal lässt sich der Vorgang demnach für beliebig viele Dimensionen folgendermaßen dar-stellen:

X =l∗x¯+T ∗P +E (2.6)

Darin wird die Matrix X durch drei verschiedene Terme beschrieben:

l∗x¯ beschreibt die Mittelwerte der Datenpunkte und resultiert aus der ggf. notwendigen Vorbereitung der Daten für die Berechnung.

T ∗P modelliert durch das Produkt zweier Vektoren die Matrix X.

E ist eine Matrix der verbleibenden Residuen und bildet damit das Rauschen ab.

2.3.6.2. Die PCA in Kombination mit MIFs

Die Anwendung der Hauptkomponenteanalyse auf Datensätze, die durch Berechnung von MIFs mit GRID entstanden, wurde zunächst von Cruciani et al. [171] durchgeführt und syste-matisch von Pastor et al. [172] beschrieben. Er entwickelte gemeinsam mit M. Baroni in der Folge GOLPE (Generating Optimal Linear PLS Estimations) [173, 174], ein Programm zur Weiterverarbeitung der insbesondere von GRID berechneten Ergebnisse aber auch anderer Datenmatrices mit multivariaten Methoden.

Das Verfahren stellt somit eine Alternative dar zur ebenfalls sehr verbreiteten CoMFA-[175] bzw. CoMSIA- [176] Analyse zur Berechnung von dreidimensionalen Struktur-Wirkungsbeziehungen (3D-QSAR, vgl. Kapitel 4). CoMFA und CoMSIA werden in der Regel auf kleine Moleküle angewandt, um deren Aktivität als Ligand an einem bestimmten Protein zu untersuchen (ligandbasiertes Vorgehen).

Um bei der Suche nach selektiven Inhibitoren von bisher bestehenden Verbindungen un-abhängig zu werden, kann von den Zielstrukturen anstelle der Inhibitoren ausgegangen

wer-5In der Regel wird jede Variable mit dem Kehrwert ihrer Standardabweichung multipliziert, wodurch alle Variablen auf den Umfang ihrer Varianz normiert werden. Dieses Vorgehen wird als Unitvariable Scaling bezeichnet.

den (strukturbasiertes Vorgehen). An diese Zielstrukturen (Enzyme, Rezeptoren, Ionenkanäle, Transporter) müssen alle Liganden binden und die Darstellung und der Vergleich möglicher Interaktionen mit MIFs ist der an dieser Stelle verfolgte Ansatz zur Erklärung von Selektivi-tät. Im Rahmen der Methode werden in der Regel die folgenden Schritten vorgenommen: Am Beginn steht die Auswahl geeigneter dreidimensionaler Strukturen der Proteine, die überlagert werden. Es folgt die Berechnung der MIFs mit unterschiedlichen Sonden für die fragliche Re-gion (in der Regel für die Bindetasche). Die Daten werden dann für eine PCA aufbereitet und mithilfe dieser statistischen Methode strukturiert und dargestellt.

Die Aufbereitung der Daten aus den MIFs für die PCA ist in Abbildung 2.3 grafisch nach Pas-tor et al.[172] undFox[177] dargestellt. Zunächst werden MIFs in einem definierten Bereich mit den Koordinaten X1/Y1/Z1 bis Xm/Yn/Zo berechnet. Die Matrix wird für s Sonden und zwei unterschiedliche Zielstrukturen berechnet. Die Berechnungen resultieren in zwei linearen Vektoren, die jeweils in s Vektoren zerschnitten wird. Werden diese Vektoren beider Proteine untereinandergeschrieben, ist das Ergebnis eine X-Matrix, in der jede der m∗n∗o=k Spal-ten die Interaktionen der Zielstrukturen an einer definierSpal-ten x/y/z-Koordinate beschreibt. Diese zweidimensionale Matrix liegt der nach Abschnitt 2.3.6.1 zu berechnenden PCA zugrunde.

Wie im vorangehenden Abschnitt erläutert, wird nun im Rahmen der PCA eine Aufteilung der k-dimensionalen Matrix in eine Score-Matrix T, eine Loadings-Matrix P und einen Fehler-matrixE vorgenommen (vgl. Abb. 2.2). Die Betrachtung der ersten Komponenten der Matrices

Für eine Anzahl von s Sonden berechnet GRID (m*n*o)*s Gitterpunkte

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

(X1, Y1, Z1)

(X1, Y1, Z1) … (Xm, Yn, Zo) (X1, Y1, Z1) … (Xm, Yn, Zo) …… (Xm, Yn, Zo)

(Xm, Yn, Zo)

Sonde 1 Sonde 2 Sonde 3

...

Sonde s Sonde 1 Sonde 2 Sonde 3

...

Sonde s

- Aufteilen in s Sonden - Berechnung für 2 Proteine

(m

*

n

*

o) = k Variablen

Abbildung 2.3. |Aufbau einer X-Matrix aus GRID-MIFs zur PCA nach [172, 177].

T und P erlaubt die Erklärung eines hohen Anteils der Varianz durch wenige Variablen. Die grafische Darstellung dieser Komponenten kann eine übersichtliche Darstellung der komplexen Matrix ermöglichen. Die Objekte sind in diesem Kontext die 2∗s Kombinationen aus Sonde und Zielmolekül. Score Plots sind demnach die Auftragungen von Komponenten aus T gegen-einander und erlauben einen Überblick über Zusammenhänge zwischen den Objekten (z. B. das Verhältnis der Interaktionsfelder der beiden Proteine mit einer Sonde s). Die korrespondie-renden Loading Plots fassen in Analogie dazu die Zusammenhänge zwischen den k Variablen zusammen (Komponenten von P). Da jeder Punkt im Diagramm eine Koordinate wiedergibt, ist hier zur Interpretation insbesondere von Interesse, welche Variablen weit vom Ursprung ent-fernt liegen und somit einen großen Anteil zur Erklärung der Varianz des Datensatzes beitragen.

Die Graphen stehen in direkter Beziehung zueinander: Die im Loading Plot abgebildeten Va-riablen, die in einer bestimmten Region des Plots liegen, sind diejenigen, die zur Position der entsprechenden Objekte im Score Plot führen.

Mit der beschriebenen Methodik verbinden sich einige Probleme: Zunächst werden Sonden mit schwacher Interaktionsenergie tendenziell vernachlässigt, obwohl sie wichtige Bestandteile der Rezeptor-Ligand-Wechselwirkung sein können. Das betrifft insbesondere lipophile Sonden, für die keine Wasserstoffbrücken berechnet werden, wodurch der Betrag der berechneten Inter-aktionsenergie in der Regel deutlich geringer ist als derjenige von Wasserstoffbrückenbindungs-partnern. In der durchgeführten Analyse sind dies dieC3- und dieDRY-Sonde. Die erstgenannte repräsentiert einen Methylrest, die letztgenannte beschreibt hydrophobe Energien (Details vgl.

Tab. 2.3).

Der zweite Nachteil besteht darin, dass zwar ein Modell berechnet wird, das eine Aussage darüber macht, ob bestimmte Koordinaten für die Selektivität interessant sind oder nicht – die Aussage aufgrund welcher Sonde dies der Fall ist, ist jedoch nicht möglich, da die Variablen jeweils die Information verschiedener Sonden enthalten. Ein dritter und entscheidender Nach-teil besteht darin, dass die Untersuchung von mehr als zwei Zielmolekülen in einer Analyse unübersichtlich bis unmöglich ist, da sich die Anzahl der Objekte abhängig von der Anzahl p der Zielstrukturen beisSonden aufs∗pvervielfältigt, wodurch das Erkennen von Anhäufungen erschwert wird.

2.3.6.3. PCA vs. CPCA

Um die Nachteile der Kombination MIFs/PCA auszuräumen, wendeten Kastenholz et al.

das Prinzip der Consensus PCA (CPCA oder hierarchische Hauptkomponentenanalyse) [118]

auf die MIFs an.6 Dabei wird die den Berechnungen zugrunde liegende Matrix etwas anders organisiert: Die Aufteilung der s Sonden zu einzelnen Objekten (Reihen in der X-Matrix) entfällt. Stattdessen können mehrere Zielmoleküle verwendet werden, deren aus der GRID-Rechnung resultierende lineare Vektoren dann untereinander eingereiht werden, so dass die

6Das Verfahren an sich wurde bereits 1987 vonWoldet al.beschrieben [178].

Anzahl der Objekte gleich der Anzahl p an untersuchten Molekülen ist (vgl. Abb. 2.4). Die Sonden bilden Blöcke innerhalb eines Objektes. Dadurch wird bereits der erste Nachteil der PCA aufgehoben: Im Score Plot können übersichtlich die Gruppierungen verschiedener Zielstrukturen auseinandergehalten werden, sofern sich diese hinsichtlich ihrer dreidimensionalen Struktur und der resultierenden MIFs klar voneinander abgrenzen lassen.

Die (m*n*o)*sGitterpunkte werden aneinandergereiht …

s1 s2 s3 s4

… und bilden die Variablen für

jedes Protein in der resultierenden X-Matrix.

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

1

2

3

4

(m

*

n

*

o)

*

s Variablen

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

… p

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

Abbildung 2.4.|Aufbau einerX-Matrix aus GRID-MIFs zur CPCA nach [118]. Im Unterschied zur Aufberei-tung für die PCA nach Abb. 2.3 werden die Zeilenvektoren der Proteine nicht zerteilt. Dadurch repräsentieren unterschiedliche Blöcke die eingesetzten Sonden und eine Betrachtung von Koordinate und isolierter Sonde ist möglich. Außerdem bleibt die Anzahl der Objekte überschaubar, auch wenn mehr als p= 2Proteine in die Analyse eingehen.

Ein weiterer wichtiger Vorteil ergibt sich durch die Umorganisation der Matrix: Da jede Variable nun nur noch die Information einer Sonde wiedergibt, kann gruppenweise eine Ska-lierung vorgenommen werden, so dass einzelne Sonden (insbesondere lipophile Interaktionen) nicht mehr benachteiligt werden. Dies geschieht in einer Block Unscaled Weights (BUW) ge-nannten Prozedur, in der die Varianzen innerhalb eines Blockes unverändert bleiben, die Blöcke zueinander jedoch gewichtet werden.

Durch die Aufteilung in Blöcke ergeben sich zwei Ebenen der Analyse. Im Ergebnis entstehen die analogen Matrices T, P und E wie bei einer Analyse, die durch Kombination aller Blöcke durchgeführt wird. Allerdings wird zusätzlich bei der CPCA Information über die Bedeutung einzelner Blöcke gewonnen – im Falle der Analyse von MIFs also Information über die Rolle einzelner Sonden.