• Keine Ergebnisse gefunden

Dreidimensionale quantitative Struktur-Wirkungsbeziehungen

3 Struktur-Wirkungs-Beziehungen von Adenosin A Antagonisten

3.1 Theoretische Grundlagen

3.1.6 Dreidimensionale quantitative Struktur-Wirkungsbeziehungen

Bereits 1979 hatten Cramer und Milne Moleküle im dreidimensionalen Raum überlagert und sterische und elektrostatische Wechselwirkungsfelder verglichen. Wegen fehlender statis-tischer Methoden konnten diese Daten jedoch noch nicht mit der biologischen Aktivität korreliert werden. So erschien erst 1988 die erste CoMFA-Publikation von Cramer et al.80 Bei einer CoMFA-Analyse werden die Liganden in ein dreidimensionales Gitter platziert, an dessen Schnittpunkten Sondenatome die Wechselwirkungsenergien messen.

Als Maschenweite des Gitters wird für gewöhnlich ein Wert von 2 Å verwendet. Größere Abstände bedeuten weniger Sonden und damit zu grobe Daten, während kleinere Werte häufig nicht mehr Information liefern, dafür aber den Rechenaufwand erhöhen.

Zur Bestimmung der sterischen Wechselwirkungsenergien wird ein ungeladenes Kohlenstoff-atom verwendet und als Berechnungsgrundlage das Lennard-Jones-Potenzial herangezogen (vgl. nicht-kovalente Wechselwirkungen in Abbildung 18):

Für die elektrostatischen Wechselwirkungen bedient man sich des Coulomb-Potenzials und einer positiven Ladung von 1:

Anhand des Potenzialverlaufes in Abbildung 20 kann man erkennen, dass die beiden Funktionen sehr große Werte annehmen, wenn der Abstand zwischen Mole-kül und Sonde sehr klein ist. Insbesondere von Nach-teil ist, dass das Lennard-Jones Potenzial sehr schnell von fast Null auf einen hohen abstoßenden Energie-wert ansteigt. Um diese extrem großen Feldbeiträge zu vermeiden, werden so genannte 'Cut-offs' (Grenz-werte) gesetzt, die den Beitrag auf einen Maximal-wert begrenzen.

E

vdW

= ∑

i=1 n

A

ij

r

−12ij

C

ij

r

−6ij

E

C

= ∑

i=1

n

q

i

q

j

Dr

ij

Abbildung 20: Verlauf des Lennard-Jones und Coulomb - Potenzials

3.1.6.2 Die CoMSIA-Methode

Diese Methode wurde von Gerhard Klebe, Ute Abraham, und Thomas Mietzner bei BASF entwickelt. Wie auch bei der CoMFA-Methode werden hier überlagerte Moleküle miteinander verglichen, und auch hier werden sie in ein dreidimensionales Gitter platziert und Sonden-atome messen Interaktionen. Jedoch werden nicht Unterschiede, sondern Gemeinsamkeiten erfasst. Diese Ähnlichkeiten werden hier mittels einer Gauss-Funktion bestimmt:

A

F , kq

j = ∑

i

w

probe , k

w

ik

e

−αriq2

A Ähnlichkeitsmaß für Feldtyp F am Gitterpunkt q aufsummiert für alle Atome i des Moleküls j; wprobe,k Eigenschaftswerte der Sonde: Radius 1 Å, Ladung +1, Hydrophobie +1, WBB-Donor +1, WBB-Akzeptor +1; wik Eigenschaftswert des Atoms i; riq Abstand zwischen Sonde und Atom; α Dämpfungsfaktor der Wechselwirkung mit dem Abstand.

Die Unterschiede im Potenzialverlauf sind in Abbildung 21 zu erkennen. Im Gegensatz zu den Potenzialen bei einer CoMFA-Analyse bedarf es hier keines Cut-Offs, da die Werte nicht gegen Unendlich gehen. Durch den

weni-ger steilen Potenzialverlauf hat die Plat-zierung der Moleküle innerhalb des Git-ters keinen so großen Einfluss mehr auf das Ergebnis der Analyse.

Zusätzlich zu den bereits aus der CoMFA-Methode bekannten sterischen und elek-trostatischen Feldern, stehen standardmä-ßig bei einer CoMSIA-Analyse zusätzlich ein hydrophobes Feld, sowie solche für Wasserstoffbrückendonor und -akzeptor

Eigenschaften zur Verfügung. Abbildung 21: Vergleich der verschiedenen Potetialverläufe1

3.1.6.3 PLS-Analyse

Bei einer CoMFA-Analyse fallen sehr viele Daten an, pro Molekül sind das leicht mehrere Hundert Interaktionsenergien. Die Auswertung erschwert, dass damit sehr viele unabhängige Variablen (Messwerte), wenige abhängige Variablen (Aktivitätsdaten) beschreiben sollen.

Eine Regressionsanalyse kann dazu nicht eingesetzt werden. Daher verwendet man ein spezielles mathematisches Verfahren, die PLS-Methode (engl. 'Partial Least Squares').

Hierbei werden so genannte latente Variablen aus den Aktivitätsdaten (Vektor oder Y-Matrix) und den Feldvariablen (X-Y-Matrix) extrahiert, diese werden auch als Komponenten bezeichnet. Um dies zu erreichen, werden aus der X-Matrix eine Score-Matrix (Objekt-informationen bezogen auf die latenten Variablen) und eine Ladungsmatrix (Beitrag der X-Variablen zur latenten Variable) extrahiert. Die latenten X-Variablen bestehen damit aus Linearkombinationen der ursprünglichen Feldvariablen. Die Komponenten werden so extrahiert, dass sie sowohl die Varianz der X-Matrix wiedergeben, als auch eine maximale Korrelation zwischen X- und Y-Werten erreicht wird. Dabei wird schrittweise vorgegangen, die erste Komponente versucht möglichst viel der Gesamtvarianz zu erklären, die zweite Komponente ist orthogonal zur ersten (und mit dieser unkorreliert) und versucht möglichst viel der Restvarianz zu erfassen. Und so setzt sich das Verfahren mit jeder weiteren Komponente fort.

Je mehr Komponenten verwendet werden, desto größer ist also die erklärte Varianz und damit auch der Korrelationskoeffizient der Regressionsgleichung, die auf den latenten Variablen basiert. So kann man mit einer hohen Anzahl an Komponenten häufig eine perfekte Korrelation erreichen. Diese spiegelt dann jedoch nicht die tatsächliche Signifikanz des Modells wieder. Da das PLS-Verfahren sowohl die aus der X-Matrix extrahierten Varianz, als auch die Korrelation mit den Y-Werten maximiert, führt eine steigende Komponentenzahl zwangsläufig zu einer höheren Korrelation.81,82

3.1.6.4 Validierung

Die Signifikanz des so erstellten Modells kann man anhand von verschiedenen Validierungs-methoden überprüfen.

Bei der 'Leave One Out' - Kreuzvalidierungsmethode wird eine der Verbindungen aus dem Datensatz entfernt und aus den übrigen ein Modell errechnet, mit dem man die Aktivität dieser weggelassenen Substanz berechnet. Anschließend wird die nächste Verbindung im Datensatz weggelassen, und ebenfalls vorhergesagt, und so weiter, bis alle Verbindungen einmal vorhergesagt wurden. Der Vorteil dieser Methode ist, dass sie für einen Datensatz immer das gleiche Ergebnis liefert.

Dabei kann man folgende statistische Werte berechnen:

ist die Summe der Abweichungsquadrate zwischen vorhergesagtem Wert (Y') und tatsäch-lichem Wert (Y).

ist die Standardabweichung des Vorhersagefehlers (N ist die Anzahl der Substanzen).

ist die kreuzvalidierte Standardabweichung, wobei die verwendete Anzahl an Komponenten C mit in die Gleichung eingeht.

ist der quadrierte Korrelationskoeffizient der Vorhersage, analog zur erklärten Varianz bei einer linearen Regression (Y ist der Mittelwert der tatsächlichen Werte).

q2 kann dabei Werte zwischen -∞ und 1 annehmen. Ein Wert von eins würde einem perfekten Modell entsprechen, das ohne Abweichungen die Aktivitäten der weggelassenen Moleküle vorhersagen könnte. Einen Wert von 0 hätte ein Modell dessen Vorhersagefehler genauso hoch wären, wie wenn man immer den Mittelwert (Y) raten würde, was keinem Modell

PRESS = ∑ Y Y '

2

SDEP =  Y N Y '

2

sPRESS=

YN−Y 'C12

q

2

= 1 − [ Y Y − Y ' Y

22

]

entsprechen würde. Negative Werte für q2 bedeuten damit, dass das berechnete Modell schlechter wäre als gar keins.

Diese Kreuzvalidierung wird für Modelle mit ansteigender Komponentenzahl durchgeführt, wobei q2 solange ansteigt, wie die zusätzlichen Komponenten für die Vorhersage relevante Informationen liefern. Ist der Zuwachs an Information nicht mehr groß genug, so steigt die Standardabweichung sPRESS, woran man die optimale Anzahl an Komponenten erkennen kann.

Nimmt man zu viele Komponenten für die Berechnung des Modells, so ist die Gefahr groß, dass irrelevante, zufällig korrelierte Variablen mit aufgenommen werden. Bei einem q2-Wert von größer 0,4 bis 0,5 kann man von akzeptablen Vorhersagewerten ausgehen.

Bei der gruppenweisen Kreuzvalidierung (LSO = 'Leave Some Out') wird der Datensatz in mehrere Gruppen eingeteilt, meist in drei bis fünf, und dann eine dieser Gruppen für die Modellbildung nicht berücksichtigt. Anhand des Modells werden nun alle weggelassenen Verbindungen vorhergesagt. Dieser Schritt wird dann für alle übrigen Gruppen wiederholt.

Der Nachteil dieser Methode ist, dass die Ergebnisse nicht reproduzierbar sind, da die anfängliche Gruppeneinteilung zufällig erfolgt. Der Vorteil sind die realitätsnaheren statis-tischen Daten, die so erhalten werden. Diese Methode wird oft mehrfach wiederholt und ein mittlerer q²-Wert mit seiner Standardabweichung bestimmt.

Eine Methode zur Überprüfung eines ausgesuchten Modells auf nur zufällige Korrelation ist der Scramble-Test. Dabei werden die Aktivitätsdaten zufällig neu auf die Liganden verteilt, anschließend wird versucht, ein Modell dafür aufzustellen. Wenn das Modell nur tatsächlich signifikante Variablen verwendet, dann sollte der so erhaltene q2-Wert sehr niedrig sein.

3.2 Untersuchung der Triazolochinazoline und