• Keine Ergebnisse gefunden

8.2 Grenzen der Hidden Markov Analyse

Eine unvollständige Modellierung der Messdaten kann beliebig fatale Folgen auf das Ergebnis haben, ohne dass dies immer sofort offensichtlich ist. Beinhalten z.B. Daten aus fluoreszenzspektroskopischen Experimenten zusätzliche photophysikalische Effekte, so wird sich der beobachtbare Zustandsraum vergrößern. Leicht können solche zusätzlichen Zustände für Proteindynamik gehalten werden. Ist das Signal-Rausch-Verhältnis so schlecht, dass inaktive oder nur bedingt aktive Moleküle vor der HMM-Analyse nicht mehr aussortiert werden können, dann muss eine HMM-Analyse scheitern. Das Verhalten mehrerer Molekülspezies mit jeweils unterschiedlichen Zuständen und Raten in einem Modell zu implementieren ist zwar prinzipiell möglich, bringt aber eine hohe Zahl an Parametern mit sich. Die für ein Bestimmen der Parameter notwendige Datenmenge kann dann schnell unrealisierbar große Werte annehmen.

Ein weiteres sehr großes Problem sind auch zeitliche langsame Veränderungen der Umgebungsbedingungen. So können leichte Temperaturschwankungen die Über-gangsraten des untersuchten Systems ändern. Solche Effekte sind nur schwer auszuschließen. Sie machen sich durch Schwankungen des Loglikelihoods während des iterativen Optimierungs-Algorithmus bemerkbar und führen zu einer Über-vorteilungen von Modellen mit zusätzlichen Zuständen.

8.3 Photonenweise Hidden Markov Modelle

Im Gegensatz zu Kameradaten ist die zeitliche Auflösung von Daten aus konfokalen Einzelmolekülaufbauten mit APDs oder Photomultiplier als Detektoren nicht mehr durch die Messtechnik selbst begrenzt. Vielmehr wird der Zeitstempel jedes einzelnen Photons erfasst, sodass sich sogar die Lebensdauer des angeregten Zustands photonenweise erstellen lässt. Eine Intensitätstrajektorie lässt sich durch einfaches Binning in beliebigen Zeitauflösungen erstellen. Bei typischen Zählraten der Fluorophore von 104 bis 105 detektierten Photonen pro Sekunde (counts/ms) führt ein Binning von 1 ms zu einer Trajektorie mit einer Zählrate von 10 bis 100 Photonen pro Zeitbin. Diese Trajektorie ist für einen Menschen aussagekräftig, manuell lassen sich bei ausreichendem Signal-Rausch-Verhältnis Stufen in der FRET-Trajektorie erkennen und mit der algorithmischen Analyse vergleichen. Allerdings bleibt eine Analyse, die auf gebinnte Daten beruht, natürlich in der Zeitauflösung auf dieses willkürlich eingeführte Zeitbinning beschränkt. Ein Algorithmus, der direkt auf die

Photonen-ankunftszeiten wirkt, ist von dieser Beschränkung befreit. Für eine nachfolgende Verifizierung automatisch ermittelter Stufen lassen sich die Daten immer noch binnen.

Andrec et. al. hat 2003 einen solchen Algorithmus entwickelt, der in der Lage ist, Übergangsraten aus Markov Prozessen direkt aus den Photonankunftszeiten zu extrahieren und anhand von Monte-Carlo-Simulationen seine Leistungsfähigkeit demonstriert [10]. Das kürzlich erschienene Paper (Juli 2009) von Jäger et. al.

verwendet diese Methode, um aus echten Einzelmoleküldaten Übergangsraten zu extrahieren [51] und die Hidden-State-Trajektorie in voller Zeitauflösung zu rekonstruieren.

Dem Vorteil der hohen Zeitauflösung steht jedoch der um den Faktor 10 bis 100 größeren Datenmenge gegenüber. Die in dieser Arbeit vorgestellten Datenmengen benötigten auf einen Standard-PC (AMD Athlon XP 3000+) eine Rechenzeit von einigen Stunden, die HMM-Berechnungen konnten also über Nacht erfolgen. Da die Rechenzeit linear mit der Datenmenge skaliert [29], würde ein photonenweise funktionierender Algorithmus die 10 bis 100-fache Zeit benötigen, also einige Wochen in Anspruch nehmen oder den Einsatz eines Clusters mit z. B. 32 Knoten erfordern.

Die Genauigkeit der Übergangsraten lässt sich auf diese Weise aber kaum erhöhen, lediglich die Stufenzuordnung in den Zeitspuren behält die Möglichkeit, bei ausreichender Zählrate mit höherer Zeitauflösung zu erfolgen. Nicht ohne Grund beschränken sich die vorgestellten Datenmengen in diesen Papern lediglich auf ein paar Bursts.

Da diese Arbeit auf eine automatische Analyse großer Datenmengen zielte, wurde dieser Weg nicht eingeschlagen. Ein Algorithmus, der gebinnte Daten auswerten kann, ist zudem ohne weiteres auch auf Kameradaten anwendbar und dadurch aus experimenteller Sicht universeller [7].

8.4 Vergleich mit anderen Analyseverfahren

Neben der Anwendung von Hidden Markov Modellen zur Analyse von Intensitätstrajektorien möchte man oft die a priori Modellinitialisierung durch modellfreie Verfahren umgehen. Ein auf Informationstheoretische Überlegungen basierender Vorschlag wurde 2005 von Watkins [6] formuliert. Dieser Algorithmus ist in der Tat in der Lage, sprunghafte Änderungen der Intensität ohne die Vorgabe eines expliziten Modells zu erkennen. In der Publikation von Messina [9] werden Hidden Markov Modelle zur Analyse von Sprüngen in Intensitätstrajektorien verwendet und

anschließend mit dem Algorithmus von Watkins verglichen. Messina kommt zum Schluss, dass der bei Hidden Markov Modellen verwendete klassische Optimierungs-algorithmus einen sehr deutlichen Geschwindigkeitsvorteil zeigt und überdies wesentlich mehr Informationen extrahieren kann. Überdies ist das HMM auch in der Lage, sehr kurze Bereiche eines Zustands in der Intensitätstrajektorie zu identifizieren, was der Watkins-Algorithmus nicht vermag. Da die Verweilzeiten meist monoexponentiell verteilt sind, ist das ein wesentlicher Aspekt. Diese Fähigkeit der HMMs beruht eben auf die explizite Vorgabe eines Modells.

Allgemeine Likelihood-Ansätze, die lediglich die Photophysik modellieren, können direkt auf Einzelmolekülspuren angewendet werden. In [151] wird demonstriert, wie über einen Likelihood-Ansatz prinzipiell aus Einzelmoleküldaten nicht immobilisierter Proben Übergangsraten bestimmt werden können. Ein anderer Likelihood-Ansatz generiert aus einer Einzelmolekülspur zeitaufgelöst die wahrscheinlichste Distanzkurve inklusive Fehlergrenzen [16].

Algorithmen basierend auf Wavelet-Transformationen bieten prinzipiell die Möglichkeit, korrelationsfreie Bereiche in Zeitreihen aufzuspüren und diese Bereiche Zuständen zuzuordnen. Eine bemerkenswerte Kombination aus Wavelet-Transformationen und Informationstheorie wurde 2008 von Li vorgestellt [5]. Li zeigt, wie direkt aus den Einzelmoleküldaten das gesamte Zustandsnetzwerk (state space network) extrahiert werden kann.

Auch aus Korrelationsfunktionen ließen sich aus experimentell gewonnenen Einzelmoleküldaten Zustände und Raten extrahieren (z. B. [152]). Eine Korrelationsanalyse und das Problem der optimalen Binweite werden in Ref. [153] vor informationstheoretischem Hintergrund und mit Hilfe von Monte-Carlo-Simulationen diskutiert.

Bei ausreichend hohem Signal-Rausch-Verhältnis sind die Zustände so gut zu unterscheiden, dass Schwellenwert-Ansätze völlig ausreichend sind (z.B. [154, 155]).

Ist man in der Lage, eine solche Zustandsspur aus den Daten zu generieren, bleibt aber immer noch die Ermittlung des zugrunde liegenden kinetischen Schemas. Flomenbom demonstriert in [13, 156], wie aus solchen idealisierten Trajektorien auf das zugrunde liegende Bewegungsmodell (kinetic scheme) geschlossen werden kann.

Aber nicht nur auf die Einzelmolekülspur selbst muss ein Verfahren zielen, um die enthaltenen Informationen zu extrahieren. So wurde in der Vergangenheit die Form der Verweilzeithistogramme verwendet, um aus Kurvenanpassungen Übergangsraten

auch komplexerer Bewegungsmodelle zu erhalten (z.B. [157]). Trotz der neueren Likelihood-Methoden wird die Analyse der Verweilzeithistogramme immer noch weiterentwickelt. Tsygankov stellte 2007 ein Übersicht vor, wie aus derartigen Histogrammen auf die Existenz von nicht mehr auflösbaren Subschritten geschlossen werden kann [158].

Im Vergleich zu all diesen Methoden bietet eine Hidden Markov Analyse den großen Vorteil, dass sie Einzelmoleküldaten umfassend modellieren kann, dabei bis an die informationstheoretische Grenze vorstößt und trotzdem verhältnismäßig wenig Computerzeit benötigt, da die Rechenzeit aller erforderlichen Algorithmen lediglich linear mit der Datenmenge steigt. Dadurch hat eine Hidden Markov Analyse das Potential, zu einem unverzichtbaren Werkzeug in der Einzelmolekülspektroskopie zu werden.

8.5 Robustheit

Ein bisher kaum beachteter Punkt ist die Robustheit. Bei Einzelmolekülexperimenten kann man in der Regel nicht davon ausgehen, dass sich das Signal ausschließlich aus nicht korreliertem Hintergrundrauschen und der farbstoffmarkierten Probe zusammensetzt. Zwar lassen sich eine Reihe unerwünschter photophysikalischer Effekte durch experimentellen Mehraufwand gut identifizieren und können so von der Datenanalyse ausgeschlossen werden [124], auch die Abhängigkeit der geschätzten Parameterwerte vom Rauschanteil wurde eingehend untersucht [10]. Hingegen lassen sich erfolglos markierte Moleküle oder Molekülreste kaum herausfiltern und tragen somit zum Messsignal bei. Die ermittelten Zustände und Übergangsraten können sich auf diese Weise verfälschen. In der Literatur der Einzelmolekülspektroskopie finden sich bisher keinerlei Beiträge, die die Robustheit der Parameterschätzung unter Berücksichtigung typischer Einzelmolekülartefakte untersuchen. Dabei gibt es bereits Konzepte, die eine Verbindung zwischen der Reduzierung in der Genauigkeit der Parameterschätzung mit dem Anteil von Störungen in den Daten herstellt [159-161].

Für eine Adaption auf Einzelmolekülexperimente müssen die typischerweise auftretenden Artefakte identifiziert und generalisiert werden. Der Erfolg neuer Konzepte zur algorithmischen Datenauswertung wird langfristig immer an seiner Robustheit gemessen.