• Keine Ergebnisse gefunden

4 Ergebnisse

4.1 Vorhersage von miRNA-Zielgen-Interaktionen

Anfangs beschäftigte ich mich mit der Auswertung und Analyse einer bereits durchgeführten Vorhersage. Hierbei sind mir einige Nachteile des Programms aufgefallen, die anschließend mit Dr. Marc Rehmsmeier diskutiert und geändert wurden. Da das Programm nicht von mir entwickelt wurde, soll in dieser Arbeit darauf verzichtet werden, den Algorithmus detailliert zu erörtern. Das Ablaufschema einer miRNA-Zielgen-Vorhersage ist in Abbildung 2-5 beschrieben. Im Folgenden werde ich durch mich offenkundig gemachte Nachteile und die dadurch angeregten Änderungen beschreiben.

4.1.1 Sequenzdaten-Beschaffung

Die verwendeten miRNA-Sequenzen wurden der Rfam-Datenbank entnommen. In dieser Datenbank sind publizierte miRNAs abgelegt, die bestimmte Kriterien wie z.B.

den experimentellen Nachweis durch ein Northern-Blot-Experiment oder die Klonierung einer miRNA (Ambros et al. 2003) erfüllen. Es kann vorkommen, dass eine miRNA aus einem Mausgewebe kloniert worden ist, welche im menschlichen Organismus noch nicht analysiert wurde. Durch die fortwährenden Bemühungen,

möglichst alle miRNAs zu identifizieren, werden diese Unregelmäßigkeiten zwar geringer, stellen aber immer noch ein Problem dar, da z.B. in der aktuellen Rfam-Datenbank (Version 9.2) 475 miRNAs für den Menschen nachgewiesen sind, für die Maus jedoch nur 377 und für die Ratte nur 234.

Fehlt eine bestimmte miRNA z.B. im miRNA-Datenset der Maus, kann in der Maus-Vorhersage nicht das gleiche miRNA-Zielgen wie im Menschen vorhergesagt werden, dies führt bei dem Orthologie-Vergleich zu einer negativen Bewertung.

Damit für die Vorhersagen der Zielgene in Mensch, Maus und Ratte ein homogenes miRNA-Set vorliegt, wurden die einzelnen miRNA-Datensets von uns miteinender abgeglichen. Ein weiterer Grund für das Abgleichen der miRNA-Sequenzen waren auftretende Punktmutationen. Diese konnten dazu führen, dass die automatisierten Annotationen in diesen Fällen zu unterschiedlichen miRNAs führen. Ein Beispiel hierfür ist die murine miRNA-322. Bei dieser miRNA liegt eine Punktmutation vor, so dass diese miRNA ursprünglich als neue miRNA (miR-424) annotiert wurde.

>hsa-miR-424 CAGCAGCAAUUCAUGUUUUGAA

>mmu-miR-322 CAGCAGCAAUUCAUGUUUUGGA

Diese falsche Annotation führt dazu, dass die automatisierte Suche nach orthlogen Zielgenen der miR-322 im Menschen fehlschlägt, da kein Vergleich mit den Zielgenen einer hsa-miR-322 möglich ist. Mittlerweile wurden auch diese Probleme in der Rfam-Datenbank weitestgehend manuell beseitigt, so ist diese miRNA in der Maus mittlerweile als miR-424 deklariert.

Die 3´UTR-Sequenzen wurden aus der Ensembl-Datenbank gewonnen. Aus dieser können annotierte 3´UTR Sequenzen aller Gene direkt extrahiert werden. Jedoch sind bisweilen nicht für alle Gene 3´UTR Sequenzen annotiert. In solchen Fällen wurde von uns anfangs eine Sequenz von 2kb stromabwärts des Stopp-Codons als 3´UTR dieses Gens festgelegt. Dieses führte in einigen Fällen dazu, dass repetitive Sequenzen extrahiert wurden, die energetisch günstige Hybridisierungsstellen für miRNAs beinhalteten und somit durch die Poisson-Statistik sehr gute Bewertungen erhielten. Diese offensichtlichen Fehler konnten beseitigt werden, indem nicht per se eine Sequenz von 2kb stromabwärts des Stopp-Codons eines Gens extrahiert wurde, sondern nur bis zum Auftreten des ersten Polyadenylierungssignals (AATAAA oder ATTAAA).

4.1.2 Festlegen der Suchparameter

Die Fragestellung nach hinreichenden Anforderungen für miRNA Zielsequenzen wurde in vielen Arbeitsgruppen weltweit bearbeitet, ohne dass ein Konsens für die minimalen Anforderungen gefunden wurde. Es konnte häufig gezeigt werden, dass der so genannte seed ein wichtiges Merkmal ist (Lai 2002; Lewis et al. 2003; Stark et al. 2003). Hierbei müssen die Nukleotide 2-7, gezählt am 5´-Ende der miRNA, mit der Zielgensequenz Basenpaarungen nach Watson-Crick bilden. Andere Studien zeigten, dass auch G:U-Basenpaarungen im seed zu einem inhibitorischen Effekt führen (Kirkiaridou et al. 2004; Brennecke et al. 2005). Außerdem konnte von der Arbeitsgruppe von Stephen Cohen gezeigt werden, dass das Fehlen eines seeds durch eine bessere Bindung im 3´-Bereich der miRNA kompensiert werden kann (Brennecke et al. 2005). Ausgehend von diesen Studien sollten mit dem Programm RNAhybrid drei separate Vorhersagen mit unterschiedlichen Strukturanforderungen durchgeführt werden:

- „klassische Vorhersage“: ein seed mit den Nukleotiden 2-7 vom 5´-Ende der miRNA wird verlangt und G:U-Basenpaarungen werden verboten. Da ein seed von vielen Arbeitsgruppen propagiert wird, ist diese Vorhersage nicht nur hilfreich, um neue Zielgene vorherzusagen, sondern macht die Analyse hinsichtlich der Spezifität gegenüber anderen Vorhersagemethoden vergleichbar.

- „G:U-zulassen“: ein seed wird verlangt und G:U-Basenpaarungen werden zugelassen.

- „freie Vorhersage“: es werden keine strukturellen Anforderungen gestellt.

4.1.3 Poisson-Statistik

Durch die Poisson-Statistik wird die statistische Signifikanz für die Beobachtung von mehreren Bindestellen für eine miRNA in einem 3´UTR ermittelt. Hierbei wird eine Poisson-Verteilung angenommen, die bei der Bewertung seltener Ereignisse angewendet werden kann. Am Ende dieser Bewertung werden alle vorhergesagten miRNA-Zielgen-Interaktionen verworfen, die nicht unter einem bestimmten Schwellenwert bleiben.

Die Wahrscheinlichkeit k Bindestellen zu finden kann durch die nachfolgende Formel ermittelt werden:

[ = ] = λ e

λ

k k X P

k

!

Wobei λ die Wahrscheinlichkeit der Bindestelle mit der niedrigsten Signifikanz ist und k die Anzahl der Bindestellen. Hierbei fiel mir auf, dass bestimmte Konstellationen nicht optimal bewertet wurden, was zu einer geringeren Sensitivität führte. Dies soll im Folgenden an einem fiktiven Beispiel erläutert werden. Findet das Programm in dem 3´UTR eines Gens x drei Bindestellen mit den Einzelwahrscheinlichkeiten p1=10-6, p2=10-7 und p3=10-1, so wird λ=10-1 und k=3 gesetzt und man erhält als Wahrscheinlichkeit für das Auftreten dieser drei Hybridisierungsstellen P[x=3]=1,51*10-4. Dieser Wert kann über dem geforderten Schwellenwert liegen und das Gen wird somit als miRNA-Ziel verworfen, obwohl es zwei sehr signifikante Hybridisierungsstellen beinhaltet. Mein Vorschlag war es, eine Signifikanz-Optimierung der Kombinationen vorzunehmen. In diesem Beispiel verwirft man die Hybridisierungsstelle mit p3 und erhält P[x=2]= 5*10-13. Danach verwirft man die Hybridisierungsstelle mit p1 und erhält P[x=1]= 10-7. Anschließend verwendet man die Kombination mit der höchsten Signifikanz, in diesem Beispiel also P[x=2]=5*10-13. Um die Aussage treffen zu können, mit welcher Wahrscheinlichkeit man k oder mehrere solcher Hybridisierungsstellen findet, wird das oben erhaltene Ergebnis in folgender Formel verwendet:

]

[ ] ∑

[

=

=

=

1

0

1

k

i

i X P k

X P

Zielgene, die unter einem bestimmten Schwellenwert bleiben, werden somit weiter analysiert.

4.1.4 Orthologie-Vergleich

Das Programm RNAhybrid bewertet das Auftreten von Zielsequenzen für eine miRNA in orthologen Genen positiv und berücksichtigt dabei den Grad der Homologie. So wird das Auftreten von vorhergesagten Zielsequenzen in orthologen Sequenzen mit geringerer Homologie besser bewertet als in 3´UTR-Sequenzen mit hoher Homologie.

Für die spätere laborexperimentelle Validierung waren in erster Linie miRNA-Zielgen-Interaktionen von Interesse, die Zielsequenzen in mehreren Spezies haben, da man hier von einer konservierten und wichtigen Funktion der Interaktion ausgehen kann.

Somit wurden nur Zielgene berücksichtigt, die Treffer in mindestens zwei der drei untersuchten Spezies (Mensch, Maus und Ratte) hatten.