De-novo Motivsuche
Jan Grau
Martin-Luther-Universit¨at Halle–Wittenberg
Gastvorlesung - Einf¨uhrung in die Bioinformatik
Inhalt
1 Einf¨uhrung
Sequenzmotive im genetischen Fluss
2 Datenquellen f¨ur de-novo Motivsuche
3 Problemstellung de-novo Motivsuche
Wiederholung: Position weight matrices (PWMs) Das OOPS-Modell
Motivsuche-EM-Algorithmus Auswertung der Ergebnisse
4 Weitere Motivsuche-Ans¨atze Nutzung einer Positionsverteilung Diskriminative Ans¨atze
ChIP-seq spezifische Ans¨atze
Ans¨atze mit komplexeren Motivmodellen
5 Zusammenfassung
Outline
1 Einf¨uhrung
Sequenzmotive im genetischen Fluss
2 Datenquellen f¨ur de-novo Motivsuche
3 Problemstellung de-novo Motivsuche
Wiederholung: Position weight matrices (PWMs) Das OOPS-Modell
Motivsuche-EM-Algorithmus Auswertung der Ergebnisse
4 Weitere Motivsuche-Ans¨atze Nutzung einer Positionsverteilung Diskriminative Ans¨atze
ChIP-seq spezifische Ans¨atze
Ans¨atze mit komplexeren Motivmodellen
5 Zusammenfassung
Komplexit¨ at nicht durch Anzahl der Gene erkl¨ arbar
Mensch Fadenwurm
[Erik Jorgensen, the University of Utah]
∼23.000 Gene ∼23.000 Gene
Organe enthalten identisches genetisches Material
100% identical genetic material
[Bori Mifsud]
∼100% identisches genetisches Material
Genregulation
Transkription
Translation
Ribosom RNA- Polymerase Transkriptions-
faktor
mRNA
Protein/
Enzym Nukleosomen cis-regulatorisches
Modul
RISC mit miRNA
Spliceosom- Untereinheiten
Splicing
basaler
Einf¨uhrung Datenquellen f¨ur de-novo Motivsuche Problemstellung de-novo Motivsuche Weitere Motivsuche-Ans¨atze Zusammenfassung
Transkriptionelle Regulation durch Transkriptionsfaktoren
Biologische Fragestellung Regulation der Genexpression Erster Schritt:
transkriptionelle Regulation
⇒ Transkriptionsfaktor- Bindestellen
De-novo Motivsuche: kein Wissen ¨uber
das Motiv
den exakten Ort der Bindestellen
in einer Menge von Eingabesequenzen
[Basierend auf Robert Tjian,
“Molecular Machines that Control Genes”]
Transkriptionelle Regulation durch Transkriptionsfaktoren
Biologische Fragestellung Regulation der Genexpression Erster Schritt:
transkriptionelle Regulation
⇒ Transkriptionsfaktor- Bindestellen
De-novo Motivsuche:
kein Wissen ¨uber das Motiv
den exakten Ort der Bindestellen
in einer Menge von Eingabesequenzen
[Basierend auf Robert Tjian,
“Molecular Machines that Control Genes”]
Outline
1 Einf¨uhrung
Sequenzmotive im genetischen Fluss
2 Datenquellen f¨ur de-novo Motivsuche
3 Problemstellung de-novo Motivsuche
Wiederholung: Position weight matrices (PWMs) Das OOPS-Modell
Motivsuche-EM-Algorithmus Auswertung der Ergebnisse
4 Weitere Motivsuche-Ans¨atze Nutzung einer Positionsverteilung Diskriminative Ans¨atze
ChIP-seq spezifische Ans¨atze
Ans¨atze mit komplexeren Motivmodellen
5 Zusammenfassung
Experimentelle Techniken
in-vivo
Expressionsdaten & Promotor-Extraktion Microarrays
mRNA-seq, CAGE, PET, . . . ChIP-seq, ChIP-exo
. . .
in-vitro
Protein-binding microarrays (PBMs) (HT-) SELEX
EMSA . . .
Expressionsdaten
Pipeline
1 Messung der Expression von Genen unter verschiedenen Bedingungen
2 Microarrays:
(Design des Chips) Pr¨aparation der mRNA Hybridisierung & Scannen Qualit¨atskontrolle, Normalisierung
3 mRNA-seq:
Pr¨aparation der mRNA (& Amplifikation) (Fragmentierung)
Sequenzierung
Qualit¨atskontrolle, Normalisierung
4 Bestimmung differentieller Gene (fold-change, stat. Tests, . . . )
5 Extraktion der Promotorsequenzen (500 bp - 2,5 kbp) von Kandidatengenen
ChIP-seq
[Szalkowski & Schmid, 2010]
⇒gebundene Sequenzen, 100 bp - 600 bp
Protein-binding microarrays
[Geertz & Maerkl, 2010]
⇒Sequenzen,∼40 bp, & Binde-Intensit¨aten
HT-SELEX
Systematic Evolution of Ligands by EXponential Enrichment
[Stormo & Zhao, 2010]
⇒angereicherte Sequenzen,∼10 bp - 50 bp
Outline
1 Einf¨uhrung
Sequenzmotive im genetischen Fluss
2 Datenquellen f¨ur de-novo Motivsuche
3 Problemstellung de-novo Motivsuche
Wiederholung: Position weight matrices (PWMs) Das OOPS-Modell
Motivsuche-EM-Algorithmus Auswertung der Ergebnisse
4 Weitere Motivsuche-Ans¨atze Nutzung einer Positionsverteilung Diskriminative Ans¨atze
ChIP-seq spezifische Ans¨atze
Ans¨atze mit komplexeren Motivmodellen
5 Zusammenfassung
Ausgangspunkt der Motivsuche
Gr¨oßenordnungen
Technik Anzahl L¨ange
Expressionsdaten 10-500 500 - 2500 bp
ChIP-seq 10-100 000 100 - 600 bp
PBMs ≥40 000 30-40 bp
HT-SELEX 10 000 - 1 000 000 10-50 bp
⇒ viele bis sehr viele, mehr oder weniger lange Sequenzen, von denen ein Teil (vermutlich) ein Motiv enth¨alt
Motivsuche per Auge
GTAGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATAGTGATG AGTTGCTGGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTA TTAAGAATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATCTGT ATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATACGTGATCGT GGGAGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTTAGCT GTAGTCTTATTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATA TTTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATGGTCTATCT ACAAGTATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTTGA ACATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATACGTAGCT
Motivsuche per Auge (2)
GTAGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATAGTGATG AGTTGCTGGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTA TTAAGAATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATCTGT ATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATACGTGATCGT GGGAGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTTAGCT GTAGTCTTATTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATA TTTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATGGTCTATCT ACAAGTATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTTGA ACATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATACGTAGCT
Motivsuche per Auge (3)
GTAGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATAGTGATG AGTTGCTGGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTA TTAAGAATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATCTGT ATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATACGTGATCGT GGGAGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTTAGCT GTAGTCTTATTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATA TTTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATGGTCTATCT ACAAGTATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTTGA ACATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATACGTAGCT
Motivbeschreibung - Gewichtsmatrizen
. . . oder Position weight matrices (PWMs), Position-specific scoring matrices (PSSM), Profile, . . .
⇒Tafel
EM-Algorithmus
1 2 3 4 5 6 7 8 9 10 11 12 Position 0
0.5 1 1.5 2
Information content
0 10 20 30 40 50 60
−139000−138500−138000
Iteration
Log−Likelihood
50 100 150
100200300400500
Position
Sequence
EM-Algorithmus
1 2 3 4 5 6 7 8 9 10 11 12 Position 0
0.5 1 1.5 2
Information content
0 5 10 15 20 25 30
−139000−138000
Iteration
Log−Likelihood
50 100 150
100200300400500
Sequence
EM-Algorithmus
1 2 3 4 5 6 7 8 9 10 11 12 Position 0
0.5 1 1.5 2
Information content
0 10 20 30 40 50 60
−139200−138800−138400
Iteration
Log−Likelihood
50 100 150
100200300400500
Position
Sequence
EM-Algorithmus
0 20 40 60 80
−139000−138000
Iteration
Log−Likelihood
Plotten von Sequenzlogos
Weblogo
http://weblogo.threeplusone.com auf Basis einer Menge von Bindestellen
Weblogo (2)
http://demo.tinyray.com/weblogo auf Basis einer PWM
seqLogo
R-PaketseqLogo
aus Basis einer PWM, plotten in R
Datenbanken f¨ ur Sequenzmotive
Transfac
http://www.gene-regulation.com kommerzielle Datenbank
letzte ¨offentliche Version (7.0) von 2005
Jaspar
http://jaspar.genereg.net freie Datenbank
Motive (PWMs) & Bindestellen
UniProbe
http://the_brain.bwh.harvard.edu/uniprobe/
freie Datenbank
spezialisiert aufin-vitroMotive aus Basis von PBM-Daten
Vergleich von Motiven mit Datenbanken
Stamp
http://www.benoslab.pitt.edu/stamp/
Vergleich von Eingabematrix mit Jaspar, Transfac, UniProbe und weiteren
Verschiedene Maße und Alignment-Varianten
TomTom
http://meme.nbcr.net/meme/cgi-bin/tomtom.cgi
Vergleich von Eingabematrix mit Jaspar, UniProbe und weiteren Verschiedene Maße und Alignment-Varianten
Outline
1 Einf¨uhrung
Sequenzmotive im genetischen Fluss
2 Datenquellen f¨ur de-novo Motivsuche
3 Problemstellung de-novo Motivsuche
Wiederholung: Position weight matrices (PWMs) Das OOPS-Modell
Motivsuche-EM-Algorithmus Auswertung der Ergebnisse
4 Weitere Motivsuche-Ans¨atze Nutzung einer Positionsverteilung Diskriminative Ans¨atze
ChIP-seq spezifische Ans¨atze
Ans¨atze mit komplexeren Motivmodellen
5 Zusammenfassung
Nutzung einer Positionsverteilung
Idee:H¨aufig befinden sich die Bindestellen in einem bevorzugten Abstand vom einem Ankerpunkt innerhalb der Sequenzen, z.B.
Abstand zum Transkriptionsstart→rechtes Ende des Promotors, Abstand zum Peak-Zentrum →“Mitte” der Sequenz unter einem ChIP-seq Peak.
⇒Modelliere diese Positions-Pr¨aferenz explizit in einer PositionsverteilungP(`) (war bei uns eine Gleichverteilung).
Ans¨atze/Tools:
A-GLAM (Kimet al., 2008)
Improbizer (Jim Kent, Ao et al., 2004) Dispom (Keilwagen et al., 2011)
Diskriminative Ans¨ atze
Idee:In manchen F¨allen ist das h¨aufigste/angereichertste Motiv nicht das “interessante”, z.B. TATA-Boxen, E-Boxen, Sp1-Bindestellen, etc.
⇒Nutze zus¨atzlich zum Zieldatensatz einen Kontrolldatendaten, der das
“interessante”Motiv kaum/nicht enthalten sollte und suche nach Motiven, diespezifischf˜A14r den Zieldatensatz sind.⇒diskriminatives Lernen
Ans¨atze/Tools:
DME (Smith et al., 2005) DEME (Bailey et al., 2007) DREME (Baileyet al., 2011) Dispom (Keilwagen et al., 2011) Dimont (Grauet al., 2013)
ChIP-seq spezifische Ans¨ atze
Idee:Die große Zahl von relativ langen Sequenzen aus
ChIP-seq-Experimenten erh¨oht die Laufzeit klassischer Motivsucheans¨atze dramatisch.
⇒Nutze spezielle Heuristiken oder andere Ans¨atze, um die Motivsuche in ertr¨aglicher Zeit zu bewerkstelligen
Ans¨atze/Tools:
HMS (Huet al., 2010)
ChIPMunk (Kulakovskiyet al., 2010) Posmo (Maet al., 2012)
Meme-ChIP (Machanik & Bailey, 2012) Dimont (Grauet al., 2013)
Ans¨ atze mit komplexeren Motivmodellen
Idee:Die Annahme der statistischen Unabh¨angigkeit zwischen Motivpositionen ist biologisch nicht (immer) korrekt.
⇒Ersetze die PWM als Motivmodell durch komplexere Modelle (z.B.
Markov-Modelle h¨oherer Ordnung).
Ans¨atze/Tools:
DiChIPMunk (Kulakovskiy et al., 2013) Dimont (Grauet al., 2013)
Parsimonious Markov Models (Eggelinget al., 2014)
Outline
1 Einf¨uhrung
Sequenzmotive im genetischen Fluss
2 Datenquellen f¨ur de-novo Motivsuche
3 Problemstellung de-novo Motivsuche
Wiederholung: Position weight matrices (PWMs) Das OOPS-Modell
Motivsuche-EM-Algorithmus Auswertung der Ergebnisse
4 Weitere Motivsuche-Ans¨atze Nutzung einer Positionsverteilung Diskriminative Ans¨atze
ChIP-seq spezifische Ans¨atze
Ans¨atze mit komplexeren Motivmodellen
5 Zusammenfassung
Zusammenfassung
Gewichtsmatrizen (PWMs) sind eine verbreitete M¨oglichkeit, Sequenzmotive zu repr¨asentieren
De-novo-Motivsuche bezeichnet die Suche nach solchen
Sequenzmotiven in l¨angeren Sequenzen, ohne (genaues) Wissen ¨uber das Aussehen des Motivs oder die Position der Bindestellen
Der Motivsuche-EM-Algorithmus ist eine (¨uberschaubar komplexe) M¨oglichkeit, dieses Problem anzugehen, indem er iterativ
die Wahrscheinlichkeiten der m¨oglichen Startpositionen die entsprechende Gewichtsmatrix
verfeinert
Die Ergebnis-Motive k¨onnen wir durch Sequenzlogos visualisieren und mit existierenden Motiven aus Datenbanken vergleichen Es gibt f¨ur viele Fragestellungen oder Datenquellen besonders geeignete Ans¨atze, die man auch benutzen sollte (und nicht einfach MEME, weil es “alle” machen).