De-novo Motivsuche

(1)

De-novo Motivsuche

Jan Grau

Martin-Luther-Universit¨at Halle–Wittenberg

Gastvorlesung - Einf¨uhrung in die Bioinformatik

(2)

Inhalt

1 Einf¨uhrung

Sequenzmotive im genetischen Fluss

2 Datenquellen f¨ur de-novo Motivsuche

3 Problemstellung de-novo Motivsuche

Wiederholung: Position weight matrices (PWMs) Das OOPS-Modell

Motivsuche-EM-Algorithmus Auswertung der Ergebnisse

4 Weitere Motivsuche-Ans¨atze Nutzung einer Positionsverteilung Diskriminative Ans¨atze

ChIP-seq spezifische Ans¨atze

Ans¨atze mit komplexeren Motivmodellen

5 Zusammenfassung

(3)

Outline

1 Einf¨uhrung

5 Zusammenfassung

(4)

Komplexit¨ at nicht durch Anzahl der Gene erkl¨ arbar

Mensch Fadenwurm

[Erik Jorgensen, the University of Utah]

∼23.000 Gene ∼23.000 Gene

(5)

Organe enthalten identisches genetisches Material

100% identical genetic material

[Bori Mifsud]

∼100% identisches genetisches Material

(6)

Genregulation

Transkription

Translation

Ribosom RNA- Polymerase Transkriptions-

faktor

mRNA

Protein/

Enzym Nukleosomen cis-regulatorisches

Modul

RISC mit miRNA

Spliceosom- Untereinheiten

Splicing

basaler

(7)

Einführung Datenquellen für de-novo Motivsuche Problemstellung de-novo Motivsuche Weitere Motivsuche-Ansätze Zusammenfassung

Transkriptionelle Regulation durch Transkriptionsfaktoren

Biologische Fragestellung Regulation der Genexpression Erster Schritt:

transkriptionelle Regulation

⇒ Transkriptionsfaktor- Bindestellen

De-novo Motivsuche: kein Wissen ¨uber

das Motiv

den exakten Ort der Bindestellen

in einer Menge von Eingabesequenzen

[Basierend auf Robert Tjian,

“Molecular Machines that Control Genes”]

(8)

Transkriptionelle Regulation durch Transkriptionsfaktoren

Biologische Fragestellung Regulation der Genexpression Erster Schritt:

transkriptionelle Regulation

⇒ Transkriptionsfaktor- Bindestellen

De-novo Motivsuche:

kein Wissen ¨uber das Motiv

den exakten Ort der Bindestellen

in einer Menge von Eingabesequenzen

[Basierend auf Robert Tjian,

“Molecular Machines that Control Genes”]

(9)

Outline

1 Einf¨uhrung

5 Zusammenfassung

(10)

Experimentelle Techniken

in-vivo

Expressionsdaten & Promotor-Extraktion Microarrays

mRNA-seq, CAGE, PET, . . . ChIP-seq, ChIP-exo

. . .

in-vitro

Protein-binding microarrays (PBMs) (HT-) SELEX

EMSA . . .

(11)

Expressionsdaten

Pipeline

1 Messung der Expression von Genen unter verschiedenen Bedingungen

2 Microarrays:

(Design des Chips) Pr¨aparation der mRNA Hybridisierung & Scannen Qualit¨atskontrolle, Normalisierung

3 mRNA-seq:

Pr¨aparation der mRNA (& Amplifikation) (Fragmentierung)

Sequenzierung

Qualit¨atskontrolle, Normalisierung

4 Bestimmung differentieller Gene (fold-change, stat. Tests, . . . )

5 Extraktion der Promotorsequenzen (500 bp - 2,5 kbp) von Kandidatengenen

(12)

ChIP-seq

[Szalkowski & Schmid, 2010]

⇒gebundene Sequenzen, 100 bp - 600 bp

(13)

Protein-binding microarrays

[Geertz & Maerkl, 2010]

⇒Sequenzen,∼40 bp, & Binde-Intensit¨aten

(14)

HT-SELEX

Systematic Evolution of Ligands by EXponential Enrichment

[Stormo & Zhao, 2010]

⇒angereicherte Sequenzen,∼10 bp - 50 bp

(15)

Outline

1 Einf¨uhrung

5 Zusammenfassung

(16)

Ausgangspunkt der Motivsuche

Gr¨oßenordnungen

Technik Anzahl L¨ange

Expressionsdaten 10-500 500 - 2500 bp

ChIP-seq 10-100 000 100 - 600 bp

PBMs ≥40 000 30-40 bp

HT-SELEX 10 000 - 1 000 000 10-50 bp

⇒ viele bis sehr viele, mehr oder weniger lange Sequenzen, von denen ein Teil (vermutlich) ein Motiv enth¨alt

(17)

Motivsuche per Auge

GTAGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATAGTGATG AGTTGCTGGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTA TTAAGAATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATCTGT ATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATACGTGATCGT GGGAGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTTAGCT GTAGTCTTATTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATA TTTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATGGTCTATCT ACAAGTATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTTGA ACATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATACGTAGCT

(18)

Motivsuche per Auge (2)

(19)

Motivsuche per Auge (3)

(20)

Motivbeschreibung - Gewichtsmatrizen

. . . oder Position weight matrices (PWMs), Position-specific scoring matrices (PSSM), Profile, . . .

⇒Tafel

(21)

(22)

(23)

EM-Algorithmus

1 2 3 4 5 6 7 8 9 10 11 12 Position 0

0.5 1 1.5 2

Information content

0 10 20 30 40 50 60

−139000−138500−138000

Iteration

Log−Likelihood

50 100 150

100200300400500

Position

Sequence

(24)

EM-Algorithmus

1 2 3 4 5 6 7 8 9 10 11 12 Position 0

0.5 1 1.5 2

Information content

0 5 10 15 20 25 30

−139000−138000

Iteration

Log−Likelihood

50 100 150

100200300400500

Sequence

(25)

EM-Algorithmus

1 2 3 4 5 6 7 8 9 10 11 12 Position 0

0.5 1 1.5 2

Information content

0 10 20 30 40 50 60

−139200−138800−138400

Iteration

Log−Likelihood

50 100 150

100200300400500

Position

Sequence

(26)

EM-Algorithmus

0 20 40 60 80

−139000−138000

Iteration

Log−Likelihood

(27)

Plotten von Sequenzlogos

Weblogo

http://weblogo.threeplusone.com auf Basis einer Menge von Bindestellen

Weblogo (2)

http://demo.tinyray.com/weblogo auf Basis einer PWM

seqLogo

R-PaketseqLogo

aus Basis einer PWM, plotten in R

(28)

Datenbanken f¨ ur Sequenzmotive

Transfac

http://www.gene-regulation.com kommerzielle Datenbank

letzte ¨offentliche Version (7.0) von 2005

Jaspar

http://jaspar.genereg.net freie Datenbank

Motive (PWMs) & Bindestellen

UniProbe

http://the_brain.bwh.harvard.edu/uniprobe/

freie Datenbank

spezialisiert aufin-vitroMotive aus Basis von PBM-Daten

(29)

Vergleich von Motiven mit Datenbanken

Stamp

http://www.benoslab.pitt.edu/stamp/

Vergleich von Eingabematrix mit Jaspar, Transfac, UniProbe und weiteren

Verschiedene Maße und Alignment-Varianten

TomTom

http://meme.nbcr.net/meme/cgi-bin/tomtom.cgi

Vergleich von Eingabematrix mit Jaspar, UniProbe und weiteren Verschiedene Maße und Alignment-Varianten

(30)

Outline

1 Einf¨uhrung

5 Zusammenfassung

(31)

Nutzung einer Positionsverteilung

Idee:H¨aufig befinden sich die Bindestellen in einem bevorzugten Abstand vom einem Ankerpunkt innerhalb der Sequenzen, z.B.

Abstand zum Transkriptionsstart→rechtes Ende des Promotors, Abstand zum Peak-Zentrum →“Mitte” der Sequenz unter einem ChIP-seq Peak.

⇒Modelliere diese Positions-Pr¨aferenz explizit in einer PositionsverteilungP(`) (war bei uns eine Gleichverteilung).

Ans¨atze/Tools:

A-GLAM (Kimet al., 2008)

Improbizer (Jim Kent, Ao et al., 2004) Dispom (Keilwagen et al., 2011)

(32)

Diskriminative Ans¨ atze

Idee:In manchen F¨allen ist das h¨aufigste/angereichertste Motiv nicht das “interessante”, z.B. TATA-Boxen, E-Boxen, Sp1-Bindestellen, etc.

⇒Nutze zus¨atzlich zum Zieldatensatz einen Kontrolldatendaten, der das

“interessante”Motiv kaum/nicht enthalten sollte und suche nach Motiven, diespezifischf˜A¹₄r den Zieldatensatz sind.⇒diskriminatives Lernen

Ans¨atze/Tools:

DME (Smith et al., 2005) DEME (Bailey et al., 2007) DREME (Baileyet al., 2011) Dispom (Keilwagen et al., 2011) Dimont (Grauet al., 2013)

(33)

ChIP-seq spezifische Ans¨ atze

Idee:Die große Zahl von relativ langen Sequenzen aus

ChIP-seq-Experimenten erh¨oht die Laufzeit klassischer Motivsucheans¨atze dramatisch.

⇒Nutze spezielle Heuristiken oder andere Ans¨atze, um die Motivsuche in ertr¨aglicher Zeit zu bewerkstelligen

Ans¨atze/Tools:

HMS (Huet al., 2010)

ChIPMunk (Kulakovskiyet al., 2010) Posmo (Maet al., 2012)

Meme-ChIP (Machanik & Bailey, 2012) Dimont (Grauet al., 2013)

(34)

Ans¨ atze mit komplexeren Motivmodellen

Idee:Die Annahme der statistischen Unabh¨angigkeit zwischen Motivpositionen ist biologisch nicht (immer) korrekt.

⇒Ersetze die PWM als Motivmodell durch komplexere Modelle (z.B.

Markov-Modelle h¨oherer Ordnung).

Ans¨atze/Tools:

DiChIPMunk (Kulakovskiy et al., 2013) Dimont (Grauet al., 2013)

Parsimonious Markov Models (Eggelinget al., 2014)

(35)

Outline

1 Einf¨uhrung

5 Zusammenfassung

(36)

Zusammenfassung

Gewichtsmatrizen (PWMs) sind eine verbreitete M¨oglichkeit, Sequenzmotive zu repr¨asentieren

De-novo-Motivsuche bezeichnet die Suche nach solchen

Sequenzmotiven in l¨angeren Sequenzen, ohne (genaues) Wissen ¨uber das Aussehen des Motivs oder die Position der Bindestellen

Der Motivsuche-EM-Algorithmus ist eine (¨uberschaubar komplexe) M¨oglichkeit, dieses Problem anzugehen, indem er iterativ

die Wahrscheinlichkeiten der m¨oglichen Startpositionen die entsprechende Gewichtsmatrix

verfeinert

Die Ergebnis-Motive können wir durch Sequenzlogos visualisieren und mit existierenden Motiven aus Datenbanken vergleichen Es gibt für viele Fragestellungen oder Datenquellen besonders geeignete Ansätze, die man auch benutzen sollte (und nicht einfach MEME, weil es “alle” machen).