• Keine Ergebnisse gefunden

De-novo Motivsuche

N/A
N/A
Protected

Academic year: 2022

Aktie "De-novo Motivsuche"

Copied!
36
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

De-novo Motivsuche

Jan Grau

Martin-Luther-Universit¨at Halle–Wittenberg

Gastvorlesung - Einf¨uhrung in die Bioinformatik

(2)

Inhalt

1 Einf¨uhrung

Sequenzmotive im genetischen Fluss

2 Datenquellen f¨ur de-novo Motivsuche

3 Problemstellung de-novo Motivsuche

Wiederholung: Position weight matrices (PWMs) Das OOPS-Modell

Motivsuche-EM-Algorithmus Auswertung der Ergebnisse

4 Weitere Motivsuche-Ans¨atze Nutzung einer Positionsverteilung Diskriminative Ans¨atze

ChIP-seq spezifische Ans¨atze

Ans¨atze mit komplexeren Motivmodellen

5 Zusammenfassung

(3)

Outline

1 Einf¨uhrung

Sequenzmotive im genetischen Fluss

2 Datenquellen f¨ur de-novo Motivsuche

3 Problemstellung de-novo Motivsuche

Wiederholung: Position weight matrices (PWMs) Das OOPS-Modell

Motivsuche-EM-Algorithmus Auswertung der Ergebnisse

4 Weitere Motivsuche-Ans¨atze Nutzung einer Positionsverteilung Diskriminative Ans¨atze

ChIP-seq spezifische Ans¨atze

Ans¨atze mit komplexeren Motivmodellen

5 Zusammenfassung

(4)

Komplexit¨ at nicht durch Anzahl der Gene erkl¨ arbar

Mensch Fadenwurm

[Erik Jorgensen, the University of Utah]

∼23.000 Gene ∼23.000 Gene

(5)

Organe enthalten identisches genetisches Material

100% identical genetic material

[Bori Mifsud]

∼100% identisches genetisches Material

(6)

Genregulation

Transkription

Translation

Ribosom RNA- Polymerase Transkriptions-

faktor

mRNA

Protein/

Enzym Nukleosomen cis-regulatorisches

Modul

RISC mit miRNA

Spliceosom- Untereinheiten

Splicing

basaler

(7)

Einf¨uhrung Datenquellen f¨ur de-novo Motivsuche Problemstellung de-novo Motivsuche Weitere Motivsuche-Ans¨atze Zusammenfassung

Transkriptionelle Regulation durch Transkriptionsfaktoren

Biologische Fragestellung Regulation der Genexpression Erster Schritt:

transkriptionelle Regulation

⇒ Transkriptionsfaktor- Bindestellen

De-novo Motivsuche: kein Wissen ¨uber

das Motiv

den exakten Ort der Bindestellen

in einer Menge von Eingabesequenzen

[Basierend auf Robert Tjian,

“Molecular Machines that Control Genes”]

(8)

Transkriptionelle Regulation durch Transkriptionsfaktoren

Biologische Fragestellung Regulation der Genexpression Erster Schritt:

transkriptionelle Regulation

⇒ Transkriptionsfaktor- Bindestellen

De-novo Motivsuche:

kein Wissen ¨uber das Motiv

den exakten Ort der Bindestellen

in einer Menge von Eingabesequenzen

[Basierend auf Robert Tjian,

“Molecular Machines that Control Genes”]

(9)

Outline

1 Einf¨uhrung

Sequenzmotive im genetischen Fluss

2 Datenquellen f¨ur de-novo Motivsuche

3 Problemstellung de-novo Motivsuche

Wiederholung: Position weight matrices (PWMs) Das OOPS-Modell

Motivsuche-EM-Algorithmus Auswertung der Ergebnisse

4 Weitere Motivsuche-Ans¨atze Nutzung einer Positionsverteilung Diskriminative Ans¨atze

ChIP-seq spezifische Ans¨atze

Ans¨atze mit komplexeren Motivmodellen

5 Zusammenfassung

(10)

Experimentelle Techniken

in-vivo

Expressionsdaten & Promotor-Extraktion Microarrays

mRNA-seq, CAGE, PET, . . . ChIP-seq, ChIP-exo

. . .

in-vitro

Protein-binding microarrays (PBMs) (HT-) SELEX

EMSA . . .

(11)

Expressionsdaten

Pipeline

1 Messung der Expression von Genen unter verschiedenen Bedingungen

2 Microarrays:

(Design des Chips) Pr¨aparation der mRNA Hybridisierung & Scannen Qualit¨atskontrolle, Normalisierung

3 mRNA-seq:

Pr¨aparation der mRNA (& Amplifikation) (Fragmentierung)

Sequenzierung

Qualit¨atskontrolle, Normalisierung

4 Bestimmung differentieller Gene (fold-change, stat. Tests, . . . )

5 Extraktion der Promotorsequenzen (500 bp - 2,5 kbp) von Kandidatengenen

(12)

ChIP-seq

[Szalkowski & Schmid, 2010]

⇒gebundene Sequenzen, 100 bp - 600 bp

(13)

Protein-binding microarrays

[Geertz & Maerkl, 2010]

⇒Sequenzen,∼40 bp, & Binde-Intensit¨aten

(14)

HT-SELEX

Systematic Evolution of Ligands by EXponential Enrichment

[Stormo & Zhao, 2010]

⇒angereicherte Sequenzen,∼10 bp - 50 bp

(15)

Outline

1 Einf¨uhrung

Sequenzmotive im genetischen Fluss

2 Datenquellen f¨ur de-novo Motivsuche

3 Problemstellung de-novo Motivsuche

Wiederholung: Position weight matrices (PWMs) Das OOPS-Modell

Motivsuche-EM-Algorithmus Auswertung der Ergebnisse

4 Weitere Motivsuche-Ans¨atze Nutzung einer Positionsverteilung Diskriminative Ans¨atze

ChIP-seq spezifische Ans¨atze

Ans¨atze mit komplexeren Motivmodellen

5 Zusammenfassung

(16)

Ausgangspunkt der Motivsuche

Gr¨oßenordnungen

Technik Anzahl L¨ange

Expressionsdaten 10-500 500 - 2500 bp

ChIP-seq 10-100 000 100 - 600 bp

PBMs ≥40 000 30-40 bp

HT-SELEX 10 000 - 1 000 000 10-50 bp

⇒ viele bis sehr viele, mehr oder weniger lange Sequenzen, von denen ein Teil (vermutlich) ein Motiv enth¨alt

(17)

Motivsuche per Auge

GTAGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATAGTGATG AGTTGCTGGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTA TTAAGAATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATCTGT ATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATACGTGATCGT GGGAGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTTAGCT GTAGTCTTATTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATA TTTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATGGTCTATCT ACAAGTATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTTGA ACATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATACGTAGCT

(18)

Motivsuche per Auge (2)

GTAGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATAGTGATG AGTTGCTGGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTA TTAAGAATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATCTGT ATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATACGTGATCGT GGGAGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTTAGCT GTAGTCTTATTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATA TTTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATGGTCTATCT ACAAGTATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTTGA ACATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATACGTAGCT

(19)

Motivsuche per Auge (3)

GTAGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATAGTGATG AGTTGCTGGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTA TTAAGAATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATCTGT ATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATACGTGATCGT GGGAGTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTTAGCT GTAGTCTTATTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATA TTTTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATGGTCTATCT ACAAGTATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATTTGA ACATTGAGTCTGAGCTGAGTTGTGGATGCGTAGGTGATGCTGATACGTAGCT

(20)

Motivbeschreibung - Gewichtsmatrizen

. . . oder Position weight matrices (PWMs), Position-specific scoring matrices (PSSM), Profile, . . .

⇒Tafel

(21)
(22)
(23)

EM-Algorithmus

1 2 3 4 5 6 7 8 9 10 11 12 Position 0

0.5 1 1.5 2

Information content

0 10 20 30 40 50 60

−139000−138500−138000

Iteration

Log−Likelihood

50 100 150

100200300400500

Position

Sequence

(24)

EM-Algorithmus

1 2 3 4 5 6 7 8 9 10 11 12 Position 0

0.5 1 1.5 2

Information content

0 5 10 15 20 25 30

−139000−138000

Iteration

Log−Likelihood

50 100 150

100200300400500

Sequence

(25)

EM-Algorithmus

1 2 3 4 5 6 7 8 9 10 11 12 Position 0

0.5 1 1.5 2

Information content

0 10 20 30 40 50 60

−139200−138800−138400

Iteration

Log−Likelihood

50 100 150

100200300400500

Position

Sequence

(26)

EM-Algorithmus

0 20 40 60 80

−139000−138000

Iteration

Log−Likelihood

(27)

Plotten von Sequenzlogos

Weblogo

http://weblogo.threeplusone.com auf Basis einer Menge von Bindestellen

Weblogo (2)

http://demo.tinyray.com/weblogo auf Basis einer PWM

seqLogo

R-PaketseqLogo

aus Basis einer PWM, plotten in R

(28)

Datenbanken f¨ ur Sequenzmotive

Transfac

http://www.gene-regulation.com kommerzielle Datenbank

letzte ¨offentliche Version (7.0) von 2005

Jaspar

http://jaspar.genereg.net freie Datenbank

Motive (PWMs) & Bindestellen

UniProbe

http://the_brain.bwh.harvard.edu/uniprobe/

freie Datenbank

spezialisiert aufin-vitroMotive aus Basis von PBM-Daten

(29)

Vergleich von Motiven mit Datenbanken

Stamp

http://www.benoslab.pitt.edu/stamp/

Vergleich von Eingabematrix mit Jaspar, Transfac, UniProbe und weiteren

Verschiedene Maße und Alignment-Varianten

TomTom

http://meme.nbcr.net/meme/cgi-bin/tomtom.cgi

Vergleich von Eingabematrix mit Jaspar, UniProbe und weiteren Verschiedene Maße und Alignment-Varianten

(30)

Outline

1 Einf¨uhrung

Sequenzmotive im genetischen Fluss

2 Datenquellen f¨ur de-novo Motivsuche

3 Problemstellung de-novo Motivsuche

Wiederholung: Position weight matrices (PWMs) Das OOPS-Modell

Motivsuche-EM-Algorithmus Auswertung der Ergebnisse

4 Weitere Motivsuche-Ans¨atze Nutzung einer Positionsverteilung Diskriminative Ans¨atze

ChIP-seq spezifische Ans¨atze

Ans¨atze mit komplexeren Motivmodellen

5 Zusammenfassung

(31)

Nutzung einer Positionsverteilung

Idee:H¨aufig befinden sich die Bindestellen in einem bevorzugten Abstand vom einem Ankerpunkt innerhalb der Sequenzen, z.B.

Abstand zum Transkriptionsstart→rechtes Ende des Promotors, Abstand zum Peak-Zentrum →“Mitte” der Sequenz unter einem ChIP-seq Peak.

⇒Modelliere diese Positions-Pr¨aferenz explizit in einer PositionsverteilungP(`) (war bei uns eine Gleichverteilung).

Ans¨atze/Tools:

A-GLAM (Kimet al., 2008)

Improbizer (Jim Kent, Ao et al., 2004) Dispom (Keilwagen et al., 2011)

(32)

Diskriminative Ans¨ atze

Idee:In manchen F¨allen ist das h¨aufigste/angereichertste Motiv nicht das “interessante”, z.B. TATA-Boxen, E-Boxen, Sp1-Bindestellen, etc.

⇒Nutze zus¨atzlich zum Zieldatensatz einen Kontrolldatendaten, der das

“interessante”Motiv kaum/nicht enthalten sollte und suche nach Motiven, diespezifischf˜A14r den Zieldatensatz sind.⇒diskriminatives Lernen

Ans¨atze/Tools:

DME (Smith et al., 2005) DEME (Bailey et al., 2007) DREME (Baileyet al., 2011) Dispom (Keilwagen et al., 2011) Dimont (Grauet al., 2013)

(33)

ChIP-seq spezifische Ans¨ atze

Idee:Die große Zahl von relativ langen Sequenzen aus

ChIP-seq-Experimenten erh¨oht die Laufzeit klassischer Motivsucheans¨atze dramatisch.

⇒Nutze spezielle Heuristiken oder andere Ans¨atze, um die Motivsuche in ertr¨aglicher Zeit zu bewerkstelligen

Ans¨atze/Tools:

HMS (Huet al., 2010)

ChIPMunk (Kulakovskiyet al., 2010) Posmo (Maet al., 2012)

Meme-ChIP (Machanik & Bailey, 2012) Dimont (Grauet al., 2013)

(34)

Ans¨ atze mit komplexeren Motivmodellen

Idee:Die Annahme der statistischen Unabh¨angigkeit zwischen Motivpositionen ist biologisch nicht (immer) korrekt.

⇒Ersetze die PWM als Motivmodell durch komplexere Modelle (z.B.

Markov-Modelle h¨oherer Ordnung).

Ans¨atze/Tools:

DiChIPMunk (Kulakovskiy et al., 2013) Dimont (Grauet al., 2013)

Parsimonious Markov Models (Eggelinget al., 2014)

(35)

Outline

1 Einf¨uhrung

Sequenzmotive im genetischen Fluss

2 Datenquellen f¨ur de-novo Motivsuche

3 Problemstellung de-novo Motivsuche

Wiederholung: Position weight matrices (PWMs) Das OOPS-Modell

Motivsuche-EM-Algorithmus Auswertung der Ergebnisse

4 Weitere Motivsuche-Ans¨atze Nutzung einer Positionsverteilung Diskriminative Ans¨atze

ChIP-seq spezifische Ans¨atze

Ans¨atze mit komplexeren Motivmodellen

5 Zusammenfassung

(36)

Zusammenfassung

Gewichtsmatrizen (PWMs) sind eine verbreitete M¨oglichkeit, Sequenzmotive zu repr¨asentieren

De-novo-Motivsuche bezeichnet die Suche nach solchen

Sequenzmotiven in l¨angeren Sequenzen, ohne (genaues) Wissen ¨uber das Aussehen des Motivs oder die Position der Bindestellen

Der Motivsuche-EM-Algorithmus ist eine (¨uberschaubar komplexe) M¨oglichkeit, dieses Problem anzugehen, indem er iterativ

die Wahrscheinlichkeiten der m¨oglichen Startpositionen die entsprechende Gewichtsmatrix

verfeinert

Die Ergebnis-Motive k¨onnen wir durch Sequenzlogos visualisieren und mit existierenden Motiven aus Datenbanken vergleichen Es gibt f¨ur viele Fragestellungen oder Datenquellen besonders geeignete Ans¨atze, die man auch benutzen sollte (und nicht einfach MEME, weil es “alle” machen).

Referenzen

ÄHNLICHE DOKUMENTE

Este número é constituído por uma nota breve, acerca da primeira observação de falsa- orca Pseudorca crassidens nas águas de Cabo Verde, e dois artigos originais, um

In der multivariaten Analyse konnte ein signifikanter Zusammenhang nur für die Variablen Patientenalter und Auftreten eines de novo Tumors gezeigt werden

Die im Rahmen des Rückerwerbs von Fonds- beteiligungen treuhänderisch durch die berlinovo GmbH, die Immobilien- und Bau- management der Berlinovo GmbH (IBG) sowie die

Nimmt man die Ankündigungen ernst, dass die PID auf wenige schwer- wiegende Indikationen beschränkt bleiben soll, dann werden weder große Populationen betroffen sein, noch wird

Die oben genannten Verfahren zur Regeneration von NADPH, welches zur Reduktion von GKDM durch die GFS bereitgestellt werden muss, bauen auf dem Konzept einer zweistufi- gen

Finally, 24 was identified as the best k-mer size based on comparison of the results by assembly size, number of contigs, assembly continuity, and recovered benchmarking genes..

Patientenalter, arterielle Hypertonie, Zustand nach aneurysmatischer Blutung, Aneurysmengröße, Lokalisation und geographische Lage. Die Anfangsbuchstaben der

Die Struktur eines EPR-Spektrums von zwei gekoppelten Spinlabeln ist sensi- bel auf Abstand und Orientierung der beiden Label. Die relative Orientierung zweier Spinlabel wird