Softwarewerkzeuge der Bioinformatik
Prof. Dr. Volkhard Helms
PD Dr. Michael Hutter, Markus Hollander, Marie Detzler
Wintersemester 2020/2021
Universit¨at des Saarlandes Zentrum f¨ur Bioinformatik
Ubungsblatt 3 ¨
Sequenzanalyse: Multiple Sequence Alignment (MSA) und Phylogenie
Lernziel: Sie sollen lernen, wie man multiple Sequenzalignments erstellt, wie man diese beispiel- sweise bzgl. Konservierung interpretiert und f¨ur welche Fragestellungen man sie anwenden kann.
Weiterhin sollen Sie den Sankoff Algorithmus anwenden und lernen, mit phylogenetischen B¨aumen umzugehen.
Aufgabe 3.1: Homologe Sequenzen, gemeinsame Dom¨anen und phylogenetischer Baum Tools zur Berechnung von multiplen Alignments: http://www.ebi.ac.uk/Tools/msa
a) Speichern Sie die Sequenz des ProteinsQ38856zusammen mit 9 homologen Sequenzen im Multi–Fasta–Format.
b) Finden Sie hochkonservierte Bereiche dieser Sequenzen mit dem Tool Ihrer Wahl.
c) Ist es immer n¨otig, dass alle Aminos¨auren hoch konserviert sind, um daraus schließen zu k¨onnen, dass die Proteine homolog sind?
d) Angenommen Sie m¨ochten das aktive Zentrum einen Proteins lokalisieren, haben aber nur die Proteinsequenz und keine Struktur. Wie kann ein multiples Sequenzalignment dabei helfen, dieses Problem zu l¨osen?
e) Erstellen Sie nun ein MSA von 50 homologen Sequenzen mit demselben Tool.
f) Welche Unterschiede stellen Sie zwischen den beiden Alignments fest?
g) Schauen Sie sich den phylogenetischen Baum zu den Sequenzen aus 3.1.e) an und finden Sie drei biologische Gruppen (Pflanzen, Pilze, Tiere).
Aufgabe 3.2: Vergleich verschiedener Tools
Die folgenden MSAs wurden mit verschiedenen Tools erstellt:
Tool Protein Alignment
ClustalW
FOS Rat MMF S GFNADYEAS S SRCSSASPAGDSL SYYHSPADSF S SMGS PVNTQDFC MMF S GFNADYEAS S SRCSSASPAGDSL SYYHSPADSF S SMGS PVNTQDFC MMYQGFAGEYEAP S SRCSSASPAGDSLTYYPSPADSF S SMGS PVNSQDFC – MFQAFPGDYDS – GSRCSS– SP S AESQ – –YLSSVDSFGS P PTAAASQE –C – MFQAFPGDYDS – GSRCSS– SP S AESQ – –YLSSVDSFGS P PTAAASQE –C
* : . . * . : * : : . ** * ** * * : . : * * * . . * * * . * : .. : * : * FOS MOU
FOS CHIC FOSB MOU FOSB HU
MAFFT
FOS Rat MMF S GFNADYEAS S SRCSSASPAGDSLS YYHSPADSF S SMGS PVNTQDFC MMF S GFNADYEAS S SRCSSASPAGDSLS YYHSPADSF S SMGS PVNTQDFC MMYQGFAGEYEAP S SRCSSASPAGDSLTYYPSPADSF S SMGS PVNSQDFC – MFQAFPGDYD– SGSRCSS– SP S AES– – QYLSSVDSFGS P PTAAASQE –C – MFQAFPGDYD– SGSRCSS– SP S AES– – QYLSSVDSFGS P PTAAASQE –C
* : . . * . : * : . . ** * ** * * : . : * * * . . * * * . * : . . : * : * FOS MOU
FOS CHIC FOSB MOU FOSB HU
MUSCLE
FOS Rat MMF S GFNADYEAS S SRCSSASPAGDSL SYYHSPADSF S SMGS PVNTQDFC MMF S GFNADYEAS S SRCSSASPAGDSL SYYHSPADSF S SMGS PVNTQDFC MMYQGFAGEYEAP S SRCSSASPAGDSLTYYPSPADSF S SMGS PVNSQDFC – MFQAFPGDYD– SGSRCSS– SP S AESQ – –YLSSVDSFGS P PTAAASQE –C – MFQAFPGDYD– SGSRCSS– SP S AESQ – –YLSSVDSFGS P PTAAASQE –C
* : . . * . : * : . . ** * ** * * : . : * * * . . * * * . * : .. : * : * FOS MOU
FOS CHIC FOSB MOU FOSB HU
Clustal Omega
FOS Rat MMF S GFNADYEA S SSRCSSASPAGDSL S YYHSPADSF S SMGS PVNTQDFC MMF S GFNADYEA S SSRCSSASPAGDSL S YYHSPADSF S SMGS PVNTQDFC MMYQGFAGEYEAPSSRCSSASPAGDSLTYYPSPADSF S SMGS PVN S QDFC – MFQAFPGDYDS GS–RCSSS PSA – – –ESQYLSSVDSFGS P PTA– AA S QEC – MFQAFPGDYDS GS–RCSSS PSA – – –ESQYLSSVDSFGS P PTA– AA S QEC
* : . . * . : * : : * * * **: * : * * . * * * . * : : . : * FOS MOU
FOS CHIC FOSB MOU FOSB HU
Vergleichen Sie die MSAs miteinander.
a) Gibt es Unterschiede bei der Anordnung der Gaps?
b) ¨Andert sich dadurch der Konservierungsgrad der farblich markierten Spalten?
Aufgabe 3.3: Konservierte Motive
Erstellen Sie mit den Sequenzen der Vorlesungsseite (sequences1.fasta) unter Verwendung von Clustal Omega ein MSA und Sie ununterbrochene, hoch konservierten Bereiche mit mindestens L¨ange 10. Speichern Sie diese als potentielle Motive f¨ur ¨Ubungsblatt 4 (ausgehend von FOSB MOUSE).
Aufgabe 3.4: Outgroup
a) Erstellen Sie ein MSA aus den Sequenzen der Vorlesungsseite (sequences2.fasta).
b) Ist ¨uberall Konservierung zu erkennen?
c) Welche Spezies unterscheidet sich von den anderen?
d) Erstellen Sie einen phylogenetischen Baum.
Aufgabe 3.5: Sankoff Algorithmus
Welche Base hatte die Urvorg¨angersequenz wahrscheinlich an der gegebenen Stelle eines Align- ments? Verwenden Sie dazu den Sankoff Algorithmus und die folgende Kostenfunktion.
A C G T
G C
A T A C G T
T G C
A A C G T A C G T
r
v10 v11
v7 v8 v9
v1 v2 v3 v4 v5 v6
l1 l2 l3 l4 l5 l6 l7 l8 l9 l10 l11 l12 l13
{G} {A} {T} {A} {C} {T} {G} {A} {T} {A} {A} {G} {G}
A C G T
A C T
A C G T
A C G T
A C G T
A C G T
C G T
−→Base der Urvorg¨angersequenz:
Kostenfunktion:
A C G T
A 0 2 1 2
C 2 0 2 1
G 1 2 0 2
T 2 1 2 0
Viel Spaß!