• Keine Ergebnisse gefunden

Ausgabe: 09. Dezember 2020, Abgabe: 15. Dezember 2020

N/A
N/A
Protected

Academic year: 2022

Aktie "Ausgabe: 09. Dezember 2020, Abgabe: 15. Dezember 2020"

Copied!
2
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

6. ¨ Ubung zur Vorlesung

“Algorithmische Massenspektrometrie”

Wintersemester 2020/2021 Sebastian B¨ ocker, Kai D¨ uhrkop

Ausgabe: 09. Dezember 2020, Abgabe: 15. Dezember 2020

1. Peak-Counting-Score:Gegeben seien zwei PeaklistenM ={150,180,230,310,475} und M0 ={150,190,250,315,485}. Berechnen Sie den Peak-Counting-Score f¨ur δ= 5, undδ= 10.

(1 Punkt) 2. Alignment von Spektren:Gegeben seien das gemessene Spektrum{200,300,500,515,700}und die beiden

Referenzspektren{200,510,705,850}und{190,310,490,710}, sowie die Scoring-Funktion δ(m, m0) = 2−1

5|m−m0| (1)

δ(m, ε) =δ(ε, m0) =−1 (2)

Als Alignment zweier SpektrenM =m1, m2,· · · , mkundM0=m01, m02,· · · , m0lbezeichnen wir eine Menge von (maximal k+l) Zuordnungen (a, b)∈(M ∪ {})×(M0∪ {}) so dass:

(a) Jeder Peakm∈M sowie jeder Peakm0∈M0 exakt einmal in einer der Zuordnungen enthalten ist.

(b) Es keine Zuordnung (, ) gibt.

(c) F¨ur alle Zuordnungen (a, b) und (x, y) gilt: x > a ≡ y > b. Optimale Alignments erf¨ullen diese Bedingung f¨ur sinnvolle Scoring Funktionen immer, daher spielt diese Bedingung f¨ur diese Aufgabe keine Rolle.

Ein Beispiel f¨ur ein Alignment der beiden Referenzspektren zueinander w¨are: (200,190),(,310), (510,490), (705,710), (850, ). Der Score eines Alignments ist die Summe der Scoring-Funktion ¨uber alle Zuordnungen.

In diesem Beispiel: δ(200,190) +δ(,310) +δ(510,490) +δ(850, ) = 0−1−2−1 =−4.

Als optimales Alignment bezeichnet man das Alignment mit maximalem Score.

(a) Geben Sie die Rekurrenz f¨ur eine dynamische Programmierung an, die das optimale Alignment zweier Spektren f¨ur die gegebene Scoring-Funktion berechnet. Wie ist die Definition ihrer DP-Tabelle. Sie k¨onnen sich am Needleman–Wunsch Algorithmus f¨ur Sequenzalignments zweier Strings orientieren.

(b) Stellen Sie die zwei DP-Tabellen f¨ur die Alignments des gemessenen Spektrums gegen jeweils eins der Referenz-Spektren auf. Welches der beiden Referenzspektren ist dem gemessenem Spektrum am

¨ahnlichsten?

(6 Punkte) 3. Statistisches Modell:Das Scoring in Aufgabe 2 war sehr willk¨urlich festgelegt. Sinnvoller ist es, ein sta- tistisches Modell f¨ur das Scoring zu verwenden und Log-Likelihoods oder Log-odds als Scores zu benutzen.

1

(2)

Verteilung der Massenabweichungen

Massenabweichung in Dalton

Anzahl an Beobachtungen

0.3985 0.3990 0.3995 0.4000 0.4005 0.4010

050100150200250

Verteilung der Noise−Intensitäten

Intensität

Anzahl Noisepeaks

0.00 0.01 0.02 0.03 0.04 0.05 0.06

0500100015002000

Abbildung 1: Das linke Histogramm zeigt die Verteilung der Massenabweichungen zwischen gemessenen Peaks und ihrer theoretischen Masse. Das rechte Histogramm z¨ahlt die Anzahl an Noisepeaks mit bestimmter Intensit¨at.

(a) Warum verwendet man ¨uberhaupt logarithmierte (Wahrscheinlichkeits-)Werte? Was ist der Vorteil dabei?

(b) Wann immer wir einen Messfehler modellieren wollen, der durch eine Vielzahl von voneinander un- abh¨angigen und zuf¨alligen Prozessen entsteht, ist eine Normalverteilung eine gute Annahme. Warum ist dem so?

(2 Punkte) 4. WahrscheinlichkeitsverteilungenUm das statistische Modell zu pr¨ufen, betrachten wir viele Spektren von denen wir die Erkl¨arung der Peaks kennen. Fig.1 zeigt ein Histogramm mit den Massenabweichungen zwischen den gemessenen Peaks und der theoretischen Masse der Compounds sowie ein Histogramm mit den Intensit¨aten aller Noise-Peaks.

(a) Im Histogramm ist zu sehen, dass die Massenabweichungen normalverteilt sind. Allerdings ist der Erwartungswert der Abweichung nicht 0. Welche Art von Fehler hat dies verursacht und was kann man tun um den Fehler aus seinen Daten herauszurechnen?

(b) Im zweiten Histogramm zeigen die Noise-Peaks ab einem bestimmten Intensit¨atstreshold eine Expo- nentialverteilung. Vor diesem Treshold hingegen nimmt die Zahl der Noisepeaks ab, statt exponentiell zuzunehmen. Wie ist das zu erkl¨aren? Macht es dennoch Sinn eine Exponentialverteilung der Noise- Peaks anzunehmen?

(2 Punkte)

2

Referenzen

ÄHNLICHE DOKUMENTE

Der Landkreis Zwickau war gemäß § 8 Absatz 2, 3 und 4 der Verordnung des Sächsischen Staatsministeriums für Soziales und Gesellschaftlichen Zusammenhalt zum Schutz vor dem

Der Regierungsrat wird mit der Ausarbeitung einer Gesetzesvorlage zur Verpflichtung einer kommunalen Mitfinanzierung von bedarfsgerechten Angeboten der familien- und

rechtlicher Einschränkungen nicht in der Lage sind, mindestens 3 Stunden täglich unter den üblichen Bedingungen des allgemeinen Arbeitsmarktes zu arbeiten, können als

(Anfrage der Fraktion der BÜNDNIS 90/ DIE GRÜNEN - S 11) (Vorlage 1001/20 und Neufassung der Vorlage der Senatorin für Wirtschaft, Arbeit und Europa vom 14.12.2020).. Referent/in:

(Vorlage 957/20 und Neufassung der Vorlage der Senatorin für Kinder und Bildung vom 30.11.2020). Referent/in: Frau

Untersuchungen durch das Bundesministerium für Umwelt, Naturschutz und Reaktorsicherheit sowie das „Borderstep Institut“ haben ergeben, dass - je nach Größe und

(b) Beschreiben Sie, wie man den Algorithmus zum Aufz¨ ahlen von Compomeren ¨ uber die ERT Tabelle um¨ andern m¨ usste, um einen Upperbound zu implementieren.. (3

Fig.1 zeigt ein Histogramm mit den Massenabweichungen zwischen den gemessenen Peaks und der theoretischen Masse der Compounds sowie ein Histogramm mit den Intensit¨ aten