• Keine Ergebnisse gefunden

” Angewandte Bioinformatik mit Perl und R“

N/A
N/A
Protected

Academic year: 2022

Aktie "” Angewandte Bioinformatik mit Perl und R“"

Copied!
2
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Wintersemester 2007/2008 Abgabe am 16. Januar 2008 Prof. Dr. Stefan Posch, Dipl.-Bioinf. Jan Grau

11. ¨ Ubung

” Angewandte Bioinformatik mit Perl und R“

1. Wir betrachten zun¨achst noch einmal diegolubDaten aus der letzten ¨Ubung:

Erzeugen Sie sich zwei Vektoren, mit denen Sie die all- bzw. aml-Proben bequem selektieren k¨onnen.

Machen Sie das so, dass es auch bei anderer Anzahl oder Reihenfolge der Proben funktioniert.

Selektieren Sie f¨ur ein beliebiges Gen nun die Expressionswerte der Leuk¨amietypen in zwei verschie- dene Vektoren. Testen Sie per t-Test, ob die mittlere Expression in den beiden Gruppen (signifikant) unterschiedliche ist.

Schreiben Sie hierf¨ur eine Funktion, die diesen t-Test f¨ur ein beliebiges Gen durchf¨uhrt. Wenden Sie Funktion auf alle Gene an (oder soviel Gene, wie Ihr Rechner zul¨aßt) und speichern Sie p-Values in einem Vektor. Sortieren Sie die p-Values mit der Funktionsortund bestimmen Sie damit das Gen mit dem kleinsten p-Value.

K¨onnen Sie etwas ¨uber das Gen herausfinden?

(3 Punkte)

2. Im Linux-Pool ist Bioconductor unter/lehre/agprbio/Biocond/libinstalliert. Um Pakete mittels der Funktionlibrary()von diesen Nicht-Standard-Pfad zu laden, k¨onnen Sie z.B. in Ihrer shell die Environment-VariableR LIBSentsprechend setzen, in dertcshalso

setenv R_LIBS /lehre/agprbio/Biocond/lib

setzen.

Sie k¨onnen auch inRden Aufruf

.libPaths("/lehre/agprbio/Biocond/lib") verwenden.

F¨ur die folgenden Aufgaben k¨onnen Sie die Folien des Bioconductor nutzen, diese sind unterwww.

bioconductor.orgund auch auf der Web-Seite der Vorlesung zu finden.

(0 Punkte)

3. Lesen Sie den Dilution Datensatz ein. Wieviele Gene enth¨alt jedes array? Wieviele und welche Gen- Namen enthalten als Teilstring “Lys”. Wieviele probes enthalten die zugeh¨origen probesets, geben Sie textuell deren Intensit¨aten aus.

(2 Punkte)

4. Erstellen Sie ein Histogramm ¨uber die Gr¨oße der probesets, d.h. wieviele probesets gibt es f¨ur die verschiedenen Gr¨oßen von probesets. Da eine probeset-Gr¨oße sehr oft vorkommt, k¨onnen wir in diesem Histogramm nicht viel sehen. ¨Uberlegen (und realisieren) Sie eine bessere Darstellung Welche Gr¨oße kommt am h¨aufigsten vor, wie oft?

Welches/welche Gen/Gene hat/haben die gr¨oßte Anzahl an probes in ihrem probeset? Plotten Sie die Intenist¨aten und versuchen Sie m¨oglichst viel Informationen ¨uber das/die Gen/Gene zu finden.

(3 Punkte)

(2)

5. Plotten Sie f¨ur alle Gene mit dem Teilstring “Lys” im Namen die Intensit¨aten ¨uber alle probes, und zwar einmal die perfect matches, dann die mis-matches

(2 Punkte)

Referenzen

ÄHNLICHE DOKUMENTE

• Sequenzenobjekte bestehen allgemein aus ihrer Sequenz und gegebenenfalls einem Namen (ei- ner ID,. ), sowohl Sequenz als auch Name sollen abgerufen werden k¨onnen.. • Eine

F¨ur dieses Gen sind bei NCBI (Genbank, http://www.ncbi.nlm.nih.gov/Genbank/index.html) meh- rere Sequenzen gespeichert, unter anderem auch eines der Chromosomen von Arabidopsis,

Aus weiteren Experimenten scheint es wahrscheinlich, dass das zugeh¨orige Enzym eine Rolle im Zuckerhaushalt spielt.. Sie stehen nun vor der Aufgabe, mit Hilfe einer BLAST- Anfrage

• Sequenzenobjekte bestehen allgemein aus ihrer Sequenz und gegebenenfalls einem Namen (ei- ner ID,. ), sowohl Sequenz als auch Name sollen abgerufen werden k¨onnen.. • Eine

Aus weiteren Experimenten scheint es wahrscheinlich, dass das zugeh¨orige Enzym eine Rolle im Zuckerhaushalt spielt.. Sie stehen nun vor der Aufgabe, mit Hilfe einer BLAST- Anfrage

Erzeugen Sie eine Vektor der L¨ange 100, wobei jedes Element nach einer Binomialverteilung mit n = 10, p = 0.3 gezogen wird.. Selektieren Sie aus diesem Vektor (in drei neue

Diese Zuweisung soll f¨ur beliebige data frames funktionieren, schreiben Sie also am besten eine kleine Funktion hierf¨ur..

(b) Wiederholen Sie dies f¨ur unterschiedliche Teilmengen signifikanter Gene und wiederum unter- schiedliche Distanzen.. Vergleichen Sie wiederum die Ergebnisse, was beeiflusst