• Keine Ergebnisse gefunden

Praktikum Data-Mining und Sequenzanalyse Aufgaben Clustering

N/A
N/A
Protected

Academic year: 2022

Aktie "Praktikum Data-Mining und Sequenzanalyse Aufgaben Clustering"

Copied!
3
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Praktikum Data-Mining und Sequenzanalyse Aufgaben Clustering

Markus Fleischauer

Allgemeine Projektanforderungen

• Versionskontrolle mit Git

• Projektmanagement mit Gradle

• Implementierung der Klassen mit den entsprechenden Algorithmen

• API Dokumentation mit javadoc

• Benutzerinterface als Kommandozeilenprogramm (CLI) + README/Hilfe

1 Implementierung - Klassenstruktur

Entwerfen Sie eine sinnvolle Klassenstruktur für ihr Clustering tool. Bedenken Sie dabei, dass man die Implementierung sich auch als Library eignet.

• Allgemein:

– Datenstruktur(en) zur Darstellung gewurzelter und ungewurzelter Bäume – Clustering Algorithmen (WPGMA, UPGMA, Neighbor-Joining) zur Berech-

nung eines Baumes aus einer Distanzmatrix – Darstellung einer Distanzmatrix

– Bestimmung der Metrik einer Distanzmatrix

– Berechnung einer Distanzmatrix aus den Edit-Distanzen von von paar- weisen Sequenz alignments und Ausgabe der Matrix.

• Package:io

Reader und Writer fuerFASTADateien

– FastaReaderSequenzen aus Datei im (multiple-)FASTAFormat lesen – NewickWriterBäume imNewickFormat in Datei schreiben.

> Name1

CTAGAGTGTAGTCATGTCAGTGCAGC

> Name2

GTAGCGCGGTTTAAGTCTAGTGCAGC

1

(2)

• Package:cli

Paket für den Kommandozeilenparser und die main Methode:

– Klasse mitmain()Methode – Wahlweise Eingabe:

∗ Einlesen einer Datei mit mehreren Sequenzen im multiple Fasta Format.

∗ Einer Distanzmatrix aus einer Datei

– Ausgabe des resultierenden Baumes im Newick format (Es sollte std-out und Datei möglich sein)

– Parameter zur Wahl des Clustering Algorithmus (WPGMA, UPGMA, NJ)

2 Validierung der Algorithmen (Unit Tests)

Gewährleistet die Korrektheit eurer Algorithmen durch die Implementierung folgen- der (Unit)Tests. Hinweis: Die frühzeitige Implementierung von Tests erleichtert den Debuggingprozess erheblich.

1. Implementiert geeignete Unit Tests für alle 3 Algorithmen (WPGMA, UP- GMA, NJ), welche die korrekte Funktionsweise gewährleisten. (Toy-Examples, Grenzfälle, etc.)

2. Testen sie eine zufällige Anzahl zufällig erzeugter DNA Sequenzen (in geeigneter Größenordnung) und verwendet sie als Eingabe für alle 3 Implementierungen (WPGMA, UPGMA, NJ).

3. Erläutert Sie ihre Implementierung. Gab es Schwierigkeiten? Gibt es noch Fehler?

2

(3)

3 Anwendung der Implemetierung

Allgemeine Hinweise:

• Die folgenden Aufgaben, sollen mit Hilfe ihres Kommandozeilenpro- gramms gelöst werden.

• Geben sie stets die Ausgefürten Befehle an, sodass die Ergebnisse re- produzierbar und nachvollziehbar sind.

• Geben sie das verwendete Testsystem an (CPU, RAM, HDD/SSD, OS(- Version), Java-Version, JVM Parameter).

Daten: Folgende Testdaten liegen imFASTA-Format vor1

• aquifex-tRNA-clean.fasta: tRNAs vonAquifex aeolicus Aufgaben:

1. Generiert per Hand für je≥5 Taxa eine additive Baummetrik (Distanz- matrix) und eine Ultrametrik und testet damit die Algorithmen.

2. Erzeugt≥6 beliebige zueinander ähnliche DNA-Sequenzen und testet damit wieder Euer Programm.

3. Bestimmt Stammbäume für die tRNAs vonAquifex aeolicusund disku- tiert das Ergebnis.

4. Geht aufwww.ncbi.nlm.nih.gov/BLASTund durchsucht die NCBI Nucleotide Collection nach der Sequenz der menschlichen Hexokinase (NM_000162). In welcher Reihenfolge tauchen Sequenzen anderer Spezies auf? Ladet euch die menschliche Gensequenz und fünf ge- fundene Sequenzen von anderen Organismen herunter. Bestimmt die Stammbäume dieser Sequenzen.

5. Diskutiert prinzipbedingte Vor- und Nachteile der Verfahren.

1aus NCBI Nucleotide und Uniprot

3

Referenzen

ÄHNLICHE DOKUMENTE

Iterate over the whole data points: assign each data point to the cluster with the nearest centroid. Recompute cluster centroids based on contained data

•kann auch alleine für Data Mining- oder OLAP- Zwecke genutzt werden.. Der Data Mining Prozess

A) Es werden oft Windeln gekauft. B) Der Kauf von Windeln führt zum Kauf von Bier.. B) Der Kauf von Windeln führt zum Kauf

Beim Web Mining (vgl. Kapitel 4.2) kommt die Analyse von se- mistrukturierten Texten zum Einsatz, die auf die Tags einer Auszeichnungsspra- che wie HTML zugreift. Zeitreihen

Entferne Kandidaten Item-Mengen, die nicht häufig auftretende Teilmengen der Länge k enthalten. Ermittle den Support

• durch Spezifizierung von interessanten Kalendern, können Regeln entdeckt werden, die in der gesamten Datenbasis nicht auffallen würden u.ä. BSP: Regel: pen => juice

 Ähnlich wie beim standart data mining prozess, kann der Web Usage Mining Prozess in 3 Teile geteilt werden.  Data collection & pre-processing

“YouTube eine weltweite, nicht-exklusive und gebührenfreie Lizenz ein (mit dem Recht der Unterlizenzierung) bezüglich der Nutzung, der Reproduktion, dem Vertrieb,