• Keine Ergebnisse gefunden

Seit nach der Rohsequenzierung ein Großteil der B. licheniformis Sequenz bekannt war, wur-de diese Sequenz wur-dem Annotationsprozess unterzogen. Im Verlauf wur-des Sequenzierungsprojek-tes bis hin zum Schließen des Genoms wurde dieser Prozess regelmäßigen UpdaSequenzierungsprojek-tes unterzo-gen.

Unter Annotation versteht man das Finden aller durch die Nukleotidsequenz kodierten Gene.

Soweit möglich soll den abgeleiteten Proteinen dabei eine Funktion zugewiesen werden. Das Zuweisen der Funktion beruht auf Sequenzähnlichkeit und folgt dem Paradigma, dass ab einer Ähnlichkeit von 30% mit hoher statistischer Sicherheit auf übereinstimmende räumliche Strukturen für Proteine geschlossen werden kann (Sander and Schneider, 1991).

Für die Annotation im Genomprojekt B. licheniformis wurde nach der ORF Vorhersage das Programm ERGO (Overbeek et al., 2003) sowohl für eine automatische, als auch für eine de-taillierte manuelle Annotation verwendet.

2.14.1. ORF Vorhersage

Bevor mit der Annotation begonnen werden konnte, mussten zuerst alle potentiellen offenen Leserahmen (ORFs, open reading frames) identifiziert werden. Diese Aufgabe wurde durch ORF-finder bewerkstelligt, Programme, die Sequenzen im einfachsten Fall nach Stop-Codons (TAA, TGA, TAG) durchsuchen und damit zuerst das Ende eines ORFs festlegen. Im nächs-ten Schritt wird dann im selben Leserahmen in 5’-Richtung nach einem Start-Codon gesucht.

Erreicht dieser ORF eine vorher festgelegte Mindestlänge, werden die Koordination (Start und Stop) des Gens für die weitere Verarbeitung gespeichert. Für diese bioinformatische Auf-gabenstellung gibt es mehrere Programme, die alle bestimmte Vor- und Nachteile mit sich bringen. Für eine optimale ORF-Vorhersage ist eine Kombination mehrere Programme und Methoden vorteilhaft. Das Programm YACOP (Tech and Merkl, 2003) erfüllt als kombinier-ter ORF-finder diesen Anspruch und wurde im vorliegenden Projekt verwendet. Aus der Vielzahl der so gefundenen, sich zum Großteil überschneidenden ORFs, filtern die ORF-finder solche heraus, die mit einer gewissen Wahrscheinlichkeit Gene sein können. Die ver-wendeten ORF-finder untersuchen dabei die interne Zusammensetzung der Sequenz in einem ORF. Dabei wird ausgenutzt, dass die Organismen nicht alle Codons des genetischen Codes verwenden, sondern nur einen Spezies spezifischen Subset.

Mit Hilfe des Programms Artemis (http://www.sanger.ac.uk/Software/Artemis/ konnten die durch YACOP gefundenen potentiellen ORFs auf Ebene der Nukleotidsequenz überprüft

Überprüfung der ORFs waren zum einen das Vorhandensein einer Ribosomenbindestelle (AAGGAGG) (Sonenshein et al., 1993) und zum anderen eine einheitliche codon usage vom Start- bis zum Stoppcodon des ORFs.

Abbildung 2.9.: Darstellung eines Genomabschnittes im Programm Artemis. Blaue und weiße Pfeile zeigen die einzelnen ORFs zu einen auf dem leading strand und zum anderen auf dem lagging strand.

Die rot/grün/blaue Grafik stellt den Corelation score (codon usage), d.h. die G+C Verteilung an erster, zweiter und dritter Position in allen Codons im Bereich des mit dickem schwarzem Rahmen markierten ORFs dar. Im unteren Bereich der Abbildung ist der Beginn der Nukleotidsequenz des markierten ORFs zu sehen. Am Anfang des ORFs sind die Ribosomenbindestelle (rot) und das Startcodon (grün) gekennzeichnet.

2.14.2. Automatische Annotation - ERGO (Overbeek et al., 2003)

Für eine abschließende Annotation des B. licheniformis Proteoms wurde das ERGO Pro-grammpaket verwendet. Nach einer automatisch durchgeführten Annotation wurde diese für jedes Protein zusätzlich manuell validiert. Die automatische Annotation durch ERGO beinhal-tet die Übersetzung der, von YACOP in Form von Start- und Stoppositionen vorhergesagten, Gene in Proteinsequenzen und deren Abgleich mittels FASTA (Pearson, 1994; Pearson and Lipman, 1988) gegen eine nichtredundante Proteindatenbank bestehend aus:

• Swiss-Prot (uniprot_sprot.*.gz)

• TrEMBL (uniprot_trembl.*.gz)

• TrEMBL new (new/uniprot_trembl_new.*.gz)

Die Dateien befinden sich unter:

ftp.expasy.org/databases/uniprot/knowledgebase/.

Um die manuelle Annotation zu erleichtern, wurde außerdem eine BLAST-Suche gegen die jeweils aktuelle Proteindatenbank (ftp.ncbi.nih.gov/blast/db/nr.tar.gz) des NCBI durchgeführt und das Ergebnis auf der jeweiligen Protein-Seite in ERGO abgebildet (s.Abbildung 2.10.).

Die Suche nach tRNAs wird von dem Computerprogramm tRNAscan (Lowe and Eddy, 1997) durchgeführt.

Abbildung 2.10.: Screenshot aus dem Programm ERGO. Das oberste Fenster gibt die Position im Genom, die Größe und die Annotation für den aktivierten ORF (rot) wieder. Im mittleren Bereich ist der Abschnitt des Genoms von B. licheniformis mit den darauf angeordneten ORFs zu sehen. Als Beispiel ist hier für den ORF der Malat-Dehydrogenase im unteren Fenster das NCBI-BLAST-Ergebnis darge-stellt.

2.14.3. Funktionelle Annotation durch Vergleich lokaler Sequenzhomolo-gien (BLAST)

Die manuelle Annotation wurde durch funktionale Sequenzanalysen abgesichert. So wurde zur Vorhersage membranspannender Regionen das Programm TMPred (Bateman et al., 2004) (www.ch.embnet.org/software/TMPRED_form.html) genutzt.

Des Weiteren wurde die automatische Annotation jedes ORFs über BLAST (Altschul et al., 1990) gegen Swissprot, GeneBank/European Molecular Biology Laboratory databases (Benson et al., 2004; Kulikova et al., 2004) überprüft und verifiziert.

Das Programme Pfam wurde zur Einordnung von Proteinen in Proteinfamilien (Bateman et al., 2004) (www.sanger.ac.uk/Software/Pfam/) genutzt, COG zur Einordnung von Proteinen in Cluster orthologer Gruppen (Tatusov et al., 1997) (www.ncbi.nlm.nih.gov/COG/) und Pro-site (Hulo et al., 2004) zur Überprüfung funktioneller Motive in Übereinstimmung mit der zugewiesenen Funktion.

2.14.4. Funktionelle Annotation über Homologie zu Bacillus subtilis

B. subtilis ist ein gut abgesicherter Modelorganismus, der mit B. licheniformis sehr nahe ver-wandt ist. Daher wurde eine Suche aller homologen Gene beider Spezies durchgeführt, basie-rend auf der Idee, dass so eine Funktionszuweisung der homologen Gene in B. licheniformis möglich ist. Alle annotierten ORFs von B. licheniformis wurden mittels protein/protein BLAST mit der B. subtilis Datenbank SubtiList (http://genolist.pasteur.fr/SubtiList/) vergli-chen. Unter Einsatz einer speziell für diesen Zweck entwickelten Software (Ehrenreich, un-veröffentlicht) wurden die BLAST Alignments jedes einzelnen ORFs überprüft. Hierbei wur-de besonwur-derer Wert darauf gelegt, dass die Alignments jeweils über die gesamte Länge wur-der ORFs vorlagen.

Bei einem e-value kleiner oder gleich 10-15 und einem Alignment über die gesamte Länge wurden ORFs als ortholog eingestuft und die Annotation des orthologen B. subtilis Proteins übernommen.

2.14.5. Komparative Genomanalyse von B. licheniformis, B. subtilis und

B. halodurans

Die komparative Genomanalyse von B. licheniformis, B. subtilis und B. halodurans erfolgte mittels BLAST, indem jeder einzelne ORF der drei Organismen jeweils mit Datenbanken der beiden anderen Bacilli verglichen wurde. ORFs mit einem e-value kleiner oder gleich 10-15 wurden als ortholog eingestuft.

2.14.6. Sequenzanalyse basierend auf der codon usage – SIGI (Merkl, 2004)

Mit Hilfe des Programms SIGI kann die codon usage eines jeden ORFs mit der durchschnitt-lichen codon usage des gesamten Genoms verglichen werden. Das Programm SIGI sortiert die Gene in die drei Kategorien „normal exprimiert“, „stark exprimiert“ und „Fremdgene“

(alien genes). Gene, welche eine atypische codon usage aufweisen, werden anschließend durch Stammbaum und Gendatenbankanalysen daraufhin unterschieden, ob es sich um be-kannte stark exprimierte Gene, oder um so genannte alien genes handelt. Die genomische Umgebung solcher potentieller alien genes, d.h. durch horizontalen Gentransfer ins Genom gelangte Gene, wird ebenfalls überprüft, da davon ausgegangen werden kann, dass keine ein-zelnen Gene, sondern eher Gencluster (genomic islands) übertragen werden. Die Übertragung ganzer Gencluster konnte sowohl für pathogene (Hacker and Kaper, 2000), als auch für nicht pathogene (Kaneko et al., 2000) Bakterien gezeigt werden. Auf diese Weise kann die Anzahl falsch positiver alien genes deutlich herab gesetzt werden. Eine Visualisierung der alien genes erfolgte mit dem Programm Artemis.