Im Web verfügbare Datenbanken im Bereich der Glykobiologie

Name Inhalte URL

Kohlenhydrat-relevante Informationen in Protein Datenbanken

CAZy Kohlenhydrat-aktiven GlycoSuiteDB Proteome Systems Ltd http://www.glycosuite.com/

Glycomic Database GlycoMinds http://www.glycominds.com/GlycoInfo.asp Tabelle 13: Im Web verfügbare Datenbanken im Bereich der Glykobiologie

5.2 Ausgangssituation

Im Laufe der vergangenen Jahre sind die oben genannten über das Internet

zugänglichen Datenbanken entwickelt worden. Teilweise werden diese Datenbanken schon über mehrere Jahre intensiv gepflegt. Es wird von den Entwicklern der

Datenbanken permanent daran gearbeitet, dass der Datenbestand der Datenbanken sich stetig erhöht und auch neue Möglichkeiten der Recherche oder andere Features hinzukommen. Im Folgenden sind einige der Datenbanken näher erläutert, die für den Bereich der Genomik, Proteomik und Glykomik als repräsentativ gelten können.

5.2.1 GENBANK

Bei der GENBANK[99]¹ handelt es um eine Datenbank des National Institut of Health (NIH) der USA für alle Gen- und Proteinsequenzen, die öffentlich zugänglich sind.

Derzeit sind mehr als zwölf Milliarden DNA-Bausteine in der Datenbank gespeichert.

Diese Gensequenzen stammen von über 55 000 verschiedenen Organismen, darunter natürlich auch die Daten des Humangenoms. Alle Gensequenzen und Proteindaten werden direkt mit Hilfe definierter Schnittstellen von einzelnen Genforschern oder von Großprojekten eingeschickt. Tägliche Aktualisierungen können über das Internet über FTP-Server abgerufen werden. Per E-Mail können schließlich sämtliche Gen- und Proteindaten jederzeit über ein Interface abgefragt werden, ohne im Internet die Homepage der NIH ansteuern zu müssen. Die GENBANK enthält außer den Sequenzdaten auch Informationen zur Taxonomie, Kartierung, Proteinstruktur und biomedizinische Literaturangaben mit den

Kurzfassungen der publizierten Studien. Die Datenbank kann kostenlos über die Homepage des National Center for Biotechnology Information (NCBI) am NIH durchforstet werden.

1 http://www.ncbi.nlm.nih.gov

5.2.2 EMBL

Die EMBL Nucleotide Sequence Database¹, die vom European Bioinformatics Institute (EBI) in Hinxton zusammengestellt wird, enthält Informationen über entschlüsselte Nukleinsäuresequenzen. Die zurzeit aktuelle Version 76 vom September 2003 enthält über 27 Millionen Sequenzen mit insgesamt über 33

Milliarden Nukleotiden. Seit der Version 1 vom Jahre 1982 vermehrte sich der Inhalt der Datenbank um 50%-100% in jedem Jahr. EMBL ist in 18 Abteilungen aufgeteilt, die jeweils Sequenzen aus abgegrenzten Forschungsbereichen zusammenfassen sollen. In den meisten Fällen ergibt sich diese Abgrenzung durch die Taxonomie der Herkunftsorganismen.

5.2.3 SWISSPROT/TREMBL

SWISSPROT², eine Datenbank mit Informationen zu Proteinseqenzen, wird

gemeinsam von dem Department of Medical Biochemistry der Universität Genf und dem EBI in Hinxton zusammengestellt. Die aktuelle Version 41 stammt vom Februar 2003 und enthält 122.564 Sequenzen mit insgesamt fast 45 Millionen Bausteinen.

Alle Sequenzen der aktuellen Version sind in einer Datei zusammengestellt. Es gibt also keine verschiedenen Abteilungen wie bei der EMBL. Die TREMBL-Datenbank entspricht den Übersetzungen aller kodierenden DNA-Sequenzen aus der EMBL-Datenbank, die noch nicht in der SWISSPROT enthalten sind.

5.2.4 PROSITE

Bei der PROSITE Datenbank[100-103]³ handelt es sich um den Versuch die Vielzahl der verschiedenen Proteine in Proteinfamilien zusammenzufassen. In den Proteinen können außerdem Domänen identifiziert werden. Auf die Einträge der PROSITE kann durch unterschiedliche Suchfunktionen wie Literaturstelle, Autor oder

Beschreibung zugegriffen werden. Im Moment (Stand September 2003) sind in der Datenbank 1655 verschiedene Einträge enthalten.

5.2.5 Brookhaven Protein Databank (PDB)

Bei der Brookhaven Protein Databank[62, 103]⁴ handelt es sich um eine Datenbank, die die 3D-Koordinaten von Proteinen beinhaltet. Bei den 3D-Koordinaten handelt es sich entweder um Röntgenstrukturen oder durch Molecular Modelling berechnete Modelle.

Der Benutzer ist so in der Lage, nach einer speziellen Proteinstruktur für eine Spezies zu suchen. Diese Strukturen können dann z. B. für Docking-Experimente benutzt werden. Die Strukturen können in unterschiedlichen Formaten herunter geladen werden. Dies ist zum einen das pdb-format, das aber immer mehr durch das mmCIF-Format abgelöst wird.

5.2.6 PUBMED

Eine der wichtigsten und in dieser Arbeit am häufigsten benutzten Datenbank ist die PUBMED⁵, eine ebenfalls vom NCBI gepflegte Datenbank, die Publikationsdaten für

den Bereich der Medizin und Biotechnologie bereithält. Hier zeigt sich sehr schön, wie einfach und auch effektiv es sein kann, Millionen von Datensätzen zu durch-suchen und die Daten nach der Suche zu übernehmen. In den letzten Jahren hat die NCBI auch der allgemeinen Entwicklung im Internet Rechnung getragen und bietet seine Daten jetzt auch in einer objektorientierten XML-Form an, die direkt von einer Anwendung weiterverarbeitet werden kann. So werden durch die ENTREZ

PROGRAMMING UTILITIES Schnittstellen zur Verfügung gestellt, die es dem

Benutzer gestatten, auch ohne Webinterface Suchanfragen zu stellen und die Daten an das Programm zur Weiterverarbeitung übertragen. Die PUBMED enthält zur Zeit über 14 Millionen Einträge, die bis in das Jahr 1950 zurückreichen. In den letzten Jahren sind im Durchschnitt etwa 500.000 neue Publikationen pro Jahr

hinzugekommen.

5.2.7 CAZy – Carbohydrate Active EnZymes

Bei der CAZy [9, 10]¹ handelt es sich um eine Datenbank, die eine sehr detaillierte Übersicht der einzelnen Familien der kohlenhydrataktiven Enzyme enthält. Eine grobe Einteilung der Enzyme erfolgt in Glykosidasen,

Transglyko-sidasen,!Glykosyltransferasen, Polysaccharid Lyasen und Kohlenhydrat Esterasen.

Es besteht eine Suchmöglichkeit nach Organismus oder Familienzugehörigkeit des Enzyms. Es wird, wenn bekannt, sowohl das Substrat der katalysierten Reaktion dargestellt, als auch das Endprodukt. Falls möglich erfolgt eine direkte Verlinkung zur SWISSPROT, GENBANK oder zur PDB-3D-Struktur.

5.2.8 O-Glycbase

In der O-GLYCBASE[104, 105]² befinden sich Daten zu den O-Glykanen und

Glykosylierungsstellen von Proteinen. Zurzeit (Stand September/2003) befinden sich 242 Einträge in der Datenbank. In den Datensätzen werden die Sequenz des

Proteins, die Stelle der Modifikation und die Publikation, aus der die Daten

entnommen worden sind, dargestellt. Gleichzeitig bietet die Website die Möglichkeit, sich Glykosylierungsstellen durch das Programm NETOGLYC[106, 107] vorhersagen zu lassen.

5.2.9 GLYCOSUITEDB

Bei der GLYCOSUITEDB[108, 109]³ handelt es sich um eine kommerzielle Datenbank von der Firma Proteome Systems Ltd., die Daten enthält, die in den Bereich der Glykobiologie gehören. Es befinden sich zurzeit 8100 verschiedene Strukturen in der Datenbank, wobei es sich um N-Glykane, O-Glykane und

Lipopolysaccharide handelt. Die Suchmöglichkeiten sind sehr vielfältig. So kann nach Massen, beliebigen Substrukturen, Spezies, Publikationsdaten und auch der

Komposition in der Datenbank gesucht werden. Es werden allerdings keine NMR-Spektren oder Massenspektren bereitgehalten, so dass eine Identifizierung von unbekannten Substanzen durch diese Methode nicht ohne weiteres möglich ist.

Leider werden die Informationen seit März 2003 auch den akademischen Nutzern nicht mehr kostenlos zur Verfügung gestellt.

1 http://afmb.cnrs-mrs.fr/CAZY/

2 http://www.cbs.dtu.dk/databases/OGLYCBASE/

3 http://www.glycosuite.com/

5.2.10 SWEET-DB

Ähnlich wie bei der CARBBANK wurde mit der SWEET-DB[59]¹ eine Datenbank entwickelt, die es zum Ziel hat, eine Arbeitsumgebung für alle Fragestellungen im Bereich der Kohlenhydratanalytik zu sein. Die Datenbank enthält die Daten der ehemaligen COMPLEX CARBOHYDRATE DATABASE[110] und der ehemaligen SUGABASE. Beide Datenbanken wurden leider wegen fehlender Finanzmittel und der aufwendigen Annotation der enthaltenen Daten eingestellt.

Im Laufe der Jahre wurden immer mehr Daten zur SWEET-DB hinzugefügt. Ein großer Vorteil der SWEET-DB ist die Verlinkung mit weiteren bestehenden Datenbanken: So besteht die Möglichkeit direkt zur Webseite der PUBMED zu springen, um von dort aus weitere Literaturrecherchen zu einem bestimmten Kohlenhydrat oder aber auch zu einem bestimmten Wissensgebiet zu machen.

Großer Wert wurde auf die Abfragemöglichkeiten gelegt, mit denen es möglich ist, Daten aus der Datenbank zu selektieren. So besteht zum einen die Möglichkeit in den Titeln, aber auch in den Autoren der gespeicherten Publikationen nach einem bestimmten Schlagwort oder einem bestimmten Autor zu suchen. Bei beiden Suchmethoden kann man eine Ähnlichkeitssuche wählen, so dass auch ähnliche Begriffe oder Autoren gefunden werden.

Ein großer Vorteil besteht darin, dass die Strukturen intern in der so genannten LINUCS-Notation[111] gespeichert werden. Mit dieser Notation ist es möglich, die Sequenz eines Kohlenhydrats linear zu beschreiben, und man verbessert so die Computer-Lesbarkeit. Man kann so nach Substrukturen suchen, aber viel wichtiger ist die Möglichkeit Daten basierend auf der Struktur in der Datenbank zu finden. So kann schnell die Masse und auch die Summenformel und Komposition der Struktur ermittelt werden.

In der Datenbank befinden sich zurzeit 22337 Strukturen, die aus 15364 Publikationen extrahiert worden sind (Stand September 2003).

Im Dokument Inaugural-Dissertation zurErlangung der DoktorwürdederNaturwissenschaftlich-Mathematischen GesamtfakultätderRuprecht-Karls-UniversitätHeidelberg (Seite 86-89)