• Keine Ergebnisse gefunden

Häufig wird bei der Auftrennung eines Kohlenhydratgemisches nicht ein komplettes Massenspektrum aufgenommen, sondern es kommt nur zur Bestimmung des Massenpeaks der getrennten Kohlenhydrate[97, 98]. Dieses geschieht dann für alle Bestandteile des Gemisches und nennt sich Glykan-Profiling. Gerade dafür ist es von essentieller Bedeutung, mittels geeigneter Spektren-Bibliotheken, eine schnelle Identifizierung der analysierten Zuckerstruktur zu ermöglichen, um eventuelle Rückschlüsse auf das in der untersuchten Zelle oder in dem untersuchten Gewebe veränderte Kohlenhydratgemisch ziehen zu können. Es wurde daher ein

Webinterface entwickelt, das es gestattet, nur nach einer einzelnen Masse suchen zu können.

Abbildung 70: Webinterface des Glykan-Profiling Algorithmus

Durch Anklicken des <Search now>-Buttons wird nun in der Bibliothek gesucht. Es wird aber nur die molekulare Masse der Verbindung berücksichtigt. Auch hier wird nun eine Liste ausgegeben, so dass die besten Treffer oben stehen.

Abbildung 71: Liste der gefundenen Strukturen

Auch hier ist wieder gut zu erkennen, dass sich die besten Treffer in der Struktur sehr ähnlich sind. Dies bedeutet aber auch, dass eine eindeutige Zuordnung mit dieser Methode nicht möglich ist. Wenn in einer zukünftigen Version noch weitere

Parameter wie Spezies oder Gewebe hinzukommen, kann aber auch auf diese Art und Weise eine Identifizierung möglich sein.

4.15.1 Ergebnis und Diskussion

Mit den beiden vorgestellten Methoden GLYCO-SEARCH-MS und GLYKAN-PROFILING bietet sich zum ersten Mal die Möglichkeit, Kohlenhydrat-Strukturen, entweder durch den ermittelten Molekülpeak oder durch ein gemessenes MS-Spektrum, automatisch an Hand von theoretischen Vergleichsspektren zu ermitteln.

Im Gegensatz zu den Programmen GLYCOMOD und GLYCANMASS, die in der Einleitung beschrieben sind, finden hier zum ersten Mal auch die strukturell aussagekräftigeren X- und A-Ionen der Kohlenhydrate[54] bei der Ermittlung der Struktur Berücksichtigung. Auf Grund der bedeutend größeren Residuenanzahl (für

GLYCOMOD und GLYCANMASS nur 10, GLYCO-SEARCH-MS und GLYKAN-PROFILING 450), die für die Beschreibung der Strukturen zur Verfügung stehen, können auch wesentlich mehr Fragestellungen bearbeitet werden. So können sowohl N- und O-Glykane, sowie deren Derivate, als auch Lipopolysaccharide mit dem Suchalgorithmus erkannt werden. Ideal ist das Verfahren für einen automatischen Vergleich bei der Auftrennung mittels chromatographischer Verfahren. Dazu muss die Bewertungsfunktion aber noch weiter optimiert werden, so dass eine eindeutige Identifizierung des Kohlenhydrats möglich ist. Zurzeit können Scores im Bereich von 40 bis 75 als gut zugeordnet betrachtet werden, aber leider nicht als erkannt gelten.

Zumindest aber die Komposition ist richtig zugeordnet. Ab einem Score von 75 kann die Substanz als erkannt gelten. Dieses hängt aber noch sehr stark von der Qualität des ermittelten Massenspektrums ab, da in der Literatur bei vielen Massenspektren die Auflösung noch zwischen 0,5 und 1,0 Da liegt. Bei MS-Spektren deren Auflösung unter 0,1 Da liegt, und deren Messparameter optimal für Kohlenhydrate sind, so dass viele aussagekräftige A- und X-Fragmente entstehen, kann aber eine eindeutige Zuordnung der Komposition und auch der glykosidischen Bindungen erfolgen[89, 93]. Für die Zukunft ideal wäre eine Suche, bei der auch taxonomische Parameter Berücksichtigung finden, damit eine große Anzahl von Strukturen von vornherein ausgeschlossen werden können.

5 Untersuchungen zur automatischen Pflege und Annotierung einer Datenbank

Das Internet hat grundsätzlich und praktisch die Art und Weise verändert, wie

wissenschaftlichen Daten, Informationen und Wissen ausgetauscht werden. Mit dem Internet sind zum ersten Mal die technischen Möglichkeiten geschaffen, Wissen weltweit zu präsentieren und allgemein zugänglichen zu machen. Internet basierte Datenbanken sind ein wesentlicher Bestandteil der wissenschaftlichen

Informationsvermittlung im Bereich der Molekularbiologie und Bioinformatik. Sie bieten einen einfachen und standardisierten Zugang über Webbrowser von jedem Punkt der Welt, der über einen Internetanschluss verfügt.

Im Zuge der Sequenzierung des menschlichen Genoms haben sich für den Bereich der Genomik und Proteomik in den letzten 10 Jahren sehr vielfältige Datenbanken etabliert, die eine komfortable Recherche und Extraktion von Daten unter

verschiedenen medizinischen und biologischen Aspekten gestatten. Für die Genomik sind dies in erster Linie die Datenbanken GENBANK und EMBL. Für den Bereich der Proteomik sind die Datenbanken SWISSPROT/TREMBL und die PROSITE zu

nennen. Die Anstrengungen zum Aufbau von Datenbanken im Bereich der

Glykobiologie nehmen sich dagegen eher bescheiden aus. Allerdings gibt es in den letzten zwei Jahren verschiedene Initiativen, entsprechende Datenbanken auch für die Glykowissenschaften zu entwickeln. Als Beispiele sind hier zu nennen die CAZy-(Carbohydrate Active Enzymes) Datenbank, die O-GLYCBASE (experimentell

bestätigte O-Glykosylierungspositionen), die GLYCOSUITEDB (N- und O-Glykane) und die im DKFZ entwickelte SWEET-DB als wichtigste Vertreter zu nennen.

Ein wichtiger Faktor für die Akzeptanz einer wissenschaftlichen Datenbank ist ihre Aktualität, ein einfacher und intuitiver Zugang und die Qualität, der in ihr enthaltenen Daten. Die Organisierung des Prozesses der Neueingabe von wissenschaftlichen Daten ist daher ein Prozess von zentraler Bedeutung, der leider auch sehr arbeits-und damit auch kostenintensiv ist. So konnten die frühen großen Datenbankprojekte im Bereich der Glykowissenschaften, CARBBANK und SUGABASE, nicht mehr aktualisiert werden, nachdem die staatlichen Förderungen ausgelaufen waren.

Bei der CARBBANK und SUGABASE wurde die Neuaufnahme von Strukturen und deren Annotation weitgehend manuell vorgenommen. Dies ist jedoch ein sehr empfindlicher Prozess für eine Datenbank. So wird sie für den Benutzer unbrauchbar, sobald sich zu viele fehlerhafte oder nicht in das Themengebiet

gehörende Daten darin befinden. Die notwendige Kontrolle einer manuellen Eingabe erhöht jedoch den Zeitbedarf und die Kosten der Datenbank erheblich. Allerdings sind viele Daten, die früher aus wissenschaftlichen Publikationen durch einen Wissenschaftler extrahiert und manuell eingegeben werden mussten, heute in digitaler Form verfügbar. Mit der PUBMED steht ein für die Biowissenschaften umfassendes Reservoir an wissenschaftlichen Erkenntnissen allgemein in Form von Abstracts zur Verfügung. Zusätzlich können weitere wissenschaftliche Daten in Form von digitalen Publikationen erschlossen werden, wenn, wie dies im DKFZ der Fall ist, für relevante Zeitschriften die Zugriffsrechte vorhanden sind. Vor diesem Hintergrund eröffnen sich neue Wege der automatischen Erschließung und Aufbereitung von wissenschaftlichen Daten. In den folgenden Abschnitten soll untersucht werden, inwieweit es möglich ist, spezielle wissenschaftliche

Datensammlungen, hier die bereits existierende SWEET-DB, durch die Verwendung

von wissenschaftlichen Ansätzen aus den Informationswissenschaften zu

komplettieren. Weiterhin soll untersucht werden, wieweit sich die Beschreibung der in der Literatur bekannten Informationen über das Vorkommen und die Funktionen von Glykanen durch den Einsatz von neuen Such- und Bewertungsalgorithmen

automatisieren lässt.

Im Moment wird in Amerika durch das Consortium for Functional Glycomics1

versucht, eine Datenbank mit Informationen zu Kohlenhydraten, wie Vorkommen in welcher Spezies, Struktur, chemische und physikalische Eigenschaften und deren physiologischen Funktionen zu schaffen. Im Rahmen dieser Entwicklung werden auch unterschiedliche Annotierungsstrategien untersucht.

Weiterhin gibt es viele kleinere Datenbankprojekte, von denen eine Auswahl in den folgenden Abschnitten dargestellt wird. Einen aktuellen Überblick über im Internet verfügbare biomedizinische Datenbanken liefert jährlich das erste Heft eines Jahrgang von Nucleic Acids Research „The Database Issue 2003“[65].

Die Verknüpfung der Gen- und Protein-Datenbanken über ihre jeweilige Sequenz hat sich für die effiziente Nutzung dieser Datenbanken als sehr wichtig erwiesen. Für ein bestimmtes Protein kann der Benutzer so schnell alle verfügbaren Informationen aus verschiedenen Datenbanken abrufen. Die Entwicklung von effizienten Ansätzen zur Quervernetzung von Informationen aus biomedizinischen Datenbanken, die unter verschiedenen wissenschaftlichen Aspekten erhoben wurden, hat sich als eine Technik erwiesen, die ein hohes Potential für synergetische Effekte in der biomedizinischen Forschung beinhaltet.

1 http://web.mit.edu/glycomics/consortium/