• Keine Ergebnisse gefunden

6. Entwicklung eines Konzepts 91

6.5 Schicht 5: Analysespezifische Datamarts

6.5. Schicht 5: Analysespezifische Datamarts 101

102 6. Entwicklung eines Konzepts Es wird vorgeschlagen, kein festes Zielschema zu verwenden, um sich nicht auf be-stimmte Auswertungen festzulegen. Daher muss es ermöglicht werden, Zielschemata mit beliebigen Inhalten aus dem Datenpool (Schicht 3) zusammenzustellen. Hierzu sollten so weit wie möglich etablierte Werkzeuge Verwendung finden. Im Rahmen dieser Arbeit wurde vielfach der Oracle-Warehouse-Builder eingesetzt.

Um domänenübergreifende, analysespezifische Datamarts zu erstellen, müssen zuerst die Schemata oder Teile der Schemata verschiedener Datendomänen miteinander ver-bunden werden. Im zweiten Schritt können die eigentlichen Daten über identifizieren-de Attributwerte verknüpft weridentifizieren-den. Dieses Vorgehen ist in Abbildung 6.4 dargestellt.

Schicht 4

DD 3

DD 4 DD 1

DD 2 Schicht 3

DD n

Schicht 5

Daten in

Domänen-spezifischen Schemata Transformation und Laden aufbereitete Daten für spezifische Fragestellungen Identifikation von Verknüpfungspunkten in den Schemata Datenrecords zwischen den Domänen verknüpfen

Zielschema mit Verknüpfungen der Entitäten

Zielschema mit verlinkten Daten TL 1

TL 2

TL 3

TL 4

TL n

Abbildung 6.4: Detailansicht von Schicht 5 des Konzepts

6.5.1 Verknüpfen von Schemata unterschiedlicher Domänen

Um Schemata von Datendomänen oder Teile von Datendomänen miteinander zu ver-binden, ist in jedem Fall Expertenwissen notwendig. Jedoch bietet es sich an, Ver-knüpfungspunkte bei gleichen oder ähnlichen Tabellen- und Attributbezeichnungen und auch bei gleichen Datentypen zu suchen. Dies kann semi-automatisch (mit an-schließender Korrektur) über das Data-Dictionary des DBMS oder mit Hilfe kontrol-lierten Vokabulars ablaufen.

Grundsätzlich wird das Bindeglied zwischen verschiedenen Datendomänen in der Pflan-zenbioinformatik durch das Objekt Pflanze gebildet. Solche Objekte sind am besten

6.5. Schicht 5: Analysespezifische Datamarts 103 durch Passportdaten abzubilden. Über Attribute wie Akzessionsnummer, Sortenname oder Taxonomie lassen sich vielfach Daten unterschiedlicher Domänen miteinander verbinden. Unabhängig davon hat die praktische Erfahrung im Rahmen dieser Arbeit gezeigt, dass physisch oftmals auch Sequenzdaten im Fokus von Untersuchungen ste-hen und sich Datendomänen auf diese Weise über Sequenzidentifikatoren verbinden lassen. Ein großer pflanzenbiologischer Forschungsschwerpunkt ist die Analyse von Genstruktur und -funktion. Sequenzierungen sind dabei ein häufig genutzter Ansatz.

Spezifika des jeweiligen Zielschemas müssen in Abhängigkeit der Anforderungen zu-sätzlich modelliert werden. Dies gilt insbesondere im Hinblick auf die Vorverarbeitung von Daten (Abschnitt 6.4.2). Das Ergebnis ist ein analysespezifisches Datamartsche-ma.

6.5.2 Verknüpfen der Records unterschiedlicher Domänen

Nach der Identifikation von Verknüpfungspunkten zwischen verschiedenen Datendo-mänen und der Erstellung eines analysespezifischen Datamartschemas, müssen im zweiten Schritt die Daten der jeweiligen Domänen integriert werden. Hierzu ist es erforderlich, Pflanzenobjekte zu identifizieren, die in mehr als einer Domäne vorkom-men, und darüber deren Daten zu verbinden. Dabei kann häufig nicht der Gleichheits-operator verwendet werden (deterministisches Record Linkage). Deswegen ist es bei der Verwendung von Daten aus verschiedenen Quellen oftmals notwendig, ähnlich wie beim Finden von Duplikaten (Abschnitt 6.4.1), Attribute von Pflanzenobjekten auf ihre Ähnlichkeit hin zu überprüfen. Im Fokus steht jedoch in diesem Fall nicht das Finden von Duplikaten innerhalb einer Datendomäne, sondern das Suchen nach Identifikato-ren, mit denen sich Daten aus verschiedenen Domänen mit großer Wahrscheinlichkeit einander zuordnen lassen.

Im Falle numerischer Werte ist dies mit Hilfe von Abweichungen vergleichsweise ein-fach (d(x, y) = |x −y|), kann aber bei alphanumerischen Werten sehr kompliziert werden. Wie in Kapitel 4 ausgeführt, wird die Datenqualität in der Pflanzenbioinfor-matik oftmals nicht den Erwartungen gerecht. So wird häufig kein kontrolliertes Vo-kabular verwendet, sondern es gibt unterschiedliche Schreibweisen von Sortennamen etc. Als mögliche Lösung wird der Einsatz von Similarity-Ranking-Methoden oder Äquivalenzmethoden vorgeschlagen (vgl. Abschnitt 2.1.4).

Während im Bereich der pflanzengenetischen Ressourcen als Identifikatoren meist Ak-zessionsnummern verwendet werden, denen ein relativ vollständiger wissenschaftli-cher Name einer Pflanze zugeordnet ist (z. B. „Hordeum vulgareconvar.intermedium (Körn.) Mansf.“), wird darauf bei genetischen oder molekularen Daten oftmals nicht so viel Wert gelegt. Der Nutzer solcher Daten ist häufig damit konfrontiert, dass

wis-104 6. Entwicklung eines Konzepts senschaftliche Namen nur gekürzt verwendet werden (z. B. nur „Hordeum vulgare“

oder die englische Bezeichnung„Barley“). Ebenfalls wird mit Sortennamen gearbei-tet. Das gelegentlich auftretende Problem mehrfach vergebener Sortennamen soll hier vernachlässigt werden. Schwerwiegender ist, dass im Falle der Sortennamen, die zen-trale Identifikatoren darstellen, diese oftmals um zusätzliche Informationen angerei-chert werden. Beispielsweise finden sich zur Gerstensorte „Ingrid“ auch Einträge wie

„Ingrid WT“, „Zweizeilige Gerste Ingrid“, „Ingrid BC mlo5“ oder „Ingrid MLG“. Um Daten mit Hilfe solcher Identifikatoren aufeinander abbilden zu können, muss versucht werden, Ähnlichkeiten zu berechnen.

Da es sich um unterschiedlich lange Zeichenketten handelt, würde die Hamming-Distanz gegen unendlich gehen und scheidet somit als Grundlage für eine Ähnlich-keitsberechnung aus. Vergleichbar sind auch die Ergebnisse bei der Verwendung von Editdistanzen. Während sich bei einfachen Schreibfehlern (einschließlich eines Buch-stabens zu viel oder zu wenig) gute Resultate erzielen lassen, werden die Editdistan-zen bei deutlich verschieden langen Zeichenketten wie im vorgestellten Fall sehr groß.

Ähnlich unbefriedigend verhält es sich auch beim Soundex-Algorithmus.

Die Anwendung dieser Methoden soll exemplarisch am zuletzt genannten Soundex-Algorithmus gezeigt werden. Während dieser Soundex-Algorithmus für die Sortennamen „In-grid BC mlo5“ und „In„In-grid MLG“ denselben Lautähnlichkeitswert berechnet (I526), ergeben die Bezeichnungen „Ingrid WT“ und „Zweizeilige Gerste Ingrid“ die bei-den unterschiedlichen Werte I526 und Z242. Dies deckt sich mit bei-den Untersuchun-gen aus [LR96], in denen gezeigt wird, dass nur ungefähr ein Drittel der identifizier-ten Mappings korrekt ist. Weiterhin muss hier in Betracht gezogen werden, dass die Sortenbezeichnungen einschließlich ihrer jeweiligen Erweiterungen in verschiedenen Sprachen vorliegen können4. Der Soundex-Algorithmus ist ursprünglich für die eng-lische Sprache entwickelt worden. Zwar gibt es zwischenzeitlich Implementierungen für verschiedene Sprachen, jedoch ist es als wahrscheinlich anzusehen, dass die not-wendige Kombination dieser Implementierungen die Ergebnisse weiter verschlechtert.

Im hier beschriebenen Fall erbrachten ein Local-Alignment-Algorithmus [SW81] so-wie ein Longest-Common-Substring-Algorithmus die besten Ergebnisse. Unabhängig davon wird es aufgrund der Datenlage in vielen Fällen notwendig sein, die Ergebnisse manuell zu überprüfen.

An dieser Stelle soll darauf hingewiesen werden, dass es eine Vielzahl interessanter und viel versprechender Ansätze für das Record-Linkage gibt. Die Intention dieser Ar-beit besteht jedoch darin, einen variablen Prozessfluss vorzuschlagen, der eine flexible Datenintegration und -analyse ermöglicht, ohne jedes Mal substanzielle Anpassungen vornehmen zu müssen. Aus diesem Grund wird vorgeschlagen, den Fokus auf eine beschränkte Menge von Algorithmen zu legen, die als so genannte nutzerdefinierte

4Die in dieser Arbeit betrachteten Passportdaten enthalten Informationen über Genotypen aus einer Viel-zahl von Ländern einschließlich länderspezifischer Sortenbezeichungen.

6.6. Schicht 6: Analyse 105