• Keine Ergebnisse gefunden

7. Anwendung 111

7.2 Anforderungen

Bundessortenamtes (BSA) und aus Landessortenversuchen (LSV) sowie statistische Jahrbücher der Deutschen Braugerstengemeinschaft3 (BGJB) herangezogen.

Zusätzlich wurden im Teilprojekt 3 des GABI-MALT-Forschungsverbundes an der Bayerischen Landesanstalt für Landwirtschaft4 (LfL) über drei Jahre an zwei Orten Feldversuche und anschließende Analysen zur Malzqualität mittels Mikromälzung durchgeführt.

Ziel des Anwendungsfalls

Ziel war es, signifikante Assoziationen von Haplotypen- sowie SNP- und INDEL-Mustern mit Malz- und Brauqualitätsmerkmalen von Gerstensorten zu finden.

Durch den Einsatz von Hochdurchsatzverfahren wie der Pyrosequenzierung kann sehr effizient eine große Anzahl von Sorten auf SNP-Polymorphismen untersucht werden.

Die durch die Genotypisierung gewonnenen SNP-Markerdaten können durch Asso-ziationsberechnungen in Beziehung zu phänotypischen Merkmalen gesetzt werden.

Dies führt zu einer deutlichen Reduzierung der zeitintensiven phänotypischen Selekti-on (z. B. auf Ertragsparameter) im Feld und kostenintensiver Laboranalysen und damit zu einer Optimierung der Sortenentwicklung (markergestützte Selektion).

7.2 Anforderungen

Die Umsetzung des eben beschriebenen biologischen Anwendungsfalls ließ sich auf-grund des Umfangs der dabei verwendeten Datensätze nicht gut manuell bewältigen.

Die Bearbeitung sollte daher durch den Einsatz von Informatikmethoden unter Zuhil-fenahme des in Kapitel 6 entwickelten Konzepts unterstützt und effizienter gemacht werden.

Es wurden allgemeine sowie Anforderungen zur Integration und Analyse von Daten formuliert. Diese werden im Folgenden beschrieben und durch Use-case-Diagramme dargestellt.

3Arbeitsgemeinschaft zur Förderung des Qualitätsgerstenbaus im Bundesgebiet e.V. (Braugersten-Gemeinschaft), http://www.braugerstengemeinschaft.de [Stand 2009-04-02]

4http://www.lfl.bayern.de [Stand 2009-04-02]

114 7. Anwendung

7.2.1 Allgemeine Anforderungen

Die zur Bearbeitung des Anwendungsfalles erforderlichen Daten standen teilweise in proprietären Formaten, davon mehrheitlich in MS-Excel-Dateien, zur Verfügung. Dies betraf alle Markerdaten. Die phänotypischen Daten zur Malz- und Brauqualität lagen primär nur in gedruckter Form (statistische Jahrbücher der Deutschen Braugerstenge-meinschaft) vor.

Zur Speicherung phänotypischer und Markerdaten mussten daher geeignete Daten-bankstrukturen entwickelt werden.

Außerdem mussten Strukturen zur Speicherung von Passportdaten geschaffen werden.

Diese verbinden phänotypische und Markerdaten miteinander. Hinzu kam die Verwal-tung von Charakterisierungsdaten wie z. B. die Unterscheidung zwischen Sommer-und Winterform, Zeiligkeit etc.

Die zu verarbeitenden Daten sollten mit Hilfe von Bulk-Uploads in die Datenbank im-portiert werden. Dazu war es notwendig, Vorlagen (MS-Excel) zu entwerfen, die von Experimentatoren zur Zusammenstellung der Daten verwendet werden können. Dies war insbesondere für die strukturierte Erfassung der bisher in statistischen Jahrbüchern vorliegenden phänotypischen Daten erforderlich.

Weiterhin waren Werkzeuge zu entwickeln, um die in den Dateien durch Experimen-tatoren erfassten Daten in die entwickelten Datenbankstrukturen zu importieren. Be-sonderes Augenmerk war hierbei auf eine grafische Benutzerführung, insbesondere zum Aufzeigen von Formatierungsfehlern und fehlenden bzw. inkonsistenten Daten, zu legen.

Wie in Kapitel 4 beschrieben, ist es oftmals notwendig, importierte naturwissenschaft-liche Daten manuell zu kurieren. Dies trägt zur Verbesserung der Qualität bei. Hierfür waren für die Experimentatoren geeignete Werkzeuge zu schaffen.

Die Anforderungen sind in Abbildung 7.1 zusammengefasst.

7.2.2 Anforderungen zur Integration

Im Rahmen des hier beschriebenen Anwendungsfalles sollte eine Integration von phä-notypischen und Markerdaten durchgeführt werden. Dazu mussten geeignete Daten-bankstrukturen zur Durchführung der Integration entworfen werden.

Assoziationsstudien führen (häufig) auch zu falsch-positiven Ergebnissen [MBV05, CMDS03, Nat99]. Gründe dafür sind u. a. hohe Umweltvarianzen untersuchter Merk-male, zu geringe Stichprobenumfänge oder Fehlstellen. Als größter Einflussfaktor auf das Assoziationsergebnis wurde im Rahmen dieses Anwendungsfalls die Umweltva-rianz pro Sorte und Merkmal betrachtet (Abschnitt 4.4). Zum Verifizieren von

Ergeb-7.2. Anforderungen 115

Experimentator

Befüllung/Editierung von Importvorlagen mit

Daten

Importieren von Daten

manuelle Kurierung von Daten

Abbildung 7.1: Allgemeine Anforderungen

nissen war es erforderlich, eine Vielzahl verschiedener Varianten zu betrachten, z. B.

entweder Sommer- oder Winterformen, eine Auswahl nach Standortfaktoren der Ver-suchsanbauten, über Orte oder Jahre gemittelte Werte [CWL+08, MP07].

Dieses Vorgehen machte ein wiederholtes Neuimportieren von Subsets der Ausgangs-daten mit verändertem Datenumfang sowie die Aufbereitung des vorhandenen Daten-materials nötig. Daher mussten Lade- und Bereinigungsprozeduren entwickelt werden, die flexible Adaptationsmöglichkeiten bieten. Die durchzuführenden Bereinigungs-schritte werden im Detail in Abschnitt 7.3.4 besprochen.

Abbildung 7.2 fasst die Aufgaben der Integration zusammen.

Bioinformatiker Experimentator

Auswählen von Datensubsets

Integration der Daten

Bereinigung der integrierten Daten

Abbildung 7.2: Anforderungen der Integration

116 7. Anwendung

7.2.3 Anforderungen zur Analyse

Assoziationsstudien sollten auf Basis der integrierten und bereinigten Daten mit dem in der Pflanzengenetik etablierten Softwarewerkzeug TASSEL5[BZK+07] durchgeführt werden.

TASSEL importiert phänotypische und genetische Daten in jeweils unterschiedlichen, proprietären Formaten. Dazu war es erforderlich, Prozeduren zu entwerfen, die es er-möglichen, generische Anfragen an den integrierten Datenbestand zusammenzustel-len. Diese generisch erzeugten Anfragen sollten ausgeführt und die abgefragten Daten in von TASSEL lesbare Dateiformate exportiert werden. Hierbei waren fünf Typen von Datendateien zu unterscheiden:

• phänotypische Daten,

• Markerdaten,

• Daten über Populationsstrukturen (Q-Matrix),

• Daten über Sortenähnlichkeiten (Kinship-Matrix) sowie

• 1-2-Matrizen mit Haplotypenmustern.

Die letztgenannten 1-2-Matrizen bestehen aus Haplotyp- und Genotypbezeichnungen.

Das Vorhandensein eines bestimmten Haplotypenmusters bei einem Genotypen wird in der Matrix mit 1, das Fehlen mit 2 gekennzeichnet.

Der Export von genetischen, phänotypischen und Haplotypendaten sollte jeweils für ein Gen oder Genfragment erfolgen. Nicht zu allen Genotypen, für die Markerdaten verfügbar sind, existieren phänotypische Daten. Dies trifft auch im umgekehrten Fall zu. Daher mussten die zu diesem Gen bzw. Genfragment gehörenden Markerdaten mit phänotypischen Daten abgeglichen werden. Damit sollte gewährleistet werden, dass nur der Export der Schnittmenge von Genotypen zugelassen wird, für die so-wohl genetische als auch phänotypische Daten vorliegen. Hierbei war zu beachten, dass für die einzelnen Genotypen eine Vielzahl phänotypischer Messwerte existiert, die in verschiedenen Jahren, Regionen, Versuchen und auch bei sich unterscheiden-den Bounterscheiden-denbeschaffenheiten (Standortgruppen) erfasst wurunterscheiden-den. Für unterscheiden-den Export war für diese Werte pro Genotyp und Merkmal je ein Mittelwert zu bilden. Welche Werte in den Export einfließen sollen, musste vom Anwender zu spezifizieren sein (z. B. nur Berücksichtigung von Genotypen, zu denen für ein bestimmtes phänotypisches Merk-mal mindestens 80 Messwerte aus unterschiedlichen Jahren und verschiedenen Orten

5TASSEL-Version 2.0.1, http://www.maizegenetics.net/tassel [Stand 2009-04-09]

7.2. Anforderungen 117 Deutschlands vorliegen). Es mussten daher geeignete Prozeduren entworfen werden, die interaktiv durch die Experimentatoren bedienbar sein sollten.

Bei der Durchführung von Assoziationsstudien sind zusätzliche Informationen zur Populationsstruktur sowie zur Sortenähnlichkeit in Form einer Q-Matrix und einer Kinship-Matrix zu berücksichtigen. Dies dient der Eliminierung von unspezifischen Ergebnissen. Die Generierung dieser Informationen sollte auf der Basis von SSR-Markerdaten erfolgen. Daraus sollten mit der Software STRUCTURE [FSP07] Q-Matrizen und mit der Software SPAGeDi [HV02] Kinship-Q-Matrizen erstellt werden.

Q-Matrizen bestehen aus Clusterinformationen, die Genotypen zu Gruppen zusam-menzufassen. Kinship-Matrizen enthalten Ähnlichkeitskoeffizienten, welche Ausprä-gungen zwischen 0 und 1 annehmen und Verwandschaftsbeziehungen der untersuchten Sorten repräsentieren. Populationsstruktur und Verwandschaftsgrad des untersuchten Sortensets haben einen Einfluss auf die Assoziationsergebnisse.

In Abbildung 7.3 sind die Aufgaben der Analyse zusammengefasst.

Experimentator

Auswählen eines Gens und Abgleichen der Daten

Export phänotypischer Daten

Export von Markerdaten

Export von 1-2-Matrizen

Erstellen einer Q-Matrix

Erstellen einer Kinship-Matrix

Abbildung 7.3: Anforderungen der Analyse

118 7. Anwendung