• Keine Ergebnisse gefunden

Auswertung und Qualitätskontrolle der Sequenzierungs-Ergebnisse

2.2 Methoden

2.2.20 Auswertung und Qualitätskontrolle der Sequenzierungs-Ergebnisse

Die Auswertung von Daten aus Sequenzierungsverfahren der zweiten Generation (next generation sequencing, NGS) unterscheidet sich von der Auswertung der Daten aus konventioneller Sequenzierung durch mehrere Faktoren. Statt einer einzelnen Sequenz pro verwendetem Sequenzierungsprimer kann ein einzelner Lauf eines NGS-Verfahrens Millionen von Sequenzen produzieren. Dies macht die Verwendung automatisierter Werkzeuge in der Auswertung unumgänglich. Zugleich ist die Rate von Lesefehlern bei der Sequenzierung deutlich höher. So ist bekannt, dass die Fehlerquote des Ion Torrent Verfahrens bei 1,4 - 1,8 pro 100 Basen liegt (Quail et al. 2012; Salipante et al. 2014). Der bedachte Umgang mit möglichen Lesefehlern und daraus resultierenden falsch positiven oder falsch negativen Ergebnissen ist daher von besonderer Wichtigkeit.

Im Kontext der Identifizierung genetischer Varianten können allgemein zwei wichtige Arten von Fehlern differenziert werden. Erstens gibt es falsch negative Ergebnisse, also existierende Varianten, die jedoch nicht detektiert wurden. Der Grund dafür kann in technischen Problemen bei der Vorbereitung der Proben (die z.B. zu einer abweichenden Konzentration der entsprechenden Probe führen), beim Auslesen oder in zu strikten Parametern bei der statistischen Auswertung liegen. Zweitens gibt es falsch positive Ergebnisse, also identifizierte Varianten, die jedoch in Wirklichkeit nicht existieren. Dies kann durch Artefakte, also methodenbedingte technische Ungenauigkeiten, durch Kontamination der Proben, oder durch zu permissive Parameter bei der Auswertung der Rohdaten passieren.

Um die Wahrscheinlichkeit falsch negativer Ergebnisse so weit wie möglich zu reduzieren wurden die Daten der zuvor durchgeführten Genotypisierung auf bereits bekannte Varianten mittels Single Base Primer Extension verwendet, um die Ergebnisse der Analysesoftware zu evaluieren und die Auswertungsstrategie zu optimieren. Wenn auch

seltene Varianten (z.B. Cys88Arg) mit einer minimalen Frequenz von nur einem einzelnen Allel pro analysiertem Datensatz detektiert werden können, so können falsch negative Ergebnisse nahezu ausgeschlossen werden.

Zur Erkennung falsch positiver Ergebnisse wurden neu detektierte Varianten von besonderem Interesse manuell nach einer Reihe von Kriterien evaluiert. Die Bewertung geschah dabei nach einem gewichteten Punkteschema. Je mehr Kriterien für eine Variante positiv evaluiert waren und je stärker diese gewichtet waren, desto höher wurde die Wahrscheinlichkeit, dass es sich bei ihr um ein falsch positiver Ergebnis und nicht eine wirklich existierende Variante handelte, eingeschätzt.

Kriterium 1: Die erwartete Frequenz für eine Variante, die in einer Probe eines Pools in heterozygoter Form vorhanden ist, lässt sich berechnen als . Dabei ist N die Anzahl der Proben im Pool. Lag die Frequenz, mit der eine Variante unter den ausgelesen Sequenzen eines Pools beobachtet wurde, deutlich darunter, so wurde dies als Hinweis angesehen, dass sie möglicherweise auf einem Lesefehler beruhte (+1 Punkt). Das gleiche galt, wenn die absolute Anzahl der ausgelesenen Sequenzen (Reads) mit der Variante sehr gering war (+1 Punkt, jedoch maximal ein Punkt insgesamt für Kriterium 1).

Kriterium 2: Bereiche mit stark unterdurchschnittlicher oder absolut geringer Coverage sind entweder auf Grund ihrer Komposition als problematisch zu sequenzieren einzuschätzen oder weisen auf andere technische Schwierigkeiten hin. Lag eine Variante in einer solchen Region, so wurde die Wahrscheinlichkeit eines Lesefehlers als erhöht angesehen (+1 Punkt).

Kriterium 3: Die Methode der Ionen-Halbleiter-Sequenzierung hat bekannterweise Schwierigkeiten mit Homopolymer-Regionen, also Sequenzabschnitten, in denen die gleiche Base mehrfach hintereinander auftritt. Lag die untersuchte Variante angrenzend an eine Homopolymer-Region, so wurde die Wahrscheinlichkeit für einen Lesefehler als erhöht angesehen (+1 Punkt für Varianten benachbart zu eine homopolymer Region, + 2 Punkte wenn die Variante ein Teil des Homopolymers war).

Kriterium 4: Auf Grund der Verwendung von sowohl forward- als auch reverse-Primern wurde jede Position der sequenzierten Regionen in beide Richtungen ausgelesen. Bei gleicher Konzentration beider Primer war zu erwarten, dass eine beobachtete Variante mit gleicher Frequenz in beiden Leserichtungen zu identifizieren war. Bestand jedoch bei einer Variante eine starke Imbalance in der Leserichtung, waren also z.B. 90% der ausgelesenen Sequenzen mit der Variante in forward-Richtung und nur 10% in reverse-Richtung ausgelesen, so galt die Wahrscheinlichkeit eines Lesefehlers als deutlich erhöht (+2 Punkte).

Kriterium 5: Regionen in unmittelbarer Nähe der Start- oder End-Punkte einer Sequenz oder jenseits des durchschnittlichen qualitätbedingten cut-off-Punktes weisen eine allgemein erhöhte Frequenz von Lesefehlern auf. Varianten, die in solchen Regionen lokalisiert waren, wurden als potentiell durch solche verursacht eingeschätzt (+2 Punkte).

Kriterium 6: Das Auftreten mehrerer unabhängiger Punktmutationen an gleicher Stelle des Genoms und die konsequente Existenz von mehr als zwei Allelen ist extrem selten.

Wurden daher an der gleichen Position neben dem Wild-Typ und der Variante noch weitere Allele mit signifikanter Frequenz, so wurde die Wahrscheinlichkeit einer korrekt ausgelesenen Variante als deutlich erniedrigt angesehen (+2 Punkte).

Kriterium 7: Regionen mit überdurchschnittlich vielen detektierten Varianten, Leseabbrüchen oder qualitätsbedingten Endpunkten wurden als problematisch zu sequenzieren eingestuft. Varianten, die in solchen Regionen detektiert wurden, mussten als mit erhöhter Wahrscheinlichkeit durch einen Lesefehlers verursacht beurteilt werden (+2 Punkte).

Bei null bis zwei Punkten wurde die untersuchte Variante als wahrscheinlich korrekt ausgelesen eingestuft, bei insgesamt drei oder mehr Punkten wurde sie als fraglich eingestuft.

Zur eigentlichen Auswertung der mittels Ion Torrent gewonnenen Daten kamen die Analyseprogramme NextGENe, Lasergene Genomics Suite SeqMan NGen und Torrent Suite™ Variant Caller zum Einsatz. Eine Evaluation hatte gezeigt, dass die Auswertung mit den Programmen NextGENe und SeqMan NGen in einer hohen Rate von artefaktbedingt falsch-positiven Ergebnissen resultierte. Es konnte aber gezeigt werden, dass die bereits bekannten seltenen Varianten auch in einer Frequenz von nur einem einzelnen Allel pro analysiertem Datensatz detektiert werden konnten. Falsch negative Ergebnisse konnten somit nahezu ausgeschlossen werden. Dagegen berücksichtigte der Torrent Suite™ Variant Caller selbst ähnliche Qualitätskriterien wie die oben genannten und zeigte eine geringe Rate an artefaktbedingte falsch-positiven Ergebnissen, war jedoch nicht immer in der Lage, seltene Varianten zu detektieren, wenn die entsprechende Position nicht als von besonderem Interesse für die Analyse markiert worden war.

Um die Qualität der Auswertung zu maximieren, kam daher eine zweistufige Strategie zum Einsatz (Abbildung 11). Im ersten Schritt wurden die Rohdaten aus den Läufen der Ion Torrent PGM separat mit NextGENe und SeqMan NGen ausgewertet, wobei Parameter niedriger Stringenz angewendet wurden. So konnten alle potentiellen Varianten erfasst werden; eine hohe Rate falsch-positiver Ergebnisse wurde in diesem Schritt in Kauf genommen. Im zweiten Schritt wurden die Positionen aller potentiellen Varianten an die Variant Caller Software übergeben und die Rohdaten unter Berücksichtung dieser analysiert. Dabei wurden stringente Qualitätskriterien angelegt, um die Rate von falsch-positiven Ergebnissen gering zu halten. Anhand von Proben mit bekannten Varianten wurde so weit wie möglich sichergestellt, dass keine tatsächlich existierenden Varianten fälschlicherweise ausgeschlossen wurden. Auf diese Weise wurde ein finaler Satz von detektierten Varianten generiert, der für die weiteren Analysen verwendet wurde. Nicht-synonyme Varianten mit potentiellem Einfluss auf die Transporterfunktion wurden nach den oben genannten Kriterien evaluiert und mittels Kapillarsequenzierung validiert.

Abbildung 11: Strategie der Analyse der NGS-Daten

Ein mehrstufiges Verfahren kam zum Einsatz, um falsch-positive Ergebnisse zu reduzieren ohne tatsächlich existierende Varianten zu übersehen.

3 Ergebnisse

In der Resequenzierung wurden alle genetischen Varianten in den kodierenden Bereichen von OCT1 identifiziert. Die individuellen Genotypen der Individuen des erweiterten HGDP-CEPH-Panels in Bezug auf 21 weiter untersuchte Varianten wurden dann bestimmt und die Genotypen der Individuen des 1000 Genomes Project hinzugenommen. So konnten die populationsspezifischen Frequenzen der einzelnen Varianten bestimmt werden und die individuellen Haplotypen rekonstruiert werden. Unter Einbezug der funktionellen Analysen von Tina Seitz (Seitz 2016) konnten dann OCT1-loss-of-function-Allele identifiziert werden. Schließlich wurden die populationsspezifischen Frequenzen des OCT1-Verlusts ermittelt und populationsgenetische Analysen mit Blick auf den Verlust der OCT1-Aktivität durchgeführt (Abbildung 12).

Abbildung 12: Überblick des Projekt-Workflows

3.1 Identifikation von genetischen Varianten mittels