• Keine Ergebnisse gefunden

Identifikation von Kandidatengenen durch einen bioinformatischer Algorithmus

E. coli Electromax DH10B (Invitrogen # 18290-015)

4. Diskussion

4.3. Identifikation von Kandidatengenen durch einen bioinformatischer Algorithmus

Diskussion

84

4.3. Identifikation von Kandidatengenen durch einen

Diskussion

85 starke Hybridisierungssignale zeigten. Die Sonden weisen eine Länge von 25 nt auf und decken verschiedene Bereiche der mRNA-Sequenz des nachzuweisenden Gens ab. Die

„mismatch“-Sonden entsprechen in ihren Sequenzbereichen den analogen „match“-Sonden, weisen allerdings einen Basenaustauch des 13. Nukleotids des 25 nt umfassenden Oligonukleotids auf, so dass hier eine lediglich 12 nt umfassende spezifische Bindungskapazität möglich ist und demnach durch das meist schwache Hybridisierungssignal als Hintergrund bewertet und mit dem der „match“-Sonden verrechnet wird.

Wegen dieser Tatsache und nach empirischen Beobachtungen einer Stichprobenpopulation entsprechend wurde eine Schwelle von 17 nt als ausreichende Bindungskapazität festgelegt und die entsprechenden Sonden für die Signalbestimmung genutzt. Dadurch kann eine siRNA durch mehrere Sonden detektiert werden, was die Wahrscheinlichkeit eines als „falsch positive“ bewerteten Signals erheblich senkt.

Zudem zeigte die häufig beobachtete „Abstufung“ in der Intensität des Signals bei Abnahme der spezifischen Bindungskapazität der Sonde zusätzlich die Sensitivität des Systems und der vorgenommenen Verarbeitung der Messwerte und spiegelt dementsprechend die Verlässlichkeit der Ergebnisse wider. Eine weitere Kontrollmöglichkeit bot der Ausschluss von Kreuzhybridisierungen, durch den Abgleich der jeweiligen siRNA-Sequenz mit der Gesamtheit der Sonden des Affymetrix Gene Chips.

Der Nachweis mehrerer siRNAs innerhalb eines Sondensets erhöht die Konsistenz eines als kardiogenetisch essentiell identifizierten Gens. Einen ähnlichen Effekt hat der Nachweis von siRNAs in anderen Sondensets einer anderen Affymetrix Gene ID, welche jedoch das gleiche Gen repräsentiert.

Unabhängig von der Verrechnung der „match“- und „mismatch“-Sonden ist die Bestimmung des generellen Hintergrundrauschens innerhalb eines Sondensets von entscheidender Bedeutung für die Sensitivität. So wurde die Schwelle für das Hintergrundrauschen mit Hilfe des Medians der Hybridisierungssignale aller nicht mit einer entsprechenden siRNA hybridisierfähigen Sonden festgelegt.

Die Einordnung der Signale erfolgte in P (present) und A (absent), die Signalintensität wurde nicht berücksichtigt. Die individuelle relative Repräsentanz der einzelnen siRNAs innerhalb der Bibliothek auf (1) Plasmidebene (2) viraler Ebene (3) zellulärer Ebene unterliegt theoretisch starken Veränderungen. Zudem birgt die mittels PCR bewerkstelligte Amplifikation der Zielsequenzen trotz geringer Zyklenzahl (linearer

Diskussion

86 Amplifikationsbereich), zusätzlich das Risiko einer Veränderung der Relation. Aufgrund dieser Tatsache wurde eine ausschließlich binäre Einordnung der Signale für die Auswertung gewählt.

4.3.2. Die Bestimmung der Anzahl der als essentiell identifizierten Kandidatengene ist von der Stringenz abhängig

Die Wahl des Stringenzkriteriums jeder für die weitere Datenverarbeitung verwendeter Population entscheidet maßgeblich über die Konsistenz der Endergebnisse. Für die Definition der Population der als kardiogentisch essentiell zu bewertenden Gene wurde von jeder der für die weitere Verarbeitung verwendeten Testpopulation eine Stringenz von „2/3“ gefordert. Das heißt die jeweiligen Signale wurden in mindestens zwei von drei Versuchen detektiert. Die Begründung dafür ist komplex und beinhaltet biologische, sowie mathematische Parameter auf verschiedenen Ebenen des Versuchsablaufs und der Datenverarbeitung. Diese werden im Folgenden im Kontext von zwei zentralen Fragen diskutiert:

1. Wie sind die Schwankungen innerhalb der Triplikate zu erklären?

2. Welche Stringenz eignet sich für die weitere Verarbeitung der Daten mit dem Ziel einer möglichst vollständigen Datenausnutzung bei möglichst minimaler

„Unsicherheit“?

4.3.2.1. Unterschiedliche Repräsentanz der siRNAs

Eine der zentralen Fragen bei der Interpretation der Ergebnisse zum Einfluss von siRNAs ist, wie die Abweichungen in den Triplikaten zu erklären sind. Eine mögliche Ursache könnte in Schwankungen begründet liegen, die bei der unabhängigen Generierung infizierter Zellen entstanden sind. Da jedes Viruspartikel nur in einer relativ geringen Kopienzahl innerhalb der verwendeten Menge vorlag, ist es möglich, dass einige Viruspartikel, häufiger als andere, Zielzellen infiziert haben. Eine weitere Erklärung wäre die unterschiedliche Expression der entsprechenden siRNAs innerhalb der infizierten Zielzell-Population. Bei diesen Zellen handelt es sich um eine heterogene Zellpopulation hinsichtlich der Integrationsloci des viralen Transgens eines Typs, so dass ein unterschiedlicher Expressionslevel der shRNAs/siRNAs bedingt durch einen chromosomalen Positionseffekt vorstellbar wäre. Andererseits sollte diese Möglichkeit

Diskussion

87 durch den Umfang infizierter Zellen, welcher ein kalkuliertes Vielfaches der Komplexität der Bibliothek umfasst, statistisch ausgeglichen werden.

Ein entscheidender Faktor ist allerdings die biologisch bedingte Schwankung der Zielgenexpression während der in vitro Differenzierung, welche ebenfalls bei der Analyse des Expressionsprofils mittels Affymetrix Gene Chips bei den Populationen EB und CB beobachtet wurde. Trotz Standardisierung des Differenzierungsablaufs und einer zeitlich definierten Probenentnahme, konnten leichte Unterschiede im Expressionslevel einer Auswahl fokussierter Gene festgestellt werden. Unter Berücksichtigung dieser Beobachtung kann die An-, oder Abwesenheit einer siRNA, deren Zielgen eine essentielle Funktion in dem zeitlichen Bereich der Referenz, sowie Vergleichsprobenentnahme ausübt erklärt werden. Die oben genannten Schwankungen bewirken eine über den Zeitraum der Differenzierung zunehmende Varianz bei dem zeilenweisen Vergleich der identifizierten Affymetrix Gene IDs, unter Forderung einer Stringenz von „3/3“ (Abb.3.12).

Ein Grund für die Schwankungen innerhalb des Datensatzes liegt in dem bei der primären Datenverarbeitung festgesetzten Schwellenwert. Die binäre Einteilung der Signale läßt systembedingt nicht erkennen, ob ein Signal den Schwellenwert nur minimal über-, oder unterschreitet. Theoretisch ist es möglich, gesonderte Berechnungen mit jeweils leicht veränderten Schwellenwerten durchzuführen. Dies ist jedoch sehr aufwendig, weshalb in der vorliegenden Arbeit auf einen solchen Ansatz verzichtet wurde.

4.3.3. Der Abgleich der Screeningresultate mit Expressionsdaten verbessert die Qualität der Analyse und schließt falsch positive Kandidaten aus

Der Abgleich der identifizierten Kandidatengene mit dem Transkriptom der CBs dient der internen Plausibilitätskontrolle. Der weitere Abgleich mit den Transkriptomen der Zellpopulationen Herz E8.5 und nCM bildet die Grundlage für die weitere Analyse der identifizierten Kandidatengene. Die Anzahl der nach dem Abgleich mit den Expressionsdaten erhaltenen Gene hängt von der Stringenz ab. Bei der „moderaten“

Stringenz von „2/3“ ergeben sich nach der Synchronisation mit den Expressionsdaten 3482/3476 Gene und bei der größtmöglicher Stringenz von „3/3“ 450 Gene (Abb.

3.13B).

Diskussion

88

4.4. Die Konsistenz des genomweiten Screens wird durch die