• Keine Ergebnisse gefunden

Statistische Datenanalyse / Identifizierung differentiell exprimierter Geneexprimierter Gene

4. Statistische Analyse der Transkriptom-Daten

4.3 Statistische Datenanalyse / Identifizierung differentiell exprimierter Geneexprimierter Gene

Yijkgr= µ + Arrayi + Farbstoffj + Array*Farbstoffij (2)

Yijkgr steht für die normalisierten Intensitätswerte, µ für die durchschnittliche Intensität und die anderen Terme wie Arrayi, Farbstoffj, und Array*Farbstoffij

geben die Varianz bezüglich des Arrays, des Farbstoffes und der Wechselwirkung zwischen Array und Farbstoff an. Der Index (i) steht für die Mikroarrays, (j) für den Farbstoff, (g) für die Gene und (r) ist kombiniert mit (i) und (j), um weiterhin bei Replikaten eines Genes, einen speziellen Datenpunkt zu definieren.

Die Wiederholungen der Mikroarrays sind durch den Index (k) von einander zu unterscheiden, wobei die Angabe der drei Indices (i,j,k) redundant ist, da bei einem gegebenen Mikroarray (i) und einem Farbstoff (j) nur ein (k) möglich ist.

Bei dieser Auswertung wurde den Replikaten der Mikroarrays erstens dadurch Rechnung getragen, dass die Daten in der Ausgangsmatrix in einer bestimmen, den Wiederholungen entsprechenden, Form angeordnet wurden und zweitens durch einen speziellen Vektor, der die Position eines Genes in der Ausgangsdatenmatrix definiert.

Wie oben erwähnt ist die Normalisierung der erste Schritt im Verlauf der Lösung des MAANOVA Modells. Der Rest des Modells und der zweite Schritt der Anpassung an das Modell wird in dem folgenden Abschnitt 4.3 beschrieben.

4.3 Statistische Datenanalyse / Identifizierung differentiell

dazugehörigen vorhandenen Daten von Hand entfernt werden, wodurch eine starke Reduktion der Ausgangsdatenmatrix eintreten würde. Deshalb ist es notwendig, Methoden anzuwenden, mit deren Hilfe fehlende Daten in passender Weise ersetzt werden können.

Folgende drei Methoden zur Vervollständigung von Datensätzen sind möglich:

1. Reihenmittelwert, d.h. der fehlende Wert wird durch den Mittelwert der verbleibenden Expressionsdaten eines Gens ersetzt.

2. k nächste Nachbarn („k nearest neighbor“), d.h. es werden k Gene mit einem ähnlichen Expressionsverhalten genommen, um aus diesen einen Mittelwert zu berechnen, der den fehlenden Wert ersetzt.

3. Hauptkomponentenanalyse („single value decomposition“ - SVD) um den fehlenden Wert an die vorhandenen anzugleichen.

Die Anwendbarkeit der verschiedenen Methoden hängt stark von der Struktur der unvollständigen Daten ab. Deshalb wurde basierend auf der Datenmatrix der M-Werte mit den technischen Replikaten, die fehlenden M-Werte nach einem mehrstufigen Verfahren ersetzt.

1. Ausschluss der Gene mit einem Prozentsatz an fehlenden Werten, der höher ist als eine gegebene Konstante, die in Bezug zu allen Wiederholungen und Mikroarrays steht.

B Berechnung der Mediane aus allen Wiederholungen auf den verschiedenen Mikroarrays nur für die Gene, die nicht mehr als 33%

fehlende Werte haben. Für das erste Experiment, in dem die Wachstumsbedingungen aerob und phototroph miteinander verglichen wurden, sind fünf Wiederholungen für jede Bedingung vorhanden und auf den Mikroarray-Chips fünf technische Replikate für jedes Gen. Das bedeutet, das Gene mit mehr als 17 fehlenden Werten von den 50 möglichen (33%), von der Analyse ausgeschlossen werden. Für das erste Experiment sind dies nur 72 Gene, was 2,7% des gesamten Genbestandes entspricht.

2. Vervollständigung der fehlenden Daten in der Medianmatrix durch einen Algorithmus basierend auf einer Hauptkomponentenanalyse.

B Jeder fehlende Wert in der Originaldatei wurde durch eine Zufallszahl ersetzt, die auf einer Normalverteilung der Mittelwerte beruht. Die Matrix

wurde berechnet aus den vorhergehenden Schritten und den gemittelten Standardabweichungen des entsprechenden Gens über alle Mikroarrays.

4.3.2 Berechnung des MAANOVA Modells

Eine Varianzanalyse ist eine Technik zur Analyse von Experimenten, bei denen kontinuierliche Zielgrößen unter verschiedenen experimentellen Bedingungen gemessen werden. Die Anwendung von Varianzanalysen auf Mikroarraydaten ist in der Literatur an verschiedenen Stellen vorgeschlagen, beschrieben und diskutiert worden (Kerr MK, et al., 2000, 2002). Ein ANOVA Modell wird auf transformierte, also vorverarbeitete, Intensitätsdaten angewandt und ermöglicht es, die Quelle von Abweichungen zu bestimmen, die nicht ihren Ursprung in der differentiellen Expression haben. Diese Faktoren müssen z.B. durch eine Normalisierung herausgefiltert werden. Die Normalisierung ist der erste Schritt des Algorithmus der Anpassung an das ANOVA Modell.

Das vollständige Varianzanalysemodell für Mikroarrays wird in der folgenden Gleichung beschrieben:

Yijkgr= µ+Arrayi +Farbstoffj +Array*Farbstoffij +Gg +Vgkg+DGjg+AGig+Sr(ig)ijkgr (3) Die ersten vier Terme der Gleichung sind aus dem Normalisierungsmodell Gleichung (2) bekannt. Der zusätzliche Gen-Term Gg bezieht sich auf die durchschnittliche Intensität eines einzelnen Gens. Der (Unterschied-bei-Gen) Term VGkg des relativen Expressionswertes, gibt das Expressionsniveau eines Gens (g) einer Wiederholung (k) relativ zur gewichteten durchschnittlichen Expression des Gens über alle Wiederholungen des Transkriptionsversuches an.

Der (Farbstoff-bei-Gen) Term DGjg steht für die verschiedenen Gen abhängigen Einbaueffizienzen der Fluoreszenzfarbstoffe. Die Variation (Verschiedenheit) eines

„spots“ auf unterschiedlichen Mikroarrays wird durch den (Array-bei-Gen) Term AGig repräsentiert und die Heterogenität zwischen den Replikaten der Gensonden, wird in dem Term Sr(ig) zusammengefasst. Bei der Berechnung der individuellen Terme des ANOVA Modells geht man vom Prinzip der kleinsten Fehlerquadrate aus, unter Annahme der Normalverteilung des Fehlers. Dieser Fehler ist in Gleichung (3) durch εijkgr berücksichtigt. Die Nomenklatur der Indices ist die selbe, wie für Gleichung (2).

Der Vorteil eines ANOVA Modells liegt darin begründet, dass es erlaubt, die Informationen von mehreren Mikroarray-Hybridisierungen in allen erdenklichen Kombinationen in einem Evaluierungsprozess zusammenzufassen. Die

herkömmliche Vorgehensweise zur Anpassung der Daten an ein ANOVA Modell, mittels der kleinsten Fehlerquadrate, beinhaltet die Berechnung des Inversen der Designmatrix. Da diese Designmatrix für Mikroarrayexperimente sehr groß sein kann, findet die Anpassung unter MAANOVA in zwei Schritten satt. Das Normalisierungsmodell wird zuerst angepasst, gefolgt von den weiteren Termen, die in einem iterativen Gen-für-Gen Verfahren angepasst werden.

Die Parameter, die man im Anschluss an eine Anpassung erhält, sind Schätzwerte und unterliegen somit einem gewissen Fehler. Deshalb müssen zur statistischen Schlussfolgerung zwei Modelle aufgestellt werden, die durch Hypothesentests beurteilt werden.

Im MAANOVA Paket sind mehrere Hypothesentests (genannt F1, F2, F3, FS) enthalten:

F1 ist eine normale F-Statistik, die dann berechnet würde, wenn man nur Daten für ein Gen zur Verfügung hätte.

F3 ist eine Methode, die für alle Gene eine gleiche Fehlervariation annimmt.

F2 stellt ein Hybrid aus F1 und F3 dar und benutzt eine gewichtete Kombination einer globalen und genspezifischen Varianz.

FS benutzt einen Shrinkage-Schätzer für die genspezifische Varianz

basierend auf einem James-Stein-Schätzer (Cui XQ und Churchill GA, 2003; Cui XQ, et al., 2003)

Routinemäßig werden bei der Analyse alle drei Methoden angewandt, weil sie jeweils unterschiedliche Aspekte der Daten berücksichtigen. Alle Tests basieren auf dem genspezifischen Rest der Summe der Abweichungsquadrate und dem Rest der Freiheitsgrade.

Die Anwendung der oben erwähnten Teststatistiken liefert eine statistische Signifikanz, einen so genannten p-Wert. Der p-Wert vom Test auf eine differentielle Expression, fasst die statistische Signifikanz des Tests zusammen, der auf der Variation in der Genexpression und seiner Fehlerschwankung basiert.

Technisch gesprochen ist der p-Wert ein abnehmender Index der Zuverlässigkeit eines Ergebnisses. Je größer der p-Wert ist, desto weniger ist dem beobachteten Zusammenhang zu trauen. Dabei ist jedoch zu bedenken, dass eine große statistische Signifikanz nicht unmittelbar auch eine große biologische Relevanz

beinhaltet. Außerdem muss ein Signifikanzniveau festgelegt werden, um ein Ergebnis als relevant zu bestimmen. Ein solches Signifikanzniveau gibt die Genauigkeit des Größenunterschiedes der relativen Expression an.

Eine häufig verwandte Methode zur Kontrolle des Fehlers beim multiplen Testen ist die „family-wise error rate“. Die „family-wise error rate“ (FWER) ist die Wahrscheinlichkeit wenigstens einen Fehler 1. Art zu begehen. Das bedeutet die Ausgangshypothese H0 wird abgelehnt, obwohl sie richtig ist. Die Methode der FWER ist sehr stringent, was dazu führt, dass nur sehr wenige Kandidaten ausgewählt werden und deshalb für die Anwendung auf Mikroarrays nicht als optimal anzusehen ist. Denn das Ziel einer Transkriptom-Analyse ist es, eine Liste von differentiell exprimierten Genen aufzustellen, in der wenige falsch positive Gene zu tolerieren sind. Man akzeptiert also eher Gene, die fälschlicherweise als differentiell exprimiert angesehen wurden, als Gene von vornherein nicht zu finden, die differentiell exprimiert werden.

Eine Alternative zur FWER stellt die Methode der „false discovery rate“ (FDR) da (referenz). Die FDR ist definiert als der erwartete Anteil von Fehlern 1. Art der abgelehnten Null-Hypothesen.