• Keine Ergebnisse gefunden

4. Statistische Analyse der Transkriptom-Daten

4.2 Normalisierung der Daten

Abb. 37: Diagramm der Hintergrundwerte für die Probe/Cy3-Kanal und die Referenz/Cy5-Kanal des Arrays 22, nach der Berechnung des Hintergrundniveaus. Die Werte im Diagramm sind für jeden Block in einer anderen Farbe dargestellt.

Im Gegensatz zur Abb. 36, ist hier in Abb. 37 die Hockeyschläger-Form nicht mehr zu beobachten, weil durch die Festlegung des Hintergrundniveaus für den unteren Intensitätsbereich unzuverläßige Expressionswerte ausgeschlossen worden sind, wodurch sich für diesen Bereich eine Art Schärfung ergibt.

Diese Vorgehensweise hat den Vorteile, dass die untere Ausschlussgrenze der Expressionswerte nicht durch einen willkürlich festgelegten Schwellenwert bestimmt, sondern individuell durch eine mathematische Methode berechnet wird.

Mikroarraydaten ist generell als ein Zweistufenprozess anzusehen. Auf der ersten Ebene werden die Intensitätssignale der einzelnen DNA-Mikroarrays normalisiert, um auf der nächsten Ebene eine Normalisierung der DNA-Mikroarrays untereinander durchzuführen.

4.2.1 Normalisierung der einzelnen Mikroarrays

Auf dieser Stufe der Normalisierung werden nur die Daten von den einzelnen Mikroarrays bearbeitet. Um systematische Variationen in den Daten sichtbar zu machen eignen sich verschiedene grafische Darstellungen der Daten. So bieten MA-Diagramme, bei denen der Logarithmus des Quotienten von R/G (Referenz/Probe) gegen den Logarithmus des Mittelwerts aufgetragen wird oder eine Höhenliniendarstellung, zwei Möglichkeiten zur Darstellung von systematischen Varianzen.

Werden in MA-Diagrammen die einzelnen Blöcke eines Mikroarrays mit unterschiedlichen Farben dargestellt, wie in der folgenden Abbildung, bekommt man einige Hinweise auf mögliche räumliche Effekte.

Abb. 38: Ma-Diagramm normalisierter Werte für Array 22. Jede Farbe repräsentiert einen Block. Die Linien entsprechen den Medianen der einzelnen Blöcke.

Weil in den grafischen Darstellungen eindeutig zu sehen ist, dass ein räumlicher Effekt auftritt, ist zur Normalisierung eine Methode zu empfehlen, die eine räumliche Glättung der Werte vornimmt. Einige solcher räumlichen

Glättungsverfahren sind beschrieben und die folgenden sind in Betracht gezogen worden.

● einfache Logarithmustransformation der Intensitätsquotienten 1. räumliche (blockweise) Mediantransformation

2. räumliche (blockweise) „loess“ Glättung (lokale polynomale Regressionsanpassung)

3. räumliche Glättung (bezüglich der Koordinaten der Punkte des Arrays) 4. ANOVA basierende Abstände, mit Block, Reihe und Spalte als Faktoren

Die Methoden 1 bis 3 wurden für die Normalisierung der einzelnen Mikroarrays angewandt, da es alles Methoden sind, die eine lokale Komponente besitzen und mit einem vertretbaren Rechenaufwand durchzuführen sind. Die Ergebnisse dieser Verfahren können mit dem Kommando „normcheck“ in der R Umgebung grafisch dargestellt werden, um ihre Anwendbarkeit zu überprüfen. In der folgenden Abbildung wird, als ein Beispiel, für Block 1 des DNA-Mikroarrays 22, ein MA-Diagramm mit den Ergebnissen der drei verschiedenen Methoden gezeigt.

Abb. 39: Ma-Diagramm für Block 1 von Array 22. Es wurden verschiedene Methoden zur Normalisierung der Werte benutzt. Die Methode der räumlichen Mediantransformation wird mit der durchgezogenen Linie dargestellt. Die geschwungene Linie repräsentiert die Methode der blockweisen „loess“ Glättung und die gestrichelte Linie steht für die Methode der räumlichen „loess“ Anpassung („loess“ = lokale polynomale Regressionsanpassung).

Durch die gerade Linie in Abbildung 39 wird das Ergebnis der räumlichen Mediantransformation gezeigt, die geschwungene Linie repräsentiert die blockweise „loess“ Glättung und die gestrichelte Linie gibt das Ergebnis der räumlichen „loess“ Anpassung wieder. Als Ergebnis der Normalisierung erhält man die Abstände bzw. die Differenzen des originalen M-Wertes zu der jeweiligen Kurve, die an Hand der angewandten Methode, durch die Punktwolke gelegt wurden. Die Methode der räumlichen Mediantransformation und die blockweise

„loess“ Glättung, liefern annähernd identische Werte, was eine Mediantransformation als ausreichend erscheinen lässt. Des Weiteren scheinen keine blockspezifischen Intensitätsabhängigkeiten der M-Werte vorhanden zu sein und auch keine Unregelmäßigkeiten im unteren Intensitätsbereich.

Allerdings muss bei der Verwendung der räumlichen „loess“ Glättung die Gefahr des so genannten „overfittings“ berücksichtigt werden, bei dem die Daten zu sehr normiert werden. D.h. Es besteht durch das overfitting die Gefahr, dass biologisch begründete Expressionsunterschiede eines Gens durch das Normalisierungsverfahren beseitigt werden und somit dieses Gen nicht als ein differentiell exprimiertes Gen detektiert wird.

Das Phänomen des „overfittings“ ist in der Methode des „loess“ selbst begründet, denn bei der „loess“ Glättung, werden Polynome iterierend mittels der Methode lokal gewichteter kleinster Quadrate angepasst. Dabei werden zur Anpassung des Punktes x, aus seiner Nachbarschaft Punkte herangezogen, die aufgrund der Entfernung zum Punkt x gewichtet werden. Wie viele Punkte zu dieser Nachbarschaft gehören, wird durch einen Abstandsfaktor („span factor“) bestimmt. Hier wurden die Berechnungen mit dem Standardwert für den Glättungsfaktor von 0,75 ausgeführt.

Tritt der Fall ein, dass in der Umgebung des anzupassenden Gens nur wenige weitere spots vorhanden sind, wie in der Abbildung 26 gezeigt, ist die Gefahr des

„overfitting“ (Überinterpretation) offenkundig. Denn in der Nachbarschaft dieses Gens sind nur sehr wenige Punkte vorhanden, die zur Normalisierung benutzt werden können, was dazu führt, dass dieses Gen als Ausreißer eingestuft und damit nach der räumlichen Glättung nicht mehr als mögliches differentiell exprimiertes Gen angesehen wird.

Abb. 40: Ma-Diagramm für Block 12 von Array 30. Es wurden die gleichen Methoden zur Normalisierung angewandt, wie in Abb. 39. Die Werte für das Gen OE3106F (bop) sind in rot hervorgehoben. Man kann deutlich sehen, dass bei der Normalisierung die Gefahr eines „overfittings“ der Daten gegeben ist.

Alle grafischen Darstellungen zeigen, dass generell keine Varianzstabilisierung notwendig ist und somit, wie erwähnt, eine räumliche Mediantransformation als ausreichend erachtet wird.

3.2.2 Normalisierung der Mikroarrays untereinander

Aufgrund der zufälligen Anordnung von den rund 2700 Genen von H. sal. R1 auf dem Mikroarray und der Annahme, dass der größte Teil der Gene nicht differentiell exprimiert wird, ist es möglich eine Normalisierung über alle Gene anzuwenden. So sind z.B. beim ersten Transkriptom-Experiment, dem Vergleich aerob/phototroph, am Ende weniger als 10% der Gene als differentiell exprimiert anzusehen.

Im Verlauf einer Normalisierung der einzelnen Mikroarrays untereinander, findet häufig eine Zentrierung der M-Werte statt. Dies ist der erste Schritt in der Berechnung des Algorithmus der ANOVA Schätzwerte (Methode 4 der oben erwähnten Transformationsmethoden). So repräsentieren die ersten vier Terme des MAANOVA Modells ein Normalisierungsmodell und können wie folgt formuliert werden:

Yijkgr= µ + Arrayi + Farbstoffj + Array*Farbstoffij (2)

Yijkgr steht für die normalisierten Intensitätswerte, µ für die durchschnittliche Intensität und die anderen Terme wie Arrayi, Farbstoffj, und Array*Farbstoffij

geben die Varianz bezüglich des Arrays, des Farbstoffes und der Wechselwirkung zwischen Array und Farbstoff an. Der Index (i) steht für die Mikroarrays, (j) für den Farbstoff, (g) für die Gene und (r) ist kombiniert mit (i) und (j), um weiterhin bei Replikaten eines Genes, einen speziellen Datenpunkt zu definieren.

Die Wiederholungen der Mikroarrays sind durch den Index (k) von einander zu unterscheiden, wobei die Angabe der drei Indices (i,j,k) redundant ist, da bei einem gegebenen Mikroarray (i) und einem Farbstoff (j) nur ein (k) möglich ist.

Bei dieser Auswertung wurde den Replikaten der Mikroarrays erstens dadurch Rechnung getragen, dass die Daten in der Ausgangsmatrix in einer bestimmen, den Wiederholungen entsprechenden, Form angeordnet wurden und zweitens durch einen speziellen Vektor, der die Position eines Genes in der Ausgangsdatenmatrix definiert.

Wie oben erwähnt ist die Normalisierung der erste Schritt im Verlauf der Lösung des MAANOVA Modells. Der Rest des Modells und der zweite Schritt der Anpassung an das Modell wird in dem folgenden Abschnitt 4.3 beschrieben.

4.3 Statistische Datenanalyse / Identifizierung differentiell