• Keine Ergebnisse gefunden

4. Statistische Analyse der Transkriptom-Daten

4.1 Vorverarbeitung der Daten

4.1.1 Hintergrundkorrektur der Daten

Ein besonders entscheidender Schritt bei der Datenanalyse ist die Hintergrundkorrektur. Hierbei muss bedacht werden, dass durch eine einfache

Subtraktion des gemessenen lokalen Hintergrundwertes eines Spots, eine größere, nicht-biologisch begründete Varianz in den Daten erzeugt werden kann, als diejenige die man versucht hat durch die Korrektur zu entfernen. Eine mögliche Lösung dieses Problems ist es, eine spezifische Datentransformation anzuwenden. Dabei muss beachtet werden, dass eine Transformation in logarithmische Werte die Gefahr beinhaltet, im unteren Intensitätsbereich die Unterschiede künstlich zu vergrößern, weil hier der additive Anteil des Fehlers dominiert. Ein Ausweg stellt eine monotone Transformation dar, die für den hohen Intensitätsbereich eine logarithmische, für den niedrigen Intensitätsbereich jedoch eine lineare Transformation durchführt. Eine solche monotone Transformation kann unter MAANOVA mit der so genannten „linlog“

Funktion ausgeführt werden.

Bevor mit dem Verfahren der Hintergrundkorrektur fortgefahren und mit der weiterführenden Datenanalyse begonnen wurde, sind die Daten der Vorder- und Hintergrundwerte beider Kanäle (Proben (grün, G, Cy-3) bzw. Referenz (rot, R, Cy-5)), mit Hilfe von grafischen Darstellungen, genau angesehen und analysiert worden. Dabei war es dienlich Box- oder MA-Grafiken zu erstellen, die der Anordnung der Gene auf dem Array Rechnung tragen, um Artefakte zu erkennen, die durch das Drucken, Hybridisieren und oder das Auslesen (Scannen) der Arrays entstanden sind.

Eine Box-Grafik kann als Zusammenfassung der Verteilung einer Variablen angesehen werden, die den Median (50%), das obere (75%) und untere (25%) Quartil und eventuelle individuelle Extremwerte darstellt. Dabei sind Extremwerte durch eine Abweichung von mehr als das 1,5 fache des Interquartilabstandes definiert und werden als Einzelwerte in das Diagramm eingezeichnet.

MA-Grafiken repräsentieren ein Diagramm der Intensitätswerte, bei dem die Punktwolke der Messwerte um 45° rotiert und die x-Achse neu skaliert wird. In einem MA-Diagramm wird der Logarithmus des Intensitätsquotienten M = log2R/G = log2R – log2G gegen den Logarithmus des arithmetischen Mittels der Intensitäten A = log2√RG =(log2R + log2G)/2 aufgetragen (siehe Abb. 38).

Von Parmigiani et al. (2003) wurden folgende Faustregeln aufgestellt, nach denen man bei der Datenanalyse entscheiden kann, ob eine Korrekturmethode angewendet werden kann.

1. Sind bei der Darstellung der Hintergrundwerte räumliche Effekte zu beobachten, die nur bei einer Farbe bzw. einem Kanal auftreten, dann ist eine Hintergrundsubtraktion kritisch.

2. Ist bei der Darstellung des Probe/Referenz Diagramms ein

so genannter „Hockeyschläger-Effekt“ bei niedrigen Intensitätswerten zu beobachten, dann kann eine Hintergrundkorrektur auf Genebene nicht zuverlässig durchgeführt werden. Dasselbe gilt, wenn in einem MA-Diagramm bei niedrigen Intensitätswerten ein so genannter

„Fischschwanz-Effekt“ auftritt.

3. Es ist bei der Hintergrundkorrektur darauf zu achten, dass keine

negativen oder sehr kleinen Werte entstehen, denn diese erzeugen bei der Quotientenbildung extreme Verhältnisse und damit unzuverlässige Werte.

Zur Überprüfung der Faustregeln 1 und 3, sind für alle Mikroarrays der unterschiedlichen Transkriptom-Experimente verschiedene Grafiken erzeugt worden, an Hand derer es möglich ist räumliche Effekte in den Daten zu erkennen. Exemplarisch sind in Abb. 31 Box-Grafiken des Mikroarray-Chips 22 des zweiten Zeitreihenexperiments dargestellt.

Abb. 31: Box-Grafik der Hintergrundwerte für die Probe/Cy3-Kanal (A) und die Referenz/Cy5-Kanal (B) getrennt nach den Blöcken (je 320 Einzelwerte) aufgetragen. Die horizontale Line in der Mitte der Boxen zeigt den Median. Die obere Linie zeigt 75%, die untere 25% des Quartils an. Die Linien außerhalb der Boxen zeigen die experimentellen Maximal- und Mnimalwerte an. Die Kreise repräsentieren Extremwerte einzelner spots, die außerhalb der Grenzen liegen.

In den gezeigten Box-Diagrammen der Abb. 31, sind die lokalen Hintergrundwerte beider Kanäle gegen die Anzahl der Drucknadeln bzw. Blöcke entsprechend der Anordnung auf dem H. sal. R1 Mikroarray dargestellt. Dabei entspricht ein Block einer n(16) x m(20) Punkt-Matrix und wird bei der Mikroarray-Herstellung von einer Drucknadel erzeugt, wie in Abschnitt 3.1.2 erwähnt. In den Box-Diagrammen der Referenz und Probe ist deutlich ein räumlicher Effekt zu beobachten, der in beiden Kanälen gleichermaßen auftritt.

Dieser räumliche Effekt zeigt sich dadurch, dass man einen leichten Anstieg der Mediane in den Kästchen jedes vierten Blocks sehen kann, was eindeutig mit der Position des Blocks auf dem Chip korreliert. Der gleiche Effekt, zwar weniger ausgeprägt, tritt auf, wenn die Vordergrundwerte für jeden Block des Mikroarray-Chips 22 des zweiten Zeitreihenexperiments in einem Box-Diagramm aufgetragen werden.

Abb. 32: Box-Grafik der Vordergrundwerte für die Probe/Cy3-Kanal (A) und die Referenz/Cy5-Kanal (B) getrennt nach den Blöcken aufgetragen.

Eine eindeutigere Darstellungsform von räumlichen Effekten sind Höhenliniendiagramme. Als Beispiel ist in Abb. 33 für Mikroarray-Chip 1 des ersten Transkriptom-Experiments ein Höhenliniendiagramm der M-Werte (=log2R/G) aufgetragen worden.

Abb. 33: Höhenliniendiagramm („contour plot“) der M-Werte für Array 1 nach der räumlichen „block wise“

Glättung mit dem „loess fit“ (span Faktor = 0,75). Die 48 Blöcke des Arrays werden durch die grünen Kästchen mit dem roten Punkt in der Mitte dargestellt. Durch den roten Pfeil wird der steigende Trend der Höhenlinien dargestellt.

Der für den Mikroarray 1, aus dem ersten Experiment, dem Vergleich aerob/phototroph, sichtbare räumliche Effekt, ist für alle Arrays dieses Transkriptom-Experiments, in ähnlicher Weise vorhanden. Die M-Werte steigen von unten zur oberen rechten Ecke des Mikroarrays an.

Zusammenfassend kann man sagen, dass ein deutlicher räumlicher Effekt zu beobachten ist, der mit dem Block und damit mit der Position auf dem Mikroarray zusammenhängt und für den Referenz- und Probenkanal in gleicher Weise zu verzeichnen ist. Somit ist es möglich, nach den oben erwähnten Faustregeln, eine Hintergrundkorrektur mit den Daten durchzuführen.

Zur Festlegung des Hintergrundbereichs, wurde darauf verzichtet, einen Grenzwert zu bestimmen. Stattdessen wurde eine Methode angewandt, die auf der Basis von Höhenlinien einer zweidimensionalen Normalverteilung einen Abstand für jedes Paar von Expressionswerten (Probe und Referenz) berechnet.

Dazu wurde eine zweidimensionale Normalverteilung der Hintergrundwerte für jeden einzelnen Block vorausgesetzt. Für jeden Block (i) wurde das arithmetische Mittel und die Standardabweichung für die Hintergrundwerte der Referenz (Kanal 1, x1) und der Probe (Kanal 2, x2) berechnet. Dazu wurde die „Minimum Volumen

Höhenlinien erlaubt und als ein Schätzer anzusehen ist, der durch stark abweichende Werte (Ausreißer) kaum beeinflusst wird. Somit stellt diese Methode ein zuverlässiges Verfahren zur Bestimmung des Mittelwerts und der Standardabweichung dar. Der Mittelpunkt der zu erzeugenden Ellipse wird derart geschätzt, dass bei minimalem Volumen der Ellipse, eine bestimmte Anzahl an Punkten abgedeckt wird. Zur Berechnung der Ellipse wurde folgende Gleichung benutzt:

x ­ sd m

lili

2

­ 2 x ­ sd m

lili

x ­ sd m

2i2i

x sd ­ m

2i2

2

2 ∗ 1 ­

2

log 

(1)

m1i= arithmetisches Mittel des Hintergrundwertes Kanal 1 (Referenz) für Block i sd1i= Standardabweichung des Hintergrundwertes Kanal 1 (Referenz) für Block i m2i= arithmetisches Mittel des Hintergrundwertes Kanal 2 (Probe) für Block i sd2i= Standardabweichung des Hintergrundwertes Kanal 2 (Probe) für Block i ρ1= Korrelationskoffizient (x1,x2) für Block i

Abb. 34: Diagramm der Hintergrundwerte für die Probe/Cy3-Kanal und die Referenz/Cy5-Kanal des Arrays 22, in dem die Werte des Blocks 1 in rot gezeichnet wurden. In grün sind die Höhenlinien einer zweidimensionalen Normalverteilung eingezeichnet, die berechnet wurden auf der Basis der „minimum volume ellipsoid“ Methode (Gleichung (1)) unter Verwendung verschiedener Werte für α.

Basierend auf der Gleichung (1) wurden für jedes Paar von Hintergrundwerten (Referenz und Probe (Abb. 34)) und Vordergrundwerten (Referenz und Probe (Abb. 35)) sämtlicher Blöcke aller DNA-Mikroarrays der drei Transkriptom-Experimente der Wert für log α berechnet. In den Abbildungen 34 und 35 sind als Beispiel die elliptischen Höhenlinien des Blocks 1 von Mikroarray 22 des zweiten Zeitreihenexperiments für die Hintergund- und die Vordergrundwerte gezeigt.

Zur Veranschaulichung ist in Abb. 35 dargestellt, wie gut die berechnete Ellipse den Bereich der niedrigen Intensitäten abdeckt, der in der Abbildung durch die roten Punkte repräsentiert wird.

In Abb. 35 wird dargestellt, welche von den Vordergrundwerten des Blocks 1 vom Arrays 22 auf Grund des berechneten α-Wertes in den Hintergrundbereich eingestuft und somit von der weiteren Datenanalyse ausgeschlossen wurden, da sie nicht vom Hintergrundsignal zu unterscheiden waren.

Abb. 35: Diagramm der Vordergrundwerte für die Probe/Cy3-Kanal und die Referenz/Cy5-Kanal des Arrays 22, in dem die Werte des Blocks 1 in rot gezeichnet wurden. In grün sind dieselben Höhenlinien eingezeichnet wie in Abb. 25. Alle Vordergrundwerte, die innerhalb einer ausgewählten Ellipse liegen, sind vom Hintergrundsignal nicht zu unterscheiden und werden von der weiteren Analyse ausgeschlossen. (Die mit einem X gekennzeichnete Höhenlinie ist die größte aus Abb. 34.)

Ein sehr kleiner Wert von log α markiert die Vordergrundwerte, die sich vom Hintergrund unterscheiden. Infolgedessen wurden die elliptischen Höhenlinien

eines bestimmten Wertes für log α dazu verwandt, die Expressionswerte auszuschließen, deren Wert von log α größer als eine bestimmte Konstante (c) ist. Den Einfluss des Ausschlusses der Werte mit einem log α > c = -500 ist in den folgenden Abbildungen zu sehen.

Abb. 36: Diagramm der Hintergrundwerte für die Probe/Cy3-Kanal und die Referenz/Cy5-Kanal des Arrays 22, vor der Berechnung des Hintergrundniveaus. Die Werte im Diagramm sind für jeden Block in einer anderen Farbe dargestellt. Im unteren Intensitätsbereich ist deutlich eine Anhäufung von Werten zu sehen, wodurch sich die „Hockeyschläger-Form“ der Punktwolke ausbildet.

In dem Diagramm der Abb. 36 sind die Vordergrundwerte der Referenz gegen die Probe aufgetragen. Im unteren Intensitätsbereich ist eindeutig eine Neigung bzw.

ein Abknicken der Werte zu sehen, wodurch sich die so genannte „hockey stick“

(Hockeyschläger) Form der Punktwolke ausbildet.

Abb. 37: Diagramm der Hintergrundwerte für die Probe/Cy3-Kanal und die Referenz/Cy5-Kanal des Arrays 22, nach der Berechnung des Hintergrundniveaus. Die Werte im Diagramm sind für jeden Block in einer anderen Farbe dargestellt.

Im Gegensatz zur Abb. 36, ist hier in Abb. 37 die Hockeyschläger-Form nicht mehr zu beobachten, weil durch die Festlegung des Hintergrundniveaus für den unteren Intensitätsbereich unzuverläßige Expressionswerte ausgeschlossen worden sind, wodurch sich für diesen Bereich eine Art Schärfung ergibt.

Diese Vorgehensweise hat den Vorteile, dass die untere Ausschlussgrenze der Expressionswerte nicht durch einen willkürlich festgelegten Schwellenwert bestimmt, sondern individuell durch eine mathematische Methode berechnet wird.