• Keine Ergebnisse gefunden

Generierung und statistische Auswertung der Expressionsda-

4.2 Methoden der Molekularbiologie

4.2.26 Quantitative Sybr-Green-Real-Time-PCR

4.2.27.3 Generierung und statistische Auswertung der Expressionsda-

Der von der Firma Affymetrix (Santa Clara, USA) hergestellte Hochdichte-Oligonukleotidchip S98 trägt Sequenzinformation für 9336 Sequenzabschnitte in Form von Probensätze. Davon codieren 6430 Sätze für alle bekannten ORFs von Saccharomyces cerevisiae. 6373 Ursprungs-sequenzen stammen aus der SGD-Datenbank mit dem Stand von Dezember 1998. Zusätzlich enthält der Chip 127 Probensätze für Sequenzen, die vom Münchener Informationszentrum für Proteinsequenzen (MIPS) als ORFs identifiziert wurden, aber nicht von den Wissenschaftlern der SGD (Saccharomyces Genomic Database, Stanford University, CA) als solche anerkannt wurden. Neben den Datenbanken von MIPS und SGD enthält der Chip Proben für verschie-dene Sequenzen von speziellem Interesse. Dabei handelt es sich um mitochondrial-codierte Gene, Ty-Proteine, ribosomale RNAs, snRNAs, ORFs aus 2µ-Plasmiden und mögliche ORFs aus Serien-Analysen der Genexpression [VELCULESCUet al. 1997]. Die restlichen ca. 2200 Probensätze entstammen Sequenzen, die Ende 1998 als Kandidaten für ORFs angesehen wur-den und vorläufig durch serielle Analysen der Gen-Expression (SAGE) iwur-dentifiziert wurwur-den.

Diese Sequenzen könnten mit geringen Raten oder unter spezifischen Bedingungen exprimiert werden. So kann die Verlässlichkeit multipler Genchip-Ansätze auch zur Funktionsaufklärung dieser schwach charakterisierten Sequenzen beitragen.

Für jeden Probensatz, der einen identifizierten oder potentiellen ORF repräsentierte, befan-den sich 16 verschiebefan-dene Oligonukleotide von 25 Basenpaaren Länge auf dem Chip (mit Glas-oberfläche). Diese Nukleotide waren genau komplementär („Perfect-Match-“, PM-Proben) zur jeweiligen Sequenz in der RNA. Unter diesen Proben waren weitere 16 Oligonukleotide ange-ordnet, die in der Mitte an der 13. Position identisch zur Zielsequenz waren („Mismatch“, MM-Proben, siehe Abb. 4.1A.). Die MM-Felder dienten so als Kontrolle für Kreuz-Hybridisierung und Spezifität der Hybridisierung. Die Anordnung ergab pro Ziel-ORF 16 Wertepaarungen (MM gegen PM); jede Einzelzelle im Probensatz enthielt etwa einige Millionen Moleküle.

Die Proben-Zellen auf dem Chip maßen 24µm ×24µm. Der Fluoreszenz-Scanvorgang er-folgte bei 570 nm Exitations-Wellenlänge mit einer Auflösung von 3µm pro erzeugtem Bild-punkt, was zu einer 8Pixel×8Pixel=64Pixel-Matrix für jede Probenzelle führte. Aus den 64 Einzelintensitätswerten wurde dann ein einziger Durchschnitts-Intensitätswert für jede Proben-zelle berechnet, indem aus den 64 Einzelintensitäten eine Verteilung berechnet und der Wert des 75. Quantils dieser Verteilung als Intensitätswert der gesamten Zelle übernommen wurde (Abb. 4.1B. und C.).

Die primäre Auswertung der Chips erfolgte mit dem Algorithmensatz der GeneChip3.1-5.0-Software (Firma Affymetrix). Die statistische Analyse auf signifikante An- bzw. Abreicherung eines Transkripts und Quantifizierung der Expressionsunterschiede geschah in zwei Algorith-menblöcken. Der Wechselalgorithmus erzeugte für jeden Probensatz einen Unterscheidungs-p-Wert und damit verbunden die Entscheidung, dass es sich um unterschiedliche Expressi-onswerte handelte. In einem zweiten Schritt wurde die quantitative An- oder Abreicherung durch Berechnung eines Signal-Log-Verhältnisses angegeben. Vor dem Vergleich der beiden Arrays wurde zum Ausgleich der technischen und biologischen Variation zwischen den Arrays

Intensität 300 Pixelzahl

Proben-Zelle,

so wie in der DAT-Datei enthalten;

einzelne Bildpunkte besitzen unterschiedliche Intensitäten

äußere Pixelbereiche um die Zelle werden ausgeschlossen,

verbleibende Bildpunktintensitäten werden in einem Histogramm erfasst:

Zellen-Durch- schnitts-Intensitätswert

= 300

Anteilswert von 75%

der Verteilung

Der Proben-Zelle wird in der CEL-Datei ein einziger Intensitätswert zugewiesen.

C.

B.

PM/MM-Probensatz als Pixel-Bild der DAT-Datei

PM/MM-Probensatz, wie er in der CEL-Datei abgelegt ist

1 16

PM MM A.

Abbildung 4.1:Zum Aufbau und Primärauswertung eines Oligonukleotid-Probensatzes, welcher ein Gen auf dem Chip repräsentiert. A: Probensatz aus 2×16 Oligonukleotid(25-mer)-enthaltenden Probenzellen. Die obere Reihe enthielt 16 perfekt komplementär zum Zielgen gewählte Oligonukleotid-Sequenzen, PM-Zellen („Perfect Match“). Die Reihe darunter enthielt die gleichen Nukleotide, die jedoch an Position 13 der Nukleinsäurekette einen Basenaustausch (identische Base zum Zielgen) besaßen (MM-Zellen, „Mismatch“), die zur Messung von Fehlbindung dienten. B: Skizzierung der Fluoreszenzsignal-Auswertung einer einzelnen Zelle in einem Proben-satz. Das Pixelmuster aus 64 Punkten mit unterschiedlichen Intensitätswerten wird in ein Histogramm übersetzt.

Der Intensitätswert, der dem 75. Quantil der Verteilung entsprach, wurde der Gesamtezelle als Durchschnittswert zugewiesen. Die für jede Zelle erhaltenen Intensitätswerte wurden in einer CEL-Datei abgespeichert (C.).

eine globale Daten-Skalierung bzw. ein globale Normierung durchgeführt. Bei der Computer-unterstützten globalen Normierung wurde die Durchschnittsintensität aller Proben-Sätze auf dem Experiment-Chip durch Multiplikation mit einem Normierungsfaktor NF äquivalent zur Durchschnittsintensität auf dem Baseline-Chip ausgedrückt. Die globale Daten-Skalierung beinhaltete die Multiplikation der Intensitäts-Durchschnittsittwerte beider Chips oder auch der Chippaare aus mehreren Experimenten mit Skalierungsfaktoren SF1bzw. SF2,. . . SFn, um alle Werte auf einen Ziel-Durchschnittsintensitätswert einzustellen und so verschiedene differenti-elle Experimente untereinander besser vergleichbar zu machen.

Die Durchschnittsintensität eines Chips wurde berechnet, indem der Mittelwert der Durch-schnittsintensitäten aller Probensätze auf dem Chip bestimmt wurde, nachdem die höchsten 2%

und die niedrigsten 2% der Werte ausgeschlossen wurden.

Ein weiterer robuster, nicht veränderbarer Normalisierungsfaktor, genannt „Perturbations-faktor“, wurde jeweils spezifisch auf jeden Probensatz angewendet. Er berücksichtigte die

cha-2,8 80

1 2 3 4 5 6 7 8 9 10

Proben-Paare:

PM

A. B.

MM

MM-Intensität/Probenpaar 80

20 76

80

77 80

78 80

79 80

14 80

92 80

76,9 80

0 80

t= 0,015

R

0 20 40 60 80 100

-0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2

Abbildung 4.3: Auswertung eines hypothetischen Probensatzes für den Vorzeichen-Rangtest nach Wilcoxon zur Generierung des p-Wertes. A. zeigt den Probensatz nach Bestimmung der Fluoreszenz-Intensitäten. Die PM-Wert-Intensität liegt hier bei konstant 80, die MM-Intensitäten schwanken von 0 bis 92. Die Probenpaare sind von 1 bis 10 nummeriert. Wenn die MM-Zellen-Intensität, aufgetragen als Abszisse in B., steigt und größer/gleich der PM-Intensität wird, wird der Unterscheidungswert R kleiner. Wird also die Intensität der MM-Zellen höher, sinkt die Möglichkeit, zwischen PM und MM zu unterscheiden. Die gestrichelte horizontale Linie stellt den Benutzer-einstellbaren Parameter Tau (in unseren Experimenten bei 0,015) dar.

rakteristischen sequenzabhängigen Eigenschaften der einzelnen Probensätze (darunter die die Affinität der Zielsequenzen zur Probe und die Hybridisierungs-Linearität jedes Probenpaares im Probensatz). Desweiteren wurde eine Hintergrundkorrektur und die Bestimmung eines Rausch-faktors durchgeführt (für Einzelheiten siehe Affymetrix-GeneChip-Dokumentation).

4.2.27.3.1 Der Weg zur zur quantitativen Bestimmung der Ab-/Anreicherung von Transkripten, Signifikanzbestimmung

0,000

0 10 20 30 40 50 60 70

0,025 0,050 0,075 0,100

f xPM f yMM

xPM,yMM

xPM

m~ m~yMM

Abbildung 4.2: Für den Rangsummentest von Wilco-xon wird angenommen, dass die Intensitätswerte der PM-und MM-Zellen gleich verteilt sind. Sie unterscheiden sich nur in den Medianen ˜µ.

Der Wechselalgorithmus generierte für jeden Pro-bensatz einen p-Wert als Maß für die Zufalls-wahrscheinlichkeit der gemessenen Unterschiede.

Er gibt an, wie groß die Wahrscheinlichkeit ist, dass es sich bei der Verteilung der Differenzen al-ler Probenpaare eines Probensatzes um eine zufäl-lige handelt, unter der Annahme, dass der Vertei-lungsmedian ˜µPSatz gleich Null ist. So entscheidet der p-Wert, ob die Nullhypothese H0angenommen oder zurückgewiesen werden muss. Die beobachte-te Verbeobachte-teilung war nicht zufällig, wenn der p-Wert klein ist. Je kleiner der p-Wert, desto größer also die Wahrscheinlichkeit, dass das betreffende Gen in den beiden Proben unterschiedlich exprimiert ist.

Die Bestimmung des Probensatz-p-Wertes er-folgte real durch zweiseitige Wilcoxon-Rangsum-men-Tests für gepaarte Stichproben. Es handelt sich um einen nichtparametrischen Test, der sehr allgemein anwendbar ist, da keine bestimmte Ver-teilungsannahme erforderlich ist und keine großen Stichproben vorausgesetzt werden. Er geht

von zwei gleichen Verteilungen der PM- und MM-Probenzellen eines Satzes aus. Die Vertei-lungen von unterschiedlich exprimierten Proben dürfen sich dabei nur in den Medianen unter-scheiden (vgl. Abb. 4.2). Es wird geprüft:

H0: ˜µPM =˜µMM gegen H1: ˜µPM 6=˜µMM

Der Test beurteilt anhand einer Rang-Statistik, ob die Signalintensität resultierend aus der Hybridisierung der Perfect-Match-Proben höher war als die der Mismatch-Proben-Intensitäten.

Aus den Intensitäten von PM und MM jedes Zellen-Paares wurde ein R-Wert berechnet nach R= PM−MM

PM+MM . (4.1)

Die R-Werte wurden der Größe nach in einer Rangliste sortiert und mit dem Signifikanz-Schwellenwert τ verglichen. Das Vorgehen beim Wilcoxon-Test soll anhand eines Beispiel-Probensatzes (siehe Abb. 4.3) verdeutlicht werden:

- 10 R-Werte eines Beispiel-Probensatzes:

{3,2; 0,024; 0,6; 0,017; 0,011; 0,004; 2,04, -0,07; 0,02; 1,0}

- Werte vergleichen zum gewählten Schwellenwertτ=0,015:

z.B.: #1= (3,2−0,015=3,185, . . . ,#5= (0,011−0,015) =−0,004 - So eingestellte Probenwerte werden nach ihren Beträgen sortiert:

8 6 5 4 9 2 3 10 7 1

R | −0,085| | −0,011| | −0,004| 0,002 0,005 0,009 0,585 0,985 2,025 3,185 - Die Vorzeichen tragenden Rangzahlen r der Zellen ergeben sich zu:

r:{10, 4, 7, 1, -2, -5, 9, -6, 3, 8}

- Als Summe der positiven Rangzahlen und somit als Teststatistik T ergibt sich:

T =∑(+r) =10+4+7+1+9+3+8=42

- Für n=10 findet man p-Werte tabelliert als: T 41 44 47 50 52 p 0,097 0,053 0,024 0,010 0,005 Es konnten auf diese Weise computergestützt p-Werte generiert werden, die durch Ver-gleich mit Grenzwerten, genanntγ1 bzw.γ2, zu Gruppierungen der Probensätze in Kategorien von angereicherten bis abgereicherten Transkripten oder nicht vorhandener Regulation führ-ten. Hierbei werden Paarwerte der beiden Arrays gebildet und mit zwei weiteren Grenzwerten verglichen. Aus den Einzel-p-Werten wurde ein Vergleichs-p-Wert für die Probensätze in bei-den Chips berechnet. Zur Einschätzung der Expressionsstärke eines Transkripts wurbei-den auch Tukey-Zweifachgewichtungen angewendet. Dabei werden Probenpaare, deren Signalstärke en-ger am Median-Wert des gesamten Probensatzes liegen, stärker gewichtet.

Zur quantitativen Bestimmung des Signals eines Probensatzes wurde die mittlere Diffe-renz benutzt (Average Difference, AD). Für die 16 Probenpaare wurden die DiffeDiffe-renzen von PM−MM gebildet und daraus der Mittelwert berechnet. Ob das Expressions-Niveau eines Tran-skripts im Baseline- gegenüber dem Experiment-Chip verändert war, wurde anhand von vier Vergleichswerten ermittelt (siehe Affymetrix-Dokumentation):

• Die Max-Werte (Zahl der erhöhten bzw. erniedrigten Probenpaare/Zahl der benutzten Probenpaare)

• Anreicherungs-/Abreicherungs-Verhältnis

• Log Average Ratio Change=Log Avgexp−Log Avgbase

• Differenzpositiv-Differenznegativ-Verhältnis

Ein Ab- bzw. Anreicherungsfaktor eines Gens in beiden HDOAs, FC (FoldChange) wurde folgendermaßen bestimmt: Der AD-Wert eines Transkripts steht in direkter Beziehung zu des-sen Expressionshöhe. Es wurden skalierte AD-Werte im Baseline- und Experiment-Datensatz neu berechnet, wobei nur relevante Probenpaare berücksichtigt wurden. Als nächstes wurde ein AD-Wechselwert (ADW) bestimmt:

ADW =ADexp−ADbase Der FC-Faktor berechnete sich nach:

FC= ADW

max[min(ADexp,ADbase),QM·QC]+

(+1 falls ADexp≥ADbase

−1 falls ADexp>ADbase (4.2) mit QC=max(Qexp,Qbase)

und QM =2,8 bei 24µm-Auflösung des Arrays

Die Gleichung berechnet den FC-Wert als positive Zahl, wenn das Transkript der Mu-tante gegenüber dem Wildtyp(Baseline)-Zustand angereichert war (Quotient: MuMu-tantenwer- Mutantenwer-te/Wildtypwerte), und als negative Zahl, wenn das Niveau abnahm. Q ist der zuvor berechnete Faktor für das Hintergrundrauschen des Gen-Chips.