• Keine Ergebnisse gefunden

Archiv "cDNA-Microarrays – Strategien zur Bewältigung der Datenflut" (11.02.2005)

N/A
N/A
Protected

Academic year: 2022

Aktie "Archiv "cDNA-Microarrays – Strategien zur Bewältigung der Datenflut" (11.02.2005)"

Copied!
7
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

D

ie Anzahl der Artikel, bei denen der Begriff Microarray im Titel oder Abstract vorkommt, ist seit der ersten Publikation zur Anwendung von Microarrays zur Messung von Gen- expressionsstärke im Jahre 1995 (27) ex- ponentiell gestiegen (Grafik 1). Die Be- sonderheit der Microarray-Technik liegt in ihrer Eigenschaft, dass bis zu mehrere zehntausend Gene einer Probe gleich- zeitig auf die Stärke ihrer Expression (Genaktivität) untersucht werden kön- nen. Als Proben können biologische Materialien von Viren, Bakterien, Pflan- zen, Tieren oder Menschen verwendet werden. Microarrays sind ein Werkzeug, mit dem die Suche nach geeigneten Kandidatengenen für eine Hypothese stark beschleunigt wird. Diese Kan- didatengene können dann in weiter- führenden Untersuchungen (so genann- te „Downstream-Analysen“) überprüft werden.

In Microarray-Studien ist die An- wendung und Fortentwicklung von Algorithmen und Methoden aus der

Informatik (Bioinformatik), insbeson- dere bei der Datenerfassung und der Vernetzung der Ergebnisse, sowie die Implementierung und Erweite- rung statistischer Methoden (Biome- trie) vor allem in der Auswertung un- abdingbar.

Ziele von Microarray- Untersuchungen

Obwohl die Anwendung der Microar- ray-Technologie sehr vielseitig ist, las- sen sich die Ziele der Auswertungen aus statistisch methodischer Sicht in der biomedizinischen Forschung grob in folgende drei Bereiche einteilen, wobei es im Rahmen der Analyse einer Micro- array-Studie auch zur Anwendung von Methoden aus mehreren Bereichen kommen kann:

>Untersuchung auf Unterschiede in der Expression zwischen Proben aus verschiedenen Gruppen/Populationen,

>Clusteranalyse von Genen/Proben zur Entdeckung von Gruppen oder Strukturen („unsupervised learning“),

>Klassifikation von Krankheitsen- titäten („supervised learning“).

Bei der Untersuchung auf Unter- schiede in der Expression zwischen verschiedenen Gruppen sind zwei un- terschiedliche Fragestellungen hervor- zuheben. Zum einen interessiert der Vergleich zwischen Tumorgewebe und Normalgewebe bei einem Patienten, zum anderen der Vergleich der Expres- sionsstärke im Gewebe von Patienten gegenüber gesunden Kontrollen. Ziel ist dabei die Entdeckung von geneti- schen Ursachen insbesondere für kom- plexe Krankheiten, die dann zu An- satzpunkten für (kausale) Therapien führen können (17). Auch der Ver- gleich von unbehandelten Zellkultu- ren mit solchen, die bestrahlt oder mit einem Medikament behandelt wurden, stellt ein mögliches Untersuchungsde- sign dar. Hieraus erhofft man sich eine Verbesserung oder Differenzierung für Therapien.

In der Clusteranalyse wird nach Gen- gruppen oder Subgruppen in Proben ge- sucht, die ähnliche Expressionsmuster zeigen (14, 32). Eine Anwendung ist zum Beispiel die Differenzierung neuer Tu- morsubtypen oder die Aufdeckung von Gengruppen, deren Expression zusam- menhängt (1, 24, 30).

cDNA-Microarrays –

Strategien zur Bewältigung der Datenflut

Zusammenfassung

Die Zahl von Artikeln zu Untersuchungen mit Beteiligung von Microarray-Techniken nimmt derzeit stark zu. Mit Microarrays kann die Gen- expression (Genaktivität) vieler Gene gleich- zeitig bestimmt werden. Die Genexpression entspricht dabei der Menge an mRNA, die in einer Zelle vorhanden ist; die mRNA ist ein Sur- rogat für die Genaktivität in einer Zelle. Damit können beispielsweise Unterschiede in der Expression verschiedener Gene zwischen Tu- morgewebe und Normalgewebe untersucht werden. Potenziell sind so Aussagen über den Beitrag der Gene zur Tumorentstehung mög- lich. Ein weiteres Anwendungsbeispiel ist die bessere Klassifikation von Tumoren. In diesem Artikel wird aus biometrischer Sicht darge- stellt, welche Aussagen anhand von Micro-

array-Untersuchungen derzeit getroffen wer- den können und was bei der Planung, Durch- führung, Auswertung und Interpretation der Ergebnisse beachtet werden sollte.

Schlüsselwörter: molekulare Medizin, Micro- array, Klassifikation, Krebsentstehung, multi- ples Testen

Summary

cDNA-Microarrays – Strategies for Coping Abundant Data

The number of articles in scientific literature concerning microarrays increases steadily. With microarrays gene expression levels (gene activity) can be determined for a large number of genes simultaneously. The gene expression

corresponds to the amount of mRNA present in the cell and is used as a surrogate for the de- gree of gene activity in the cell. The com- parison of differential expression between tumourous and normal tissue is an example for the application of this technique. As a result of this investigation it may be possible to determine the potential contribution of one or more genes to tumour development. Another example is the classification of tumour sub- types. This article discusses what kind of results can be achieved with microarray experiments so far and what has to be considered when planning, performing and interpreting such experiments from a biostatistician´s viewpoint.

Key words: molecular medicine, microarray, classification, development of cancer, multi- ple testing

Institut für Medizinische Biometrie, Epidemiologie und Informatik (Leiterin: Prof. Dr. rer. nat. Maria Blettner), Jo- hannes Gutenberg-Universität, Mainz

Anja Victor Stefanie J. Klug Maria Blettner

(2)

In der Klassifikation ver- schiedener Krankheitsentitä- ten liegt eine der für die Kli- nik viel versprechenden Mög- lichkeiten der Genexpressi- onsanalyse. Die Klassifikation verschiedener Tumorsubty- pen kann die Diagnose ver- bessern und damit die Wahl und den Erfolg der Therapie.

Mit Microarrays könnten gleichzeitig Tausende Gene untersucht und damit das Ver- ständnis der molekularen Un- terschiede zwischen Tumor- subtypen verbessert werden.

In einer Studie wurde bei- spielsweise nach Genexpres- sionsprofilen geforscht, die im Voraus einen Hinweis auf den

Erfolg einer Chemotherapie mit Doce- taxel bei Brustkrebspatientinnen geben könnten (9).

Eine andere Anwendung ist die Be- stimmung eines Sets von Genen, an- hand deren Expressionsprofil Patien- tinnen mit Brustkrebs in Hoch- und- Niedrig-Risikogruppen eingeteilt und entsprechend dieser Einteilung thera- piert werden könnten (35). Als Beispie- le für die Einsatzmöglichkeiten von Microarrays aus dem Bereich der Bak- terien, die aus medizinischer Sicht inter- essant sind, seien die genaue Klassifizie- rung (7, 20) und Identifikation von neu- en Bakterienstämmen genannt (4).

Beim Patienten kann eine Infektion so- mit schneller identifiziert und gezielt behandelt werden (15, 36). Clusterana- lyse und Klassifikation sind nicht immer klar trennbar. Auch bei Untersuchun- gen zur Klassifikation können Cluster- analysen als einer der Analyseschritte verwendet werden (16, 23).

Molekularbiologische Technik

Grafik 2 stellt schematisch den Ablauf eines cDNA-Microarray-Experiments dar, bei dem mRNA aus einem Tumor mit mRNA aus den Zellen einer gesun- den Kontrolle verglichen wird. DNA- Fragmente der interessierenden Gene werden mit der Polymerase-Kettenre- aktion (PCR) amplifiziert und auf der Oberfläche des Microarray-Chips, meist handelt es sich hierbei um einen

einfachen Glasobjektträger, aufgetra- gen. Die so entstandenen Spots, die je- weils unterschiedliche Genfragmente enthalten, werden anschließend fixiert.

Auch Gendoubletten, Negativ- und Po- sitivkontrollen sollten nach Möglich- keit auf einem cDNA-Microarray ent- halten sein. Microarray-Chips können gekauft oder selbst hergestellt werden.

Die zu untersuchende mRNA des in- teressierenden Ausgangsmaterials wird isoliert und mithilfe des Enzyms re- verse Transkriptase wird cDNA („com- plementary DNA“) neu synthetisiert.

Dabei werden in die neue cDNA Nu- kleotide mit fluoreszierenden Farbstof- fen inkorporiert. So werden aus ver- schiedenen Ausgangsmaterialien, hier im Beispiel von Tumor und Kontrolle (Grafik 2), verschieden fluoreszieren- de Farbstoffe eingebaut, die bei unter- schiedlicher Wellenlänge zum Beispiel rot oder grün leuchten. Die entstandene cDNA aus den zu untersuchenden Aus- gangsmaterialen wird gemischt und zur Hybridisierung auf die einzelnen Spots des Microarrays aufgetragen. Anschlie- ßend wird der Microarray gewaschen, um ungebundene cDNA zu entfernen.

Zur Quantifizierung der Genexpres- sion wird die Fluoreszenzintensität der einzelnen Spots auf dem Microarray mit einem Laser, meist ein konfokales Lasermikroskop, ermittelt (gescannt).

Hierbei wird jeweils mit den unterschied- lichen Wellenlängen gemessen, die für die Fluoreszenzreaktion der verwende- ten Farbstoffe nötig sind.

In dem Beispiel würde die cDNA, die aus der Tumor-mRNA synthetisiert wur- de, rot leuchten, wenn diese hauptsäch- lich hybridisiert wäre. Gebundene cDNA der Kontrolle würde als grüner Spot er- kennbar sein, ein gelber Spot bedeutet, dass beide cDNAs in gleicher Men- ge hybridisiert sind, wohingegen ein schwarzer Spot indiziert, dass keine der beiden cDNAs gebunden hat (Grafik 3).

Von der Farbe und der Intensität der Fluoreszenz kann die relative Expressi- onsaktivität der auf dem Microarray fi- xierten Genfragmente der beiden Pro- ben abgeschätzt werden.

Zur vertieften Darstellung der Metho- dik und zusätzlich der zugrunde liegen- den Molekularbiologie wird auf folgende Texte verwiesen (21, 28) (www.ebi.ac.uk/

microarray/biology_intro.html).

Weitere Anwendungsbereiche der Microarray-Technik, auf die nicht einge- gangen wird, umfassen Oligonukleoti- de-Microarrays (www.affymetrics.com) sowie Protein- und Antikörper-Arrays (18).

Planung und Auswertung von Microarray-Experimenten

Ziel der Planung und Auswertung aus biometrischer Sicht ist es (Grafik 4):

>bei der Planung das für die Fra- gestellung optimale Design zu wählen und die nötige Fallzahl abzuschätzen,

>die anfallenden Datenmengen zu reduzieren und systematische Fehler in den Daten zu beheben, sodass eine sinnvolle Auswertung möglich ist,

>den Vergleich zwischen den Grup- pen oder die Klassifikation oder andere statistische Verfahren der Fragestellung entsprechend auszuwählen und durch- zuführen,

>die Ergebnisse zu interpretieren und auf eventuelle Limitationen hinzu- weisen.

Design des Versuchs

Bei Verwendung von Microarrays gibt es kein standardisiertes Design. Das Vorgehen muss in Abhängigkeit von der Fragestellung auch im Hinblick auf die Durchführbarkeit und Auswer- tung ausgewählt werden (39). Eine Ergebnisse einer Literatursuche in Pubmed (Medline) mit

dem Begriff „Microarray*“ als Suchwort ab 1995 (Stand 3. 2. 2004)

Grafik 1

(3)

Möglichkeit besteht darin, pro Array jeweils nur eine Probe auszuwerten, so ergeben sich mit jedem Chip Inten- sitätswerte für eine Probe. Häufig ver- wendet werden auch komparative De- signs, bei denen zwei verschiedene Proben mit unterschiedlichen Fluo- reszenzfarbstoffen markiert und an- schließend auf demselben Chip hybri- disiert werden (Grafik 3). Man be- trachtet dann das Intensitätsverhältnis zweier Proben zueinander. Möchte man zwei Gruppen mit einem kompa- rativen Design vergleichen, gibt es die Möglichkeit eines „common referen- ce“-Designs, das heißt, alle Proben werden gegen dieselbe Kontrolle ver- glichen. Dies kann zum Beispiel eine aus allen Kontrollen gepoolte cDNA- Probe sein. Der Vergleich zwischen den zwei Gruppen erfolgt indirekt über die Quotienten jeweils zur glei- chen Kontrolle. Beim direkten Design wird je eine Probe einer Gruppe mit einer Probe der anderen Gruppe auf einem Glasobjektträger hybridisiert.

In vielen Fällen ergibt dieser direkte Vergleich eine geringere Varianz (39).

Beim paarweisen Vergleich von mehr als zwei Gruppen werden bei einer di- rekten Gegenüberstellung jedoch schnell sehr viele Vergleiche erforder- lich. Sollen mehr als zwei Gruppen verglichen werden, ist häufig ein De- sign unter Verwendung indirekter Ver- gleiche von der Durchführbarkeit her zu empfehlen. Die Art der Vergleiche, sowie die Anzahl und Art der Replika- tionen sollte vor Beginn des Experi- ments in Absprache mit einem Biome- triker festgelegt werden (19, 39).

In diesem Artikel beziehen sich die Autorinnen in der Regel auf die kom- parative Form der Microarray-Versu- che.

Datenvorbereitung und Bioinformatik

Bei der Auswertung der Ergebnisse von Microarray-Versuchen ergeben sich zahlreiche Probleme, mit deren Lösung sich die Bioinformatik und die Biometrie beschäftigt. Es werden enor- me Datenmassen generiert, für die geeignete Speicherungs- und Darstel- lungsmöglichkeiten gefunden werden

müssen. Die bunt leuchtenden Micro- arrays müssen in Intensitätswerte (Zah- len) umgewandelt und hieraus müssen Aussagen gewonnen werden.

Schon die Bildanalyse ist ein um- fangreiches Aufgabenfeld für die In- formatik. Die sich ergebenden Fluo- reszenzen müssen gemessen und zu Intensitäten verarbeitet werden. Die Entscheidung, was Hintergrundhellig- keit und was Intensität der Probe ist, wird von verschiedener Scannersoft- ware unterschiedlich gehandhabt. Aus den vielen Bildpunkten je Spot muss eine zusammenfassende Maßzahl der Helligkeitspixel gebildet werden. In der Regel wird der Mittelwert aller dem Hintergrund zugeordneten Pixel und aller der Probe zugeordneten Pi- xel gebildet. Anschließend wird für den Intensitätswert der Hintergrund- mittelwert vom Probenmittelwert ab- gezogen. Um annähernd normal ver- teilte Werte zu erhalten, wird zumeist mit logarithmierten Intensitäten gear-

beitet. Bei komparativen Experimen- ten, bei denen die Proben mit unter- schiedlichen Farbstoffen (zum Bei- spiel Cy5 und Cy3, rot und grün) mar- kiert wurden, wird die Differenz die- ser zwei logarithmierten Werte gebil- det, das logRatio (hierbei stehen Cy5 und Cy3 für den Intensitätswert von Cy5 beziehungsweise Cy3). Dieser Wert wird für die weitere Analyse ver- wendet.

Fehlerquellen und Normalisierung

Experimente mit Microarrays ent- halten zahlreiche potenzielle Fehler- quellen. Bereits die Präparation der zellulären mRNA ist ein kritischer Schritt der Untersuchung, da diese zum Beispiel degradieren kann, oder Fehler beim Markieren der mRNA mit den fluoreszierenden Nukleotiden auftreten können (21). Dadurch könn- Herstellung eines cDNA-Microarrays (modifiziert nach [13] mit freundlicher Genehmigung der Nature Publishing Group, www.nature.com/ng).

Grafik 2

(4)

te es sein, dass das Versuchsergebnis nicht die In-vivo-Situation widerspie- gelt. Weitere Fehlerquellen können bei der Herstellung des Chips im eige- nen Labor, der Hybridisierung oder beim Scannen des Arrays auftreten.

Vor der Datenprozessierung und Auswertung muss eine gründliche Un- tersuchung auf mögliche Fehler oder systematische Einflüsse beim Ver- suchsablauf erfolgen (33). Fehlerhafte Ergebnisse müssen von der Analyse ausgeschlossen werden, systematische Fehler, die ein Ergebnis ver-

zerren können, versucht man mit der Normalisierung zu korrigieren. Normalisierung könnte man auch mit dem Begriff Skalierung umschrei- ben. Die erhaltenen Inten- sitäten sind keine absoluten Werte, die für dieselben Pro- ben bei jedem Versuch gleich sind. Vielmehr ist die Höhe der Intensität von zahlrei- chen äußeren Faktoren des Versuchs abhängig. Eine Möglichkeit der Normalisie- rung besteht darin, auf dem Array Gene, die für ständig benötigte Gene in der Zelle kodieren (Housekeeping- Gene), mitzuhybridisieren, die dann als Nullkontrolle dienen. Nach Beendigung des Versuchs wird die mittle- re Intensität dieser Nullkon-

trollen ermittelt und von allen ande- ren Werten subtrahiert (3, 29). Die Verwendung von Housekeeping-Ge- nen weist einige Probleme auf. So ist nicht immer sicher, dass es sich bei den verwendeten Genabschnitten wirklich um Nullkontrollen handelt. Außerdem ist ihre Zahl in Relation zur Gesamt- heit der Gene auf dem Array meist zu klein. Dadurch kann es zu einer fehler- haften Skalierung kommen. Eine Al- ternative besteht darin, die Intensitä- ten aller Gene zur Normalisierung zu nutzen. Dabei wird davon ausgegan- gen, dass die meisten Gene für die Fra- gestellung nicht wichtig sind. Bei die- sem Ansatz wird die mittlere oder me- diane Intensität aller Gene von jedem einzelnen Wert subtrahiert. Eine fei- nere Anpassung, die die Möglichkeit, dass die Einflüsse unterschiedlich für

verschiedene Intensitätshöhen sind, berücksichtigt, ist die Verwendung ro- buster lokaler Regression (38). Da nicht immer davon ausgegangen wer- den kann, dass die Mehrheit der Gene auf dem Array keine differenzielle Ex- pression zeigt, gibt es weitere Vor- schläge zur Wahl der zur Normalisie- rung herangezogenen Kontrollen. Bei- spielsweise kann die Auswahl einer Untermenge aller Gene, „rank invari- ant selection“ (26), hierfür verwen- det werden. Eine weitere Möglichkeit

bietet die Zugabe künstlicher Trans- kripte, deren Verhalten definiert ist.

Erst die entsprechend vorbereiteten (logarithmierten Quotienten der) In- tensitätswerte verwendet man schließ- lich als „wahres“ Signal in der statisti- schen Auswertung. Im Folgenden wer- den mit „fold change“ diese qualitäts- kontrollierten, normalisierten Quoti- enten bezeichnet.

Wie die Ausführungen zeigen, exi- stiert für die Datenvorbereitung der Microarray-Technik noch kein ausge- reiftes, standardisiertes Vorgehen. Für fast jeden Analyseschritt gibt es ver- schiedene Vorgehensmöglichkeiten.

Es ist daher schwierig, die Qualität der Ergebnisse zu beurteilen und Resulta- te verschiedener Studien miteinander zu vergleichen. Um dieses Problem anzugehen, wurde eine Arbeitsgruppe

„Microarray Gene Expression Data Society“ (mged) gegründet. Diese Ar- beitsgruppe hat einen Leitfaden „mini- mum information about a microarray experiment“ (MIAME) herausgege- ben, der bei Veröffentlichungen eine Beurteilung der Qualität ermöglichen soll (6). Zeitschriften wie Nature, Cell und Lancet haben angekündigt, diese Standards einzuhalten.

Das EBI (European Bioinformatics Institute) hat ebenso wie das NCBI (National Center for Biotechnology Information) eine Datenbank, in der Daten aus Microarray-Experimenten gespeichert sind, (ähnlich der EMBL- Datenbank für DNA-Sequenzdaten) eingerichtet. Diese Datenbanken hei- ßen ArrayExpress (www.ebi.ac.uk/

arrayexpress) und Gene Expression Omnibus (www.ncbi.nlm.nih.gov/geo/).

Statistische Auswertung

Die Herausforderung in der statisti- schen Analyse besteht in der hohen Zahl von Genabschnitten mit gemes- sener Expression im Vergleich zur meist geringen Anzahl untersuchter Proben, das heißt, es werden viele Merkmale, aber nur wenige Beobach- tungseinheiten erhoben.

Beim Vergleich von Gruppen (bei- spielsweise zwischen Tumor- und Nor- malgewebe) bezüglich der Genexpres- sionsstärke wird häufig nur die Größe der „fold change“ betrachtet (ein Wert von zum Beispiel > 3 wird dabei als re- levant bezeichnet). Eine Entscheidung anhand dieses Kriteriums ist häufig fehlerhaft, weil dabei nicht beachtet wird, dass es mit höheren Intensitäts- werten auch zu höheren Varianzen kommt.

Stattdessen ist die Verwendung sta- tistischer Tests auf Unterschiede (zum Beispiel t-Test), besonders wenn mehr als eine explorative Aussage er- wünscht ist, notwendig. Jedoch kann es aufgrund der vielen untersuchten Abschnitte und der somit hohen Zahl durchgeführter Tests zu vielen falsch- positiven (fälschlich signifikanten) Er- gebnissen kommen. Eine Beachtung dieses Problems (multiples Testen) ist notwendig (11, 12). Man kann sich dafür entscheiden, die Wahrscheinlich- cDNA-Microarrays, das Bild wurde freundlicherweise von

Dr. Susanne Kneitz, Interdisziplinäres Zentrum für klini- sche Forschung, Würzburg, zur Verfügung gestellt.

Grafik 3

(5)

keit, mindestens ein falschpo- sitives Ereignis zu erhalten, zu kontrollieren („familywise er- ror rate“, FWER). Hier wur- den Verfahren von Westfall und Young entwickelt (37), die auf die Microarray-Analy- se übertragbar sind (12).

Die Kontrolle der FWER ist ein sehr striktes Fehler- kriterium und mit dem Nach- teil einer geringen Power, wahre Unterschiede zu ent- decken, behaftet. Eine weni- ger strikte Definition zugun- sten einer höheren Power ist in vielen Studien wünschens- wert, weil es sich bei Micro- array-Studien in erster Linie um explorative Studien han- delt, deren Ergebnisse in wei- teren Analysen überprüft werden. Deshalb bietet sich die Kontrolle der „false dis- covery rate“ (FDR) an (5, 11, 34). Die FDR ist der erwartete Anteil fälschlich abgelehnter Hypothesen an allen abgelehnten Hypothe- sen (Tabelle) (5). Ihre Kon- trolle hat den Vorteil einer in den meisten Situationen hö- heren Power, jedoch können mehr falschpositive Ergebnis- se auftreten.

Die Clusteranalyse dient dazu, große Mengen an In- formation zusammenzufassen und kondensiert zu präsen- tieren. Es wird versucht, zu- vor unbekannte Gruppen von Genen anhand ähnlicher Ex- pressionsstärke oder Grup-

pen von Proben anhand ähnlicher Expressionsprofile zusammenzufassen (zu „clustern“). Man kann sich das ver- einfacht als Unterscheidung von Punkt- wolken vorstellen. Bei der Clusterana- lyse handelt es sich vor allem um ein Verfahren zur Deskription, statistische Testverfahren werden hier in einem an- deren Sinn angewandt.

Die explorative Natur dieses Verfah- rens zeigt sich auch dadurch, dass die Ergebnisse (Cluster) stark von den gewählten Eigenschaften der Cluster- Analyse abhängen. So ist die Wahl des Abstandsmaßes (was ist „ähnlich“)

oder die Wahl des Clusterverfahrens ausschlaggebend für die resultierende Gruppierung (Cluster). Beim hierarchi- schen Clustering zum Beispiel werden zunächst die zwei nächsten Elemente zu einem Cluster zusammengefasst, an- schließend wird dieser Cluster wieder mit anderen Elementen oder Clustern weiter zusammengefasst, sodass ein ge- schachteltes System von Clustern ent- steht. Demgegenüber wird die Anzahl der Cluster beim k-means-Verfahren vorher festgelegt, anschließend werden die Gene/Proben „optimal“ zugeteilt.

Eine Zusammenstellung von Cluster-

verfahren für Microarray-Anwendun- gen bietet Quackenbush (25).

Alle genannten Analysen können auch als Vorstufen für die Klassifika- tion verwendet werden. Klassifikation ist die Zuordnung von Proben zu bekannten Gruppen anhand ihrer Expressionsprofile. Man versucht da- bei, eine minimale Gruppe von Genen zu identifizieren, anhand derer man bekannte Populationen mit ausrei- chender Sicherheit unterscheiden kann.

Eine Zusammenstellung und einen Vergleich der in diesem Zusammen- hang gebräuchlichen statistischen Verfahren wie Diskriminanzanalyse,

„nearest neighbor classifiers“, „classi- fication and regression trees“, sowie

„bagging and boosting“ sind bei Du- doit, Fridlyand und Speed (10) zu finden. Ein weiteres statistisches Ver- fahren, das in diesem Zusammenhang verwendet werden kann, sind „support vector machines“ (8).

Neben der Auswertung sollte auch die Vorbereitung der Daten für die endgültige Analyse von einem Biome- triker vorgenommen werden. Heute werden viele Programmpakete ange- boten, die diese Vorbereitungsschritte wie zum Teil auch schon die Analyse- schritte nach Aussagen der Hersteller implementiert haben. Hierbei handelt es sich aber oftmals um eine Black- box deren Dokumentation und vor allem deren Anpassbarkeit an die Situation der Daten häufig unzurei- chend ist. Die Autorinnen raten da- her davon ab, solche Programme unkritisch zu verwenden. Man sollte alle Schritte von den Rohdaten bis zur Aussage unter wissenschaftlicher Betreuung durch einen Biometriker durchführen, der auch schon in die Planung vor Beginn des Versuchs ein- gebunden sein sollte.

Für das frei verfügbare Statistiksoft- ware-Paket R (ähnlich S-Plus, www.

cran.r-project.org) hat eine Gruppe von Biometrikern eine Plattform ein- gerichtet, die kostenfrei zugängliche Programme mit Dokumentation zur Datenvorbereitung und Auswertung von Microarray-Daten zur Verfügung stellt (www.bioconductor.org).

Zum erweiterten Studium sei auf entsprechende Bücher (2, 22, 31) ver- wiesen.

Schema des Ablaufs einer Studie mit selbst erstelltem Microarray (gelb: Beteiligung Bioinformatiker, rot: Be- teiligung Biometriker, orange: Beteiligung von Biometri- ker und Bioinformatiker)

Grafik 4

(6)

Fazit

Microarrays lassen die gleichzeitige Un- tersuchung der Expression zahlreicher Genabschnitte zu. Hierdurch wird das molekulare Verständnis von Krankheiten verbessert und ermöglicht, Therapieop- tionen zu finden oder zu optimieren. Mit der Generierung vieler Ergebnisse steigt allerdings gleichzeitig das Risiko vieler falschpositiver Resultate.Außerdem han- delt es sich bei Messung der mRNA nur um einen Surrogatparameter für die Ak- tivität eines Gens. Ferner ist aufgrund der verwendeten Technik eine hohe Fehler- anfälligkeit gegeben; dies muss bei der Auswertung adäquat berücksichtigt wer- den. Microarray-Studien haben somit noch explorativen Charakter; zur Verifi- zierung ihrer Ergebnisse sollten Bestäti- gungsversuche mit anderen Methoden wie zum Beispiel mittels „real time“-PCR durchgeführt werden. Derzeit gibt es noch keine einheitlich verwendeten Stan- dards, anhand derer die Ergebnisse von Microarray-Studien beurteilt werden können. Die Microarray-Methode besitzt jedoch ein enormes Entwicklungspoten- zial, das in der Erforschung von Ursachen und Therapien komplexer Krankheiten zu Erfolgen führen kann.

Die Autorinnen erklären, dass kein Interessenkonflikt im Sinne der Richtlinien des International Committee of Me- dical Journal Editors besteht.

Manuskript eingereicht: 1. 3. 2004, revidierte Fassung angenommen: 13. 7. 2004

Zitierweise dieses Beitrags:

Dtsch Arztebl 2005; 102: A 355–360 [Heft 6]

Veranschaulichung der „false discovery rate“ nach (5)

nicht abgelehnte abgelehnte Summe

Hypothesen Hypothesen

wahre Hypothesen T V M0

falsche Hypothesen U S M1

Summe M-R R M

Die jeweilige Hypothese lautete: „Es besteht kein Unterschied“.

R sind alle aufgrund des statistischen Tests abgelehnten Hypothesen.

V ist die Anzahl der fälschlich abgelehnten Hypothesen, der Fälle, in denen in Wahrheit kein Unterschied besteht, aber aufgrund des Tests fälschlich ein Unterschied postuliert wird.

V/R ist somit der Anteil der fälschlich abgelehnten Hypothesen an allen abgelehnten Hypothesen.

Berichtigung

In dem Beitrag „Spätinterruptio und Fetozid – das Kieler Modell“

von Kaisenberg und Koautoren in Heft 3 vom 21. Januar 2005 ist auf Seite A 135 ein Fehler aufgetre- ten. Statt „1. Avitaler Fetus, Totge- burt mit einem Gewicht von mehr als 500 g: Es wird kein Totenschein ausgestellt [. . .]“ muss es richtig lauten: 1.Avitaler Fetus,Totgeburt mit einem Gewicht von weniger als 500 g: Es wird kein Totenschein ausgestellt [. . .].“

AUSGEWÄHLT UND KOMMENTIERT VON H. SCHOTT AUSGEWÄHLT UND KOMMENTIERT VON H. SCHOTT

MEDIZINGESCHICHTE(N))

Homöopathie Simile-Prinzip

Zitat: „Jedes wirksame Arzneimittel erregt im menschlichen Körper eine Art von eigner Krankheit, eine desto eigenthümlichere, ausgezeichnetere und heftigere Krankheit, je wirksamer die Arznei ist. Man ahme der Natur nach, welche zuweilen eine chronische Krankheit durch eine andre hinzu- kommende heilt, und wende in der zu heilenden (vorzüglich chronischen) Krankheit dasjenige Arzneimittel an, welches eine andre, möglichst ähnli- che, künstliche Krankheit zu erregen im Stande ist, und jene wird geheilt werden; Simila similibus.“

Samuel Hahnemann: Versuch über ein neues Princip zur Auffindung der Heilkräfte der Arzneisubstanzen, nebst einigen Blicken auf die bisherigen. (Erstveröffentli- chung in Hufelands Journal der praktischen Arzneikun- de, 2. Band, 3. Stück, 1796.) Aus: Der sympathetische Arzt.Texte zur Medizin im 18. Jahrhundert. Herausgege- ben von Heinz Schott. München 1998, Seite 248. – Hah- nemann (1755–1843) formulierte an dieser Stelle zum ersten Mal den Grundsatz der Homöopathie, die er spä- ter mit seinem Hauptwerk „Organon der rationellen Heilkunde“ (1810) begründete, nämlich das Ähnlichkeits- prinzip: Similia similibus curentur (Ähnliches möge durch Ähnliches geheilt werden).

Pest

Biblischer Bericht

Zitat:„Aber die Hand des Herrn lag schwer auf den Leuten von Asdod und verstörte sie und schlug sie mit Beulen [òphâlîm], Asdod und sein Gebiet. [...]

Da schaffte man die Lade des Gottes Israels dorthin [nach Gath]. Als man sie aber hingeschafft hatte, da brachte die Hand des Herrn über die Stadt ei- ne sehr grosse Bestürzung; er schlug die Leute der Stadt vom Kleinsten bis zum Größten, sodass an ihnen Beulen ausbrachen.

[...] Da sandten sie die Lade nach Ekron.Als aber die Lade Gottes nach Ekron kam, schrien die Leute von Ekron: [...] Schicket die Lade des Gottes Israels wieder fort, dass sie heimkehre und nicht uns und unser Volk töte!“

„Pest der Philister“, 1060 v. Chr. (1. Sam 5, 6ff.). Aus:

Zürcher Bibel, Zürich 1955, Seite 306 f. – Vermutlich handelte es sich um die Beulenpest. Schon den Göt- tern in Ägypten und Babylonien wurde die Aussen- dung von Seuchen (zur Bestrafung der Menschen) unterstellt, aber auch die Macht, diese zu heilen.

Die Zahlen in Klammern beziehen sich auf das Literatur- verzeichnis, das beim Verfasser erhältlich oder im Internet unter www.aerzteblatt.de/lit0605 abrufbar ist.

Anschrift für die Verfasserinnen:

Prof. Dr. rer. nat. Maria Blettner

Institut für Medizinische Biometrie, Epidemiologie und Informatik

Klinikum der Universität Mainz Obere Zahlbacher Straße 69, 55131 Mainz E-Mail: blettner@imbei.uni-mainz.de

(7)

Literatur

1. Alizadeh AA, Eisen MB, Davis RE et al.: Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling. Nature 2000; 403: 503–511.

2. Amaratunga D, Cabrera J: Exploration and analysis of DNA microarray and protein array data. Hoboken:

Wiley 2003.

3. Beißbarth T, Fellenberg K, Brors B et al.: Processing and quality control of DNA array hybridization data.

Bioinformatics 2000; 16: 1014–1022.

4. Bekal S, Brousseau R, Masson L, Prefontaine G, Fair- brother J, Harel J: Rapid identification of Escherichia coli pathotypes by virulence gene detection with DNA-microarrays. J Clin Microbiol 2003; 41:

2113–2125.

5. Benjamini Y, Hochberg Y: Controlling the false disco- very rate: a practical and powerful approach to mul- tiple testing. J Roy Stat Soc B Met 1995; 57: 289–300.

6. Brazma A, Hingamp P, Quackenbush J et al.: Mini- mum information about a microarray experiment (MIAME) – towards standards for microarray data.

Nat Genet 2001; 29: 365–371.

7. Broekhuijsen M, Larsson P, Johansson A et al.: Genome- wide DNA microarray analysis of Francisella tula- rensis strains demonstrates extensive genetic con- servation within the species but identifies regions that are unique to the highly virulent F. tularensis subsp. tularensis. J Clin Microbiol 2003; 41: 2924–

2931.

8. Brown MP, Grundy WN, Lin D et al.: Knowledge based analysis of microarray gene expression by using sup- port vector machines. Proc Natl Acad Sci USA 2000;

97: 262–267.

9. Chang JC, Wooten EC, Tsimelzon A et al.: Gene ex- pression profiling for the prediction of therapeutic response to docetaxel in patients with breast cancer.

Lancet 2003; 362: 362–369.

10. Dudoit S, Fridlyand J, Speed TP: Comparison of discri- mination methods for the classification of tumors using gene expression data. J Am Stat Assoc 2002;

97: 77–87.

11. Dudoit S, Shaffer JP, Boldrick JC: Multiple hypothesis testing in microarray experiments. Stat Sci 2003: 18:

71–103.

12. Dudoit S, Yang YH, Callow MJ, Speed TP: Statistical methods for identifying differentially expressed genes in replicated cDNA microarray experiments.

Stat Sinica 2002; 12: 111–139.

13. Duggan DJ, Bittner M, Chen Y, Meltzer P, Trent JM:

Gene expression profiling using cDNA microarrays.

Nat Genet 1999; 21: 10–14.

14. Eisen MB, Spellman PT, Brown PO, Botstein D: Cluster analysis and display of genome-wide expression pat- terns. Proc Natl Acad Sci USA 1998; 95:

14863–14868.

15. Fukushima M, Kakinuma K, Hayashi H, Nagai H, Ito K, Kawaguchi R: Detection and identification of myco- bacterium species isolates by DNA microarray. J Clin Microbiol 2003; 41: 2605–2615.

16. Golub TR, Slonim DK, Tamayo P et al.: Molecular clas- sification of cancer: class discovery and class predic- tion by gene expression monitoring. Science 1999;

286: 531–537.

17. Gu CC, Rao DC, Stormo G, Hicks C, Province MA: Role of gene expression microarray analysis in finding complex disease genes. Genet Epidemiol 2002; 23:

37–56.

18. Haab B: Methods and applications of antibody microarrays in cancer research. Proteomics 2003; 3:

2116–2122.

19. Lee ML, Kuo FC, Whitmore GA, Sklar J: Importance of replication in microarray gene expression studies:

Statistical methods and evidence from repetitive cDNA hybridisations. Proc Natl Acad Sci USA 2000;

97: 9834–9839.

20. Li J, Chen S, Evans DH: Typing and subtyping influen- za virus using DNA microarrays and multiplex rever- se transcriptase PCR. J Clin Microbiol 2001; 39:

696–704.

21. Nguyen DV, Arpat AB, Wang N, Carroll RJ: DNA micro- array experiments: biological and technological as- pects. Biometrics 2002; 58: 701–717.

22. Parmigiani G, Garrett ES, Irizarry RA, Zeger SL, ed.:

The analysis of gene expression data. New York:

Springer 2003.

23. Perou CM, Jeffrey SS, van de Rijn M et al.: Distinctive gene expression patterns in human mammary epithelial cells and breast cancers. Proc Natl Acad Sci USA 1999; 96: 9212–9217.

24. Perou CM, Sørlie T, Eisen MB et al.: Molecular por- traits of human breast tumours. Nature 2000; 406:

747–752.

25. Quackenbush J: Computational analysis of micro- array data. Nat Rev Genet 2001; 2: 418–427.

26. Schadt EE, Li C, Ellis B, Wing HW: Feature extraction and normalization algorithms for high-density oli- gonucleotide gene expression array data. J Cell Bio- chem 2001; Suppl. 37: 120–125.

27. Schena M, Shalon D, Davis RW, Brown PO: Quantita- tive monitoring of gene expression with a comple- mentary DNA microarray. Science 1995; 270: 467–

470.

28. Schena M: Microarray analysis. Hoboken: Wiley 2003.

29. Schuchhardt J, Beule D, Malik A et al. : Normalization strategies for cDNA microarrays. Nucleic Acids Res 2000; 28: e47.

30. Sørlie T, Perou CM, Tibshirani R et al.: Gene-expressi- on patterns of breast carcinomas distinguish tumor subclasses with clinical implications. Proc Natl Acad

Sci USA 2001; 98: 10869–10874.

31. Speed T, ed.: Statistical analysis of gene expression microarray data. Boca Raton: Chapman & Hall CRC 2003.

32. Tamayo P, Slonim D, Mesirov Q et al.: Interpreting patterns of gene expression with self-organizing maps: methods and application to hematopoetic dif- ferentiation. Proc Natl Acad Sci USA 1999; 96:

2907–2912.

33. Tseng GC, Oh MK, Rohlin L, Liao JC, Wong WH: Issues in cDNA microarray analysis: quality filtering, channel normalization, models of variations and assessment of gene effects. Nucleic Acids Res 2001; 29: 2549–

2557.

34. Tusher VG, Tibshirani R, Chu G: Significance analysis of microarrays applied to the ionising radiation response. Proc Natl Acad Sci USA 2001; 98: 5116–

5121.

35. Van de Vijver MJ, Yudong DH, Van't Veer LJ et al.:

A gene-expression signature as a predictor of survival in breast cancer. N Engl J Med 2002; 347: 1999–

2009.

36. Volokhov D, Rasooly A, Chumakov K, Chizikhov V:

Identification of Listeria species by microarray-based assay. J Clin Microbiol 2002; 40: 4720–4728.

37. Westfall PH, Young SS: Resampling based multiple testing: examples and methods for p-value adjust- ment. New York: Wiley 1993.

38. Yang YH, Dudoit S, Luu P et al.: Normalization for cDNA microarray data: a robust composite method addressing single and multiple slide systematic variation. Nucleic Acids Res 2002; 30: e15.

39. Yang YH, Speed T: Design issues for cDNA microarray experiments. Nat Rev Genet 2002; 3: 579–588.

Literaturverzeichnis Heft 6/2005:

cDNA-Microarrays –

Strategien zur Bewältigung der Datenflut

Anja Victor Stefanie J. Klug Maria Blettner

Referenzen

ÄHNLICHE DOKUMENTE

• Data Integration: In addition to the data generated by the microarray experiment itself, gene expression analysis should exploit annotation information available from

In order to learn more about that interesting regulation, mitochondrial gene copy numbers will be analyzed during leaf development and in green versus white

Your task in this assignment is to build a linear regression model from training data (gene expres- sion and histne modification) to predict the gene expression from

Noch während seines Studiums startete das Sprachentalent – Kubin hat neben englisch auch noch Französisch, Latein, Spanisch, Italienisch, Holländisch, Fin- nisch und ein

Allerdings ist auch hier zu bedauern, dass eine For- schung auf diesem Gebiet bisher weit- gehend fehlt, trotz klarer Hinweise dafür, dass das Leaky-gut-Syndrom (er-

Der Grund für diese erfolgreiche Po- sitionierung ist wie in Ostwestfalen-Lippe im Wirtschafts- frame zu sehen: eine gelungene – aber immer wieder auch prekäre – Balance zwischen

Der stark sehbehinderte Jürgen Friedrich macht sich beim Landesamt für Gesundheit und Soziales in Berlin trotz- dem an diese für ihn mühseli- ge Arbeit: Mithilfe der Soft- ware

Expression patterns of histone deacetylases in bovine oocytes and early embryos, and the effect of their inhibition on embryo development.