• Keine Ergebnisse gefunden

17 . 0 25 . 0 )

N/A
N/A
Protected

Academic year: 2021

Aktie "17 . 0 25 . 0 )"

Copied!
42
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

In der Medizin bezieht sich der Begriff "Diagnostisches Testen" auf die Messung von Merkmalen, Substanzen, Reaktionen oder Veränderungen, die direkt oder indirekt auf das Vorliegen einer Krankheit oder auf die Prädisposition oder Ursache für eine Krankheit hinweisen. Die meisten diagnostischen Testergebnisse sind entweder stetig (wie etwa die optische Intensitätsmessung eines ELISA), ordinal (wie z.B. ein Neutralisierungs-Titer) oder dichotom (z.B. Präzipitate in einem Agarosegel). Häufig werden jedoch diagnostische Tests, die stetige oder ordinale Ergebnisse liefern, zur Entscheidungsfindung in der medizinischen Praxis dichotomisiert.

In Abhängigkeit von seinen Merkmalen, Kosten und Nebenwirkungen kann sich ein diagnostischer Test für das Screening der gesamten Bevölkerung eignen oder in seiner Anwendbarkeit auf eine kleine Gruppe von Hoch-Risiko-Patienten beschränkt sein. Auch wenn medizinische Diagnosen nur selten hundertprozentige Sicherheit erreichen, sollte ein nützlicher diagnostischer Test mehr verkörpern als nur die

"Kunst, Vermutungen anzustellen."

(2)
(3)

Oftmals verändert der gesicherte Eintritt eines Ereignisses B rückblickend die Wahrscheinlichkeit eines anderen Ereignisses A (wobei der sichere Eintritt von B natürlich voraussetzt, dass die A-priori-Wahrscheinlichkeit von B größer als null gewesen sein muss, d.h. P(B)>0). Im vorliegenden Beispiel reduziert die

Information, dass der Würfel mindestens vier Punkte zeigt, das "Universum" des Würfels von sechs möglichen Ausgängen (1,2,3,4,5,6) auf drei (4,5,6). Die

stochastische Natur des Würfels hat sich jedoch nicht geändert, so dass jeder der drei verbliebenen möglichen Ausgänge gleich wahrscheinlich ist. Daraus folgt, dass die "bedingte Wahrscheinlichkeit" einer geraden Augenzahl, gegeben der Würfel zeigt mindestens 4 Punkte, 2/3 beträgt.

(4)

Das zweite Resultat auf dieser Folie hilft beim Verständnis eines berühmten spieltheoretischen Problems, das in den letzten 100 Jahren viele große Geister verunsichert hat, darunter einige berühmte Mathematiker. Beim "Monty-Hall-

Problem" (im Deutschen auch als "Ziegenproblem" bekannt) wird ein Spieler vor die Wahl zwischen drei verschlossenen Türen gestellt. Hinter einer Tür befindet sich eine Auto, hinter den beiden andern jeweils eine Ziege. Der Spieler darf eine Tür öffnen und gewinnt, was immer sich hinter der Tür verbirgt. Nachdem der Spieler jedoch eine Tür gewählt hat, sagen wir No. 1, und bevor diese geöffnet wird, öffnet der (natürlich eingeweihte) Gastgeber eine andere Tür, sagen wir No. 2, hinter der sich eine Ziege befindet. Der Gastgeber bietet dann dem Spieler an, sich statt für die zuvor gewählte Tür No. 1 für die noch verschlossene Tür No. 3 zu entscheiden.

Würde ein solcher Schritt die Aussicht des Spielers auf den Gewinn des Autos erhöhen? Die Antwort lautet "Ja", aber warum?

Ob sich das Auto hinter Tür No. 1 befindet (Ereignis A) oder nicht, muss unabhängig von der Wahl des Gastgebers von Tür No. 2 statt Tür No. 3 (Ereignis B) sein, so dass P(A|B)=P(A). Mit anderen Worten hat sich die Wahrscheinlichkeit dafür, dass sich das Auto hinter Tür No. 1 befindet, durch das Öffnen von Tür No. 2 nicht

verändert. Sie beträgt nach wie vor 1/3. Die einzige andere Möglichkeit, wo sich das Auto jetzt aber noch befinden kann, ist hinter Tür No. 3. Die Wahrscheinlichkeit dafür beträgt also 2/3, weil sich Wahrscheinlichkeiten zu eins addieren müssen.

(5)

Mit der in dieser Folie enthaltenen Information lässt sich das mit einem erhöhten Lipidspiegel verbundene Risiko für Bluthochdruck berechnen. Da

gilt, beträgt das relative Risiko P(A|B)/P(A|BC) in unserem Beispiel 0.85/0.10=8.5.

10 . 20 0

. 0 1

17 . 0 25 . 0 )

B ( P 1

) B A ( P ) A ( P )

B ( P

) B A ( ) P B

| A (

P

C

C

C

=

= −

= −

= ∩

(6)

Thomas Bayes wurde um 1702 in London geboren. Er erhielt Privatunterricht von seinen Eltern und wurde später wie sein Vater zum Priester der nonkonformistischen Kirche ordiniert. Obwohl Bayes bis zu seinem Ruhestand im Jahre 1752 als Priester arbeitete, konnte er einige wichtige Beiträge zur Mathematik leisten, insbesondere zur Statistik und zur Wahrscheinlichkeitstheorie. Bayes starb 1761 in Tunbridge Wells in Kent, sein Grabmal befindet sich auf dem Bunhill Fields Cemetery in London.

Thomas Bayes schrieb eine Vielzahl von Arbeiten, von denen aber nur zwei bekanntermaßen zu seinen Lebzeiten veröffentlicht wurden, nämlich "Divine Providence and Government Is the Happiness of His Creatures" (1731) und "An Introduction to the Doctrine of Fluxions, and a Defence of the Analyst" (1736). In Erinnerung geblieben ist Bayes aber vor allem wegen seines "Essay Towards Solving a Problem in the Doctrine of Chances", der 1763 posthum publiziert wurde.

Allerdings enthält der Essay entgegen weit verbreiteter Auffassung nicht das

"Theorem von Bayes", sondern nur einen Spezialfall davon.

(7)

Das Theorem von Bayes erlaubt die umkehrende, rückblickende Betrachtung des stochastischen Zusammenhangs zweier Ereignisse, nennen wir sie ruhig "Ursache"

und "Wirkung". Ist die Wahrscheinlichkeit bekannt, mit der A zu B führt, d.h. die bedingte Wahrscheinlichkeit P(B|A), so kann daraus die Wahrscheinlichkeit

errechnet werden, mit der der eingetretenen Wirkung B die Ursache A vorausging, d.h. die A-posteriori -Wahrscheinlichkeit P(A|B). Diese Berechnung setzt allerdings die Kenntnis der unbedingten A-priori-Wahrscheinlichkeiten P(A) und P(B) voraus.

Streng genommen ist das Theorem von Bayes kein wirkliches mathematisches Theorem, sondern nur eine simple arithmetische Umformung zweier bedingter Wahrscheinlichkeiten. Es bedurfte also keiner Entdeckung, weder 1763 (was Bayes auch nicht in Anspruch genommen hätte) oder 1774, als Pierre Simon de Laplace unabhängig von Bayes ein ähnliches "Prinzip" zu Papier brachte. Viele Experten behaupten sogar, dass das Bayes-Theorem eine ziemlich moderne Denkweise reflektiert, und dass darin der einzige Grund liegt, weshalb man es nicht längst auf irgendwelchen babylonischen Tontafeln entdeckt hat: Es hatte keinen praktischen Nutzen! Dessen ungeachtet besitzt die einfache Arithmetik des Bayes-Theorems (oder der Bayes-Formel, um genauer zu sein) in der modernen Medizin eine immense praktische Bedeutung.

(8)

Der Nenner des Bayes-Theorems, d.h. die unbedingte Wahrscheinlichkeit der

"Wirkung" P(B), ist in der Regel nicht direkt bekannt. Er wird daher durch die rechte Seite des so genannten "Satzes von der totalen Wahrscheinlichkeit" ersetzt. Dieses mathematische Gesetz besagt, dass die unbedingte Wahrscheinlichkeit eines Ereignisses B dem gewichteten Mittel seiner bedingten Wahrscheinlichkeiten entspricht, gegeben die Ursache A bzw. deren Gegenteil AC.

Da die Ereignisse A und AC erschöpfend sind und sich gegenseitig ausschließen, definieren sie eine Zerlegung, nicht nur des "Universums" Ω, sondern auch des Ereignisses B. Formal bedeutet dies

Wenn man nun die Definition der bedingten Wahrscheinlichkeit auf die einzelnen Terme der Summe anwendet, dann folgt

was den Beweis des Satzes vervollständigt.

).

A B ( P ) A B ( P ) B (

P = ∩ + ∩

C

), A ( P ) A

| B ( P ) A ( P ) A

| B ( P ) B (

P = ⋅ +

C

C

(9)

Im Kontext diagnostischer Tests sind mit A und ACmeistens die Anwesenheit bzw.

Abwesenheit einer Krankheit oder Krankheitsdisposition gemeint. Ereignis B steht für das Testergebnis, so dass mit dem Bayes-Theorem die bedingte Wahrscheinlichkeit der Krankheit oder Krankheitsdisposition bei Vorliegen eines bestimmten

Testergebnisses berechnet werden kann.

(10)

Die heutige Praxis der medizinischen Diagnose (aus dem Griechischen "dia": durch,

"gnosis": Wissen) wird noch immer von den Sichtweisen und Theorien des frühen 20. Jahrhunderts geprägt. Nach William Osler (1849-1919), dem berühmten kanadischen Arzt, der den Unterricht am Krankenbett in das medizinische Curriculum einführte, besteht die Rolle des Arztes darin, Krankheiten zu

identifizieren und zu wissen, wie sie sich vermeiden oder heilen lassen. Hierbei legte Osler selbst das Schwergewicht auf die Klassifizierung von Krankheiten und sah den Patienten als Repräsentanten einer Klasse von Personen mit gleichem Krankheitstyp.

Der biologischen Individualität des Patienten wurde dabei kein großes Gewicht beigemessen.

Die Osler'sche Philosophie übt auch heute noch ihren Einfluss aus und bedeutet mathematisch ausgedrückt, dass sich individuelle Patienten als "zufällige"

Stichproben aus einer großen homogenen Population mit gleichen diagnostischen Merkmalen oder Eigenschaften begreifen lassen. Folgt man dieser Interpretation, dann macht die Berechnung einer bedingten Erkrankungswahrscheinlichkeit, gegeben das diagnostische Testergebnis, tatsächlich Sinn. Akzeptiert man die stochastische Natur des individuellen Erkrankungsstatus aber nicht, so sind solche Wahrscheinlichkeitsberechnungen sinnlos. Die Frage, ob einem einzelnen faktisch stattgefundenen Ereignis nachträglich eine Wahrscheinlichkeit zugeordnet werden kann, liegt in der Tat im Kern der Auseinandersetzung zwischen Bayesianern und Nicht-Bayesianern in der Statistik.

(11)

Im Jahre 1998 führte das Max-Planck-Institut für Bildungsforschung und

Humanentwicklung in Berlin eine systematische Studie dazu durch, wie Niedrig- Risiko-Personen in Deutschland über AIDS aufgeklärt und beraten werden

[Gigerenzer G, Hoffrage U, Ebert A, 1998, AIDS counseling for low-risk clients, Aids Care 10: 197-211]. Einer der Forscher besuchte dazu 20 öffentliche AIDS-

Beratungsstellen und nahm dort an einem Beratungsgespräch und einem HIV-Test teil. Die Mehrzahl der Berater behauptete, dass es bei dem Test keine falsch positiven Ergebnisse gäbe, und die Hälfte von ihnen erklärte, dass bei einem

positiven Testergebnis mit 100% Sicherheit auch eine Infektion vorliegen würde. In Wirklichkeit beträgt die Wahrscheinlichkeit, dass eine positiv getestete Person aus einer Niedrig-Risiko-Gruppe tatsächlich infiziert ist, jedoch nur 1.95%.

Die Falsch-Positiv-Rate der neuesten ELISA-Tests auf HIV-Infektion beträgt ca.

0.5%. Der ELISA-Test weist Antikörper gegen ein einzelnes HIV-Antigen nach, und Grippeviren sind wiederholt als Ursache falsch positiver Tests ausgemacht worden.

Andere Ursachen sind eine bestehende Schwangerschaft, eine kürzlich stattgefundene Bluttransfusion und Autoimmunerkrankungen wie z.B. Lupus erythematodes. Die häufigste Ursache für einen falsch positiven ELISA sind jedoch immer noch Laborfehler! Daher kann die Falsch-Positiv-Rate des Tests durch einen unabhängigen Zweittest von Personen mit einem positiven ersten ELISA verringert werden. Unter diesen Personen ist nämlich die Prävalenz der Infektion mit 1.95%

viel höher als in der Allgemeinbevölkerung (0.01%).

(12)

Im diagnostischen Kontext besteht der praktisch bedeutsamste Aspekt des Bayes- Theorem in der Möglichkeit, damit eine A-posteriori-Wahrscheinlichkeit für das Vorliegen einer Krankheit unter Berücksichtigung eines diagnostischen

Testergebnisses zu berechnen. Diese Wahrscheinlichkeit muss dem Patienten oder Ratsuchenden letztlich mitgeteilt werden. Bitte beachten Sie, dass die A-posteriori- Wahrscheinlichkeit einer Krankheit stark von deren A-priori-Wahrscheinlichkeit (d.h.

Prävalenz) abhängt und somit eine Eigenheit der Population ist, in der der Test angewendet werden soll. Da die A-posteriori-Wahrscheinlichkeit die Genauigkeit widerspiegelt, mit der sich der Erkrankungsstatus aus dem Testergebnis ableiten lässt, wird sie oft auch als "prädiktiver Wert" des Tests bezeichnet.

Die Wahrscheinlichkeit, mit der ein Test bei erkrankten Personen positiv ausfällt, ist ein natürliches Maß für dessen "Sensitivität". Wenn man mit dem Test nur wenige Betroffene als solche diagnostiziert, hat er eine schlechte Sensitivität.

Demgegenüber gibt die Wahrscheinlichkeit, mit der Gesunde ein negatives Ergebnis liefern, einen Eindruck von der "Spezifität" des Tests. Sensitivität und Spezifität sind Merkmale der technischen, medizinischen oder biochemischen Rahmenbedingungen einer Testprozedur. Wenn alle relevanten Einflussfaktoren unverändert bleiben, sollte ein diagnostischer Test in Hoch-Risiko- und Niedrig-Risiko-Gruppen gleich

leistungsfähig sein.

(13)
(14)
(15)
(16)

Idealerweise sollte sowohl der positiv prädiktive als auch der negativ prädiktive Wert eines diagnostischen Tests hoch sein. In einer Population mit geringer Prävalenz wird die A-posteriori-Wahrscheinlichkeit einer Krankheit oder Krankheitsdisposition jedoch unabhängig vom Testergebnis immer klein sein, es sei denn, die Spezifität des Tests liegt sehr dicht bei 100%. Da die Spezifität des ELISA-Tests "nur" 99.5%

beträgt, d.h. eine 0.5% Wahrscheinlichkeit für falsch positive Ergebnisse besteht, überrascht es nicht, dass der positiv prädiktive Wert unter realistischen Annahmen hinsichtlich der Prävalenz der Infektion (d.h. 0.1% oder weniger) sehr klein ist.

Auf der anderen Seite ist die Sensitivität des ELISA so hoch (99.5%), dass der negativ prädiktive Wert für alle praktisch relevanten Prävalenzen hinreichend hoch ist. Selbst unter intravenösen Drogennutzern, bei denen die Prävalenz der HIV- Infektion bis zu 15% betragen kann, folgt aus einem negativen Testergebnis, dass der Proband mit großer Sicherheit (>99.9%) nicht infiziert ist.

(17)

Die Hirnatrophie ist offensichtlich ein schlechter diagnostischer Marker für die Schizophrenie. Bei einer typischen Prävalenz von 1.5% wären nur 18.6% der positiven Testergebnisse "richtig positiv" in dem Sinne, dass ein Individuum mit Hirnatrophie tatsächlich auch schizophren ist. Anders als beim ELISA-Test auf HIV- Infektion kann dieser diagnostische Test auch nicht unabhängig wiederholt werden, um falsch positive Ergebnisse eines ersten Tests gegebenenfalls zu falsifizieren.

(18)

Der Anstieg des positiv prädiktiven Wertes für die Hirnatrophie als diagnostischer Marker einer Schizophrenie ist vergleichsweise steil, was auf dessen hohe Spezifität zurückzuführen ist (nur 2% der nicht Schizophrenen haben Anzeichen einer

Hirnatrophie), wenngleich der PPW für die tatsächliche Prävalenz der Erkrankung immer noch gering ausfällt. Der negativ prädiktive Wert ist hingegen für den gesamten Hoch-Risiko-Bereich an Prävalenzen schlecht, was an der geringen Sensitivität des Markers liegt (nur 30% der Schizophrenen leiden an einer Hirnatrophie). Negative Befunde sind eben kein zuverlässiger Indikator für die Abwesenheit der Erkrankung.

(19)

Eine knappere Version des Bayes-Theorems erhält man, wenn statt bedingter Wahrscheinlichkeiten Likelihoodquotienten in Betracht gezogen werden.

(20)

Die auf Odds basierende Darstellung des Bayes-Theorems hat zwei Vorteile. Erstens lässt sie sich einfacher merken ("Prior-Odds mal Likelihoodquotient gleich Posterior- Odds"). Zweitens kann die Information aus verschiedenen, bedingt unabhängigen Tests sukzessive zusammengefasst werden, indem man die Posterior-Odds des einen Tests als Prior-Odds für den nächsten Test verwendet. "Bedingt unabhängig"

heißt in diesem Zusammenhang, dass die Ausgänge zweier Tests nur unter Probanden mit dem gleichen Erkrankungszustand (d.h. betroffen oder nicht betroffen) stochastisch unabhängig voneinander sind.

(21)

Die Daten auf dieser Folie entstammen einer 1967 von A.F. Smith durchgeführten Studie, die in der Zeitschrift Lancet publiziert wurde [22.Juli; 2(7508): 178-182].

Ungefähr zwei Drittel (230/360) der in der Studie eingeschlossenen Patienten mit Verdacht auf Myokardinfarkt (MI) hatten tatsächliche einen MI gehabt (Prior-Odds:

1.77). Von diesen wiesen wiederum 215 einen erhöhten Kreatinkinasespiegel auf (≥80 U/l), was einer Sensitivität von 93.5% des zugehörigen Tests entspricht. Nur 16 der 130 Patienten ohne bestätigten MI (d.h. 12.3%) hatten einen erhöhten

Enzymwert (Spezifität: 87.7%). Zusammen genommen ergibt sich daraus ein positiver Likelihoodquotient von 7.60. Somit hat in der Studie ein Patient mit erhöhtem Kreatinkinasespiegel mit 1.77⋅7.60 = 13.45 mal höherer

Wahrscheinlichkeit einen MI gehabt als nicht gehabt (Posterior-Odds: 13.45).

(22)

In der Literatur zum Thema diagnostisches Testen finden sich oftmals Definitionen der Testvalidität, die im Zusammenhang mit Sensitivität und Spezifität stehen. Folgt man dieser Sichtweise, so ist ein Test dann "valide", wenn er möglichst viele

Personen mit der Zielerkrankung entdeckt (d.h. eine hohe Sensitivität aufweist), möglichst viele nicht Betroffene ausschließt (d.h. eine hohe Spezifität hat), und wenn ein positiver Test das Vorliegen der Erkrankung verlässlich anzeigt (d.h. der positiv prädiktive Wert hoch ist). Andere Quellen wiederum würden einen solchen Test als "leistungsfähig" bezeichnen, während "Validität" eine mehr technische Bedeutung hat. In diesem zweiten Sinne ist ein Test valide, wenn er per Design das misst, was er messen soll (z.B. eine Enzymaktivität oder einen Antikörper-Titer).

Die "Reliabilität" (Verlässlichkeit) eines diagnostischen Tests ist hoch, wenn die Variation der Ergebnisse zwischen Personen echte Unterschiede repräsentiert. Ein gebräuchliches Maß der Reliabilität ist die so genannte "Test-Retest-Reliabilität", bei der ein und der selbe diagnostische Test zu unterschiedlichen Gelegenheiten bei den gleichen Personen angewandt wird. Die Reliabilität des Tests drückt sich dann in der Ähnlichkeit der beiden Serien von Testergebnissen aus.

(23)

Ein "Goldstandard" ist eine Prozedur, die meistens langsamer, unangenehmer oder teurer ist als der in Frage stehende diagnostische Test, die aber idealer Weise eine definitive Antwort auf die Frage nach dem Erkrankungszustand eines Probanden liefert. Zumindest hypothetisch verfügt also ein Goldstandard über 100% Sensitivität und 100% Spezifität, d.h. er erzeugt keine falsch positiven und keine falsch

negativen Ergebnisse. In der Realität werden jedoch auch Entscheidungen auf der Grundlage eines Goldstandards hin und wieder falsch sein, und die Ergebnisse einer diagnostischen Studie müssen dementsprechend im Kontext des aktuellen

wissenschaftlichen Kenntnisstands interpretiert werden. Oftmals ändern sich Goldstandards in Folge des medizinischen und wissenschaftlichen Fortschritts, und bisweilen kann sogar Uneinigkeit unter medizinischen Experten darüber herrschen, welches Verfahren eigentlich der Goldstandard ist.

(24)
(25)
(26)
(27)

Bei hoher Sensitivität werden die meisten Kranken ein positives Testergebnis liefern.

Daher weist ein negatives Testergebnis mit hoher Sicherheit auf die Abwesenheit der Krankheit hin ("SnNOut").

(28)

Bei hoher Spezifität werden die meisten nicht Betroffenen ein negatives

Testergebnis liefern. Für eine Erkrankung mit nicht zu geringer Prävalenz weist daher ein positives Testergebnis mit hoher Sicherheit auf das Vorliegen der Erkrankung hin ("SpPIn"). Dass dies bei sehr niedriger Prävalenz nicht der Fall zu sein braucht, zeigte das vorangegangene Beispiel des HIV-Tests bei Niedrig-Risiko- Personen.

(29)

Die beiden Kriterienlisten auf dieser Folie sind als "Positiv-Listen" zu verstehen, d.h.

die einzelnen Kriterien werden durch das logische "oder" miteinander verknüpft. Je mehr Kriterien einer der beiden Listen gleichzeitig erfüllt sind, umso wichtiger erweist sich die Maximierung des jeweiligen Maßes (d.h. Sensitivität bzw. Spezifität).

Der "Guthrie-Test" ist ein diagnostischer Neugeborenentest zum Nachweis eines angeborenen Stoffwechselfehlers, der Phenylketonurie (PKU). Die PKU ist eine genetische Erkrankung, bei der dem Körper das Enzym Phenylalaninhydroxylase fehlt, das Phenylalanin in Tyrosin metabolisiert. Unbehandelt kann die PKU in Folge der Anreicherung von Phenylalanin zu schweren Hirnschädigungen und geistiger Behinderung führen. Wenn die Krankheit jedoch früh genug diagnostiziert wird, kann das betroffene Kind durch Einhalten einer phenylalaninarmen Diät eine normale Entwicklung nehmen. Für das Kind bedeutet das allerdings eine strikte Beschränkung oder Vermeidung proteinreicher Kost.

Der Guthrie-Test wurde seit den sechziger Jahren des 20. Jahrhunderts als einer der zentralen Neugeborenentests in Europa und Nordamerika durchgeführt. In der jüngeren Vergangenheit wird er jedoch zunehmend durch neue Techniken wie etwa die Tandem-Massenspektrometrie verdrängt, die ein größeres Spektrum

angeborener Erkrankungen nachweisen kann.

Der Guthrie-Test wurde nach dem amerikanischen Bakteriologen und Arzt Robert Guthrie benannt, der den Test 1962 entwickelt hat.

(30)

William John Youden (1900-1971) wurde in Townsville in Australien geboren. Er kam jedoch schon in jungen Jahren in die USA und studierte dort zunächst

Chemieingenieurwesen an der University of Rochester, dann Chemie an der Columbia University. Viele Jahre lang arbeitete Youden an einem Institut für Pflanzenforschung, bevor er schließlich in das National Bureau of Standards wechselte. Er betrachtete sich selbst zeitlebens als Chemiker, obwohl er während der letzten 40 Jahre seines Schaffens mindestens in gleichem Maße auch Statistiker war. Während des 2. Weltkriegs diente Youden in der US Air Force, hauptsächlich in Europa und im Pazifik, wo er sein außergewöhnliches Talent durch die Entwicklung neuer statistischer Verfahren für die Auswertung von Experimenten zur

Bombardierungsgenauigkeit unter Beweis stellte. Für seinen Beitrag zum Sieg der Alliierten wurde er mit der Medal of Freedom ausgezeichnet.

(31)
(32)

Auf den ersten Blick scheint die Hirnatrophie als diagnostischer Marker für die Schizophrenie die "SpPIn"-Regel zu verletzten, der zufolge eine hohe Spezifität eigentlich zu einem hohen positiv prädiktiven Wert (PPW) führen sollte. Wegen der niedrigen Prävalenz der Schizophrenie (1.5%) reicht jedoch auch eine Spezifität von 98% nicht aus, um die geringe Sensitivität von nur 30% zu kompensieren. Selbst bei einer Spezifität von 99.9% würde der PPW nur 82.0% betragen.

(33)

Es ist in den medizinischen Wissenschaften nicht unüblich, stetige Variable zu dichotomisieren. Beispiele hierfür liefert die Unterscheidung in "bestanden" und

"durchgefallen" bei Tests, in "jung" und "alt" beim Alter, oder "reich" und "arm"

beim Einkommen. Als Rechtfertigung für diese Praxis wird häufig angeführt, dass Kliniker tagtäglich dichotome Entscheidungen zwischen behandeln und nicht behandeln fällen müssen, und dass dichotome Testergebnisse daher grundsätzlich gut ins Bild passen. Allerdings geht eine Dichotomisierung meistens mit dem Verlust von Information einher, da Messungen in der Nähe eines Schwellenwertes genau so behandelt werden, wie weit davon entfernt liegende. In dieser Situation müssen die Entwickler und Anwender eines diagnostischen Tests selbst entscheiden, ob eine dichotome Klassifizierung die Realität genauso gut abbildet wie der originale Messwert, d.h. ob eine Dichotomisierung angemessen ist oder nicht.

(34)

In der vorliegenden Studie wurden alle Teilnehmerinnen zwischen der 24. und 28.

Schwangerschaftswoche einem 50g-Glukose-Suchtest unterzogen. Im Anschluss an eine dreitägige 150-200g (Minimum) Kohlehydrat-Diät und eine 12-stündige

Nüchternperiode durchliefen sie innerhalb einer Woche ebenfalls den dreistündigen 100g-Glukose-Toleranztest (als Goldstandard). Ein Schwangerschaftsdiabetes wurde diagnostiziert, wenn zwei oder mehr Werte des Toleranztests den jeweiligen

Grenzwert der 4th International Workshop Conference on Gestational Diabetes überschritten.

(35)
(36)
(37)

In einer "Receiver Operating Characteristic (ROC)" Kurve werden alle Richtig-Positiv- Raten (d.h. die Sensitivität) und Falsch-Positiv-Raten (d.h. 1-Spezifität) eines

diagnostischen Tests einander gegenübergestellt, die sich durch Dichotomisierung einer stetigen Messung entlang verschiedener Schwellenwerte ergeben würden. Die ROC-Kurve zeigt somit das Kosten-Nutzen-Verhältnis zwischen Sensitivität und Spezifität an (jeder Zuwachs an Sensitivität wird von einem Sinken der Spezifität begleitet). Der Name "ROC" kommt aus der Theorie der Signal-Entdeckung, die im 2. Weltkrieg zur Analyse von Radaraufnahmen entwickelt wurde. Die Bediener (engl.

operator) eines Radars mussten entscheiden, ob ein Pieps auf dem Schirm ein feindliches Ziel, ein alliiertes Schiff, oder Rauschen bedeutete. Ihre Befähigung zu dieser wichtigen Entscheidung bezeichnete man als "Receiver Operating

Characteristics". ROC-Kurven wurden dann in den fünfziger Jahren des 20.

Jahrhunderts als Nebenprodukt der Forschung zur Entzerrung von Radarsignalen entwickelt. Es dauerte allerdings bis in die siebziger Jahre, ehe der Nutzen der Theorie der Signal-Entdeckung für die Interpretation medizinischer Testergebnisse erkannt wurde.

Die Leistungsfähigkeit eines diagnostischen Tests drückt sich darin aus, wie gut der Test Personen mit bzw. ohne die fragliche Krankheit voneinander zu trennen

vermag. Das Potenzial einer Labormethode als leistungsfähiger diagnostischer Test lässt sich daher durch die Fläche unter der ROC-Kurve quantifizieren. Eine Fläche von 1 ergibt sich aus einer rechteckigen ROC-Kurve und würde somit einem perfekten Test entsprechen. Eine Fläche von 0.5 käme durch Ziehen der 45°-Line

(38)

Auf der ROC-Kurve liegen alle möglichen Kombinationen von Richtig-Positiv- und Falsch-Positiv-Rate eines Tests. Um den optimalen Schwellenwert für das zugrunde liegende, stetige diagnostische Merkmal zu finden, muss zunächst Klarheit

hinsichtlich der relativen "Kosten" falsch positiver und falsch negativer Ergebnisse hergestellt werden. Sind beide Fehler gleich schlimm und "kosten" somit das Gleiche, dann würde sich bei einer Prävalenz der zu diagnostizierenden Krankheit von 50% die beste Kombination aus Richtig-Positiv- und Falsch-Positiv-Rate einfach durch Maximierung des Youden-Index ergeben. Man findet diese Kombination dadurch, dass man die 45° Gerade so weit nach links oben verschiebt, bis sie die ROC-Kurve gerade noch tangiert. Wenn falsch positive und falsch negative

Ergebnisse unterschiedliche Kosten verursachen, oder wenn sich die Prävalenz der Krankheit von 50% unterscheidet, dann muss die Steigung der Tangente

entsprechend proportional zum Kostenverhältnis bzw. zu den Prior-Odds für die Krankheit sein.

(39)

Im vorliegenden Beispiel wurde bei 53 von 520 getesteten Frauen (d.h. 10%) ein Schwangerschaftsdiabetes diagnostiziert. Die Fläche unter der ROC-Kurve betrug 0.897 für den Nüchternblutzucker (engl. fasting plasma glucose concentration) und 0.815 für den 50g-Glukose-Suchtest (engl. glucose challenge test), d.h. der erste Test scheint der leistungsfähigere zu sein.

Die ROC-Kurve zeigt außerdem, dass der beste Schwellenwert für den

Nüchternblutzucker bei 4.8 mmol/l liegt. Ein allgemeines Screening mit diesem Schwellenwert würde über eine Sensitivität von 81% und eine Spezifität von 76%

verfügen. Das bedeutet, dass immer noch etwa 30% (0.10⋅0.81+0.90⋅0.24=0.297) aller Frauen anschließend einen 100g Glukose-Toleranztest durchlaufen müssten.

Der allgemein akzeptierte Schwellenwert für den 50g Glukose-Suchtest liegt bei 7.8 mmol/l, was einer Sensitivität von 59% und einer Spezifität von 91% entspricht.

Bei dieser Screening-Methode müssten zwar nur noch 14% (0.10⋅0.59+0.90⋅0.09) der Frauen einen 100g Glukose-Toleranztest über sich ergehen lassen, es würden aber mehr als doppelt so viele Diabetesfälle (41%) übersehen wie beim Test des Nüchternblutzuckers (19%). Wie die ROC-Kurve zeigt, gibt es offensichtlich bessere Schwellenwerte für den 50g-Glukose-Suchtest (7.0 mmol/l und darunter) als den bislang gebräuchlichen.

(40)
(41)

Im Prinzip kann man das Bayes-Theorem auch zur Differenzialdiagnostik einsetzen.

Statt nur zwei mögliche Gründe für die Präsenz eines diagnostischen Markers in Betracht zu ziehen, nämlich "krank" oder "nicht krank", lässt sich das Vorgehen auf jede beliebige Anzahl von Ursachen Kj ausdehnen.

Es ist jedoch zu beachten, dass das Bayes-Theorem nur dann ein korrektes Ergebnis liefert, wenn die Ereignisse Kjerschöpfend sind und sich gegenseitig ausschließen.

Beide Annahmen müssen in der Realität nicht notwendigerweise erfüllt sein, z.B.

wenn die Kj für potenziell parallel auftretende Erkrankungszustände stehen. Sind die Einzelereignisse Kj hinreichend selten, so wird die Wahrscheinlichkeit für ihr

gemeinsames Auftreten jedoch vernachlässigbar gering sein. Eine vollständige Ausschöpfung aller möglichen Ursachen lässt sich sogar immer exakt erreichen, indem man im Zweifelsfall einfach einen zusätzlichen "unbekannten" Grund hinzufügt.

(42)

Definitionsgemäß liefert die Klassifizierung pathologischer Befunde eine Zerlegung des "Universums" in erschöpfende und sich gegenseitig ausschließende Ereignisse, was wiederum eine Anwendung des Bayes-Theorems erlaubt. Der auf der

vorliegenden Folie beschriebene nicht-invasive molekulare Marker ist in zweierlei Hinsicht nützlich. Erstens reduziert sein Vorliegen bei rauchenden Patienten die Wahrscheinlichkeit für die Gutartigkeit eines Bronchialtumors um 50%. Zweitens verdoppelt er bei Nichtrauchern das Risiko für den NSCLC (non-small cell) Typ. In beiden Patientengruppen hat der Nachweis des Markers also mit Sicherheit

erhebliche Auswirkungen auf den weiteren Umgang mit der Erkrankung.

Referenzen

ÄHNLICHE DOKUMENTE

ZweijöhrigeVersuche haben gezeigt, dass man Sommerweizen im Mittelland ungeheizt aussäen kann, wenn ein verein- fachter Gesundheitstest nicht mehr als 10% befallene Körner

[r]

[r]

[r]

Il est fait mention de la teneur particuliè- rement basse en acides gras saturés, une teneur élevée en acide oléique, mono-insaturé, ainsi qu'une teneur adéquate en

Au cours des dix dernières années, 154 variétés de colza d’automne ont été testées dans le réseau d’étude variétale Agroscope, dont 21 ont été retenues.. Dans les

Die Braut ist in der Wahl ihres Outfits für die Hochzeit so frei wie nie zuvor. Aber gerade des- wegen werden Tipps gerne an- genommen. Sie könnte sich zum Beispiel fragen, ob

Seinen ersten Geg- ner aus Belgien bezwang Dargel nach nur wenigen Sekunden mit einem Juji-Gatame (Armhebel). Sein zweiter Kampf, in dem er einem Gegner aus Schweden