Diagnostisches Testen
Coniecturalem artem esse medicinam
A: ein fairer Würfel zeigt eine gerade Augenzahl B: ein fairer Würfel zeigt mindestens 4 Punkte
A:
B:
P(A)=1/2 P(B)=1/2
A ∩ B: P(A ∩ B)=2/6
P(A∩B) = 2/6 > 1/4 = 1/2⋅1/2 = P(A)⋅P(B) A und B sind nicht unabhängig
Würfelspiel
Bedingte Wahrscheinlichkeit
B:
A?
Die bedingte Wahrscheinlichkeit P(A|B) von A gegeben B beträgt 2/3, d.h. sie ist
größer als die unbedingte Wahrscheinlichkeit P(A)=1/2.
) B ( P
) B A
( ) P
B
| A (
P = ∩
) A ( ) P
B ( P
) B ( P ) A ( ) P
B
| A (
P = ⋅ =
A und B unabhängig
Bedingte Wahrscheinlichkeit
) 0 B ( P
) B A
( ) P
B
| A (
P = ∩ =
A ∩ B= ∅
B
A
A: hypertensiv P(A)=0.25
B: hyperlipidämisch P(B)=0.20
A∩B: hypertensiv und hyperlipidämisch P(A∩B)=0.17
) A ( P 25
. 0 85
. 20 0
. 0
17 . 0 )
B ( P
) B A
( ) P
B
| A (
P = ∩ = = > =
Blutdruck und Blutfette
Ein zufällig ausgewählter erwachsener US-Amerikaner ist
Bayes-Theorem
Thomas Bayes (1702-1761)
Essay Towards Solving a Problem in the Doctrine of
Chances.
von Richard Price posthum publiziert in den Philosophical Transactions of the Royal Society
of London 1763
Das Theorem von Bayes setzt A-posteriori-
Wahrscheinlichkeiten mit A-priori- und bedingten Wahrscheinlichkeiten in Verbindung.
) A ( ) P
B ( P
) A
| B ( ) P
B
| A (
P = ⋅
) A ( ) P
B ( P
) A
| B ( P )
B ( P ) A ( P
) A ( P ) A B
( P )
B ( P
) B A
( ) P
B
| A (
P = ⋅
⋅
⋅
= ∩
= ∩ Beweis:
Bayes-Theorem
Satz von der totalen Wahrscheinlichkeit
A A
cB
) A ( P )
A
| B ( P )
A ( P )
A
| B ( P )
B (
P = ⋅ +
C⋅
Caus dem Satz von der totalen Wahrscheinlichkeit
) A ( P )
A
| B ( P )
A ( P )
A
| B ( P
) A ( P )
A
| B ( ) P
B
| A (
P
C C⋅ +
⋅
= ⋅
Bayes-Theorem
Diagnostischer Test
Jede Prozedur, die dazu dient, Individuen oder Objekte in Hinblick auf eine festgelegte
Eigenschaft zu klassifizieren.
www.biology-online.org
HIV-Infektion und ELISA-Test
D: Person ist infiziert DC: Person ist nicht infiziert
T+: Testergebnis ist positiv T-: Testergebnis ist negativ Der ELISA-Test auf HIV-Infektion liefert bei 99.5% aller Infizierten
ein positives Ergebnis und bei 99.5% aller nicht Infizierten ein negatives Ergebnis. Mit welcher Wahrscheinlichkeit ist eine positiv getestete Person infiziert, wenn die Prävalenz der HIV-Infektion in
der allgemeinen ("Niedrig-Risiko-") Bevölkerung 0.01% beträgt?
995 .
0 )
D
| T (
P
+=
005 .
0 995
. 0 1
) D
| T ( P 1
) D
| T (
P
+ C= −
− C= − =
0001 .
0 )
D (
P = P ( D
C) = 0 . 9999
0195 .
) 0 D ( P ) D
| T ( P )
D ( P ) D
| T ( P
) D ( P ) D
| T ( ) P
T
| D (
P C C =
⋅ +
⋅
= + + ⋅ +
+
Nomenklatur
D: Erkrankung bzw. Prädisposition
DC: keine Erkrankung bzw. Prädisposition T+: positives Testergebnis
T-: negatives Testergebnis
P(D): Prävalenz
P(T+|D): Sensitivität P(T-|DC): Spezifität
P(D|T+): positiv prädiktiver Wert (PPW) P(DC|T-): negativ prädiktiver Wert (NPW)
testabhängig
populationsabhängig
testabhängig, populationsabhängig
Diagnostischer Test
Bayes-Theorem
(positiv prädiktiver Wert)
) D ( P ) D
| T ( P )
D ( P ) D
| T ( P
) D ( P ) D
| T ( ) P
T
| D (
P
C C⋅ +
⋅
=
+ +⋅
++
)]
D ( P 1
[ )]
D
| T ( P 1
[ ) D ( P ) D
| T ( P
) D ( P ) D
| T ( P
C
⋅ −
− +
⋅
=
+ +⋅
−PPW= Sensitivität⋅Prävalenz
Sensitivität⋅Prävalenz+(1-Spezifität)⋅(1-Prävalenz)
Diagnostischer Test
) D ( P ) D
| T ( P )
D ( P ) D
| T ( P
) D ( P ) D
| T ( ) P
T
| D (
P
C CC C
C
⋅ +
⋅
=
− −⋅
−−
) D ( P )]
D
| T ( P 1
[ )]
D ( P 1
[ ) D
| T ( P
)]
D ( P 1
[ ) D
| T ( P
C
C
⋅
− +
−
⋅
−
=
− −⋅
+NPW= Spezifität⋅(1-Prävalenz)
Spezifität⋅(1-Prävalenz)+(1-Sensitivität)⋅Prävalenz Bayes-Theorem
(negativ prädiktiver Wert)
Diagnostischer Test
Hypothetische Population (n=100)
Sensitivität: 24/30 = 80%
Spezifität: 49/70 = 70%
NPW: 49/55 = 89%
PPW: 24/45 = 53%
: PPW : NPW
HIV-Infektion und ELISA-Test
Prävalenz
0.0 0.2 0.4 0.6 0.8 1.0
prädiktiver Wert
0.0 0.2 0.4 0.6 0.8 1.0
Etwa 30% aller Schizophreniepatienten leiden an einer Hirnatrophie, verglichen mit nur 2% der nicht betroffenen ("normalen")
Bevölkerung. Wenn die Prävalenz der Schizophrenie 1.5% beträgt, mit welcher Wahrscheinlichkeit ist eine atrophe Person schizophren?
30 . 0 )
D
| T (
P
+=
02 . 0 )
D
| T (
P
+ C=
015 .
0 )
D (
P =
985 .
0 )
D (
P
C=
186 .
) 0 D ( P ) D
| T ( P )
D ( P ) D
| T ( P
) D ( P ) D
| T ( ) P
T
| D (
P C C =
⋅ +
⋅
= + + ⋅ +
+
Schizophrenie und Hirnatrophie
: PPW : NPW
Schizophrenie und Hirnatrophie
Prävalenz
0.0 0.2 0.4 0.6 0.8 1.0
prädiktiver Wert
0.0 0.2 0.4 0.6 0.8 1.0
Likelihoodquotient
vergleicht die Wahrscheinlichkeiten eines bestimmten Testergebnisses zwischen
Betroffenen und nicht Betroffenen
) D
| T ( P
) D
| T (
LR P
+ C+
=
+) D
| T ( P
) D
| T (
LR P
− C−
=
−Spezifität 1
ät Sensitivit
− Spezifität
ät Sensitivit 1 −
positiver
Likelihoodquotient
negativer
Likelihoodquotient
Bayes-Theorem
Likelihoods und Odds
) T
| D
( P
) T
| D ( P )
D
| T
( P
) D
| T
( P )
D ( P
) D ( P
C C
C +
+ +
+
=
⋅
Posterior-
= Odds Prior-
Odds . Likelihood-
quotient
Kreatinkinase und Herzinfarkt
≥80 U/l
ja nein
215 16
<80 U/l 15 114
gesamt 230 130
gesamt
231 129 360
Kreatinkinase
Herzinfarkt
Prior-Odds
60 . 130 7
/ 16
230 /
215 =
Posterior-Odds Likelihoodquotient
77 . 130 1
230 = 1.77 ⋅7.60 = 13.45
Diagnostische Studie
Ziel
Um Aussagen über die Nützlichkeit eines neuen diagnostischen Tests treffen zu können, muss die Qualität des Tests in einer diagnostischen Studie ermittelt werden.
Dabei wird geprüft
- die Validität (d.h. wie genau ist der Test?)
- die Reliabilität (d.h. wie präzise ist der Test?) - die Leistungsfähigkeit (d.h. wie sensitiv und
spezifisch ist der Test?)
Qualität
http://www.cebm.utoronto.ca/teach/materials/dx.htm
Gab es einen unabhängigen, verblindeten Vergleich mit einer Referenzmethode ("Goldstandard") zur Diagnose?
Wurde der Goldstandard unabhängig vom Ergebnis des diagnostischen Tests angewandt?
Wurde der Test in einer zweiten, unabhängigen Gruppe von Patienten validiert?
Wurde der diagnostische Test in einem angemessenen Patientengut geprüft (also den Patienten, bei denen er in der Praxis angewandt werden soll)?
Diagnostische Studie
Reliabilitätskriterien
Hängt das Testergebnis von klinischen Merkmalen wie Schwere und Verlauf ab?
Hängt das Testergebnis von der Pathologie der Krankheit (Ort, Ausmaß) ab?
Wird das Testergebnis durch das gleichzeitige Auftreten anderer Krankheiten beeinflusst?
Diagnostischer Test
praktische Anwendbarkeit
http://www.cebm.utoronto.ca/teach/materials/dx.htm
Ist der diagnostische Test unter den maßgeblichen Bedingungen sinnvoll, verfügbar und bezahlbar?
Können Sie für Ihre Probanden eine sinnvolle Schätzung der A-priori-Wahrscheinlichkeit der Krankheit angeben?
Wird die resultierende A-posteriori-Wahrscheinlichkeit den Probanden im Umgang mit der Krankheit beeinflussen?
Werden die Konsequenzen des Tests Ihrem Probanden helfen?
Diagnostischer Test
Maße der Leistungsfähigkeit von Tests
Sensitivität und Spezifität Youden-Index
Likelihoodquotient ROC-Kurve
populationsabhängig
positiv und negativ prädiktiver Wert
diagnostische Genauigkeit
Sensitivität
Sensitivität: Wahrscheinlichkeit, mit der eine betroffene (bzw. prädisponierte) Person positiv getestet wird
Die "SnNOut" Regel: With a test of high Sensitivity, a Negative test result rules Out disease (or predisposition).
Maße der Leistungsfähigkeit von Tests
ja nein
positiv negativ Krankheit
Testresultat
richtig positiv falsch negativ falsch positiv richtig negativ
Spezifität: Wahrscheinlichkeit, mit der eine nicht betroffene (bzw. prädisponiert) Person negativ getestet wird
Die "SpPIn" Regel: With a test of high Specificity, a Positive test result rules In disease (or predisposition).
Spezifität
Maße der Leistungsfähigkeit von Tests
ja nein
positiv negativ Krankheit
Testresultat
richtig positiv falsch negativ falsch positiv richtig negativ
praktische Kriterien
Ziel: hohe Sensitivität Ziel: hohe Spezifität
falsch Negative sind "teuer" falsch Positive sind "teuer"
behandelbare Krankheit nicht behandelbare Krankheit keine Nebenwirkungen starke Nebenwirkungen ohne Behandlung fatal ohne Behandlung nicht fatal starkes Vertrauen in negative
Ergebnisse gefordert
starkes Vertrauen in positive Ergebnisse gefordert
Beispiel:
Guthrie-Test (Phenylketonurie)
Beispiel:
Tumor-Grading vor OP
Maße der Leistungsfähigkeit von Tests
Youden-Index
Youden-Index: Verbesserung gegenüber zufälliger Diagnosestellung ("Münzwurf")
2 ) 1
D
| T ( 2 P
) 1 D
| T (
P
+− +
− C−
Maße der Leistungsfähigkeit von Tests
ja nein
positiv negativ Krankheit
Testresultat
richtig positiv falsch negativ falsch positiv richtig negativ
diagnostische Genauigkeit
diagnostische Genauigkeit: Wahrscheinlichkeit für ein korrektes Testergebnis
) D ( P ) D
| T ( P )
D ( P ) D
| T (
P
+⋅ +
− C⋅
CMaße der Leistungsfähigkeit von Tests
ja nein
positiv negativ Krankheit
Testresultat
richtig positiv falsch negativ falsch positiv richtig negativ
30 . 0 )
D
| T (
P
+=
02 . 0 )
D
| T (
P
+ C=
015 .
0 )
D (
P =
985 .
0 )
D (
P
C=
Sensitivität: 0.30 Spezifität: 0.98
Youden-Index: 0.28
PPW : 0.186 NPW: 0.989
diagnostische Genauigkeit: 0.97 Schizophrenie und Hirnatrophie
Stetige Testergebnisse
Dichotomisierung
Stetige Testergebnisse werden oft dichotomisiert (d.h. in
"positive" oder "negative" Ergebnisse transformiert), indem man sie mit einem vordefinierten Schwellenwert vergleicht.
Die Wahl des Schwellenwerts hängt stark vom Zweck des Tests ab und kann sich stützen auf
- ein Gauß'sches Kriterium
- festgelegte Sensitivität oder Spezifität - die ROC-Kurve
Schwangerschaftsdiabetes
Am Universitätsklinikum Zürich wurde an 520 Schwangeren eine prospektive Studie durchgeführt, um zu ermitteln, ob die Messung des Nüchternblutzuckers eine akzeptable Screening-Methode für den
Schwangerschaftsdiabetes darstellt, die den üblichen 50g-Glukose- Suchtest überflüssig machen könnte.
Schwellenwerte für den 100g-Glukose-Toleranztest ("Goldstandard")
Ein Schwangerschaftsdiabetes wird diagnostiziert, wenn zwei oder mehr Messungen den Schwellenwert überschreiten.
Perucchini D et al. (1999) BMJ 319: 812-815.
Zeitpunkt nüchtern 1 Stunde 2 Stunden 3 Stunden
Plasmakonzentration 5.3 mmol/l
10.0 mmol/l 8.6 mmol/l 7.8 mmol/l
95% 95%
Verteilung der Testergebnisse bei nicht betroffenen Kontrollen
positiv negativ positiv negativ positiv
Probleme: - Nichtbeachten der Sensitivität
- mögliches Fehlen einer Normalverteilung - unklare Repräsentativität der Kontrollen
Gauß'sches Kriterium
Stetige Testergebnisse
Spezifität
negatives Ergebnis positives Ergebnis Spezifität ↓↓↓↓
Sensitivität ↑↑↑↑ Spezifität ↑↑↑↑
Sensitivität ↓↓↓↓
festgelegte Sensitivität oder Spezifität
Sensitivität
Kontrollen Patienten
Stetige Testergebnisse
ROC-Kurve
1-Spezifität
0.0 0.2 0.4 0.6 0.8 1.0
Sensitivität
0.0 0.2 0.4 0.6 0.8 1.0
Stetige Testergebnisse
1-Spezifität
0.0 0.2 0.4 0.6 0.8 1.0
Sensitivität
0.0 0.2 0.4 0.6 0.8 1.0
maximiert Youden-Index
ROC-Kurve
Stetige Testergebnisse
1-Spezifität
Sensitivität
Schwangerschaftsdiabetes
Zusammenfassung
- Das Theorem von Bayes stellt eine Verbindung zwischen A- posteriori-Wahrscheinlichkeiten und A-priori- sowie bedingten Wahrscheinlichkeiten her.
- Diagnostische Tests dienen der Unterscheidung von Gruppen von Individuen auf der Grundlage assoziierter Merkmale.
- Die Leistungsfähigkeit eines diagnostischen Tests wird durch dessen Sensitivität und Spezifität gekennzeichnet.
- Die Nützlichkeit eines diagnostischen Tests hängt von der Prävalenz der zu diagnostizierenden Krankheit ab und wird durch die beiden (populationsabhängigen) prädiktiven Werte gemessen.
- Stetige Testergebnisse können dichotomisiert werden, z.B.
durch Ermittlung eines Schwellenwertes in der ROC-Kurve.
Anhang
Differenzialdiagnostik
Ein diagnostischer Marker kann auf mehrere
Krankheiten hinweisen.
T: Person zeigt den Marker Ki: Person ist von der i-ten
Krankheit betroffen
∑
=⋅
=
k⋅
1
j j j
i i
i
P ( T | K ) P ( K )
) K ( P ) K
| T ( ) P
T
|
K
(
P
Mutationen in den p53 und K-ras Genen sowie eine Hypermethylierung des p16INK4a Promoters im Auswurf von Patienten mit
Bronchialerkrankungen sind ein Marker für Lungenkrebs und Tumortyp.
Kersting M et al. (2000) J Clin Oncol 18: 3221-3229
i Ki P(T|Ki)
1 NSCLC 0.81
2 SCLC 0.50
3 gutartig 0.32
P(Ki) P(Ki|T) 0.6
0.1 0.3
0.77 0.08 0.15
P(Ki) P(Ki|T) 0.2
0.1 0.7
0.37 0.11 0.52 Raucher Nichtraucher
Anhang: Differenzialdiagnostik des Lungenkrebses