4. VERIFIKATIONSBIAS BEI PRÄTESTS VOR INVASIVEN REFERENZSTANDARDS
4.4. Simulation zur Abschätzung des Bias und der benötigten Fallzahl
Im Rahmen einer Simulationsstudie zur Diagnose von CTEPH wurden zwei verschiedene Referenzstandard‐Szenarien miteinander verglichen. In der Simulationsstudie ging es um die Anwendung
(a) eines zu bewertenden diagnostischen Tests A = MRT, (b) eines weiteren diagnostischen Tests B = VQ‐SPECT,
(c) des diagnostischen Referenzstandards C = Angiographie (CAVE: für alle), und (d) eines differentiellen Referenzstandards D = BEST (Angiographie falls verfügbar,
Follow‐Up sonst).
In den Simulationen wurde davon ausgegangen, dass die Angiographie ein perfekter Goldstandard mit einer Sensitivität und Spezifität von 100% ist (siehe auch Kapitel 2.3.1). Es ist zu beachten, dass im Studiendesign mit dem Referenzstandard C einer Angiographie (im Folgenden ANGIO bzw. ANGIO‐
Studiendesign abgekürzt) aufgrund der speziellen Situation mit 0% Verifikation negativer Testdiagnosen auf eine Auswertung mit partieller Verifikation verzichtet wurde (siehe Kapitel 4.1).
Stattdessen wurden alle simulierten Patienten in der Auswertung berücksichtigt. Für die nicht‐
verifizierten Patienten mit doppelt‐negativen Prätest‐Diagnosen wurde im Referenzstandard C der wahre, im Rahmen der Simulationen bekannte Krankheitsstatus übertragen, so dass es sich insgesamt um einen perfekten Referenzstandard handelt. Die Ergebnisse der Simulationen mit Goldstandard ANGIO entsprechen also den Ergebnissen mit Nutzung des wahren Krankheitsstatus. Der Referenzstandard ANGIO kann aus anderer Perspektive ebenfalls als ein Studiendesign mit differentieller Verifikation interpretiert werden: Die Patienten werden entweder mit (perfekter) Angiographie verifiziert oder mit (perfektem) klinischem Follow‐Up.
Im differentiellen Referenzstandard BEST wurden die Ergebnisse der Angiographie verwendet, falls eine Angiographie durchgeführt wurde. Falls keine Angiographie durchgeführt wurde, wurde der Krankheitsstatus durch das klinische Follow‐Up der nächsten 6‐12 Monate bestimmt. Dabei wurde im Studiendesign mit Referenzstandard BEST davon ausgegangen, dass das Follow‐Up aufgrund geringer Sensitivität nicht in der Lage ist, fälschlicherweise als doppelt‐negativ eingestufte Patienten zu identifizieren. Diese in Wahrheit erkrankten Patienten werden also vom alternativen Referenzverfahren Follow‐Up (inkorrekterweise) alle als nicht‐erkrankt eingestuft. Diese extreme gewählte Annahme über die diagnostische Güte des alternativen Referenzverfahrens erlaubt in Zusammenschau mit dem oben skizzierten Referenzstandard ANGIO eine erste, orientierende Ergebnisdarstellung für zwei extreme Fälle (die nicht zwangsläufig realistisch sind):
Einerseits werden (im ANGIO‐Studiendesign) alle Patienten ohne Angiographie, die fälschlicherweise doppelt‐negative Testergebnisse hatten, durch einen perfekten alternativen Referenzstandard Follow‐
Up korrigiert. Andererseits wird (im BEST‐Studiendesign) für keinen der fälschlicherweise doppelt‐
negativen Patienten der Krankheitsstatus durch den alternativen Referenzstandard Follow‐Up korrigiert. Es muss davon ausgegangen werden, dass in der Realität nicht alle inkorrekten doppelt‐
negativen Patienten durch ein Follow‐Up identifiziert werden, sondern nur ein Teil der Patienten korrekt verifiziert werden kann. Die Abschätzung dieses Anteils war jedoch im vorliegenden Szenario nicht sicher möglich. Im Rahmen dieser Arbeit wurde daher entschieden, zunächst orientierend die Extreme zu simulieren und danach ergebnisgesteuert andere Parametereinstellungen bzgl. der Validität des Follow‐Ups im Studiendesign mit differentiellem Referenzstandards BEST zu untersuchen.
Die Simulationsparameter der CTEPH‐Simulation wurden auf die folgenden angegebenen Werte eingestellt:
Tabelle 9: Simulationsparameter und zugehörige Einstellungen in der CTEPH‐Simulation
Simulationsparameter Festgelegte Parameterwerte
Simulationsläufe 10000
Fallzahl insgesamt 1000
Prävalenz CTEPH bzw. chron. Lungenembolie 0.60
Sensitivität von (A) MRT 0.97
Spezifität von (A) MRT 0.92
Sensitivität von (B) VQ‐SPECT 0.96
Spezifität von (B) VQ‐SPECT 0.90
Korrelation zwischen (A) und (B) 0.20 0.50 0.80
Sensitivität von (C) Angiographie 1.00
Spezifität von (C) Angiographie 1.00
Angiographie‐Wahrscheinlichkeit in Subgruppen
(A) und/oder (B) positiv: (+/‐ und ‐/+ und +/+) 1.00
(A) und B) negativ: (‐/‐) 0.00
Die Prävalenz sowie die Sensitivitäten und Spezifitäten von MRT und VQ‐SPECT wurden der oben genannten Publikation einer monozentrischen, retrospektiven Substudie aus dem ASPIRE‐Register entnommen, die 132 Patienten mit Verdacht auf CTEPH umfasste (Rajaram, 2013). Die Prävalenz von CTEPH in dieser Gruppe lag bei 60%. Es zeigten sich für MRT und VQ‐SPECT ähnlich hohe Sensitivitäten (97% und 96%) und Spezifitäten (92% und 90%). Der verwendete Referenzstandard war dabei ein Chart‐Review der klinischen Untersuchung des Patienten sowie diverser verfügbarer Ergebnisse von bildgebenden Verfahren (u.a. CT‐Angiographie).
Die Sensitivität und Spezifität der Angiographie selbst wurden auf 100% festgelegt (siehe oben). Die Verifikationswahrscheinlichkeiten waren entsprechend einem klassischen Studiensetting für die Evaluation von Screening‐ bzw. Prätest‐Verfahren bei invasivem Referenzstandard 0% für negative Ergebnisse und 100% sonst.
Der einzige variierende Faktor in der Simulation der CHANGE‐MRI Studie war die Korrelation zwischen den beiden zu vergleichenden diagnostischen Tests. In der verwendeten Publikation von Rajaram et al. waren keine diagnostischen Kontingenztafeln sondern nur die Punkt‐ und Intervallschätzer der statistischen Kenngrößen angegeben. Folglich ließen sich keine statistischen Informationen über die Konkordanz bzw. Diskordanz zwischen den beiden Tests finden. Aufgrund der hohen Sensitivitäten konnte vermutet werden, dass die Konkordanz in der Einstufung der erkrankten Patienten auf einem recht hohen Niveau sein müsste. Aber auch für die Spezifitäten lagen mit rund 90% hohe Werte vor, so dass auch hier mit einer hohen Konkordanz zu rechnen war. Da der Grad der Diskordanz ausschlaggebend für die Verifikationshäufigkeit ist, wurde ein breites Spektrum bei den Parametereinstellungen der Korrelation aufgestellt. Es wurden für die Simulation Korrelationen von 0.2, 0.5 und 0.8 gewählt. Hohe Korrelationen bewirken eine hohe Konkordanz, die mit einer geringeren Gesamt‐Verifikationsrate einhergeht. Niedrige oder negative Korrelationen bewirken eine erhöhte Diskordanz mit entsprechend höherer Verifikationsrate. Negative Korrelationen sind jedoch im Kontext von zwei dichotomen diagnostischen Verfahren, die beide mit hoher Wahrscheinlichkeit das gleiche (richtige) Testergebnis ausgeben, unrealistisch. Schon eine Korrelation von 0.2 ist angesichts hoher vermuteter Konkordanzen grenzwertig, sollte jedoch in der durchgeführten Simulationsstudie abstecken, welche Ergebnisse an den (extremen) Rändern zu erwarten sind.
Die Auswertung der simulierten Datensätze zielte konkret darauf ab, die mittleren absoluten und relativen Häufigkeiten für die verschiedenen diagnostischen Subgruppen (MRT / VQ‐SPECT / Referenzstandard, insbesondere ‐/‐/+) in beiden untersuchten Studiendesigns, ANGIO und BEST, zu bestimmen. Dabei wurden die Zellhäufigkeiten über die Kontingenztabellen der 10000 Simulationsläufe gemittelt und auf ganze Zahlen gerundet. Die ermittelten Häufigkeiten sollten Aufschluss darüber geben, wie groß die Gesamt‐Verifikationsrate ist, wie häufig dabei in Wahrheit erkrankte Patienten als doppelt‐negativ von MRT und VQ‐SPECT eingestuft wurden und mit welchen Prozentzahlen die Fallzahlabschätzung für die co‐primären Studienendpunkte erfolgen kann. Schätzer für die co‐primären Endpunkte waren dabei definiert als folgende Quotienten von Zellhäufigkeiten:
(i) Wahrscheinlichkeit, dass MRT positiv, wenn VQ‐SPECT und Referenzstandard positiv:
(ii) Wahrscheinlichkeit, dass MRT positiv, wenn VQ‐SPECT und Referenzstandard negativ:
Zusätzlich wurde der Bias für die beobachteten Sensitivitäten und Spezifitäten von MRT und VQ‐SPECT gegenüber den Referenzstandards ANGIO und BEST ermittelt (wobei für das ANGIO‐Studiendesign kein Bias zu erwarten ist).
4.5. Ergebnisse
4.5.1. Mittlere Häufigkeitsverteilung zur Unterstützung der Studienplanung
Die absoluten und relativen Häufigkeitsverteilungen im ANGIO‐ und BEST‐Studiendesign sind in Kontingenztabellen dargestellt (Tabelle 10‐12). Bei den relativen Häufigkeiten handelt es sich (abgesehen von der jeweils letzten Zeile) um Spaltenprozente.
Tabelle 10: Häufigkeitsverteilung in der CTEPH‐Simulation bei Korrelation 0.2
korr=0.2 ANGIO = 1 ANGIO = 0
SPECT = 1 SPECT = 0 SPECT = 1 SPECT = 0
MRT=1 560 (97%) 22 (93%) 6 (14%) 26 (7%)
MRT=0 16 (3%) 2 (7%) 34 (86%) 334 (93%)
576 (58%) 24 (2%) 40 (4%) 360 (36%) 1000
korr=0.2 BEST = 1 BEST = 0
SPECT = 1 SPECT = 0 SPECT = 1 SPECT = 0
MRT=1 560 (97%) 22 (100%) 6 (14%) 26 (7%)
MRT=0 16 (3%) 0 (0%) 34 (86%) 336 (93%)
576 (58%) 22 (2%) 40 (4%) 362 (36%) 1000
Tabelle 11: Häufigkeitsverteilung in der CTEPH‐Simulation bei Korrelation 0.5
korr=0.5 ANGIO = 1 ANGIO = 0
SPECT = 1 SPECT = 0 SPECT = 1 SPECT = 0
MRT=1 562 (98%) 20 (82%) 11 (28%) 21 (6%)
MRT=0 14 (2%) 4 (18%) 29 (72%) 339 (94%)
576 (58%) 24 (2%) 40 (4%) 360 (36%) 1000
korr=0.5 BEST = 1 BEST = 0
SPECT = 1 SPECT = 0 SPECT = 1 SPECT = 0
MRT=1 562 (98%) 20 (100%) 11 (28%) 21 (6%)
MRT=0 14 (2%) 0 (0%) 29 (72%) 343 (94%)
576 (58%) 20 (2%) 40 (4%) 364 (36%) 1000
Tabelle 12: Häufigkeitsverteilung in der CTEPH‐Simulation bei Korrelation 0.8
korr=0.8 ANGIO = 1 ANGIO = 0
SPECT = 1 SPECT = 0 SPECT = 1 SPECT = 0
MRT=1 568 (99%) 14 (60%) 20 (49%) 12 (3%)
MRT=0 8 (1%) 10 (40%) 20 (51%) 348 (97%)
576 (58%) 24 (2%) 40 (4%) 360 (37%) 1000
korr=0.8 BEST = 1 BEST = 0
SPECT = 1 SPECT = 0 SPECT = 1 SPECT = 0
MRT=1 568 (99%) 14 (100%) 20 (49%) 12 (3%)
MRT=0 8 (1%) 0 (0%) 20 (51%) 358 (97%)
576 (58%) 14 (1%) 40 (4%) 370 (36%) 1000
Insgesamt ergaben sich für die zwei verschiedenen Studiendesigns mit ANGIO und BEST als Referenzstandard sehr ähnliche diagnostische Kontingenztabellen. Bei gleicher Korrelation war die mittlere Anzahl an Patienten in den meisten Subgruppen identisch. Nur in den Zellen mit negativem MRT und VQ‐SPECT (siehe gelbe Markierung der Tabelle 10‐12) zeigten sich erwartungsgemäß Design‐
spezifische Unterschiede. Jedoch waren diese Unterschiede, unabhängig von der Höhe der Korrelation, sehr klein. Aufgrund der hohen Sensitivitäten gab es mit einer absoluten Anzahl von maximal 10 Patienten nur sehr wenige in Wahrheit erkrankte Personen, die sowohl vom VQ‐SPECT als auch vom MRT negativ eingestuft wurden. Der Anteil an erkrankten Patienten, die fälschlicherweise doppelt‐
negativ diagnostiziert wurden, betrug in allen Szenarien weniger als 1% der Gesamt‐Studienpopulation (Tabelle 13, letzte Spalte).
Auch im Vergleich der verschiedenen Korrelationen konnten nur leichte Unterschiede festgestellt werden. Mit steigender Korrelation kam es zu einer etwas stärkeren Besetzung der konkordanten Zellen (‐/‐ oder +/+ für MRT und SPECT) zu Ungunsten der diskordanten Zellen. Dies spiegelte sich auch in den beobachteten mittleren Konkordanzen und Verifikationsraten wider (Tabelle 13). Die Verifikationsraten wurden aber nur in geringem Maße niedriger.
Tabelle 13: Konkordanz und Anteil der doppelt‐negativen Diagnosen Korrelation Konkordanz
Sensitivität Konkordanz
Spezifität Anteil Verifikationsrate (Verifikation durch
Die mittleren relativen Häufigkeiten für die co‐primären Studienendpunkte (Tabelle 14, sowie in gerundeter Form in Tabelle 10‐12) unterschieden sich in den zwei untersuchten Studiendesigns ANGIO und BEST nicht. Da das ANGIO‐Studiendesign die Wahrheit widerspiegelt, bedeutet das in der Schlussfolgerung, dass die definierten Studienendpunkte im Studiendesign mit BEST als Referenzstandard unverzerrt geschätzt werden konnten. Die erste primäre Kenngröße p1 war trivialerweise in beiden Studiendesigns identisch, da nur verifizierte Patienten in die Berechnung einfließen. Die Schätzungen der zweiten primären Kenngröße p2 wiesen trotz der perfekten Korrektur der falschen, doppelt‐negativen Diagnosen im ANGIO‐Studiendesign und der komplett ausbleibenden Korrektur dieser Diagnosen im BEST‐Studiendesign keine Unterschiede auf. Die Korrekturen waren marginal. Leichte Unterschiede waren hingegen für die verschiedenen Faktorstufen der Korrelation zu verzeichnen. Die geschätzten Häufigkeiten schwankten um 1‐2 Prozentpunkte für p1 von 97.2 bis 98.5%
bzw. um 4 Prozentpunkte von 3.3 bis 7.3% für p2 (Tabelle 14).
Für jede der 10000 Simulationen eines Szenarios wurde nicht nur die Punktschätzer der Kenngrößen mit 95%‐Konfidenzintervall berechnet, sondern zusätzlich analysiert, ob mit den beobachteten
Schätzungen der prä‐definierte Schwellenwert für die Kenngröße überdeckt wurde oder ob die Nullhypothese abgelehnt werden konnte. (Für p1 galt es einen Schwellenwert von 95% zu überschreiten, für p2 galt es einen Schwellenwert von 10% zu unterschreiten.) In der Simulationsstudie wurden 1000 Patienten, davon 600 erkrankte und 400 nicht‐erkrankte, simuliert. Mit diesen gegebenen Fallzahlen zeigte sich für die Szenarien mit Korrelation 0.5 und vor allem 0.8 schon eine gute Power zum Nachweis der Studienhypothesen. Für eine geringere Korrelation von 0.2 waren deutlich weniger signifikante 95%‐Konfidenzintervalle zu verzeichnen, die Power betrug nur rund 70%
für p1 und 40% für p2.
Tabelle 14: Schätzung der primären Endpunkte der CHANGE‐MRI Studie Primärer
Endpunkt Korrelation Ref.standard Punkt‐
schätzer 95%‐Wilson‐
Konfidenzintervall Empirische Power (Anteil KIs mit abgelehnter Nullhypothese)
p
10.2 ANGIO & BEST 0.972 [0.955, 0.982] 71.4%
0.5 ANGIO & BEST 0.976 [0.960, 0.986] 90.1%
0.8 ANGIO & BEST 0.985 [0.972, 0.992] 99.9%
p
20.2 ANGIO 0.073 [0.051, 0.105] 38.9%
0.2 BEST 0.073 [0.050, 0.104] 40.0%
0.5 ANGIO 0.058 [0.039, 0.087] 80.9%
0.5 BEST 0.058 [0.038, 0.086] 83.0%
0.8 ANGIO 0.034 [0.020, 0.058] 99.9%
0.8 BEST 0.033 [0.020, 0.057] 99.9%
4.5.2. Bias der Sensitivität und Spezifität
Bezüglich der sekundären Studienendpunkte Sensitivität und Spezifität traten keine oder nur leichte Verzerrungen auf. Die geschätzten Sensitivitäten und Spezifitäten des MRT waren im Studiendesign mit perfektem Referenzstandard ANGIO wie erwartet nicht gebiased (Abbildung 13 (1) und (3)). Die Spezifität war darüber hinaus auch im Studiendesign mit BEST als Referenzstandard unverzerrt (Abbildung 13 (4)). Die Sensitivität des MRT wurde vor allem in den Szenarios mit höheren Korrelationen der beiden Prätests leicht überschätzt (Abbildung 13 (2)). Der mittlere Bias betrug hier etwa +0.7 Prozentpunkte bei einer Korrelation von 0.5 und +1.6 Prozentpunkte bei einer Korrelation von 0.8. Es handelt sich also um einen geringen Bias, jedoch muss dabei beachtet werden, dass bei einer hohen Sensitivität von 97% gewisse Ceiling‐Effekte auftreten und die Überschätzung nie höher als 3 Prozentpunkte sein kann. Für den Bias der geschätzten Sensitivitäten und Spezifitäten des VQ‐
SPECT ergaben sich die gleichen Resultate wie beim MRT (Anhang A7).
Abbildung 13: Sensitivität und Spezifität des MRT mit den Referenzstandards ANGIO und BEST
4.5.3. Schlussfolgerung für die Studienplanung
Eine Gesamtbetrachtung der Ergebnisse führte dazu, dass die Simulationsstudie nicht weiter ausgebaut wurde. Die wesentliche Erkenntnis war, dass die Anzahl der falschen doppelt‐negativen Diagnosen mit n=2, n=4 und n=10 von 1000 Patienten unbedeutend gering war in den verschiedenen Korrelations‐Szenarien. Dementsprechend zeigten sich nur geringfügige Unterschiede sowohl zwischen den beiden untersuchten „extremen“ Studiendesigns ANGIO (alle doppelt‐negativen Patienten werden perfekt diagnostiziert) und BEST (alle falschen doppelt‐negativen Patienten werden vom alternativen Referenzstandard inkorrekt diagnostiziert) als auch unter verschiedenen Korrelationen der Prätests. Eine Untersuchung weiterer Faktorstufen der Korrelation oder eines neuen Faktors zur Validität des Follow‐Ups, mit artifiziellen Korrekturwahrscheinlichkeiten durch das klinische Follow‐Up, erschien daher irrelevant und wurde nicht durchgeführt.
(1) (2)
(3) (4)
Zur weiteren Fallzahlplanung der CHANGE‐MRI‐Studie wurden die Ergebnisse des Simulationsszenarios mit einer Korrelation von 0.5 verwendet. Es gab aus medizinischer Sicht weder Anhaltspunkte dafür, dass eine besonders hohe Korrelation zwischen den beiden Verfahren bestünde und diese an den gleichen Patienten erfolgreich bzw. fehlerhaft wären. Noch sprach etwas dafür, dass die beiden Tests besonders komplementär wären und fehlerhafte Patienten des einen Verfahrens aufgrund hoher Diskordanz wahrscheinlich durch das andere Verfahren korrekt diagnostiziert werden würde. Die Fallzahlberechnung wurde daher mit zugrundeliegenden primären Raten von p1=6% und p2=98% in nQuery Advisor 7.0 durchgeführt. Die erforderliche Gesamtfallzahl wurde auf N=1080 Patienten geschätzt (siehe Anhang A8). Gemäß der Simulationsstudie wurde ein vernachlässigbar geringer Bias in den verschiedenen Endpunkten der CHANGE‐MRI Studie erwartet, so dass keine Biaskorrektur ins Studienprotokoll eingebunden wurde.
4.6. Zusammenfassung der Ergebnisse
Die CTEPH‐Simulationsstudie sollte genauer beleuchten, was hinsichtlich Verifikation und Bias mit der diagnostischen Vierfeldertafel einer Diagnosestudie passiert, wenn ein neuartiger Prätest für eine Indikation mit nicht immer durchführbarem Referenzstandard evaluiert wird. Die gewonnenen Erkenntnisse sollten zur weiteren Planung der Diagnosestudie und insbesondere der erforderlichen Fallzahl dienen.
Mithilfe der Simulationsstudie konnten in einem konkreten, auf die CHANGE‐MRI Studie angepassten Setting alle relevanten Informationen zur Planung der Auswertung und der Fallzahl gewonnen werden.
Es konnte gezeigt werden, dass zwar ein profunder Anteil an Patienten (rund 35%, n=350/1000) in der Studie nicht durch das Goldstandardverfahren Angiographie verifiziert wird, weil der neuartige Prätest sowie ein etablierter Vergleichs‐Prätest negativ waren. Von diesen nicht‐verifizierten Patienten, deren Krankheitsstatus mittels Follow‐Up auf alternative Weise festgelegt wird, war aber infolge der sehr hohen Sensitivitäten (96‐97%) und hohen Spezifitäten (90‐92%) der zur Selektion verwendeten Prätests nur ein unbedeutender Anteil von 2‐10 Patienten falsch‐negativ. Die definierten primären Endpunkte der Studie wurden dadurch kaum beeinflusst. In der Simulationsstudie konnten insgesamt keine nennenswerten Verzerrungen beobachtet werden.