Simulation zur Abschätzung des Bias und der benötigten Fallzahl

4. VERIFIKATIONSBIAS BEI PRÄTESTS VOR INVASIVEN REFERENZSTANDARDS

4.4. Simulation zur Abschätzung des Bias und der benötigten Fallzahl

Im Rahmen einer Simulationsstudie zur Diagnose von CTEPH wurden zwei verschiedene Referenzstandard‐Szenarien miteinander verglichen. In der Simulationsstudie ging es um die Anwendung

(a) eines zu bewertenden diagnostischen Tests A = MRT, (b) eines weiteren diagnostischen Tests B = VQ‐SPECT,

(c) des diagnostischen Referenzstandards C = Angiographie (CAVE: für alle), und (d) eines differentiellen Referenzstandards D = BEST (Angiographie falls verfügbar,

Follow‐Up sonst).

In den Simulationen wurde davon ausgegangen, dass die Angiographie ein perfekter Goldstandard mit einer Sensitivität und Spezifität von 100% ist (siehe auch Kapitel 2.3.1). Es ist zu beachten, dass im Studiendesign mit dem Referenzstandard C einer Angiographie (im Folgenden ANGIO bzw. ANGIO‐

Studiendesign abgekürzt) aufgrund der speziellen Situation mit 0% Verifikation negativer Testdiagnosen auf eine Auswertung mit partieller Verifikation verzichtet wurde (siehe Kapitel 4.1).

Stattdessen wurden alle simulierten Patienten in der Auswertung berücksichtigt. Für die nicht‐

verifizierten Patienten mit doppelt‐negativen Prätest‐Diagnosen wurde im Referenzstandard C der wahre, im Rahmen der Simulationen bekannte Krankheitsstatus übertragen, so dass es sich insgesamt um einen perfekten Referenzstandard handelt. Die Ergebnisse der Simulationen mit Goldstandard ANGIO entsprechen also den Ergebnissen mit Nutzung des wahren Krankheitsstatus. Der Referenzstandard ANGIO kann aus anderer Perspektive ebenfalls als ein Studiendesign mit differentieller Verifikation interpretiert werden: Die Patienten werden entweder mit (perfekter) Angiographie verifiziert oder mit (perfektem) klinischem Follow‐Up.

Im differentiellen Referenzstandard BEST wurden die Ergebnisse der Angiographie verwendet, falls eine Angiographie durchgeführt wurde. Falls keine Angiographie durchgeführt wurde, wurde der Krankheitsstatus durch das klinische Follow‐Up der nächsten 6‐12 Monate bestimmt. Dabei wurde im Studiendesign mit Referenzstandard BEST davon ausgegangen, dass das Follow‐Up aufgrund geringer Sensitivität nicht in der Lage ist, fälschlicherweise als doppelt‐negativ eingestufte Patienten zu identifizieren. Diese in Wahrheit erkrankten Patienten werden also vom alternativen Referenzverfahren Follow‐Up (inkorrekterweise) alle als nicht‐erkrankt eingestuft. Diese extreme gewählte Annahme über die diagnostische Güte des alternativen Referenzverfahrens erlaubt in Zusammenschau mit dem oben skizzierten Referenzstandard ANGIO eine erste, orientierende Ergebnisdarstellung für zwei extreme Fälle (die nicht zwangsläufig realistisch sind):

Einerseits werden (im ANGIO‐Studiendesign) alle Patienten ohne Angiographie, die fälschlicherweise doppelt‐negative Testergebnisse hatten, durch einen perfekten alternativen Referenzstandard Follow‐

Up korrigiert. Andererseits wird (im BEST‐Studiendesign) für keinen der fälschlicherweise doppelt‐

negativen Patienten der Krankheitsstatus durch den alternativen Referenzstandard Follow‐Up korrigiert. Es muss davon ausgegangen werden, dass in der Realität nicht alle inkorrekten doppelt‐

negativen Patienten durch ein Follow‐Up identifiziert werden, sondern nur ein Teil der Patienten korrekt verifiziert werden kann. Die Abschätzung dieses Anteils war jedoch im vorliegenden Szenario nicht sicher möglich. Im Rahmen dieser Arbeit wurde daher entschieden, zunächst orientierend die Extreme zu simulieren und danach ergebnisgesteuert andere Parametereinstellungen bzgl. der Validität des Follow‐Ups im Studiendesign mit differentiellem Referenzstandards BEST zu untersuchen.

Die Simulationsparameter der CTEPH‐Simulation wurden auf die folgenden angegebenen Werte eingestellt:

Tabelle 9: Simulationsparameter und zugehörige Einstellungen in der CTEPH‐Simulation

Simulationsparameter Festgelegte Parameterwerte

Simulationsläufe 10000

Fallzahl insgesamt 1000

Prävalenz CTEPH bzw. chron. Lungenembolie 0.60

Sensitivität von (A) MRT 0.97

Spezifität von (A) MRT 0.92

Sensitivität von (B) VQ‐SPECT 0.96

Spezifität von (B) VQ‐SPECT 0.90

Korrelation zwischen (A) und (B) 0.20 0.50 0.80

Sensitivität von (C) Angiographie 1.00

Spezifität von (C) Angiographie 1.00

Angiographie‐Wahrscheinlichkeit in Subgruppen

 (A) und/oder (B) positiv: (+/‐ und ‐/+ und +/+) 1.00

 (A) und B) negativ: (‐/‐) 0.00

Die Prävalenz sowie die Sensitivitäten und Spezifitäten von MRT und VQ‐SPECT wurden der oben genannten Publikation einer monozentrischen, retrospektiven Substudie aus dem ASPIRE‐Register entnommen, die 132 Patienten mit Verdacht auf CTEPH umfasste (Rajaram, 2013). Die Prävalenz von CTEPH in dieser Gruppe lag bei 60%. Es zeigten sich für MRT und VQ‐SPECT ähnlich hohe Sensitivitäten (97% und 96%) und Spezifitäten (92% und 90%). Der verwendete Referenzstandard war dabei ein Chart‐Review der klinischen Untersuchung des Patienten sowie diverser verfügbarer Ergebnisse von bildgebenden Verfahren (u.a. CT‐Angiographie).

Die Sensitivität und Spezifität der Angiographie selbst wurden auf 100% festgelegt (siehe oben). Die Verifikationswahrscheinlichkeiten waren entsprechend einem klassischen Studiensetting für die Evaluation von Screening‐ bzw. Prätest‐Verfahren bei invasivem Referenzstandard 0% für negative Ergebnisse und 100% sonst.

Der einzige variierende Faktor in der Simulation der CHANGE‐MRI Studie war die Korrelation zwischen den beiden zu vergleichenden diagnostischen Tests. In der verwendeten Publikation von Rajaram et al. waren keine diagnostischen Kontingenztafeln sondern nur die Punkt‐ und Intervallschätzer der statistischen Kenngrößen angegeben. Folglich ließen sich keine statistischen Informationen über die Konkordanz bzw. Diskordanz zwischen den beiden Tests finden. Aufgrund der hohen Sensitivitäten konnte vermutet werden, dass die Konkordanz in der Einstufung der erkrankten Patienten auf einem recht hohen Niveau sein müsste. Aber auch für die Spezifitäten lagen mit rund 90% hohe Werte vor, so dass auch hier mit einer hohen Konkordanz zu rechnen war. Da der Grad der Diskordanz ausschlaggebend für die Verifikationshäufigkeit ist, wurde ein breites Spektrum bei den Parametereinstellungen der Korrelation aufgestellt. Es wurden für die Simulation Korrelationen von 0.2, 0.5 und 0.8 gewählt. Hohe Korrelationen bewirken eine hohe Konkordanz, die mit einer geringeren Gesamt‐Verifikationsrate einhergeht. Niedrige oder negative Korrelationen bewirken eine erhöhte Diskordanz mit entsprechend höherer Verifikationsrate. Negative Korrelationen sind jedoch im Kontext von zwei dichotomen diagnostischen Verfahren, die beide mit hoher Wahrscheinlichkeit das gleiche (richtige) Testergebnis ausgeben, unrealistisch. Schon eine Korrelation von 0.2 ist angesichts hoher vermuteter Konkordanzen grenzwertig, sollte jedoch in der durchgeführten Simulationsstudie abstecken, welche Ergebnisse an den (extremen) Rändern zu erwarten sind.

Die Auswertung der simulierten Datensätze zielte konkret darauf ab, die mittleren absoluten und relativen Häufigkeiten für die verschiedenen diagnostischen Subgruppen (MRT / VQ‐SPECT / Referenzstandard, insbesondere ‐/‐/+) in beiden untersuchten Studiendesigns, ANGIO und BEST, zu bestimmen. Dabei wurden die Zellhäufigkeiten über die Kontingenztabellen der 10000 Simulationsläufe gemittelt und auf ganze Zahlen gerundet. Die ermittelten Häufigkeiten sollten Aufschluss darüber geben, wie groß die Gesamt‐Verifikationsrate ist, wie häufig dabei in Wahrheit erkrankte Patienten als doppelt‐negativ von MRT und VQ‐SPECT eingestuft wurden und mit welchen Prozentzahlen die Fallzahlabschätzung für die co‐primären Studienendpunkte erfolgen kann. Schätzer für die co‐primären Endpunkte waren dabei definiert als folgende Quotienten von Zellhäufigkeiten:

(i) Wahrscheinlichkeit, dass MRT positiv, wenn VQ‐SPECT und Referenzstandard positiv:

(ii) Wahrscheinlichkeit, dass MRT positiv, wenn VQ‐SPECT und Referenzstandard negativ:

Zusätzlich wurde der Bias für die beobachteten Sensitivitäten und Spezifitäten von MRT und VQ‐SPECT gegenüber den Referenzstandards ANGIO und BEST ermittelt (wobei für das ANGIO‐Studiendesign kein Bias zu erwarten ist).

4.5. Ergebnisse

4.5.1. Mittlere Häufigkeitsverteilung zur Unterstützung der Studienplanung

Die absoluten und relativen Häufigkeitsverteilungen im ANGIO‐ und BEST‐Studiendesign sind in Kontingenztabellen dargestellt (Tabelle 10‐12). Bei den relativen Häufigkeiten handelt es sich (abgesehen von der jeweils letzten Zeile) um Spaltenprozente.

Tabelle 10: Häufigkeitsverteilung in der CTEPH‐Simulation bei Korrelation 0.2

korr=0.2 ^ANGIO = 1 ^ANGIO = 0