Simulation zur Quantifizierung des Bias - VERIFIKATIONSBIAS BEI NEURODEGENERATIVEN ERKRANKUNGEN

3. VERIFIKATIONSBIAS BEI NEURODEGENERATIVEN ERKRANKUNGEN MIT AUTOPSIE ALS

3.4. Simulation zur Quantifizierung des Bias

Zur Klärung dieser Fragen wurden mithilfe einer ausführlichen Simulationsstudie verschiedene Referenzstandard‐Szenarien miteinander verglichen:

In der Simulationsstudie zur Diagnose von CJK ging es um die Anwendung (a) eines zu bewertenden diagnostischen Tests A = Biomarker 14‐3‐3,

(b) eines weiteren diagnostischen Tests B = der zusammengesetzte Referenzstandard ZGS, (c) des diagnostischen Goldstandards C = Autopsie, und

(d) eines differentiellen Referenzstandards D = BEST (Autopsie falls verfügbar, ZGS sonst)

An dieser Stelle ist zu beachten, dass Test A oder B nicht etwa der neue, konkurrierende Biomarker (z.B. Tau) sind. Die Performance eines Konkurrenzbiomarkers in einem gegebenen Studiensetting wäre erst im nächsten Schritt von Interesse und wird im Rahmen dieser Arbeit nicht untersucht. Als Vergleichstest B wird in diesem Fall der zusammengesetzte, durch 14‐3‐3 mitbestimmte Referenzstandard ZGS simuliert. Er wird in diesem Anwendungsbeispiel als ein (komplexer) diagnostischer Test für CJK gesehen, der als Standardtest auf CJK im klinischen Alltag verwendet wird, und dessen Ergebnis die Wahrscheinlichkeit zur Verifikation mittels Autopsie mitbeeinflusst. Darüber hinaus wird Test B in dieser Simulationsstudie als alternativer Referenzstandard für die Studienauswertung betrachtet.

Der differentielle Referenzstandard wird im Folgenden mit „BEST“ abgekürzt. Dies spiegelt wider, dass dieser Referenzstandard die beste verfügbare Information und somit zwei verschiedene Verfahren zur Bestimmung des wahren Krankheitsstatus nutzt. Individuen mit vorhandenen Autopsie‐Ergebnissen werden durch Autopsie verifiziert, für alle anderen wird das Ergebnis des ZGS herangezogen.

In den Simulationen wurden folgende Simulationsparameter definiert und auf die angegebenen Werte eingestellt:

Tabelle 6: Simulationsparameter und zugehörige Einstellungen in der CJK‐Simulation

Simulationsparameter Festgelegte Parameterwerte

Simulationsläufe 10000

Fallzahl insgesamt 5000

Prävalenz CJK 0.03 0.10 0.50

Sensitivität von (A) 14‐3‐3 0.70 0.80 0.90

Spezifität von (A) 14‐3‐3 0.50 0.70 0.90

Sensitivität von (B) ZGS 0.90 0.98

Spezifität von (B) ZGS 0.70 0.80 0.90

Korrelation zwischen (A) und (B) 0.80

Sensitivität von (C) Autopsie 1.00

Spezifität von (C) Autopsie 1.00

Autopsie‐Wahrscheinlichkeit in Subgruppen

 Konsistenz‐1: 14‐3‐3 und ZGS negativ 0.20

 Konsistenz‐2: 14‐3‐3 und ZGS positiv 0.40  Diskordanz: 14‐3‐3 positiv & ZGS negativ, oder

14‐3‐3 negativ & ZGS positiv 0.40 0.50 0.60

Als mögliche Prävalenzen wurden bewusst sehr verschiedene Werte gewählt. Eine Prävalenz von 3%

entspricht etwa der Prävalenz von CJK in den untersuchten Proben neuerer Jahrgänge (ab 2010), wohingegen in den untersuchten Proben der älteren Jahrgänge um 2000 herum eine Prävalenz von ungefähr 10% beobachtet wurde. Die Prävalenzen wurden also derart festgelegt, dass sie mit der Prävalenz von CJK in neueren bzw. älteren Diagnosestudien korrespondieren, wenn bei den Diagnosestudien im Sinne einer in‐place‐Validierung alle eingegangenen, auf CJK untersuchten Patientenproben die Studienpopulation darstellen. Zusätzlich wurde noch eine Prävalenz von 50%

gewählt, um auch Diagnosestudiendesigns abzudecken, die neben einer definierten Anzahl von CJK‐

Fällen zusätzlich Kontrollpatienten anderer Indikationen einschließen. Bei dieser Art von sogenannten Phase 1 und 2 Diagnosestudien werden häufig genauso viele Kontrollen wie Fälle eingeschlossen, so dass sich eine Prävalenz von 50% ergibt.

Die Wahl der wahren Sensitivitäten und Spezifitäten von 14‐3‐3 und ZGS basierte auf früheren diagnostischen Studien (S. Collins, 2000; Heinemann, 2007; I. Zerr, 2000; Inga Zerr, 1998). Vor allem bei der Spezifität von 14‐3‐3 wurde aufgrund der bestehenden Unsicherheit ein breiter Wertebereich zugrunde gelegt (50%‐90%), um anschließend sowohl für niedrige wahre Spezifitäten als auch für hohe wahre Spezifitäten Aussagen treffen zu können. Die Sensitivität und Spezifität der Autopsie wurde auf 100% festgelegt (siehe dazu Kapitel 2.3.1). Die Korrelation zwischen Test (A) 14‐3‐3 und Test (B) ZGS wurde ebenfalls nicht variiert, sondern auf einen festen Wert von 0.80 eingestellt. Dieser Wert basierte auf der Datenbank des deutschen Nationalen Referenzzentrums für CJK und spiegelt deutlich die Abhängigkeit des ZGS vom Testergebnis des 14‐3‐3 wider.

Dieser Datensatz wurde auch für die Abschätzung der Autopsie‐Wahrscheinlichkeiten verwendet.

Patienten mit divergierenden Diagnosen wurden hier etwa doppelt so häufig obduziert wie Patienten mit übereinstimmenden Diagnosen. Zugleich lagen deutlich weniger Autopsien bei Patienten mit zwei negativen Diagnosen vor (ganz im Sinne eines klassischen partiellen Verifikationsbias). Insgesamt lag die Obduktionsrate bei rund 35%. Gemäß unserer a‐priori Hypothese, dass die Autopsie‐

Wahrscheinlichkeit bei größerer Unsicherheit in der Diagnosestellung steigt, wurden erhöhte Verifikationswahrscheinlichkeiten bei diskordanten Testergebnissen von 14‐3‐3 und ZGS festgelegt.

Die Wahrscheinlichkeit einer Autopsie wurde hier auf Werte zwischen 40 und 60% festgelegt. Es wurde dabei nicht unterschieden zwischen dem Fall „14‐3‐3 ist negativ und ZGS positiv“ und dem Fall „14‐3‐

3 ist positiv und ZGS negativ“. Bei übereinstimmenden positiven Diagnosen wurde eine feste

Autopsierate von 40% angenommen (in Einklang mit (Robert‐Koch‐Institut, 2013), wohingegen die Autopsierate bei übereinstimmenden negativen Diagnosen auf 20% festgelegt wurde.

Alle möglichen, sich ergebenden Kombinationen von Simulationseinstellungen wurden simuliert, mit Ausnahme derjenigen Szenarien, in denen die Spezifität von 14‐3‐3 höher war als die Spezifität des ZGS (d.h. bei Spezifität 14‐3‐3 90% und Spezifität ZGS 70% oder 80%). Derartige Einstellungskombinationen wurden in Hinblick auf vorhergehende Studien als unrealistisch eingestuft, da die diagnostische Güte des ZGS besser als die diagnostische Güte eines Einzeltests aus dem zusammengesetzten Goldstandard sein sollte. Insgesamt ergaben sich so 378 Simulationsszenarien.

Zur Überprüfung der Validität der Programmierungen wurden noch 126 zusätzliche Szenarien untersucht, in denen die Autopsie‐Wahrscheinlichkeiten für alle Patientengruppen auf 40% festgelegt wurden (im Folgenden als Prüfszenarien bezeichnet). Wenn die Verifikationswahrscheinlichkeit für alle Patienten gleich hoch ist, ungeachtet des Testergebnisses oder weiterer Faktoren, sollte kein Bias zu beobachten sein. Die Ergebnisse dieser zusätzlichen Szenarien wurden im Rahmen der Gesamtauswertung nicht berücksichtigt, sondern ausschließlich für die Analyse des Einflusses der variierenden Autopsie‐Wahrscheinlichkeiten verwendet.

Die Auswertung der simulierten Datensätze zielte auf die diagnostische Performance des etablierten Biomarkers 14‐3‐3 gemessen anhand der Kenngrößen Sensitivität und Spezifität ab. Von Interesse waren dabei einerseits die diagnostische Performance von (A) 14‐3‐3 gegenüber (B) dem ZGS als Studien‐Referenzstandard, mit der Erwartung, dass Sensitivität und Spezifität des etablierten Biomarker‐Tests überschätzt werden, weil der Biomarker 14‐3‐3 die Diagnose des Referenzstandards direkt mitbestimmt und Inkorporationsbias auftritt. Von Interesse war andererseits die diagnostische Performance von (A) 14‐3‐3 gegenüber dem Goldstandard (C) Autopsie, der nur für einen geringen Anteil an untersuchten Patienten (ca. 30‐40%) verfügbar ist, so dass partieller Verifikationsbias zu erwarten ist. Zusätzlich wurde noch die diagnostische Performance von (A) 14‐3‐3 gegenüber (D) einem differentiellen Referenzstandard BEST untersucht. Diese Verifikationsvariante war in mehreren CJK‐Studien genutzt worden und lässt einerseits differentiellen Verifikationsbias aber durch die Einbeziehung der ZGS‐Ergebnisse auch Inkorporationsbias erwarten. Für die beobachteten Sensitivitäten und Spezifitäten in den simulierten Datensätzen wurden Bias, Mean Squared Error und Coverage berechnet.

Abseits der geplanten Auswertung wurde aus den 378 Simulationsszenarien ein konkretes Szenario, bezeichnet als S1, ausgewählt, das als besonders realistisch eingestuft wurde. Dahinter stand die Intention, mögliche zugrundeliegende Verzerrungsprozesse im Detail zu veranschaulichen und dadurch besser zu verstehen. Die Wahl fiel dabei, basierend auf Gesprächen mit Medizinern des Deutschen Nationalen Referenzzentrums, auf ein Simulationsszenario mit

 Prävalenz CJK: 10%  Autopsie‐Wahrscheinlichkeit für diskordante Tests: 60%

 Sensitivität 14‐3‐3: 90%  Sensitivität ZGS: 90%

 Spezifität 14‐3‐3: 70%  Spezifität ZGS: 90%.

Im Dokument Auswirkungen von partieller und differentieller Verifikation des Krankheitsstatus auf die Planung und Auswertung von Diagnosestudien (Seite 37-40)