Medizinische Hochschule Hannover
Institut für Biometrie
Auswirkungen von partieller und differentieller Verifikation des Krankheitsstatus auf die Planung und Auswertung von Diagnosestudien
INAUGURAL‐DISSERTATION
zur Erlangung des Grades einer Doktorin der Naturwissenschaften
‐ Doctor rerum naturalium ‐ (Dr. rer. nat.)
vorgelegt von
Annika Karch, geb. Müller‐Heine
aus Wolfsburg
Hannover 2020
Angenommen durch den Senat: 01.06.2021
Präsident: Prof. Dr. med. Michael Manns Wissenschaftliche Betreuung: Prof. Dr. sc. hum. Armin Koch Wissenschaftliche Zweitbetreuung: Prof. Dr. med. Wilfried Gwinner
1. Referent/in: Prof. Dr. sc. hum. Armin Koch 2. Referent/in: Prof. Dr. med. Wilfried Gwinner 3. Referent/in: Prof. Dr. med. Bernhard Schmidt
Tag der mündlichen Prüfung: 01.06.2021
Prüfungsausschuss
Vorsitz: Prof. Dr. rer. nat. Falk Büttner 1. Prüfer/in: Prof. Dr. sc. hum. Armin Koch 2. Prüfer/in: Prof. Dr. med. Wilfried Gwinner 3. Prüfer/in: Prof. Dr. med. Bernhard Schmidt
Inhaltsverzeichnis
1. EINLEITUNG ... 1
1.1. Bias in Diagnosestudien ... 1
1.2. Motivation ... 4
1.3. Forschungsziele ... 5
1.4. Gliederung dieser Arbeit ... 5
2. METHODEN ... 7
2.1. Kontext der beschriebenen Methoden ... 7
2.2. Statistische Methoden und Bias in Diagnosestudien ... 7
2.2.1. Sensitivität und Spezifität mit 95%‐Konfidenzintervallen ... 7
2.2.2. Verifikationsbias ... 9
2.2.3. Inkorporationsbias ... 14
2.3. Design und Auswertung der angewandten Simulationsstudien ... 15
2.3.1. Grundlegendes Design der Simulationsstudien ... 16
2.3.2. Evaluationskriterien der Simulationsstudien ... 18
2.3.3. Deskriptive Analyse der Simulationsstudien ... 20
3. VERIFIKATIONSBIAS BEI NEURODEGENERATIVEN ERKRANKUNGEN MIT AUTOPSIE ALS REFERENZSTANDARD ... 21
3.1. Diagnosestellung bei neurodegenerativen Erkrankungen ... 21
3.2. Anwendungsbeispiel: Diagnose von Creutzfeldt‐Jakob Krankheit (CJK) ... 22
3.3. Motivation einer Simulationsstudie für das Beispiel CJK ... 24
3.4. Simulation zur Quantifizierung des Bias ... 27
3.5. Ergebnisse ... 30
3.5.1. Gesamtergebnisse über alle Simulationsszenarien ... 30
3.5.2. Ergebnisse eines einzelnen Simulationsszenarios S1 ... 31
3.5.3. Einfluss der verschiedenen Simulationsparameter ... 34
3.5.3.1. Bias im Autopsie‐Studiendesign ... 35
3.5.3.2. Bias im ZGS‐Studiendesign ... 36
3.5.3.3. Bias im BEST‐Studiendesign ... 38
3.6. Zusammenfassung der Ergebnisse ... 39
4. VERIFIKATIONSBIAS BEI PRÄTESTS VOR INVASIVEN REFERENZSTANDARDS ... 41
4.1. Diagnosestellung bei invasiven Referenzstandards ... 41
4.2. Anwendungsbeispiel: Diagnose von chronisch thromboembolischer pulmonaler Hypertonie (CTEPH) ... 43
4.3. Motivation einer Simulationsstudie für das Beispiel CTEPH ... 45
4.4. Simulation zur Abschätzung des Bias und der benötigten Fallzahl ... 48
4.5. Ergebnisse ... 51
4.5.1. Mittlere Häufigkeitsverteilung zur Unterstützung der Studienplanung ... 51
4.5.2. Bias der Sensitivität und Spezifität ... 53
4.5.3. Schlussfolgerung für die Studienplanung ... 54
4.6. Zusammenfassung der Ergebnisse ... 55
5. DISKUSSION ... 56
6. LITERATURVERZEICHNIS... 71
7. ANHANG ... 80
LEBENSLAUF ... 90
WISSENSCHAFTLICHE PUBLIKATIONEN ... 91
PUBLIKATIONEN VON TEILERGEBNISSEN ... 95
Tabellenverzeichnis
Tabelle 1: Diagnostische Vierfeldertafel ... 7
Tabelle 2: Richtung des Bias bei verschiedenen Szenarien differentieller Verifikation ... 13
Tabelle 3: Visualisierter Simulationsdatensatz (beispielhaft für Sensitivität) ... 18
Tabelle 4: Elemente im zusammengesetzten Referenzstandard der Creutzfeldt‐Jakob Krankheit ... 22
Tabelle 5: Übersicht der möglichen Referenzstandards für CJK und zugehörige Problematik ... 26
Tabelle 6: Simulationsparameter und zugehörige Einstellungen in der CJK‐Simulation ... 27
Tabelle 7: Mittelwerte von Bias, Mean Squared Error (MSE) und Coverage für alle CJK‐ Simulationsszenarien ... 30
Tabelle 8: Übersicht des beobachteten Bias unter möglichen Referenzstandards für CJK ... 40
Tabelle 9: Simulationsparameter und zugehörige Einstellungen in der CTEPH‐Simulation ... 49
Tabelle 10: Häufigkeitsverteilung in der CTEPH‐Simulation bei Korrelation 0.2 ... 51
Tabelle 11: Häufigkeitsverteilung in der CTEPH‐Simulation bei Korrelation 0.5 ... 51
Tabelle 12: Häufigkeitsverteilung in der CTEPH‐Simulation bei Korrelation 0.8 ... 51
Tabelle 13: Konkordanz und Anteil der doppelt‐negativen Diagnosen ... 52
Tabelle 14: Schätzung der primären Endpunkte der CHANGE‐MRI Studie ... 53
Abbildungsverzeichnis
Abbildung 1: Diagnosestudie mit (A) vollständiger Verifikation, (B) partieller Verifikation und (C)
differentieller Verifikation (adaptiert nach (Rutjes, 2007)) ... 3
Abbildung 2: Ergebnis zweier Reviews zum Einfluss von partieller und differentieller Verifikation .... 12
Abbildung 3: Kriterien zur Diagnose der Creutzfeldt‐Jakob Krankheit ... 23
Abbildung 4: Anzahl der Verdachtsfälle und der bestätigten Fälle von CJK ... 24
Abbildung 5: (1) Bias der Sensitivitäten und (2) Bias der Spezifitäten von 14‐3‐3 gegen die verschiedenen Referenzstandards für alle CJK‐Simulationsszenarien ... 30
Abbildung 6: (1) Geschätzte Sensitivitäten und (2) geschätzte Spezifitäten von 14‐3‐3 gegen die verschiedenen Referenzstandards in einem konkreten Simulationsszenario S1 ... 32
Abbildung 7: Flowchart des Patientenflusses in der Diagnose von CJK mit verschiedenen Referenzstandards ... 33
Abbildung 8: Einflussgrößen auf den Bias der Spezifität von 14‐3‐3 mit Referenzstandard Autopsie . 35 Abbildung 9: Einflussgrößen auf den Bias der Sensitivität von 14‐3‐3 mit Referenzstandard ZGS ... 36
Abbildung 10: Multifaktorieller Einfluss auf den Bias der Sensitivität von 14‐3‐3 vs. ZGS ... 36
Abbildung 11: Einflussgrößen auf den Bias der Spezifität von 14‐3‐3 mit Referenzstandard ZGS ... 38
Abbildung 12: Diagnose von CTEPH (aus der Leitlinie von Galiè et al. 2016) ... 45
Abbildung 13: Sensitivität und Spezifität des MRT mit den Referenzstandards ANGIO und BEST ... 54
Abbildung 14: Auswirkung der diskordanten Verifikation in der CJK‐Simulation ... 58
Abkürzungsverzeichnis
ALS Amyotrophe Lateralsklerose
ANGIO Angiographie
ASPIRE CTEPH‐Register “Assessing the Spectrum of Pulmonary hypertension Identified at a REferral centre”
BEST Bestmöglich verfügbarer (differentieller) Referenzstandard CHANGE‐MRI Diagnosestudie „CTEPH diagnosis Europe – MRI“
CJK Creutzfeldt‐Jakob Krankheit
Chronische PE Chronische Lungenembolien (pulmonary embolism) CTEPH Chronisch thromboembolische pulmonale Hypertonie
DOR Diagnostisches Odds Ratio
DZL Deutsches Zentrum für Lungenerkrankungen
EEG Elektroenzephalogramm
EMA European Medicines Agency
FDA Food and Drug Administration GEE Generalized estimating equations
KI Konfidenzintervall
PEA Pulmonale Endarteriektomie
PH Pulmonale Hypertonie
MAR Missing at random
MCAR Missing completely at random
MNAR Missing not at random
ML Maximum‐Likelihood
MRT Magnetresonanztomographie
MSE Mean Squared Error
NRZ‐TSE Nationales Referenzzentrum für die Surveillance Transmissibler Spongiformer Enzephalopation
QUADAS Initiative “Quality Assessment of Diagnostic Accuracy Studies”
RDOR Relatives Diagnostisches Odds Ratio
Ref. Referenzstandard
Ref.standard Referenzstandard
rTPR Relative True Positive Rate rFPR Relative False Positive Rate
sCJK Sporadische Creutzfeldt‐Jakob Krankheit
Sens Sensitivität
Spez Spezifität
STARD Initiative “Standards for Reporting of Diagnostic Accuracy Studies”
VQ‐SPECT Ventilation/Perfusion‐ Einzelphotonen Emissions‐Computertomography
WHO World Health Organization
ZGS Zusammengesetzter Referenzstandard
Zusammenfassung
Annika Karch: Auswirkungen von partieller und differentieller Verifikation des Krankheitsstatus auf die Planung und Auswertung von Diagnosestudien
In Diagnosestudien entstehen Verzerrungen, wenn ein Referenzstandard zur Festlegung des wahren Krankheitsstatus in der Studie verwendet wird, der nicht für alle Studienteilnehmer durchgeführt werden kann (z.B., weil er risikoreich, belastend oder kostenintensiv ist). Für eine korrekte Interpretation der Studienergebnisse ist es dabei wichtig, das Ausmaß und die mögliche Richtung der potentiellen Verzerrung zu berücksichtigen. Ziel dieser Arbeit war es anhand systematischer Simulationsstudien die zu erwartenden Verzerrungen, die sich für die Sensitivität und Spezifität in Abhängigkeit von der Wahl des Umgangs mit fehlenden Werten für den Referenzstandard ergeben, hinsichtlich Richtung und Stärke zu evaluieren. Zwei klinische Fragestellungen wurden als Motivation für das Design der konkreten Simulationsstudien herangezogen.
Zunächst wurde auf Grundlage einer Fragestellung aus der Demenzforschung evaluiert, welche Verzerrungen entstehen, wenn ein bereits etablierter, in einen zusammengesetzten Referenzstandard integrierter Biomarker zur Diagnose einer Erkrankung re‐evaluiert wird und dabei (i) gegen den tatsächlichen Referenzstandard Autopsie, (ii) gegen einen alternativen, zusammengesetzten Referenzstandard („ZGS“) oder (iii) gegen einen differentiellen, aus diesen beiden Referenzstandards kombinierten Standard („BEST“) verglichen wird. In der Simulationsstudie zeigte sich, dass Spezifitäten im Autopsie‐Studiendesign stark unterschätzt (im Mittel ‐16%), im ZGS‐Studiendesign hingegen deutlich und im BEST‐Studiendesign moderat überschätzt werden (im Mittel +11% bzw. +6%). Die Sensitivitäten sind im Autopsie‐Studiendesign fast unverzerrt, jedoch treten in den beiden anderen Studiendesigns teilweise massive Verzerrungen der Sensitivität in beide Richtungen auf (bis –25% und bis +25%). Die wahre diagnostische Güte des Indextests ist dabei ausschlaggebend für die Richtung der Verzerrung, wobei Überschätzungen bei niedriger wahrer Sensitivität und Spezifität und Unterschätzungen bei hoher wahrer Sensitivität und Spezifität auftreten.
In einem zweiten Schritt wurde auf Basis einer klinischen Fragestellung aus der Radiologie evaluiert, welche Verzerrungen auftreten, wenn in einer Diagnosestudie ein neuartiger Prätest mit einem bereits etablierten Prätest unter Nutzung eines invasiven, nicht immer durchführbaren Referenzstandards verglichen wird. Positive Ergebnisse mindestens eines der zu vergleichenden Prätests führten dabei zur Durchführung des invasiven Referenzstandards, während Patienten mit zwei negativen Prätests alternativ mittels sechsmonatigem Follow‐Up verifiziert wurden. Zur Unterstützung einer konkreten Fallzahlplanung wurden die Zellhäufigkeiten der diagnostischen Kontingenztabellen sowie die entstehenden Verzerrungen von Sensitivität und Spezifität und weiteren definierten Studienendpunkten im Rahmen einer Simulationsstudie untersucht. Es konnte gezeigt werden, dass zwar ein profunder Anteil an Patienten (rund 35%) „doppelt‐negative“ Prätest‐Ergebnisse hat und damit nicht durch den invasiven Referenzstandard verifiziert wird. Die zentrale Erkenntnis der durchgeführten Simulation war jedoch, dass der Anteil der falschen doppelt‐negativen Prätest‐
Diagnosen mit maximal 1% aller Patienten in allen Szenarien unbedeutend gering ist. Die definierten
primären Endpunkte der Studie sowie die Spezifität können damit auch unter extremen Annahmen unverzerrt geschätzt werden.
Die Ergebnisse dieser Arbeit zeigen, dass im Falle systematisch fehlender Werte für den eigentlichen Referenzstandard kaum allgemeine Rückschlüsse auf die zu erwartenden Verzerrungen für Maßzahlen der diagnostischen Güte gezogen werden können, sondern die jeweilige Situation individuell betrachtet und mit Hilfe von Simulationsstudien evaluiert werden muss, bevor eine Entscheidung zu Studiendesign, Fallzahlplanung und Analysekonzept getroffen werden kann.
Summary
Annika Karch: Effects of partial and differential verification of disease status on the design and analysis of diagnostic studies
In diagnostic studies, bias arises when the reference standard that is used to determine the true disease status is not performed for all study participants (e.g. because it is risky, burdensome or costly).
For a correct interpretation of the study results, it is important to consider the extent and possible direction of the potential bias. The aim of this thesis was to evaluate the expected bias (in terms of direction and strength) in sensitivity and specificity dependent on the choice of handling missing values for the reference standard by means of systematic simulation studies. Two clinical questions were used as motivation for the design of the concrete simulation studies.
Firstly, based on a question from dementia research, it was evaluated which biases arise when an already established biomarker integrated into a composite reference standard is re‐evaluated for the diagnosis of a disease and compared (i) against the actual reference standard autopsy, (ii) against an alternative, composite reference standard ("ZGS") or (iii) against a differential reference standard ("BEST") combined from these two reference standards. The simulation study showed that specificities in the autopsy study design are strongly underestimated (on average ‐16%), whereas they are clearly overestimated in the ZGS study design and moderately overestimated in the BEST study design (on average +11% and +6% respectively). The sensitivities are almost unbiased in the autopsy study design, but in the two other study designs there are massive biases of sensitivity in both directions (up to ‐25%
and up to +25%). The true diagnostic accuracy of the index test is decisive for the direction of the bias, with overestimation occurring at low true sensitivity and specificity and underestimation at high true sensitivity and specificity.
In a second step, based on a clinical question from radiology, it was evaluated which biases occur when a novel pretest is compared in a diagnostic study with an already established pretest using an invasive reference standard that cannot always be performed. Positive results of at least one of the pretests to be compared lead to the implementation of the invasive reference standard, while patients with two negative pre‐tests are alternatively verified by a six‐month follow‐up. To support a concrete sample size planning, the cell frequencies of the diagnostic contingency tables as well as the resulting biases of sensitivity and specificity (and further defined study endpoints) were investigated in a simulation study. It could be shown that a profound proportion of patients (about 35%) had "double‐negative"
pretest results and thus were not verified by the invasive reference standard. However, the central finding of the simulation study was that the proportion of false double‐negative pretest diagnoses is low in all scenarios with a maximum of 1% of all patients. The defined primary endpoints of the study as well as the specificity can thus be estimated without bias even under extreme assumptions.
The results of this study show that in the case of systematically missing values for the actual reference standard, it is hardly possible to draw general conclusions about the expected biases for measures of diagnostic accuracy. Instead, the respective situation must be considered individually and evaluated with the help of simulation studies before a decision on study design, case number planning and analysis concept can be made.
1. Einleitung
1.1. Bias in Diagnosestudien
In der öffentlichen Wahrnehmung steht im Mittelpunkt der ärztlichen Tätigkeit die Anwendung medikamentöser oder nicht‐medikamentöser Verfahren zur Therapie von Erkrankungen. Dies spiegelt sich auch in der klinischen Forschung wider, in der auf Therapiestudien sowohl regulatorisch als auch methodisch ein besonderer Fokus gelegt wird. Therapeutische Ansätze können aber nur dann sinnvoll und wirksam sein, wenn klar ist, welche Personengruppen von der jeweiligen Therapie profitieren und wenn klar zugeordnet werden kann, ob ein Individuum zu der entsprechenden Personengruppe gehört oder nicht. Die einfachste Form einer solchen Zuordnung ist die binäre Klassifikation in „erkrankt“ und
„nicht erkrankt“ anhand bestimmter Charakteristika und Testergebnisse. Dies wird als Diagnosestellung für eine konkrete Zielerkrankung bezeichnet. Die Testergebnisse werden auch als positiv (für „erkrankt“) bzw. negativ (für „nicht erkrankt“) bezeichnet. Ohne korrekte Diagnosestellung ist in der Regel keine zielgerichtete, erfolgreiche Therapie der Erkrankung möglich. Es ist daher wichtig, in der Diagnosestellung mit guten, hochinformativen Kriterien zu arbeiten und sich am Ende dennoch bewusst zu sein, dass und inwiefern die verwendeten diagnostischen Verfahren Fehlklassifikationen mit sich bringen können (Worster, 2008). Aus diesem Grund kommt der systematischen Untersuchung von zur Diagnose verwendeten Informationen und Tests eine große Bedeutung zu. Um zu evaluieren, welche diagnostischen Tests dazu geeignet sind, bei Patienten mit bestimmten Symptomkomplexen eine bestimmte Zielerkrankung korrekt zu diagnostizieren, ist die Durchführung von Diagnosestudien notwendig.
In Diagnosestudien wird ein neues diagnostisches Verfahren bei erkrankten und nicht‐erkrankten Individuen angewendet und die Richtigkeit der Klassifizierung durch das neue Verfahren ausgewertet.
Zu diesem Zweck werden sowohl das neue, zu evaluierende Verfahren – im Folgenden als Indextest bezeichnet – als auch ein Referenzstandard‐Verfahren in einem gepaarten Studiendesign an allen Studienteilnehmern durchgeführt und die Ergebnisse der Klassifizierungen miteinander verglichen.
Der Referenzstandard ist die beste verfügbare Methode zur Bestimmung des wahren Krankheitsstatus hinsichtlich der Zielerkrankung (FDA, 2007). Es kann sich dabei um ein einzelnes anerkanntes Verfahren oder die Kombination mehrerer diagnostischer Verfahren handeln. Der Referenzstandard definiert nach bestem Wissen den Krankheitszustand jedes Individuums und stellt in der Studienauswertung den zu erreichenden Maßstab für den Indextest dar. Zur Beschreibung der diagnostischen Genauigkeit des Indextests gegenüber dem Referenzstandard können verschiedene statistische Kenngrößen berechnet werden. Die zwei Wichtigsten sind die Sensitivität (der Anteil der vom Indextest korrekt als krank eingestuften Erkrankten) und die Spezifität (der Anteil der vom Indextest korrekt als nicht‐
erkrankt eingestuften Gesunden).
Ein fehlerfreier Referenzstandard wird im Kontext von Diagnosestudien auch als Goldstandard bezeichnet (Cohen, 2016), allerdings sind komplett fehlerfreie Referenzstandards in der klinischen Forschung eher die Ausnahme als die Regel (Reitsma, 2009). Ziegler et al. sprechen in ihrer Übersichtsarbeit von Goldstandard und Referenzstandard als perfektem und „fast perfektem“
Standard zur Bestimmung des wahren Krankheitsstatus (Ziegler, 2013). Vorsicht in der Interpretation einer Diagnosestudie ist geboten, wenn als bestmöglicher Referenzstandard nur ein substanziell
fehlerbehafteter Referenzstandard existiert (Reitsma, 2009; Rutjes, 2007). In der Planung einer Diagnosestudie sowie in der späteren Interpretation der Ergebnisse ist grundsätzlich abzuwägen und zu diskutieren, in welchem Maße der verwendete Referenzstandard imperfekt ist (Bossuyt, 2003;
Whiting, 2011).
Die FDA Guideline zum statistischen Umgang mit Diagnosestudien weist darauf hin, dass bei nicht existierendem oder inakzeptabel imperfektem Referenzstandard in Betracht gezogen werden sollte, einen neuen, kombinierten Referenzstandard für die Studie zu konstruieren (FDA, 2007).
Referenzstandards, die aus verschiedenen klinischen Informationen und Tests miteinander kombiniert werden, heißen zusammengesetzte Referenzstandards (Alonzo, 1999). Solch ein zusammengesetzter Standard muss einen klaren prä‐spezifizierten Algorithmus haben, wie die verschiedenen Einzelelemente zur finalen Bestimmung des Krankheitsstatus kombiniert werden (FDA, 2007; Rutjes, 2007). Nachvollziehbarerweise sollte der neue diagnostische Indextest nicht im zusammengesetzten Referenzstandard enthalten sein (EMA, 2009; FDA, 2007). Andernfalls sind Überschätzungen der Sensitivität und Spezifität des Indextests im Vergleich zum zusammengesetzten Referenzstandard die Folge, ein sogenannter Inkorporationsbias tritt auf (Kohn, 2013). Generell wird davon ausgegangen, dass ein zusammengesetzter Referenzstandard eine höhere diagnostische Güte besitzt als jedes der einzelnen enthaltenen Elemente (Rutjes, 2007). Jedoch muss berücksichtigt werden, dass es sich in der Regel nicht um einen Goldstandard handelt, sondern es trotz der verbesserten Validität weiterhin zu fehlerhaften Klassifikationen des Krankheitsstatus kommen kann (Reitsma, 2009).
Neben fehlerhaften Diagnosen des Referenzstandards stellen gleichermaßen auch fehlende Diagnosen zum wahren Krankheitsstatus ein Problem dar. Fehlende Werte können zufällig entstehen, etwa durch eine für den Referenzstandard erforderliche aber verlorengegangene Blutprobe oder aufgrund von technischen Fehlern (Naaktgeboren, 2016). Häufiger jedoch treten systematisch fehlende Werte auf, die sich aus ethischen, praktischen oder finanziellen Gründen im Studienverlauf ergeben haben oder sogar gemäß Studiendesign so vorgesehen sind (Naaktgeboren, 2016). Das ist etwa der Fall, wenn ein existierender, hochvalider Referenzstandard sehr invasiv, belastend oder risikoreich ist und aus ethischen Gründen nur bei sehr konkretem Verdacht durchgeführt werden sollte. Manchmal ist eine Verifikation des Krankheitsstatus durch den Referenzstandard auch praktisch gar nicht umsetzbar, z.B.
wenn im Kontext von Krebs‐Screeningstudien zunächst ein positiver Indextest auf eine oder mehrere Läsionen hingedeutet haben muss, bevor an den Läsionen der Referenzstandard Biopsie durchgeführt werden kann.
In diesen Situationen wird der Krankheitsstatus nur für einen (ausgewählten) Teil der Studienteilnehmer mit dem Referenzstandard verifiziert. Häufig korrespondiert die Wahrscheinlichkeit zur Verifikation dabei mit dem Ergebnis des Indextests. Patienten mit positivem Indextest haben eine deutlich höhere Wahrscheinlichkeit mit dem Referenzstandard diagnostiziert zu werden, oder es werden gemäß Studienprotokoll sogar ausschließlich positiv getestete Patienten mit dem Referenzstandard verifiziert. Manchmal beinhaltet die Studie zusätzlich einen etablierten, konkurrierenden Vergleichstest und Patienten werden verifiziert, falls der Indextest oder aber der Vergleichstest (oder beide) positiv sind. Die Entscheidung zur Durchführung des Referenzstandards kann außerdem von anderen Kovariablen wie z.B. Alter, Vorliegen bestimmter Risikofaktoren, Schwere der Symptomatik oder weiteren Testergebnissen abhängen (Diamond, 1991).
Wenn die Verifikationswahrscheinlichkeit mit dem Ergebnis des Indextests korrespondiert, kommt es zu Verzerrungen in der Schätzung der diagnostischen Genauigkeit des Indextests, zu sogenanntem Verifikationsbias (im englischsprachigen Raum auch Workup‐ oder Referral‐Bias genannt) (Kohn, 2013;
Lijmer, 1999; Rutjes, 2007; Whiting, 2003). Je nach Umgang mit den Individuen, die nicht den Referenzstandard erhalten haben, unterscheidet man weiter zwischen partiellem und differentiellem Verifikationsbias. Partieller Verifikationsbias entsteht, wenn die entsprechenden Studienteilnehmer ohne Referenzstandard keine weitere Verifikation durchlaufen und im Sinne einer „complete case“
Analyse aus der Auswertung ausgeschlossen werden (Abbildung 1). Werden die nicht durch den Referenzstandard verifizierten Patienten hingegen durch ein anderes, weniger invasives/schädigendes/teures, aber auch weniger valides diagnostisches Verfahren als den Referenzstandard verifiziert, so kann es zu differentiellem Verifikationsbias kommen. Als alternativer Referenzstandard wird häufig das (kurzfristige) klinische Follow‐Up der Studienteilnehmer verwendet (Naaktgeboren, 2016).
Abbildung 1: Diagnosestudie mit (A) vollständiger Verifikation, (B) partieller Verifikation und (C) differentieller Verifikation (adaptiert nach (Rutjes, 2007))
Eine partielle Verifikation, bei der alle Patienten ohne Referenzstandard‐Diagnose aus der Analyse ausgeschlossen werden, führt klassischerweise zu Überschätzungen der Sensitivität und Unterschätzungen der Spezifität (Kohn, 2013; Whiting, 2013). Die Überschätzung der Sensitivität resultiert aus dem Ausschluss von in Wahrheit erkrankten Patienten, die aufgrund eines (falsch‐) negativen Testergebnisses nicht verifiziert wurden. Analog dazu wird die Spezifität unterschätzt, weil in Wahrheit nicht‐erkrankte Individuen mit richtig‐negativem Testergebnis aus der Auswertung ausgeschlossen werden (Kohn, 2013).
Bei differentieller Verifikation der Studienteilnehmer wird eine Überschätzung von Sensitivität und Spezifität angenommen (Lijmer, 1999; Rutjes, 2006). Die Richtung der Verzerrung von Sensitivität und Spezifität sowie die zugrundeliegenden Mechanismen sind aber weniger klar als bei partiellem Verifikationsbias und hängen unter anderem vom Anteil der alternativ verifizierten Patienten, der Art des Selektionsprozesses für die Anwendung des Referenzstandards und von der diagnostischen Güte der beiden verwendeten Referenzstandards ab (Rutjes, 2007).
Für eine angemessene Auswertung solcher Studiendaten ist es bei der Planung einer Diagnosestudie erforderlich, sich die Problematik und das zu erwartende Ausmaß an Verzerrung durch partielle oder
differentielle Verifikation bewusst zu machen und diese entsprechend im Studiendesign, in der geplanten statistischen Auswertung und in der Interpretation der Ergebnisse zu berücksichtigen.
1.2. Motivation
Verifikationsbias gehört zu den häufigsten Formen von Bias in Diagnosestudien (De Groot, 2008;
Gupta, 2004) und muss bei der Planung und Interpretation von Diagnosestudien berücksichtigt werden. Diese Arbeit ist motiviert durch zwei konkrete Anwendungsbeispiele aus dem statistischen Alltag:
Im Bereich der neurodegenerativen Erkrankungen stellte sich die Frage, wie ein bestimmter Biomarker, der bereits seit 20 Jahren Teil eines komplexen zusammengesetzten Referenzstandards zur Diagnose von Creutzfeldt‐Jakob Krankheit (CJK) ist, adäquat hinsichtlich seiner diagnostischen Güte re‐
evaluiert werden kann. Es lag recht offensichtlich auf der Hand, dass Sensitivität und Spezifität des Biomarker‐Tests wegen Inkorporationsbias überschätzt werden, wenn die diagnostische Genauigkeit des Tests gegenüber dem zusammengesetzten, den Biomarker beinhaltenden Referenzstandard betrachtet wird. Alternativ wird eine Autopsie zur Verifikation des Krankheitsstatus verwendet. Sie stellt den Goldstandard für CJK dar, kann allerdings erst nach dem Tod durchgeführt werden und ist nur für einen relativ geringen Anteil an untersuchten Patienten verfügbar (ca. 30‐40%). Die Entscheidung zur Durchführung einer Autopsie wird nach einem Gespräch mit dem behandelnden Arzt durch die Angehörigen getroffen. Sie hängt unter anderem von den Ergebnissen der einzelnen Elemente des zusammengesetzten Referenzstandards ab (welche Tests waren positiv, welche negativ, wie stimmig ist das Gesamtbild?) und damit vom Indextest als Teil des Referenzstandards, so dass Verifikationsbias zu erwarten war. In Anbetracht dessen, dass die Re‐Evaluation eines etablierten Biomarkers häufig mit einem Vergleich gegen neu entwickelte Konkurrenz‐Biomarker einhergeht, stand die wissenschaftliche Frage im Raum, welcher diagnostische Referenzstandard bei der Re‐
Evaluation eines bereits etablierten CJK Biomarkers verwendet werden sollte, um möglichst unverzerrte Auswertungsergebnisse zu erhalten.
Die Studienplanung einer pneumologischen Diagnosestudie brachte das Problem mit sich, dass aus ethischen Gründen aufgrund der starken Invasivität des diagnostischen Referenzstandards nicht alle Patienten mit diesem verifiziert werden können. Patienten mit dem Verdacht auf chronisch thromboembolische pulmonale Hypertonie (CTEPH) durchlaufen ein bestimmtes diagnostisches Procedere. Der wichtigste Prätest ist dabei eine nuklearmedizinische Röntgenuntersuchung (VQ‐
SPECT). Sein Ergebnis ist ausschlaggebend für die Verifizierung des CTEPH‐Verdachts durch den invasiven Referenzstandard Angiographie. In einer prospektiven Diagnosestudie sollte untersucht werden, inwiefern ein MRT die strahlenintensive SPECT‐Untersuchung im diagnostischen Ablauf ersetzen könnte. Während der Studienplanung wurde das Konzept erarbeitet, positive Testergebnisse des Vergleichstests VQ‐SPECT sowie des Indextests MRT durch den diagnostischen Referenzstandard zu verifizieren. Für Patienten mit negativen Ergebnissen in beiden Tests sollte zur Festlegung des Krankheitsstatus als alternativer Referenzstandard der weitere klinische Verlauf bis 6 Monate nach Studienstart verwendet werden. Es handelt sich um eine klassische Situation von differentiellem Verifikationsbias. Im Rahmen der biometrischen Studienplanung galt es zu identifizieren, (i) wie die primären Endpunkte definiert werden sollten, um die zugrundeliegende Fragestellung optimal zu beantworten, (ii) wie viele Patienten von der Verifikation durch den alternativen Referenzstandard
betroffen sind, (iii) wie stark die Auswirkungen/Verzerrungen sind, und (iv) wie hoch schlussendlich die Fallzahl gewählt werden sollte.
1.3. Forschungsziele
Das Auftreten von partieller oder differentieller Verifikation des wahren Krankheitsstatus in Diagnosestudien führt zu Schwierigkeiten in der späteren Interpretation der Daten. Diagnostische Maßzahlen können verzerrt sein. Schon in der Studienplanung bedarf es genauer, informierter Überlegungen darüber, wie der wahre Krankheitszustand des Patienten bestimmt werden soll (Gibt es einen Referenzstandard? Wie valide ist dieser? Kann er für alle Patienten erhoben werden, und wenn nein, für wie viele nicht? Welche Alternativen gibt es?). Es stellte sich für zwei verschiedene Anwendungsgebiete die primäre Forschungsfrage, welche konkreten Auswirkungen die entsprechend vorliegende Verifikationsproblematik sowie eine mögliche Inkorporationsproblematik auf die Schätzung der diagnostischen Genauigkeit des untersuchten Indextests haben würden. Zur Beantwortung dieser Frage war es erforderlich, Wissen über die Verifikationshäufigkeit und die Höhe des resultierenden Bias zu generieren. Zu diesem Zweck wurden zwei Simulationsstudien durchgeführt.
Stellvertretend für Studien bei neurodegenerativen Erkrankungen mit dem problem‐behafteten Goldstandard einer Autopsie am verstorbenen Patienten wurde eine Simulationsstudie zu einer konkreten Erkrankung (CJK) aufgesetzt. Das Ziel der Simulation war ein Vergleich verschiedener Referenzstandard‐Szenarien hinsichtlich der entstehenden Verzerrungen in Anbetracht von partieller Verifikation, differentieller Verifikation und Inkorporation des zu untersuchenden Indextests. Auf diese Weise sollte Hilfestellung bei der Interpretation vorhandener publizierter Auswertungsergebnisse und eine Empfehlung bei der prospektiven Planung weiterer Studien gegeben werden.
In der zweiten Simulationsstudie lag der Fokus auf differentiellem Verifikationsbias, der im Studiensetting mit einem oder mehreren vorgeschalteten Prätests angesichts eines sehr invasiven Referenzstandards eingeführt wird. Anhand einer Beispielstudie, die in der radiologischen Bildgebung zur Diagnose einer Lungenerkrankung angesiedelt ist, wurden die Verifikationswahrscheinlichkeit evaluiert, der Bias quantifiziert und die benötigte Fallzahl abgeschätzt. Die Durchführung der Simulationsstudie sollte aufzeigen, wie in der Praxis bei vorhandener Verifikationsproblematik die konkrete Studienplanung durch Simulationen unterstützt werden kann.
Zusammengefasst bestand das übergeordnete Forschungsziel dieser Arbeit also darin, in zwei konkreten Anwendungsgebieten Erkenntnisse über die Auswirkungen von partieller und differentieller Verifikation des Krankheitsstatus zu gewinnen und Wege aufzuzeigen, mit dieser Art von Bias umzugehen.
1.4. Gliederung dieser Arbeit
In Kapitel 2 dieser Arbeit werden die verwendeten statistischen Methoden und Konzepte vorgestellt.
Die relevanten statistischen Kenngrößen in Diagnosestudien werden definiert und die behandelten Bias‐Formen ausführlicher beleuchtet. Auf der nächsten Ebene werden die verwendeten statistischen Methoden zur systematischen Untersuchung der Fragestellung erläutert. Dabei werden der Aufbau
der Simulationsstudien sowie die verwendeten Evaluationskriterien und die deskriptiven Auswertungsmethoden der Simulationen dargestellt.
Es folgen zwei Hauptkapitel, Kapitel 3 und 4, zu den durchgeführten Simulationsstudien, die auf gleiche Weise strukturiert sind. Sie beinhalten genauere Hintergrundinformationen zum medizinischen Kontext und eine Motivation für die resultierenden statistischen Fragestellungen. Die Durchführung der Simulationsstudie wird konkretisiert und um die verwendeten Parametereinstellungen ergänzt.
Dann folgt eine Darstellung der wesentlichen Ergebnisse.
In Kapitel 5 werden die Ergebnisse diskutiert, entsprechende Schlussfolgerungen und sich daraus ergebende Empfehlungen zusammengefasst, sowie Limitationen dieser Arbeit dargelegt.
2. METHODEN
2.1. Kontext der beschriebenen Methoden
Die wichtigsten statistischen Kenngrößen in Diagnosestudien sind die Sensitivität und die Spezifität eines Tests im Vergleich zum diagnostischen Referenzstandard. Daher wurden im Rahmen dieser Arbeit primär diese beiden Kenngrößen mit zugehörigen 95% Konfidenzintervallen betrachtet. Je nach Wahl des Referenzstandards können die geschätzten Sensitivitäten und Spezifitäten verzerrt sein und zu falschen Schlussfolgerungen über die diagnostische Güte eines neuen Tests führen. In dieser Arbeit wurde der (partielle und differentielle) Verifikationsbias als häufig auftretende Verzerrung genauer untersucht. Darüber hinaus ergab sich in alternativen Studiendesigns mit zusammengesetztem Referenzstandard die Problematik eines bestehenden Inkorporationsbias, der ebenfalls untersucht wurde. In der Einleitung sind die drei behandelten Bias‐Formen bereits eingeführt worden, in Kapitel 2.2.2 und 2.2.3 werden detailliertere Informationen im Kontext der bisherigen Forschung gegeben.
Unter welchen Umständen, in welchem Umfang und mit welcher Konsequenz für die Studienplanung und –auswertung die genannten Verzerrungen in der Schätzung von Sensitivität und Spezifität auftreten, wurde mithilfe von Simulationsstudien untersucht. Hierbei wurden Studiendatensätze künstlich erzeugt und an ihnen die geschätzten Sensitivitäten und Spezifitäten mit den zugrundeliegenden „wahren“ Werten verglichen. Als beschreibende Maßzahlen zur Evaluation der Simulationsstudien wurden – je nach Simulationsstudien‐Design – der Bias, der Mean Squared Error (MSE), die Überdeckungswahrscheinlichkeit (Coverage) und die Power berechnet. Abschließend wurden die aus verschiedenen Simulationsszenarien erhaltenen Maßzahlen im Rahmen einer deskriptiven statistischen Analyse der Simulationsstudie ausgewertet und zusammenfassend dargestellt.
2.2. Statistische Methoden und Bias in Diagnosestudien
2.2.1. Sensitivität und Spezifität mit 95%‐KonfidenzintervallenBei der Diagnosestellung handelt es sich aus praktischen Gründen in der Regel um eine dichotome Entscheidung: Am Ende möchten Arzt und Patient klar wissen, ob der Patient an einer bestimmten Erkrankung erkrankt ist oder nicht und ob folglich eine entsprechende Therapie gestartet wird oder nicht. Die Ergebnisse einer Diagnosestudie mit dichotomem Testergebnis (erkrankt (Test positiv) vs.
nicht‐erkrankt (Test negativ)) werden in einer diagnostischen Vierfeldertafel (Tabelle 1) dargestellt, aus der verschiedene diagnostische Kenngrößen berechnet werden können.
Tabelle 1: Diagnostische Vierfeldertafel
Krankheitsstatus gemäß Referenzstandard
Positiv Negativ
Indextest Positiv a (richtig‐positiv) b (falsch‐positiv) a+b Negativ c (falsch‐negativ) d (richtig‐negativ) c+d
a+c b+d n
Die wichtigsten und für Phase‐III Diagnosestudien empfohlenen primären Kenngrößen (EMA, 2009) sind die Sensitivität und die Spezifität:
Die Sensitivität (Sens) eines diagnostischen Tests ist die bedingte Wahrscheinlichkeit, dass der Test ein positives Ergebnis ausgibt, wenn die Erkrankung vorliegt. Sie kann aus der diagnostischen Vierfeldertafel einer Diagnosestudie geschätzt werden als
Sens .
Die Sensitivität spiegelt also wider, welcher Anteil der tatsächlich erkrankten Personen vom Test korrekterweise als erkrankt eingestuft wird. Man spricht auch von der „richtig‐positiv“ Rate.
(Schumacher, 2008)
Die Spezifität (Spez) eines diagnostischen Tests ist die bedingte Wahrscheinlichkeit, dass der Test ein negatives Ergebnis ausgibt, wenn die Erkrankung nicht vorliegt. Auch die Spezifität kann aus der diagnostischen Vierfeldertafel geschätzt werden mit
Spez .
Die Spezifität spiegelt wider, welcher Anteil der nicht‐erkrankten Personen vom Test korrekterweise als nicht‐erkrankt identifiziert wird. Man spricht auch von der „richtig‐negativ“ Rate. (Schumacher, 2008)
Sensitivität und Spezifität haben einen Wertebereich von 0‐1 (bzw. 0‐100%). Ein Ergebnis von 50% zeigt sich, wenn der diagnostische Test rein zufällige Diagnosen erzielt (Beispiel: Wurf einer Münze als Diagnoseverfahren mit Kopf=nicht‐erkrankt, Zahl=erkrankt). Im klinischen Kontext werden üblicherweise Werte von mindestens 80% für beide Maßzahlen angestrebt. Es ist zu beachten, dass keine der beiden Kenngrößen für sich allein betrachtet werden sollte, da Sensitivität und Spezifität eng miteinander verknüpft sind und steigende Werte der einen mit sinkenden Werten der anderen Maßzahl einhergehen (Abel, 2009). Ein diagnostischer Test mit guter diagnostischer Performance, also mit ausreichend hoher Sensitivität und Spezifität, wird als valide bezeichnet.
Die direkt aus einer Diagnosestudie berechneten Schätzer für Sensitivität und Spezifität sind zunächst nur deskriptive Punktschätzer aus der konkret erhobenen Stichprobe. Wäre im Rahmen der Studie eine andere zufällige Stichprobe gezogen worden, so hätten sich vermutlich andere Werte für die Punktschätzer ergeben. Es besteht also eine gewisse Variabilität in der Punktschätzung, die von Faktoren wie der Stichprobengröße oder der Größenordnung der Maßzahl abhängt. Um eine valide Aussage darüber zu machen, welche wahre Sensitivität und Spezifität in der zugrunde liegenden Grundgesamtheit zu erwarten sind, müssen zusätzlich zu den Punktschätzern Bereichsschätzer bestimmt werden, die einen Vertrauensbereich (Konfidenzintervall, KI) um den Punktschätzer herum angeben.
Es gibt verschiedene Methoden zur Berechnung von Konfidenzintervallen für Raten. Im Rahmen dieser Arbeit wurden klassische Wald‐Konfidenzintervalle und Wilson‐Konfidenzintervalle betrachtet.
Wilson‐Konfidenzintervalle gelten als besonders geeignet für sehr kleine und sehr große Raten (Newcombe, 2000) und damit als gut geeignet für sehr hohe Sensitivitäten und Spezifitäten.
Bei einer festgelegten Irrtumswahrscheinlichkeit von α=5% sind für die Sensitivität und die Spezifität 95%‐Wald‐Konfidenzintervalle anwendbar:
95%𝐾𝐼 Sens Sens u . ∙ Sens ∙ 1 Sens
a c
bzw.
95%𝐾𝐼 Spez Spez u . ∙ Spez ∙ 1 Spez
b d
wobei u . das 1‐(α/2)‐Quantil der Standardnormalverteilung darstellt, welches gerundet 1.96 beträgt (Newcombe, 1998). Die obere Grenze dieser Konfidenzintervalle wird, wenn sich ein größerer Wert als 1 ergibt, auf den Wert 1 festgesetzt.
95%‐Konfidenzintervalle nach Wilson werden für die Sensitivität und Spezifität wie folgt berechnet (Newcombe, 1998):
95%𝐾𝐼 Sens 2 ∙ 𝑎 𝑐 ∙ 𝑆𝑒𝑛𝑠 𝑢 . 𝑢 . ∙ 𝑢 . 4 ∙ 𝑎 𝑐 ∙ 𝑆𝑒𝑛𝑠 ∙ 1 𝑆𝑒𝑛𝑠
2 ∙ 𝑎 𝑐 𝑢 .
bzw.
95%𝐾𝐼 Spez 2 ∙ 𝑏 𝑑 ∙ 𝑆𝑝𝑒𝑧 𝑢 . 𝑢 . ∙ 𝑢 . 4 ∙ 𝑏 𝑑 ∙ 𝑆𝑝𝑒𝑧 ∙ 1 𝑆𝑝𝑒𝑧
2 ∙ 𝑏 𝑑 𝑢 .
wobei u . wiederum das 1‐(α/2)‐Quantil der Standardnormalverteilung ist und die obere Grenze der Konfidenzintervalle auf den Wert 1 festgesetzt wird, wenn sich ein größerer Wert als 1 ergibt.
2.2.2. Verifikationsbias Was ist Verifikationsbias?
Eine häufig auftretende Form der Verzerrung in Diagnosestudien ist der Verifikationsbias (De Groot, 2008; Gupta, 2004). Dieser kann entstehen, wenn nicht alle in die Studie eingeschlossenen Patienten mit dem definierten Referenzstandard diagnostiziert werden. Solange die Verifikation mit dem Referenzstandard für eine rein zufällige Partition der Studienpopulation stattfindet, können Sensitivität und Spezifität weiterhin erwartungstreu geschätzt werden und lediglich die Präzision verringert sich (Kosinski, 2003a; Lu, 2010; Xue, 2014). Zu Verzerrungen kommt es hingegen, wenn die Entscheidung über eine Verifikation nicht zufällig ist sondern mit dem Ergebnis des Indextests korrespondiert, insbesondere wenn das Ergebnis des Indextests die Entscheidung zur Verifikation direkt beeinflusst (Lijmer, 1999).
Es wird genauer unterschieden zwischen partiellem Verifikationsbias, falls anschließend nur die verifizierten Patienten in die Auswertung eingehen, und differentiellem Verifikationsbias, falls nicht‐
verifizierte Patienten mit einem anderen diagnostischen Verfahren als dem Referenzstandard
verifiziert und mitausgewertet werden (Ziegler, 2013). Partieller Verifikationsbias ist eine spezielle Form des Selektionsbias (Hall, 2019). Differentieller Verifikationsbias überschneidet sich mit sogenanntem „imperfektem Referenzstandard Bias“, weil das zur Verifizierung verwendete alternative Verfahren in der Regel imperfekt und deutlich fehlerbehafteter als der eigentliche Referenzstandard ist (Alonzo, 2011).
Verifikationsbias ist eine der häufigsten Bias‐Formen in Diagnosestudien (De Groot, 2008; Gupta, 2004). In zwei Publikationen trat die Problematik bei 30‐50% der untersuchten Studien auf (Gupta, 2004; Zhou, 2003). In zwei Übersichtsarbeiten zeigten sich 1999 eine Häufigkeit von rund 25% sowohl für partiellen als auch für differentiellen Verifikationsbias (Lijmer, 1999) und 2006 eine Prävalenz von 10% für partiellen und 20% für differentiellen Verifikationsbias (Rutjes, 2006). Die Häufigkeit des Auftretens ist naturgemäß von den Indikationsgebieten und den entsprechenden verfügbaren Referenzstandards abhängig. Im Bereich der Radiologie unterlagen rund 27% der in hochrangigen Radiologie‐Journalen veröffentlichten Diagnosestudien dem Risiko eines partiellen Verifikationsbias (Petscavage, 2011). Entsprechend dem häufigen Auftreten in der klinischen Forschung ist das Thema methodisch viel beforscht worden.
Richtung der Verzerrung und zugrundeliegende Verzerrungsmechanismen
In einem systematischen Review zu Bias in Diagnosestudien war partieller Verifikationsbias die am häufigsten untersuchte Biasform (32 von 111 = 29% der eingeschlossenen Arbeiten haben sich damit beschäftigt), und diejenige Biasform, in der am konsistentesten Verzerrungen gefunden worden sind (Whiting, 2013). Konsistent heißt dabei: 18 Studien fanden eine überschätzte Sensitivität, 16 Studien zeigten eine unterschätzte Spezifität. Die anderen Arbeiten beschrieben Verzerrungen in die jeweils andere Richtung oder keinen Zusammenhang. Zu den 111 eingeschlossenen Arbeiten zählten einige Meta‐Reviews, Reviews diagnostischer Studien, theoretische Arbeiten wie experimentelle/
Modellierungs‐/ Simulationsstudien, sowie rund 40 primäre klinische Diagnosestudien.
Jedoch herrscht, basierend auf einem klar definierten Wirkprinzip, in der gängigen Literatur zur methodischen Erforschung von Verifikationsbias generell die Meinung, dass bei partiellem Verifikationsbias die Sensitivität überschätzt und die Spezifität unterschätzt wird (Begg, 1983; Kohn, 2013). Das Wirkprinzip ist nachvollziehbar:
In einem Setting von partieller Verifikation werden in aller Regel Individuen mit positivem Indextest deutlich häufiger verifiziert als Individuen mit negativem Testergebnis (Mower, 1999; Panzer, 1987). Dies kann der Tatsache geschuldet sein, dass der Referenzstandard besonders invasiv (z.B. Biopsie) oder schädigend ist (z.B. Strahlenbelastung im Röntgen) und aus ethischen Gründen nur Patienten mit erhärtetem Verdacht (positivem Testergebnis) zugemutet werden soll. Dies kann auch darin begründet sein, dass etwa im Kontext von groß angelegten Screeningstudien ein teurer Referenzstandard aus Kostengründen nicht bei allen (vor allem asymptomatischen) Patienten angewendet werden kann, so dass überwiegend auffällige Patienten (mit positivem Testergebnis) weitergehend diagnostiziert und verifiziert werden. Möglich ist dabei auch, dass der – vielleicht sogar verblindet durchgeführte – Indextest die Entscheidung über eine Verifikation nicht kausal beeinflusst, es aber auf indirektem Wege zu einem Oversampling von positiven Testergebnissen in den verifizierten Patienten kommt, etwa weil vor allem Patienten mit stark ausgeprägter Symptomatik den Referenzstandard durchlaufen und der Indextest in Patienten mit starker Symptomatik besonders oft positiv ist. Ob nun kausal oder nicht: Wenn viele positiv‐getestete Patienten verifiziert wurden und damit in der Auswertungspopulation sind, aber nur wenige negativ‐getestete, so fehlt es (1.) an falsch‐negativen
Patienten, was zu einer Überschätzung der Sensitivität führt und (2.) an richtig‐negativen Patienten, was zu einer Unterschätzung der Spezifität führt.
Das Ausmaß des entstehenden partiellen Verifikationsbias hängt vom Anteil der nicht‐verifizierten Patienten ab (De Groot, Bossuyt, 2011; Rutjes, 2007), sowie von der Art des Selektionsprozesses und wie stark der Indextest damit assoziiert ist (De Groot, Bossuyt, 2011; Mower, 1999; Rutjes, 2007; Zhou, 2003). Je stärker der Zusammenhang zwischen Indextest und Selektion zur Verifikation ist, desto größer ist der Bias (Zhou, 2003). Gemeint ist, dass ein Szenario mit beispielsweise 10% nicht‐
verifizierten Patienten innerhalb der Test‐Positiven und 80% nicht‐verifizierten Patienten innerhalb der Test‐Negativen deutlich mehr Verzerrungen nach sich zieht als ein Szenario, in dem diese Anteile 30% und 60% betragen. Es gilt zu bemerken, dass Rutjes et al. 2007 und De Groot et al. 2011 von Einflussfaktoren auf Größe und Richtung des Verifikationsbias sprechen. Die Richtung ist in diesen Forschungsarbeiten also nicht festgelegt auf Überschätzung für Sensitivität und Unterschätzung für Spezifität. Jedoch wird weder erläutert, welche der genannten Kriterien sich auf das Ausmaß und/oder die Richtung auswirken noch inwiefern sich die genannten Kriterien auswirken.
Zusammenfassend ist also der aktuelle Forschungsstand, dass in den meisten Settings von auftretender partieller Verifikation die Sensitivität über‐ und die Spezifität unterschätzt wird. In Reviews wurden allerdings auch Studien analysiert, bei denen sich eine andere Verzerrungsrichtung oder keine Verzerrung gezeigt hatten. Offensichtlich kommt es bei der Entstehung von partiellem Verifikationsbias auf die Art des Verifikationsprozesses und die Häufigkeit einer Verifikation an.
Bei der Planung einer Diagnosestudie mit voraussichtlicher partieller Verifikation wird oft ein Umschwenken auf eine differentielle Verifikation als möglicher Ausweg genutzt (Naaktgeboren, 2016;
Rutjes, 2007; Schmidt, 2013). Bevor der Krankheitsstatus unbekannt bleibt und die Patienten nicht mitanalysiert werden können, wird der Krankheitsstatus lieber mit einer „schlechteren“ Alternative festgelegt. Manche argumentieren, dass differentielle Verifikation (wenn auch nicht unverzerrt) zu weniger Bias führen sollte als partielle Verifikation. Zum Beispiel befinden Whiting et al. 2003 in der QUADAS‐Guideline zur Qualität von diagnostischen Studien in Reviews (Whiting, 2003): „The link (correlation) between a particular (negative) test result and being verified by a less accurate reference standard will affect measures of test accuracy in a similar way as for partial verification, but less seriously.” Andere wiederum zweifeln, ob differentielle Verifikation wirklich vorteilhafter ist: “If the alternative reference standard classifies disease status with less accuracy than does the preferred standard, this approach essentially results in misclassification of the outcome. As such, it may increase, rather than reduce, the bias in the estimated accuracy of the index test(s).” (Naaktgeboren, 2016) Aussagen über das Vorhandensein eines substanziellen differentiellen Verifikationsbias waren lange Zeit gestützt durch zwei vielzitierte Meta‐Reviews, die sich mit Verzerrungen in Reviews diagnostischer Studien beschäftigt haben (Lijmer, 1999; Rutjes, 2006):
In diesen Meta‐Reviews wurden unter anderem Studien mit partieller bzw. differentieller Verifikation identifiziert und denjenigen Studien mit vollständiger Verifikation durch einen einzigen Referenzstandard gegenübergestellt. Verglichen wurden dabei die Diagnostischen Odds Ratios (DOR).
Das DOR ist eine zusammenfassende Maßzahl der diagnostischen Güte eines Indextests und setzt die Odds für ein positives Testergebnis bei den Erkrankten in Verhältnis zu den Odds für ein positives Testergebnis bei den Nicht‐Erkrankten (Lijmer, 1999). Eine gute Sensitivität und Spezifität schlägt sich in einem hohen DOR nieder (Gogtay, 2017). Die Meta‐Reviews ermittelten in Regressionsanalysen
sogenannte relative DORs (rDOR), die widerspiegeln, um wie viel höher bzw. niedriger die DORs von Studien mit partieller und differentieller Verifikation gegenüber Studien mit vollständiger Verifikation sind. In beiden Arbeiten deuteten die Ergebnisse mit rDORs um die 2 auf eine Überschätzung der diagnostischen Performance eines Indextests durch differentielle Verifikation hin (Abbildung 2). Die diagnostische Performance des Indextests war also in Studien mit differentieller Verifikation doppelt so gut wie in Studien mit vollständiger Verifikation. Darüber hinaus zeigte sich in beiden Reviews, dass partielle Verifikation keinen Effekt auf das DOR und damit auf die Schätzung der generellen diagnostischen Güte hat.
Abbildung 2: Ergebnis zweier Reviews zum Einfluss von partieller und differentieller Verifikation
Diese Ergebnisse sind jedoch aufgrund des gewählten Vergleichskriteriums DOR mit Vorsicht zu interpretieren. Das DOR stellt eine zusammenfassende Gesamtmaßzahl zur diagnostischen Genauigkeit dar. Ein‐ und dasselbe DOR kann dabei aus verschiedenen Kombinationen von Sensitivität und Spezifität entstanden sein (Gogtay, 2017). Entsprechend ist es möglich, dass eine Studie mit überschätzter Sensitivität und unterschätzter Spezifität im Vergleich zu einer unverzerrten Studie das gleiche DOR aufweist (Rutjes, 2006). Das verwendete Effektmaß ist somit insensitiv gegenüber gegensätzlichen Verzerrungen von Sensitivität und Spezifität (Rutjes, 2006; Whiting, 2004). Die mittels rDOR analysierten Effekte lassen keinen Rückschluss darauf zu, ob, in welche Richtung und in welchem Ausmaß Sensitivität und Spezifität verzerrt sind. Das betrifft sowohl die Bewertung des Bias bei partiellem Verifikationsbias (rDOR=1, aber Sensitivität überschätzt und Spezifität unterschätzt) als auch den resultierenden Bias bei differentiellem Verifikationsbias. Beide Kenngrößen, Sensitivität und Spezifität, könnten (moderat) überschätzt sein. Es wäre aber auch denkbar, dass eine Maßzahl stark überschätzt wird und die andere nicht verzerrt oder unterschätzt wird.
Folglich wurden das Ausmaß und die Richtung von differentiellem Verifikationsbias weiter beforscht.
Es wurden diverse Faktoren beschrieben, die sich auf den Effekt von differentieller Verifikation auswirken. Differentieller Verifikationsbias hängt ab (i) vom Anteil der alternativ verifizierten Patienten (Rutjes, 2007), (ii) der Art des Selektionsprozesses (Kohn, 2013; Rutjes, 2007), (iii) der diagnostischen Güte der beiden verwendeten Referenzstandards (Kohn, 2013; O’Sullivan, 2018; Rutjes, 2007) sowie (iv) einem möglichen Zusammenhang zwischen dem Indextest und den Referenzstandards, insbesondere der Konkordanz zwischen dem Indextest und dem fehlerbehafteten alternativen Referenzstandard (Kohn, 2013; O’Sullivan, 2018; Rutjes, 2007). Über die genaueren Auswirkungen auf die Größe oder Richtung wurden dabei keine Angaben gemacht. Rutjes et al 2006 erklärten die Überschätzung der diagnostischen Gesamtperformance damit, dass die Übereinstimmung zwischen Indextest und definiertem Krankheitsstatus künstlich erhöht wird, wenn die Missklassifikationen des imperfekten alternativen Referenzstandards mit den Fehlern des Indextests korrelieren (Rutjes, 2006).
Eine Modellierungsstudie hat sich in einem klar abgesteckten Setting von Screeningtest‐Szenarien genauer mit Richtung und Ausmaß von Verzerrungen durch differentielle Verifikation beschäftigt (Alonzo, 2011). Als zugrundeliegende Verifikationsschemata wurden in der Arbeit zwei Varianten betrachtet: vollständige differentielle Verifikation (alle positiv gescreenten Patienten werden mit einem Goldstandard und alle negativ gescreenten Patienten mit einer imperfekten Alternative verifiziert) und unvollständige differentielle Verifikation (ein großer Anteil der positiv gescreenten und ein kleiner Anteil der negativ gescreenten Patienten werden mittels Goldstandard verifiziert, alle anderen mit imperfekter Alternative). Es wurde das Spezialszenario betrachtet, dass in einem Setting vollständiger differentieller Verifikation der alternative Referenzstandard 100% Spezifität besitzt, wie es für Follow‐Up‐basierte Referenzstandards häufig angenommen wird (Alonzo, 2011).
Summa summarum zeigte sich kein oder nur geringer Bias für die Spezifität (Tabelle 2). Die Sensitivität wurde je nach Konkordanz von Indextest und imperfektem Alternativreferenzstandard bei niedriger Übereinstimmung unterschätzt und bei hoher Übereinstimmung überschätzt. Das Ausmaß an Bias variierte in jedem der Szenarien sehr stark. Als Einflussfaktoren auf die Höhe des Bias wurden die Prävalenz der Erkrankung, der Anteil der mittels Goldstandard verifizierten positiv‐getesteten Patienten, die Sensitivität des imperfekten Referenzstandards und der Grad der Übereinstimmung von Index‐ und Referenztest angegeben, was sich mit den oben genannten Faktoren deckt.
Tabelle 2: Richtung des Bias bei verschiedenen Szenarien differentieller Verifikation Verifikations‐
schema Validität des alternativen Ref.standard
Übereinstimmung Indextest & alternativer Ref.standard
BIAS
Sensitivität BIAS Spezifität (A) Vollständig
Sens < 100%
Spez = 100%
Minimal
Maximal (geringfügig)
(B) Vollständig Sens < 100%
Spez < 100%
Minimal
Maximal
(C) Unvollständig Sens < 100%
Spez < 100%
Minimal
– (geringfügig)
Maximal
Zusammenfassend lässt sich sagen, dass die Auswirkungen einer differentiellen Verifikation schwer vorherzusagen sind (O’Sullivan, 2018; Rutjes, 2007). Es kann durch differentielle Verifikation zu deutlichen Verzerrungen in beide Richtungen oder auch zu keinem Bias kommen. Die Größe und Richtung von differentiellem Verifikationsbias hängen von zahlreichen Charakteristika des konkreten Studiensettings ab, insbesondere von der Validität des alternativen Referenzstandards, dem Zusammenhang zwischen Indextest und alternativem Referenzstandard sowie vom Anteil der alternativ Verifizierten.
2.2.3. Inkorporationsbias
Ein imperfekter Referenzstandard führt zu Verzerrungen in der Schätzung der Sensitivität und Spezifität eines neuen Tests (Reitsma, 2009). Dabei kann es sich um Unterschätzungen handeln,
wenn
in Wahrheit korrekte Diagnosen eines sehr validen Indextests für die mit dem Referenzstandard fehlklassifizierten Patienten als falsche Diagnosen gewertet werden. Es kann aber auch zu Überschätzungen kommen, falls der Referenzstandard und der Indextest stark miteinander korreliert sind und somit an den gleichen Stellen Fehler machen, die dann als korrekte Diagnosen gewertet werden (Reitsma, 2009). Existiert für eine Zielerkrankung kein etablierter Referenzstandard oder ist nur ein substanziell imperfekter Referenzstandard vorhanden, so wird die Konstruktion eines aus mehreren Informationen und Einzeltests kombinierten Referenzstandards vorgeschlagen (EMA, 2009).
Dies kann ein ganz klassischer „zusammengesetzter“ Referenzstandard sein, bei dem die einfließenden Informationen (Symptome, Tests, etc.) klar benannt sind und dazu ein prä‐spezifizierter Algorithmus die Klassifizierung in „erkrankt“ und „nicht‐erkrankt“ eindeutig vorgibt (EMA, 2009; FDA, 2007;
Reitsma, 2009). Möglich ist es aber auch, als Referenzstandard ein Experten‐Panel einzusetzen, das aus allen vorhandenen Informationen (Anamnese, Testergebnisse, mögliche Follow‐Up Daten, etc.) den finalen Krankheitsstatus bestimmt (Kea, 2019; Reitsma, 2009; Rutjes, 2007). Diese Variante ist flexibler und unter Umständen treffsicherer als ein vordefinierter zusammengesetzter Referenzstandard, hat aber den Nachteil der Subjektivität und einer möglicherweise geringen Inter‐
/Intrareader‐Reliabilität (Rutjes, 2007).
Die europäische sowie die US‐amerikanische Guideline zu Diagnosestudien weisen explizit darauf hin, dass derart konstruierte Referenzstandards nicht den zu bewertenden Indextest als Komponente beinhalten sollten. Andernfalls entsteht Inkorporationsbias (EMA, 2009; FDA, 2007). Diese Art von Bias tritt nur bei konstruierten, aus mehreren Komponenten bestehenden Referenzstandards auf (Whiting, 2003). Sensitivität und Spezifität werden überschätzt (Kea, 2019; Kohn, 2013; Reitsma, 2009; Schiller, 2016; Worster, 2008). Die Kausalität ist leicht nachvollziehbar: Der Grund für die Überschätzung liegt in der Mitbestimmung des zu diagnostizierenden Krankheitsstatus durch den Indextest, der in den Referenzstandard einfließt (Kohn, 2013). Das Ausmaß an Überschätzung dürfte davon abhängen, in welchem Grad der konstruierte Referenzstandard imperfekt ist und wie stark der Indextest die finale Diagnose des Referenzstandards beeinflusst.
Tatsächlich gibt es – vielleicht aufgrund der trivialen, intuitiven Wirkweise von Inkorporationsbias – kaum methodische Forschungsarbeiten, die sich mit den genaueren Umständen wie Häufigkeit, Höhe des Bias und Einflussfaktoren befasst haben. In der Übersichtsarbeit von Whiting et al. 2013 konnten nur 3 Arbeiten zum Thema Inkorporationsbias ausfindig gemacht werden (von 111 eingeschlossenen Publikationen) (Whiting, 2013). Dazu gehörte unter anderem der Meta‐Review von Rutjes et al. 2006 (siehe oben), der anhand von 32 Studien mit Inkorporation (Häufigkeit 6%) zu einem nicht‐
signifikanten rDOR von 1.4 kam, so dass in der Übersichtsarbeit geschlussfolgert wurde, dass es keine Evidenz für einen resultierenden Bias gäbe (Rutjes, 2006). Die anderen beiden von Whiting erwähnten Arbeiten erzielten ebenfalls wenig aufschlussreiche Ergebnisse.
Zusammengefasst ist Inkorporationsbias also ein seit langer Zeit bekannter, von den gängigen statistischen Guidelines deutlich aufgezeigter, aber insgesamt wenig beforschter Bias, der zu Überschätzungen der Sensitivität und Spezifität führen kann.
2.3. Design und Auswertung der angewandten Simulationsstudien
Im Rahmen dieser Arbeit wurden zwei Simulationsstudien durchgeführt. In Simulationsstudien werden Datensätze unter kontrollierten, realitätsnahen Bedingungen künstlich erzeugt. Die Bedingungen (also z.B. die wahre Sensitivität und Spezifität eines bestimmten Tests) werden dabei vorher festgelegt und sind somit bekannt. Nach Erzeugung und Auswertung eines künstlichen Datensatzes kann zum Beispiel die Abweichung von dem aus dem Datensatz geschätzten Kennwert zum festgelegten wahren Wert ermittelt werden. Unter einer bestimmten Kombination von Bedingungen, man spricht auch von einem Simulations‐Szenario, werden wiederholte Datensätze erzeugt. In der Regel werden dabei 5000 oder 10000 solcher Wiederholungen (sogenannte Simulationsläufe) pro Szenario durchgeführt. So lässt sich unter anderem untersuchen, in welchem Ausmaß und mit welcher Variabilität es zu Abweichungen vom wahren Kennwert kommt.
Die Simulationsstudien wurden in zwei speziellen medizinischen Anwendungsbereichen (Creutzfeldt‐
Jakob‐Krankheit und chronische thromboembolische pulmonale Hypertonie) durchgeführt. Während die eine Studie auf die Quantifizierung der auftretenden Verzerrungen fokussiert, zielt die andere Studie primär darauf ab, eine robuste Fallzahlplanung unter differentiellen Verifikationsbedingungen zu gewährleisten. Obwohl die Indikationsgebiete und Simulationsstudienziele unterschiedlich sind, ist im Grundsatz das gleiche Simulationsdesign verwendet worden.