DISKUSSION - Auswirkungen von partieller und differentieller Verifikation des Krankheitsstatus

Motivation und Zielsetzung

In Diagnosestudien können eine Vielzahl verschiedener Verzerrungen in der statistischen Analyse auftreten und zu falschen Schlussfolgerungen über die diagnostische Validität eines neuen Tests führen. Die Leitlinie zum Berichten von Diagnosestudien STARD (Standards for Reporting of Diagnostic Accuracy Studies, (Cohen, 2016)) fordert daher: „As bias can come down to overestimation or underestimation of the accuracy of the index test under investigation, authors should discuss the direction of potential bias, along with its likely magnitude.“

Besonders groß ist das Risiko für Verzerrungen, wenn ein problembehafteter Referenzstandard in der Studie verwendet wird. So kann es passieren, dass der Referenzstandard nicht für alle Studienteilnehmer durchgeführt werden kann, weil er sehr risikoreich, belastend oder kostenintensiv ist. Wenn dann nur die mit dem Referenzstandard verifizierten Patienten ausgewertet werden oder wenn einige Patienten mit einem alternativen, schlechteren Referenzstandard verifiziert werden, kann es zu partiellem oder differentiellem Verifikationsbias kommen. Ein anderes Problem entsteht bei einer mangelnden Unabhängigkeit zwischen dem zu untersuchenden Indextest und dem Referenzstandard. Beeinflusst die Diagnose des Indextests die Festlegungen des Referenzstandards, so sind die Studienergebnisse häufig durch Inkorporationsbias verzerrt.

Auch in Hinblick auf die STARD‐Guideline müssen bei der Planung einer neuen Diagnosestudie mögliche, konkurrierende Referenzstandards sorgfältig hinsichtlich des mit ihnen einhergehenden Bias gegeneinander abgewogen werden. Jedoch sind nicht für jede Form von Bias reliable Informationen über die Richtung des resultierenden Bias verfügbar, geschweige denn ist das Ausmaß des zu erwartenden Bias unter den konkreten Bedingungen bekannt. Die vorliegende Dissertationsarbeit hat sich daher mit der Quantifizierung von Bias in zwei speziellen Anwendungsgebieten beschäftigt. Ziel war es jeweils, den erwarteten Verifikationsbias und Inkorporationsbias, der den entsprechenden Settings zugrunde lag, hinsichtlich Richtung und Stärke zu evaluieren.

Die Ergebnisse im Kontext bisheriger Forschungsergebnisse

Die CJK‐Simulationsstudie diente zur Evaluation des resultierenden Bias, wenn ein bereits etablierter, in einen zusammengesetzten Referenzstandard integrierter Biomarker zur Diagnose einer neurodegenerativen Erkrankung re‐evaluiert wird und dabei (i) gegen den Referenzstandard Autopsie, (ii) gegen einen zusammengesetzten Referenzstandard ZGS oder (iii) gegen einen differentiellen, aus diesen beiden Referenzstandards kombinierten Standard („BEST“) verglichen wird.

Für die resultierenden Spezifitäten des Biomarkers 14‐3‐3 in der CJK‐Simulation zeigte sich im Abgleich mit der bestehenden Literatur (siehe Kapitel 2.2.2 und 2.2.3) ein erwartungsgemäßes Bild:

 Spezifität im Autopsie‐Studiendesign aufgrund partieller Verifikation massiv unterschätzt

 Spezifität im ZGS‐Studiendesign aufgrund Inkorporation des Biomarkers deutlich überschätzt

 Spezifität im BEST‐Studiendesign ebenfalls überschätzt, aufgrund differentieller Verifikation und wegen des Einflusses eines mit Inkorporationsbias behafteten alternativen

Referenzstandards ZGS

Neue Erkenntnisse wurden gewonnen, was die Stärke des auftretenden Bias anbelangt. Die Unterschätzung durch Autopsie als Referenzstandard ist deutlich größer als die Überschätzung mit ZGS als Referenzstandard, während die Überschätzung durch differentielle Verifikation reduziert werden konnte. Außerdem zeigte sich, dass die spezielle Art der „diskordanten“ partiellen Verifikation, die bisher noch nicht beschrieben oder untersucht worden ist, zu einer Verschärfung des Bias im Autopsie‐

Studiendesign beiträgt. Beim „klassischen“ partiellen Verifikationsbias mit höheren Verifikationswahrscheinlichkeiten für positive Ergebnisse (hier 40%) und niedrigen Verifikationswahrscheinlichkeiten für negative Ergebnisse (hier 20%) waren die Spezifitäten im Mittel um 15 Prozentpunkte unterschätzt. Im Falle „diskordanter“ partieller Verifikation mit höherer Verifikationswahrscheinlichkeit für gegensätzliche Ergebnisse von Biomarker und ZGS (hier 60%) lag die mittlere Unterschätzung bei 20 Prozentpunkten.

Für die resultierenden Sensitivitäten der CJK‐Simulation zeigten sich, wenn man sie den bisherigen Forschungserkenntnissen gegenüberstellt, auf den ersten Blick überraschende Ergebnisse:

 Sensitivität im Autopsie‐Studiendesign trotz partieller Verifikation im Mittel unverzerrt

 Sensitivität im ZGS‐Studiendesign teilweise stark über‐ oder unterschätzt

 Sensitivität im BEST‐Studiendesign mit Verzerrungen ähnlicher Richtung und Stärke wie im ZGS‐Studiendesign

Im Autopsie‐Studiendesign hätte man aufgrund der partiellen Verifikation mit Überschätzungen der Sensitivität gerechnet, im ZGS‐Studiendesign aufgrund der Inkorporation des Biomarkers in den Referenzstandard ebenfalls mit einer klaren Überschätzung. Für das BEST‐Studiendesign war weniger klar, inwiefern Verzerrungen stattfinden würden, da sich hier differentielle Verifikation (Bias unklarer Richtung) und Inkorporation (Überschätzung erwartet) miteinander vermengen.

Die Ergebnisse zum Bias im Autopsie‐Studiendesign fügen sich aber auf den zweiten Blick doch in die bisherige Literatur ein (siehe Kapitel 2.2.2): Wieder sind die Auswirkungen der bisher unbeschriebenen diskordanten Verifikation für gegensätzliche Ergebnisse von 14‐3‐3 und ZGS zu beobachten. Für eine

„klassische“ partielle Verifikation (Abbildung 14(a)) waren leichte Überschätzungen der Sensitivität zu verzeichnen. Bei diskordanter Verifikation (Abbildung 14(b)) traten hingegen geringe bis moderate Unterschätzungen auf. Im Mittel ergab sich daraus ein Bias von 0. Insgesamt waren die Verzerrungen der Sensitivität in diesem Studiendesign aber niedrig, was an den hohen in der Simulation angenommenen wahren Sensitivitäten von Biomarker und ZGS liegt. Insgesamt lässt sich zusammenfassen, dass die erstmals untersuchte Variante der diskordanten partiellen Verifikation sich sowohl bei der Sensitivität als auch bei der Spezifität auf die Qualität und Quantität der Verzerrung auswirkt.

Abbildung 14: Auswirkung der diskordanten Verifikation in der CJK‐Simulation

Im Rahmen dieser Arbeit konnte der Mechanismus hinter den sehr variablen Verzerrungen der Sensitivität im Studiendesign mit ZGS oder BEST genauer beleuchtet und verstanden werden. Mithilfe nicht immer durchführbarem Referenzstandard evaluiert wird. In einem Setting mit zusätzlichem bereits etabliertem Prätest wurden nur diejenigen Patienten mit dem invasiven Goldstandard verifiziert, die in mindestens einem der konkurrierenden Prätests ein positives Ergebnis aufwiesen.

„Doppel‐negative“ Diagnosen der Prätests wurden alternativ mittels 6‐

Monats‐Follow‐Up verifiziert. In diesem Setting mit differentieller Verifikation wurden zwei Extreme simuliert: Das alternative Referenzverfahren Follow‐Up konnte entweder alle falsch‐negativen Patienten (Referenzstandard ANGIO) oder keinen der falsch‐negativen Patienten (Referenzstandard BEST) korrekt klassifizieren. Außerdem wurde die Korrelation zwischen den verwendeten Prätests unterschiedlich hoch eingestellt. Zur Unterstützung der Studienplanung und insbesondere der Fallzahlplanung wurden die Zellhäufigkeiten der diagnostischen Kontingenztabellen sowie der entstehende Bias von Sensitivität und Spezifität und weiteren definierten Studienendpunkten betrachtet.

ähnliche Kontingenztabellen. Die definierten primären Endpunkte der Studie sowie die Spezifität konnten auch bei schlechtest‐möglicher Performance des alternativen Standards Follow‐Up unverzerrt geschätzt werden. Nur die Sensitivität wurde mit maximal 1‐2 Prozentpunkten leicht überschätzt.

Die Ergebnisse decken sich mit den bisherigen Erkenntnissen zu differentiellem Verifikationsbias in Diagnosestudien (Kapitel 2.2.2), insbesondere auch mit den Erkenntnissen für Situationen vollständiger differentieller Verifikation, wie sie im CTEPH‐Beispiel praktiziert wurde:

Es gilt dabei zu bedenken, dass das alternative Referenzverfahren Follow‐Up als Verfahren mit perfekter Spezifität und schlechter Sensitivität angesehen werden kann (Alonzo, 2011). Wer in Wahrheit nicht erkrankt ist, wird in einem kurzen, zeitlich abgesteckten Zeitintervall schwerlich definierte Indizien für die Erkrankung liefern (Spezifität=100%). Hingegen wird sich nicht für jeden in Wahrheit Erkrankten innerhalb einer kurzen Nachbeobachtungsspanne die Krankheit zwangsläufig manifestieren und zeigen (Sensitivität<100%). Dies wurde in der Simulation entsprechend umgesetzt, wobei sogar der Extremfall einer Sensitivität von 0% betrachtet wurde.

Zwar konnte mit 35% ein relativ hoher Anteil an alternativ verifizierten Patienten beobachtet werden (eigentlich ein Einflussfaktor, der zu höherem Bias führt, siehe Kapitel 2.2.2). Aber die sehr einer guten diagnostischen Gesamtperformance. Laut bisheriger Literatur führt eine hohe diagnostische Güte der beiden verwendeten Referenzstandards zu einem geringeren Ausmaß an der Krankheitsstatus auf negativ gesetzt, was genau der negativen Diagnose des Indextests entspricht. Für Studiensettings, in denen die diagnostische Validität des oder der Prätests weniger gut ist als im CTEPH‐Beispiel, kann es zu höheren Überschätzungen der Sensitivität kommen. Für das in dieser Arbeit betrachtete Setting waren die Auswirkungen geringfügig. In einem realistischeren Szenario einer Sensitivität deutlich über 0% wäre entsprechend eine noch geringere Überschätzung der Sensitivität (kleiner als 1.6 Prozentpunkte) zu erwarten.

Die zentrale neue Erkenntnis der Simulation war somit, dass in diesem speziellen Studiensetting mit hochvaliden Prätests keine relevanten Verzerrungen in der Schätzung der diagnostischen Maßzahlen

auftreten. Die neuen Erkenntnisse konnten für das konkrete Beispiel direkt in der Fallzahl‐ und Studienplanung verwendet werden. Es ergab sich eine Gesamtfallzahl von 1080 und es wurden keine weiteren Maßnahmen zum Umgang mit Bias in der Studienauswertung als notwendig erachtet.

Limitationen

Die erzielten Ergebnisse dieser Arbeit erlauben eine bessere Einschätzung der vorhandenen Publikationen zu CJK‐Diagnosestudien sowie eine direkte Hilfestellung bei der Planung neuer CJK‐ oder CTEPH‐Diagnosestudien. Eine direkte Übertragbarkeit der Resultate auf andere Zielerkrankungen ist bedingt möglich. Zur Fokussierung auf die definierten Ziele der Simulationsstudien wurden die Simulationssettings und ‐auswertungen mit diversen Limitationen umgesetzt.

Es wurden nur die wichtigsten Kenngrößen Sensitivität und Spezifität und nicht zusätzlich noch weitere diagnostische Kenngrößen wie positiv und negativ prädiktiver Wert betrachtet. Der Grund dafür liegt in der Prävalenzabhängigkeit der prädiktiven Werte, welche die Interpretation und Übertragbarkeit der Ergebnisse erschwert. Forschungsergebnisse mit Fokus auf die Auswirkungen von Verifikationsbias auf die prädiktiven Werte sind bereits an anderer Stelle publiziert worden (Zhou, 1994).

Zur Sensitivität und Spezifität wurden 95% Wald‐ und 95% Wilson‐Konfidenzintervalle berechnet. Es stehen weitere Arten von Konfidenzintervallen für Raten zur Verfügung, jedoch ist das Wald‐

Konfidenzintervall das am häufigsten verwendete Konfidenzintervall, welches in den meisten publizierten Studien verwendet worden ist. Daher war es wichtig, dieses auch im Rahmen der vorliegenden Arbeit zu untersuchen. Zusätzlich wurde mit dem Wilson‐Konfidenzintervall ein weiteres, für am „Rand“ (z.B. nahe bei 1) liegende Raten besser geeignetes Konfidenzintervall ausgewählt (Newcombe, 1998).

Die ausgewählten Evaluationskriterien zur Untersuchung der verschiedenen Studiensettings wurden gemäß den definierten Simulationsstudien‐Zielen festgelegt. Das grundlegende Set an Evaluationskriterien bestand dabei in Anlehnung an Burton et al. aus absolutem Bias, MSE, Coverage und Power (Burton, 2006). Jedes der zwei Anwendungsbeispiele wurde dabei nur durch die für die Studienziele relevanten Kriterien ausgewertet. So wurde in der CJK‐Simulation keine Power betrachtet.

Der Fokus lag darauf, zu überprüfen, ob überhaupt und wenn ja unter welchen Umständen ein Bias entsteht und diesen über ein breites Spektrum von Szenarien zu quantifizieren. Zu diesem Zweck wurden bewusst große Stichprobenumfänge simuliert und die Fallzahl nicht weiter variiert. Es war nicht von Interesse, ob mit ausreichender Power das Erreichen von bestimmten Sensitivitäten und Spezifitäten gezeigt werden kann oder ob für den Vergleich des Indextests mit einem konkurrierenden Biomarker eine adäquate Power vorhanden wäre. Diese Untersuchungen hätten einen Ausbau der Settings um die zusätzliche Simulation eines weiteren konkurrierenden Tests erfordert. Das wiederum hätte die Komplexität der Simulation sowie der Ergebnisse erhöht und den Fokus vom Hauptthema weggelenkt. In der CTEPH‐Simulation wurden hingegen überwiegend deskriptive Zellhäufigkeiten sowie der Bias betrachtet. Die Power wurde nur bei festem gegebenem n=1000 für die primären Endpunkte angegeben. MSE und Coverage hatten hier keine Relevanz für die Fragestellung und wurden daher nicht präsentiert.

Weitere Limitationen betreffen die ausgewählten Settings und simplifizierte Voreinstellungen in den Simulationen.

In der vorliegenden Arbeit wurden nur dichotome diagnostische Tests betrachtet. Es wurden keine kategoriellen Tests (etwa mit Wahrscheinlichkeitsklassen für die Erkrankung oder mit verschiedenen Schweregraden/Staging) und keine stetigen Tests, wie sie in Diagnosestudien früher Testentwicklungsphasen üblicherweise verwendet werden, untersucht. Dabei wird sowohl der verwendete CJK‐Biomarker 14‐3‐3 im klinischen Alltag häufig als kategorielles Testergebnis ausgegeben (positiv, schwach positiv und negativ) als auch der zusammengesetzte Referenzstandard ZGS (keine, mögliche, wahrscheinliche CJK, siehe Abbildung 3, Seite 23). Die Kategorisierung des 14‐3‐

3 Tests wurde ausgeblendet, da unter realen Bedingungen in der Praxis aber auch in klinischen Studien schwach‐positive Diagnosen in der Regel als positive Diagnosen gewertet werden. Die Kategorisierung des ZGS entspringt der Entwicklung dieses zusammengesetzten diagnostischen Testverfahrens zur Infektionssurveillance von CJK. Die Klasse der „möglichen“ Fälle spiegelt die Patienten mit unklarer Diagnose wider und wird je nach Nutzung dieser Information unterschiedlich ausgelegt: Im Kontext der Surveillance‐Aktivitäten werden im Zweifelsfall (Kategorie „mögliche CJK“) die Patienten als positiv angesehen. Unter allen Umständen gilt es eine Weiterverbreitung der Erkrankung zu verhindern, so dass für alle potentiell Erkrankten bestimmte hygienische Maßnahmen umgesetzt werden können. Im methodischen Kontext, etwa bei der Verwendung der ZGS‐Diagnose als Referenzstandard einer Diagnosestudie, werden Patienten mit möglicher CJK als negativ angesehen oder – seltener – aus der Analyse herausgenommen, was jedoch zu Verzerrungen führen kann. Daher wurden auch im Rahmen dieser Arbeit dichotome Diagnosen zugrunde gelegt, die eine gemäß ZGS „mögliche“ CJK als negative Diagnose werten.

In beiden Simulationen wurde davon ausgegangen, dass der definierte, leider nicht immer verfügbare Referenzstandard perfekt ist. Jedoch gilt diese Annahme in beiden Anwendungsbeispielen nur mit Einschränkungen. Die Autopsie‐Diagnose im CJK‐Beispiel basiert unter anderem auf einer Bewertung morphologischer und immunhistochemischer Charakteristika, die dem Neuropathologen subjektive Ermessensspielräume lassen (CJD Research & Surveillance Unit Edinburgh, 2012). Es ist mit einer hohen aber nicht perfekten Reliabilität zu rechnen. Für die CTEPH‐Simulation mit Referenzstandard pulmonale Angiographie bzw. CT‐Angiographie gibt es zumindest für die CT‐Angiographie Einschränkungen bezüglich der Validität (siehe Kapitel 4.2). Eine CT‐Angiographie hat gegenüber der konventionellen pulmonalen Angiographie eine verringerte Sensitivität: ein unauffälliger Befund schließt eine CTEPH nicht zwangsläufig aus (Olsson, 2014). In beiden Anwendungsbeispielen wurde zur fokussierten, klaren Herausarbeitung der durch die Verifikations‐ und Inkorporationsproblematik entstandenen Verzerrungen bewusst auf eine zusätzliche Berücksichtigung der Verzerrungen durch einen „imperfekten Goldstandard“ verzichtet. Zusätzlich wurden die Limitationen hinsichtlich der Imperfektion der Referenzstandards als geringfügig und somit vernachlässigbar eingeschätzt.

In den Simulationen wurden bestimmte (für andere Anwendungsbeispiele realistischere) Szenarien ausblendet. Dies betrifft einerseits die in den Simulationen festgelegten wahren Sensitivitäten und Spezifitäten der Tests, die in beiden betrachteten Beispielen mit Werten von überwiegend ≥ 90% sehr hoch waren. Das betrifft andererseits die Verifikationswahrscheinlichkeiten und –regeln. In der CJK‐

Simulation wurde die Gesamt‐Autopsiewahrscheinlichkeit nicht variiert, sondern auf einen für neurodegenerative Erkrankungen verhältnismäßig hohen Wert von rund 35% festgelegt. Die CTEPH‐

Simulation war beschränkt auf den konkreten Fall der vollständigen Verifikation in Abhängigkeit von zwei Prätests, also 100%, falls mindestens ein Prätest positiv ist und 0%, falls beide negativ sind. Es wären bezüglich der Verifikationswahrscheinlichkeiten in verschiedenen Patienten‐Subgruppen noch zahlreiche weitere Varianten denkbar gewesen. In der Realität wird sehr häufig trotz der bedenklichen Invasivität des Referenzstandards ein geringer Anteil der negativ‐getesteten Patienten, dennoch mittels Referenzstandard verifiziert. Dies geschieht unter anderem aus zwingenden methodischen Gründen als Maßnahme zum Umgang mit (Verifikation‐) Bias (siehe weiter unten). Abseits der Variation der Verifikationswahrscheinlichkeiten sind alternative Verifikationsregeln möglich, etwa eine Verifikation aller Patienten mit positivem etabliertem Prätest ohne direkte Berücksichtigung des neuen Prätests. Für die CTEPH‐Simulation in dieser Arbeit wurde ausschließlich das geplante Verifikationsschema der konkret betrachteten CHANGE‐MRI Studie verwendet ohne Erweiterung auf andere mögliche Schemata.

Tatsächlich ist im Studiendesign der CHANGE‐MRI Studie das Verifikationsschema im späteren Planungsverlauf noch geändert worden. Aus praktischen Gründen wurde nicht verbindlich ins Studienprotokoll geschrieben, dass bei positivem VQ‐SPECT oder positivem MRT immer verifiziert werden müsse. Die Entscheidung zur Verifikation sollte weiterhin – genau wie im klinischen Alltag – Studienzentren dabei sind, die den Referenzstandard Angiographie für alle Patienten durchführen möchten.

Zu den möglichen Verifikationsregeln ist noch als Limitation zu erwähnen, dass im Rahmen dieser Arbeit keine weiteren Einflussfaktoren auf die Verifikationsentscheidung berücksichtigt wurden.

Während für die CTEPH‐Simulation eher weitere Verifikationswahrscheinlichkeiten und andere Verifikationsschemata bezüglich der zwei Prätests interessant gewesen wären (wenn die deutlichen hohen Komplexität der Entscheidung für oder gegen eine Autopsie sowie mangels reliabler Informationen über den komplexen zugrundeliegenden Prozess wurde von einer Einbindung diverser Einflussvariablen abgesehen. Die Entscheidung zur Autopsie, welche durch die Angehörigen getroffen wird, findet in einer schweren, psychisch belastenden Situation direkt nach dem Verlust eines nahestehenden Menschen statt. Es steht zu vermuten, dass der Entscheidungsprozess hochgradig multifaktoriell ist und zugleich durch diverse, nicht erfassbare Gegebenheiten stark beeinflusst werden kann, etwa die zwischenmenschliche Beziehung zum aufklärenden, behandelnden Arzt. Ergo wurde nur die Variation der Autopsiewahrscheinlichkeit, die aufgrund der vorliegenden Testergebnisse entsteht, berücksichtigt, auch wenn diese Annahme stark vereinfachend ist.

Kritische Begutachtung möglicher Auswege aus dem Bias

Das übergeordnete Ziel nach dem wichtigen Schritt der Quantifizierung von Verifikationsraten und resultierendem Bias ist es, in der Studienplanung denjenigen Weg zu finden, der am Ende zur geringstmöglichen Verzerrung der Studienergebnisse führt. Im Rahmen dieser Arbeit wurden für zwei Indikationsgebiete ausführliche Ergebnisse des sich ergebenden Bias in verschiedenen Referenzstandard‐Situationen präsentiert und in Kontext zur bisherigen Forschung gesetzt. Bei der Auswahl des bestmöglichen Studiendesigns ist aber auch zu berücksichtigen, welche statistischen oder planerischen Maßnahmen unter Umständen durchgeführt werden können, um den resultierenden Verzerrungen zu begegnen. Es ist also unter Umständen nicht allein eine Frage der Referenzstandardwahl, sondern eine Frage der optimalen Kombination von Referenzstandard und Auswertungsmethodik. Daher wurden zeitgleich mit der Durchführung der Simulationen verschiedene in der Fachliteratur beschriebene Methoden zum Umgang mit Verifikationsbias begutachtet und auf ihre Anwendbarkeit hin bewertet:

Gute Übersichten über entwickelte Methoden sind von Zhou 2003, Alonzo 2014 und Chikere et al.

2019 publiziert worden (Alonzo, 2014; Chikere, 2019; Zhou, 2003). Letztere Arbeit beruht im Wesentlichen auf zwei Reviews (Reitsma, 2009; Rutjes, 2007), die sich allgemein mit Bias und möglichen Auswegen in Anbetracht eines fehlenden Goldstandards beschäftigt haben. Die folgende Darstellung und knappe Zusammenfassung der verschiedenen Verfahren basiert auf diesen fünf Übersichtsarbeiten.

Lösungsansätze für Verifikationsbias entspringen alle dem Gedanken, dass es sich bei Verifikationsbias um ein spezielles Problem der fehlenden Werte handelt. Es fehlt für bestimmte Patienten der wahre Krankheitsstatus gemäß Referenzstandard, also eines der wichtigsten Outcomes der Diagnosestudie.

Im Umgang mit diesen fehlenden Werten ist ausschlaggebend, wie zufällig die fehlenden Werte entstanden sind. Man unterscheidet drei Stufen der Zufälligkeit:

 rein zufällig (MCAR: missing completely at random)

 „kontrolliert“ zufällig (MAR: missing at random)

 nicht zufällig (MNAR: missing not at random)

Mit kontrolliert zufällig (MAR) ist gemeint, dass das Fehlen der Werte durchaus mit bekannten, beobachteten Variablen assoziiert sein darf. MAR erfordert dabei jedoch, dass sich die Gründe für ein fehlendes Outcome komplett aus den beobachteten Daten erklären lassen und nicht von unbeobachteten Variablen, also insbesondere nicht vom wahren Krankheitsstatus, abhängen. Diese Annahme ist verletzt, wenn theoretisch auch nach Adjustierung für diese komplett beobachteten, erklärenden Variablen diejenigen Patienten mit fehlendem Outcome tendenziell höhere oder niedrigere Werte im Outcome haben/hätten als Patienten mit beobachtetem Outcome. Die Annahme ist in der Realität nicht prüfbar, da die fehlenden Outcomes unbekannt sind. Je nach Studiengegebenheiten muss daher überlegt werden, wie gut der zugrundeliegende Verifikationsprozess bekannt ist und ob er durch die Benennung entsprechender beteiligter Variablen (weitestgehend) vollständig erklärt werden kann. Ist dies fragwürdig, so muss eher davon ausgegangen werden, dass die Outcomes nicht zufällig fehlen (MNAR).

Die möglichen anwendbaren Auswertungsverfahren hängen von der Zufälligkeit der fehlenden Werte MCAR/MAR/MNAR ab. Die unadjustierte und unkorrigierte Auswertung einer Diagnosestudie mit partieller Verifikation entspricht einer complete case Analyse und ist nur dann unverzerrt, wenn der Krankheitsstatus für die Patienten rein zufällig fehlt (MCAR). Die MCAR Annahme ist für die im Rahmen dieser Arbeit gegebene Situation einer Diagnosestudie mit systematisch fehlendem Referenzstandard klar verletzt. Differentielle Verifikation entspricht einem Ersetzen der fehlenden Werte durch bestes Wissen, welches mit einem alternativen Referenztest generiert wird, auch wenn klar ist, dass dieses Wissen nicht fehlerfrei ist. Differentielle Verifikation ist also bereits ein erster Lösungsansatz mit einfacher Imputation der fehlenden Werte. Jedoch zeigte sich in vielen Untersuchungen, dass es durch differentielle Verifikation weiterhin zu Verzerrungen kommt (siehe Kapitel 2.2.2). Daher wurden statistische Methoden für Daten mit partieller oder differentieller Verifikation entwickelt, die den Bias eliminieren sollen. Eine Anwendung dieser Verfahren wird in der FDA‐Guideline zu Diagnosestudien

Im Dokument Auswirkungen von partieller und differentieller Verifikation des Krankheitsstatus auf die Planung und Auswertung von Diagnosestudien (Seite 66-81)