• Keine Ergebnisse gefunden

Motivation und Zielsetzung 

In  Diagnosestudien  können  eine  Vielzahl  verschiedener  Verzerrungen  in  der  statistischen  Analyse  auftreten  und  zu  falschen  Schlussfolgerungen  über  die  diagnostische  Validität  eines  neuen  Tests  führen. Die Leitlinie zum Berichten von Diagnosestudien STARD (Standards for Reporting of Diagnostic  Accuracy  Studies,  (Cohen,  2016))  fordert  daher:  „As  bias  can  come  down  to  overestimation  or  underestimation  of  the  accuracy  of  the  index  test  under  investigation,  authors  should  discuss  the  direction of potential bias, along with its likely magnitude.“   

Besonders groß ist das Risiko für Verzerrungen, wenn ein problembehafteter Referenzstandard in der  Studie  verwendet  wird.  So  kann  es  passieren,  dass  der  Referenzstandard  nicht  für  alle  Studienteilnehmer durchgeführt werden kann, weil er sehr risikoreich, belastend oder kostenintensiv  ist. Wenn dann nur die mit dem Referenzstandard verifizierten Patienten ausgewertet werden oder  wenn einige Patienten mit einem alternativen, schlechteren Referenzstandard verifiziert werden, kann  es  zu  partiellem  oder  differentiellem  Verifikationsbias  kommen.  Ein  anderes  Problem  entsteht  bei  einer  mangelnden  Unabhängigkeit  zwischen  dem  zu  untersuchenden  Indextest  und  dem  Referenzstandard. Beeinflusst die Diagnose des Indextests die Festlegungen des Referenzstandards,  so sind die Studienergebnisse häufig durch Inkorporationsbias verzerrt. 

Auch  in  Hinblick  auf  die  STARD‐Guideline  müssen  bei  der  Planung  einer  neuen  Diagnosestudie  mögliche, konkurrierende Referenzstandards sorgfältig hinsichtlich des mit ihnen einhergehenden Bias  gegeneinander abgewogen werden. Jedoch sind nicht für jede Form von Bias reliable Informationen  über  die  Richtung  des  resultierenden  Bias  verfügbar,  geschweige  denn  ist  das  Ausmaß  des  zu  erwartenden Bias unter den konkreten Bedingungen bekannt. Die vorliegende Dissertationsarbeit hat  sich daher mit der Quantifizierung von Bias in zwei speziellen Anwendungsgebieten beschäftigt. Ziel  war  es  jeweils,  den  erwarteten  Verifikationsbias  und  Inkorporationsbias,  der  den  entsprechenden  Settings zugrunde lag, hinsichtlich Richtung und Stärke zu evaluieren. 

 

Die Ergebnisse im Kontext bisheriger Forschungsergebnisse 

Die CJK‐Simulationsstudie diente zur Evaluation des resultierenden Bias, wenn ein bereits etablierter,  in  einen  zusammengesetzten  Referenzstandard  integrierter  Biomarker  zur  Diagnose  einer  neurodegenerativen Erkrankung re‐evaluiert wird und dabei (i) gegen den Referenzstandard Autopsie,  (ii) gegen einen zusammengesetzten Referenzstandard ZGS oder (iii) gegen einen differentiellen, aus  diesen beiden Referenzstandards kombinierten Standard („BEST“) verglichen wird.  

Für die resultierenden Spezifitäten des Biomarkers 14‐3‐3 in der CJK‐Simulation zeigte sich im Abgleich  mit der bestehenden Literatur (siehe Kapitel 2.2.2 und 2.2.3) ein erwartungsgemäßes Bild:  

   

 Spezifität im Autopsie‐Studiendesign aufgrund partieller Verifikation massiv unterschätzt 

 Spezifität im ZGS‐Studiendesign aufgrund Inkorporation des Biomarkers deutlich überschätzt 

 Spezifität im BEST‐Studiendesign ebenfalls überschätzt, aufgrund differentieller Verifikation  und wegen des Einflusses eines mit Inkorporationsbias behafteten alternativen 

Referenzstandards ZGS 

Neue  Erkenntnisse  wurden  gewonnen,  was  die  Stärke  des  auftretenden  Bias  anbelangt.  Die  Unterschätzung durch Autopsie als Referenzstandard ist deutlich größer als die Überschätzung mit ZGS  als Referenzstandard, während die Überschätzung durch differentielle Verifikation reduziert werden  konnte. Außerdem zeigte sich, dass die spezielle Art der „diskordanten“ partiellen Verifikation, die  bisher noch nicht beschrieben oder untersucht worden ist, zu einer Verschärfung des Bias im Autopsie‐

Studiendesign  beiträgt.  Beim  „klassischen“  partiellen  Verifikationsbias  mit  höheren  Verifikationswahrscheinlichkeiten  für  positive  Ergebnisse  (hier  40%)  und  niedrigen  Verifikationswahrscheinlichkeiten für negative Ergebnisse (hier 20%) waren die Spezifitäten im Mittel  um  15  Prozentpunkte  unterschätzt.  Im  Falle  „diskordanter“  partieller  Verifikation  mit  höherer  Verifikationswahrscheinlichkeit für gegensätzliche Ergebnisse von Biomarker und ZGS (hier 60%) lag  die mittlere Unterschätzung bei 20 Prozentpunkten.  

Für die resultierenden Sensitivitäten der CJK‐Simulation zeigten sich, wenn man sie den bisherigen  Forschungserkenntnissen gegenüberstellt, auf den ersten Blick überraschende Ergebnisse: 

 Sensitivität im Autopsie‐Studiendesign trotz partieller Verifikation im Mittel unverzerrt  

 Sensitivität im ZGS‐Studiendesign teilweise stark über‐ oder unterschätzt 

 Sensitivität im BEST‐Studiendesign mit Verzerrungen ähnlicher Richtung und Stärke wie im  ZGS‐Studiendesign 

Im Autopsie‐Studiendesign hätte man aufgrund der partiellen Verifikation mit Überschätzungen der  Sensitivität  gerechnet,  im  ZGS‐Studiendesign  aufgrund  der  Inkorporation  des  Biomarkers  in  den  Referenzstandard ebenfalls mit einer klaren Überschätzung.  Für das BEST‐Studiendesign war weniger  klar, inwiefern Verzerrungen stattfinden würden, da sich hier differentielle Verifikation (Bias unklarer  Richtung) und Inkorporation (Überschätzung erwartet) miteinander vermengen.  

Die Ergebnisse zum Bias im Autopsie‐Studiendesign fügen sich aber auf den zweiten Blick doch in die  bisherige Literatur ein (siehe Kapitel 2.2.2): Wieder sind die Auswirkungen der bisher unbeschriebenen  diskordanten Verifikation für gegensätzliche Ergebnisse von 14‐3‐3 und ZGS zu beobachten. Für eine 

„klassische“ partielle Verifikation (Abbildung 14(a)) waren leichte Überschätzungen der Sensitivität zu  verzeichnen. Bei diskordanter Verifikation (Abbildung 14(b)) traten hingegen geringe bis moderate  Unterschätzungen auf. Im Mittel ergab sich daraus ein Bias von 0. Insgesamt waren die Verzerrungen  der  Sensitivität  in  diesem  Studiendesign  aber  niedrig,  was  an  den  hohen  in  der  Simulation  angenommenen  wahren  Sensitivitäten  von  Biomarker  und  ZGS  liegt.  Insgesamt  lässt  sich  zusammenfassen, dass die erstmals untersuchte Variante der diskordanten partiellen Verifikation sich  sowohl bei der Sensitivität als auch bei der Spezifität auf die Qualität und Quantität der Verzerrung  auswirkt. 

 

Abbildung 14: Auswirkung der diskordanten Verifikation in der CJK‐Simulation 

Im  Rahmen  dieser  Arbeit  konnte  der  Mechanismus  hinter  den  sehr  variablen  Verzerrungen  der  Sensitivität im Studiendesign mit ZGS oder BEST genauer beleuchtet und verstanden werden. Mithilfe  nicht  immer  durchführbarem  Referenzstandard  evaluiert  wird.  In  einem  Setting  mit  zusätzlichem  bereits  etabliertem  Prätest  wurden  nur  diejenigen  Patienten  mit  dem  invasiven  Goldstandard  verifiziert, die in mindestens einem der konkurrierenden Prätests ein positives Ergebnis aufwiesen. 

„Doppel‐negative“  Diagnosen  der  Prätests  wurden  alternativ  mittels  6‐ 

Monats‐Follow‐Up verifiziert. In diesem Setting mit differentieller Verifikation wurden zwei Extreme  simuliert:  Das  alternative  Referenzverfahren  Follow‐Up  konnte  entweder  alle  falsch‐negativen  Patienten (Referenzstandard ANGIO) oder keinen der falsch‐negativen Patienten (Referenzstandard  BEST)  korrekt  klassifizieren.  Außerdem  wurde  die  Korrelation  zwischen  den  verwendeten  Prätests  unterschiedlich  hoch  eingestellt.  Zur  Unterstützung  der  Studienplanung  und  insbesondere  der  Fallzahlplanung  wurden  die  Zellhäufigkeiten  der  diagnostischen  Kontingenztabellen  sowie  der  entstehende  Bias  von  Sensitivität  und  Spezifität  und  weiteren  definierten  Studienendpunkten  betrachtet. 

ähnliche  Kontingenztabellen.  Die  definierten  primären  Endpunkte  der  Studie  sowie  die  Spezifität  konnten auch bei schlechtest‐möglicher Performance des alternativen Standards Follow‐Up unverzerrt  geschätzt werden. Nur die Sensitivität wurde mit maximal 1‐2 Prozentpunkten leicht überschätzt.  

Die Ergebnisse decken sich mit den bisherigen Erkenntnissen zu differentiellem Verifikationsbias in  Diagnosestudien  (Kapitel  2.2.2),  insbesondere  auch  mit  den  Erkenntnissen  für  Situationen  vollständiger differentieller Verifikation, wie sie im CTEPH‐Beispiel praktiziert wurde:  

Es  gilt  dabei  zu  bedenken,  dass  das  alternative  Referenzverfahren  Follow‐Up  als  Verfahren  mit  perfekter  Spezifität  und  schlechter  Sensitivität  angesehen  werden  kann  (Alonzo,  2011).  Wer  in  Wahrheit nicht erkrankt ist, wird in einem kurzen, zeitlich abgesteckten Zeitintervall schwerlich  definierte Indizien für die Erkrankung liefern (Spezifität=100%). Hingegen wird sich nicht für jeden  in  Wahrheit  Erkrankten  innerhalb  einer  kurzen  Nachbeobachtungsspanne  die  Krankheit  zwangsläufig  manifestieren  und  zeigen  (Sensitivität<100%).  Dies  wurde  in  der  Simulation  entsprechend umgesetzt, wobei sogar der Extremfall einer Sensitivität von 0% betrachtet wurde.  

Zwar  konnte  mit  35%  ein  relativ  hoher  Anteil  an  alternativ  verifizierten  Patienten  beobachtet  werden (eigentlich ein Einflussfaktor, der zu höherem Bias führt, siehe Kapitel 2.2.2). Aber die sehr  einer  guten  diagnostischen  Gesamtperformance.  Laut  bisheriger  Literatur  führt  eine  hohe  diagnostische Güte der beiden verwendeten Referenzstandards zu einem geringeren Ausmaß an  der  Krankheitsstatus  auf  negativ  gesetzt,  was  genau  der  negativen  Diagnose  des  Indextests  entspricht. Für Studiensettings, in denen die diagnostische Validität des oder der Prätests weniger  gut ist als im CTEPH‐Beispiel, kann es zu höheren Überschätzungen der Sensitivität kommen. Für  das  in  dieser  Arbeit  betrachtete  Setting  waren  die  Auswirkungen  geringfügig.  In  einem  realistischeren Szenario einer Sensitivität deutlich über 0% wäre entsprechend eine noch geringere  Überschätzung der Sensitivität (kleiner als 1.6 Prozentpunkte) zu erwarten. 

Die zentrale neue Erkenntnis der Simulation war somit, dass in diesem speziellen Studiensetting mit  hochvaliden Prätests keine relevanten Verzerrungen in der Schätzung der diagnostischen Maßzahlen 

auftreten.  Die  neuen  Erkenntnisse  konnten  für  das  konkrete  Beispiel  direkt  in  der  Fallzahl‐  und  Studienplanung verwendet werden. Es ergab sich eine Gesamtfallzahl von 1080 und es wurden keine  weiteren Maßnahmen zum Umgang mit Bias in der Studienauswertung als notwendig erachtet.  

 

Limitationen

 

Die  erzielten  Ergebnisse  dieser  Arbeit  erlauben  eine  bessere  Einschätzung  der  vorhandenen  Publikationen zu CJK‐Diagnosestudien sowie eine direkte Hilfestellung bei der Planung neuer CJK‐ oder  CTEPH‐Diagnosestudien. Eine direkte Übertragbarkeit der Resultate auf andere Zielerkrankungen ist  bedingt  möglich.  Zur  Fokussierung  auf  die  definierten  Ziele  der  Simulationsstudien  wurden  die  Simulationssettings und ‐auswertungen mit diversen Limitationen umgesetzt. 

Es wurden nur die wichtigsten Kenngrößen Sensitivität und Spezifität und nicht zusätzlich noch weitere  diagnostische Kenngrößen wie positiv und negativ prädiktiver Wert betrachtet. Der Grund dafür liegt  in der Prävalenzabhängigkeit der prädiktiven Werte, welche die Interpretation und Übertragbarkeit  der Ergebnisse erschwert. Forschungsergebnisse mit Fokus auf die Auswirkungen von Verifikationsbias  auf die prädiktiven Werte sind bereits an anderer Stelle publiziert worden (Zhou, 1994). 

Zur Sensitivität und Spezifität wurden 95% Wald‐ und 95% Wilson‐Konfidenzintervalle berechnet. Es  stehen  weitere  Arten  von  Konfidenzintervallen  für  Raten  zur  Verfügung,  jedoch  ist  das  Wald‐

Konfidenzintervall  das  am  häufigsten  verwendete  Konfidenzintervall,  welches  in  den  meisten  publizierten  Studien  verwendet  worden  ist.  Daher  war  es  wichtig,  dieses  auch  im  Rahmen  der  vorliegenden Arbeit zu untersuchen. Zusätzlich wurde mit dem Wilson‐Konfidenzintervall ein weiteres,  für  am  „Rand“  (z.B.  nahe  bei  1)  liegende  Raten  besser  geeignetes  Konfidenzintervall  ausgewählt  (Newcombe, 1998). 

Die ausgewählten Evaluationskriterien zur Untersuchung der verschiedenen Studiensettings wurden  gemäß  den  definierten  Simulationsstudien‐Zielen  festgelegt.  Das  grundlegende  Set  an  Evaluationskriterien bestand dabei in Anlehnung an Burton et al. aus absolutem Bias, MSE, Coverage  und Power (Burton, 2006). Jedes der zwei Anwendungsbeispiele wurde dabei nur durch die für die  Studienziele relevanten Kriterien ausgewertet. So wurde in der CJK‐Simulation keine Power betrachtet. 

Der Fokus lag darauf, zu überprüfen, ob überhaupt und wenn ja unter welchen Umständen ein Bias  entsteht  und  diesen  über  ein  breites  Spektrum  von  Szenarien  zu  quantifizieren.  Zu  diesem  Zweck  wurden bewusst große Stichprobenumfänge simuliert und die Fallzahl nicht weiter variiert. Es war  nicht von Interesse, ob mit ausreichender Power das Erreichen von bestimmten Sensitivitäten und  Spezifitäten gezeigt werden kann oder ob für den Vergleich des Indextests mit einem konkurrierenden  Biomarker eine adäquate Power vorhanden wäre. Diese Untersuchungen hätten einen Ausbau der  Settings um die zusätzliche Simulation eines weiteren konkurrierenden Tests erfordert. Das wiederum  hätte die Komplexität der Simulation sowie der Ergebnisse erhöht und den Fokus vom Hauptthema  weggelenkt.  In  der  CTEPH‐Simulation  wurden  hingegen  überwiegend  deskriptive  Zellhäufigkeiten  sowie  der  Bias  betrachtet.  Die  Power  wurde  nur  bei  festem  gegebenem  n=1000  für  die  primären  Endpunkte  angegeben.  MSE  und  Coverage  hatten  hier  keine  Relevanz  für  die  Fragestellung  und  wurden daher nicht präsentiert. 

Weitere Limitationen betreffen die ausgewählten Settings und simplifizierte Voreinstellungen in den  Simulationen.  

In der vorliegenden Arbeit wurden nur dichotome diagnostische Tests betrachtet. Es wurden keine  kategoriellen Tests (etwa mit Wahrscheinlichkeitsklassen für die Erkrankung oder mit verschiedenen  Schweregraden/Staging)  und  keine  stetigen  Tests,  wie  sie  in  Diagnosestudien  früher  Testentwicklungsphasen  üblicherweise  verwendet  werden,  untersucht.  Dabei  wird  sowohl  der  verwendete  CJK‐Biomarker  14‐3‐3  im  klinischen  Alltag  häufig  als  kategorielles  Testergebnis  ausgegeben (positiv, schwach positiv und negativ) als auch der zusammengesetzte Referenzstandard  ZGS (keine, mögliche, wahrscheinliche CJK, siehe Abbildung 3, Seite 23). Die Kategorisierung des 14‐3‐

3 Tests wurde ausgeblendet, da unter realen Bedingungen in der Praxis aber auch in klinischen Studien  schwach‐positive Diagnosen in der Regel als positive Diagnosen gewertet werden. Die Kategorisierung  des  ZGS  entspringt  der  Entwicklung  dieses  zusammengesetzten  diagnostischen  Testverfahrens  zur  Infektionssurveillance von CJK. Die Klasse der „möglichen“ Fälle spiegelt die Patienten mit unklarer  Diagnose wider und wird je nach Nutzung dieser Information unterschiedlich ausgelegt: Im Kontext  der Surveillance‐Aktivitäten werden im Zweifelsfall (Kategorie „mögliche CJK“) die Patienten als positiv  angesehen. Unter allen Umständen gilt es eine Weiterverbreitung der Erkrankung zu verhindern, so  dass für alle potentiell Erkrankten bestimmte hygienische Maßnahmen umgesetzt werden können. Im  methodischen  Kontext,  etwa  bei  der  Verwendung  der  ZGS‐Diagnose  als  Referenzstandard  einer  Diagnosestudie, werden Patienten mit möglicher CJK als negativ angesehen oder – seltener – aus der  Analyse herausgenommen, was jedoch zu Verzerrungen führen kann. Daher wurden auch im Rahmen  dieser Arbeit dichotome Diagnosen zugrunde gelegt, die eine gemäß ZGS „mögliche“ CJK als negative  Diagnose werten. 

In beiden Simulationen wurde davon ausgegangen, dass der definierte, leider nicht immer verfügbare  Referenzstandard perfekt  ist.  Jedoch gilt diese Annahme in beiden Anwendungsbeispielen  nur  mit  Einschränkungen. Die Autopsie‐Diagnose im CJK‐Beispiel basiert unter anderem auf einer Bewertung  morphologischer und immunhistochemischer Charakteristika, die dem Neuropathologen subjektive  Ermessensspielräume lassen (CJD Research & Surveillance Unit Edinburgh, 2012). Es ist mit einer hohen  aber  nicht  perfekten  Reliabilität  zu  rechnen.  Für  die  CTEPH‐Simulation  mit  Referenzstandard  pulmonale  Angiographie  bzw.  CT‐Angiographie  gibt  es  zumindest  für  die  CT‐Angiographie  Einschränkungen bezüglich der Validität (siehe Kapitel 4.2). Eine CT‐Angiographie hat gegenüber der  konventionellen  pulmonalen  Angiographie  eine  verringerte  Sensitivität:  ein  unauffälliger  Befund  schließt eine CTEPH nicht zwangsläufig aus (Olsson, 2014). In beiden Anwendungsbeispielen wurde zur  fokussierten,  klaren  Herausarbeitung  der  durch  die  Verifikations‐  und  Inkorporationsproblematik  entstandenen Verzerrungen bewusst auf eine zusätzliche Berücksichtigung der Verzerrungen durch  einen  „imperfekten  Goldstandard“  verzichtet.  Zusätzlich  wurden  die  Limitationen  hinsichtlich  der  Imperfektion der Referenzstandards als geringfügig und somit vernachlässigbar eingeschätzt. 

In den Simulationen wurden bestimmte (für andere Anwendungsbeispiele realistischere) Szenarien  ausblendet. Dies betrifft einerseits die in den Simulationen festgelegten wahren Sensitivitäten und  Spezifitäten der Tests, die in beiden betrachteten Beispielen mit Werten von überwiegend ≥ 90% sehr  hoch waren. Das betrifft andererseits die Verifikationswahrscheinlichkeiten und –regeln. In der CJK‐

Simulation  wurde  die  Gesamt‐Autopsiewahrscheinlichkeit  nicht  variiert,  sondern  auf  einen  für  neurodegenerative Erkrankungen verhältnismäßig hohen Wert von rund 35% festgelegt. Die CTEPH‐

Simulation war beschränkt auf den konkreten Fall der vollständigen Verifikation in Abhängigkeit von  zwei Prätests, also 100%, falls mindestens ein Prätest positiv ist und 0%, falls beide negativ sind. Es  wären bezüglich der Verifikationswahrscheinlichkeiten in verschiedenen Patienten‐Subgruppen noch  zahlreiche weitere Varianten denkbar gewesen. In der Realität wird sehr häufig trotz der bedenklichen  Invasivität  des  Referenzstandards  ein  geringer  Anteil  der  negativ‐getesteten  Patienten,  dennoch  mittels  Referenzstandard  verifiziert.  Dies  geschieht  unter  anderem  aus  zwingenden  methodischen  Gründen  als  Maßnahme  zum  Umgang  mit  (Verifikation‐)  Bias  (siehe  weiter  unten).  Abseits  der  Variation der Verifikationswahrscheinlichkeiten sind alternative Verifikationsregeln möglich, etwa eine  Verifikation aller Patienten mit positivem etabliertem Prätest ohne direkte Berücksichtigung des neuen  Prätests.  Für  die  CTEPH‐Simulation  in  dieser  Arbeit  wurde  ausschließlich  das  geplante  Verifikationsschema der konkret betrachteten CHANGE‐MRI Studie verwendet ohne Erweiterung auf  andere mögliche Schemata.  

Tatsächlich  ist  im  Studiendesign  der  CHANGE‐MRI  Studie  das  Verifikationsschema  im  späteren  Planungsverlauf  noch  geändert  worden.  Aus  praktischen  Gründen  wurde  nicht  verbindlich  ins  Studienprotokoll  geschrieben,  dass  bei  positivem  VQ‐SPECT  oder  positivem  MRT  immer  verifiziert  werden müsse. Die Entscheidung zur Verifikation sollte weiterhin – genau wie im klinischen Alltag –  Studienzentren  dabei  sind,  die  den  Referenzstandard  Angiographie  für  alle  Patienten  durchführen  möchten.  

Zu den  möglichen Verifikationsregeln ist noch als Limitation zu  erwähnen,  dass im Rahmen dieser  Arbeit  keine  weiteren  Einflussfaktoren  auf  die  Verifikationsentscheidung  berücksichtigt  wurden. 

Während  für  die  CTEPH‐Simulation  eher  weitere  Verifikationswahrscheinlichkeiten  und  andere  Verifikationsschemata bezüglich der zwei Prätests interessant gewesen wären (wenn die deutlichen  hohen  Komplexität  der  Entscheidung  für  oder  gegen  eine  Autopsie  sowie  mangels  reliabler  Informationen über den komplexen zugrundeliegenden Prozess wurde von einer Einbindung diverser  Einflussvariablen abgesehen. Die Entscheidung zur Autopsie, welche durch die Angehörigen getroffen  wird,  findet  in  einer  schweren,  psychisch  belastenden  Situation  direkt  nach  dem  Verlust  eines  nahestehenden  Menschen  statt.  Es  steht  zu  vermuten,  dass  der  Entscheidungsprozess  hochgradig  multifaktoriell ist und zugleich durch diverse, nicht erfassbare Gegebenheiten stark beeinflusst werden  kann, etwa die zwischenmenschliche Beziehung zum aufklärenden, behandelnden Arzt. Ergo wurde  nur  die  Variation  der  Autopsiewahrscheinlichkeit,  die  aufgrund  der  vorliegenden  Testergebnisse  entsteht, berücksichtigt, auch wenn diese Annahme stark vereinfachend ist.  

 

Kritische Begutachtung möglicher Auswege aus dem Bias

 

Das übergeordnete Ziel nach dem wichtigen Schritt der Quantifizierung von Verifikationsraten und  resultierendem  Bias  ist  es,  in  der  Studienplanung  denjenigen  Weg  zu  finden,  der  am  Ende  zur  geringstmöglichen Verzerrung der Studienergebnisse führt. Im Rahmen dieser Arbeit wurden für zwei  Indikationsgebiete  ausführliche  Ergebnisse  des  sich  ergebenden  Bias  in  verschiedenen  Referenzstandard‐Situationen präsentiert und in Kontext zur bisherigen Forschung gesetzt. Bei der  Auswahl des bestmöglichen Studiendesigns ist aber auch zu berücksichtigen, welche statistischen oder  planerischen  Maßnahmen  unter  Umständen  durchgeführt  werden  können,  um  den  resultierenden  Verzerrungen  zu  begegnen.  Es  ist  also  unter  Umständen  nicht  allein  eine  Frage  der  Referenzstandardwahl,  sondern  eine  Frage  der  optimalen  Kombination  von  Referenzstandard  und  Auswertungsmethodik. Daher wurden zeitgleich mit der Durchführung der Simulationen verschiedene  in der Fachliteratur beschriebene Methoden zum Umgang mit Verifikationsbias begutachtet und auf  ihre Anwendbarkeit hin bewertet:  

Gute Übersichten über entwickelte Methoden sind von Zhou 2003, Alonzo 2014 und Chikere et al. 

2019  publiziert  worden  (Alonzo,  2014;  Chikere,  2019;  Zhou,  2003).  Letztere  Arbeit  beruht  im  Wesentlichen  auf  zwei  Reviews  (Reitsma,  2009; Rutjes,  2007),  die  sich  allgemein  mit  Bias  und  möglichen Auswegen in Anbetracht eines fehlenden Goldstandards beschäftigt haben. Die folgende  Darstellung  und  knappe  Zusammenfassung  der  verschiedenen  Verfahren  basiert  auf  diesen  fünf  Übersichtsarbeiten.  

Lösungsansätze für Verifikationsbias entspringen alle dem Gedanken, dass es sich bei Verifikationsbias  um ein spezielles Problem der fehlenden Werte handelt. Es fehlt für bestimmte Patienten der wahre  Krankheitsstatus gemäß Referenzstandard, also eines der wichtigsten Outcomes der Diagnosestudie. 

Im  Umgang  mit  diesen  fehlenden  Werten  ist  ausschlaggebend,  wie  zufällig  die  fehlenden  Werte  entstanden sind. Man unterscheidet drei Stufen der Zufälligkeit:  

 rein zufällig   (MCAR: missing completely at random) 

 „kontrolliert“ zufällig   (MAR: missing at random) 

 nicht zufällig   (MNAR: missing not at random) 

Mit  kontrolliert  zufällig  (MAR)  ist  gemeint,  dass  das  Fehlen  der  Werte  durchaus  mit  bekannten,  beobachteten Variablen assoziiert sein darf. MAR erfordert dabei jedoch, dass sich die Gründe für ein  fehlendes  Outcome  komplett  aus  den  beobachteten  Daten  erklären  lassen  und  nicht  von  unbeobachteten Variablen, also insbesondere nicht vom wahren Krankheitsstatus, abhängen. Diese  Annahme  ist  verletzt,  wenn  theoretisch  auch  nach  Adjustierung  für  diese  komplett  beobachteten,  erklärenden  Variablen  diejenigen  Patienten  mit  fehlendem  Outcome  tendenziell  höhere  oder  niedrigere Werte im Outcome haben/hätten als Patienten mit beobachtetem Outcome. Die Annahme  ist  in  der  Realität  nicht  prüfbar,  da  die  fehlenden  Outcomes  unbekannt  sind.  Je  nach  Studiengegebenheiten  muss  daher  überlegt  werden,  wie  gut  der  zugrundeliegende  Verifikationsprozess bekannt ist und ob er durch die Benennung entsprechender beteiligter Variablen  (weitestgehend) vollständig erklärt werden kann. Ist dies fragwürdig, so muss eher davon ausgegangen  werden, dass die Outcomes nicht zufällig fehlen (MNAR).  

Die möglichen anwendbaren Auswertungsverfahren hängen von der Zufälligkeit der fehlenden Werte  MCAR/MAR/MNAR  ab.  Die  unadjustierte  und  unkorrigierte  Auswertung  einer  Diagnosestudie  mit  partieller Verifikation entspricht einer complete case Analyse und ist nur dann unverzerrt, wenn der  Krankheitsstatus für die Patienten rein zufällig fehlt (MCAR).  Die MCAR Annahme ist für die im Rahmen  dieser Arbeit gegebene Situation einer Diagnosestudie mit systematisch fehlendem Referenzstandard  klar verletzt. Differentielle Verifikation entspricht einem Ersetzen der fehlenden Werte durch bestes  Wissen, welches mit einem alternativen Referenztest generiert wird, auch wenn klar ist, dass dieses  Wissen  nicht  fehlerfrei  ist.  Differentielle  Verifikation  ist  also  bereits  ein  erster  Lösungsansatz  mit  einfacher Imputation der fehlenden Werte. Jedoch zeigte sich in vielen Untersuchungen, dass es durch  differentielle  Verifikation  weiterhin  zu  Verzerrungen  kommt  (siehe  Kapitel  2.2.2).  Daher  wurden  statistische Methoden für Daten mit partieller oder differentieller Verifikation entwickelt, die den Bias  eliminieren sollen. Eine Anwendung dieser Verfahren wird in der FDA‐Guideline zu Diagnosestudien 

Die möglichen anwendbaren Auswertungsverfahren hängen von der Zufälligkeit der fehlenden Werte  MCAR/MAR/MNAR  ab.  Die  unadjustierte  und  unkorrigierte  Auswertung  einer  Diagnosestudie  mit  partieller Verifikation entspricht einer complete case Analyse und ist nur dann unverzerrt, wenn der  Krankheitsstatus für die Patienten rein zufällig fehlt (MCAR).  Die MCAR Annahme ist für die im Rahmen  dieser Arbeit gegebene Situation einer Diagnosestudie mit systematisch fehlendem Referenzstandard  klar verletzt. Differentielle Verifikation entspricht einem Ersetzen der fehlenden Werte durch bestes  Wissen, welches mit einem alternativen Referenztest generiert wird, auch wenn klar ist, dass dieses  Wissen  nicht  fehlerfrei  ist.  Differentielle  Verifikation  ist  also  bereits  ein  erster  Lösungsansatz  mit  einfacher Imputation der fehlenden Werte. Jedoch zeigte sich in vielen Untersuchungen, dass es durch  differentielle  Verifikation  weiterhin  zu  Verzerrungen  kommt  (siehe  Kapitel  2.2.2).  Daher  wurden  statistische Methoden für Daten mit partieller oder differentieller Verifikation entwickelt, die den Bias  eliminieren sollen. Eine Anwendung dieser Verfahren wird in der FDA‐Guideline zu Diagnosestudien