1. EINLEITUNG
1.1. Bias in Diagnosestudien
In der öffentlichen Wahrnehmung steht im Mittelpunkt der ärztlichen Tätigkeit die Anwendung medikamentöser oder nicht‐medikamentöser Verfahren zur Therapie von Erkrankungen. Dies spiegelt sich auch in der klinischen Forschung wider, in der auf Therapiestudien sowohl regulatorisch als auch methodisch ein besonderer Fokus gelegt wird. Therapeutische Ansätze können aber nur dann sinnvoll und wirksam sein, wenn klar ist, welche Personengruppen von der jeweiligen Therapie profitieren und wenn klar zugeordnet werden kann, ob ein Individuum zu der entsprechenden Personengruppe gehört oder nicht. Die einfachste Form einer solchen Zuordnung ist die binäre Klassifikation in „erkrankt“ und
„nicht erkrankt“ anhand bestimmter Charakteristika und Testergebnisse. Dies wird als Diagnosestellung für eine konkrete Zielerkrankung bezeichnet. Die Testergebnisse werden auch als positiv (für „erkrankt“) bzw. negativ (für „nicht erkrankt“) bezeichnet. Ohne korrekte Diagnosestellung ist in der Regel keine zielgerichtete, erfolgreiche Therapie der Erkrankung möglich. Es ist daher wichtig, in der Diagnosestellung mit guten, hochinformativen Kriterien zu arbeiten und sich am Ende dennoch bewusst zu sein, dass und inwiefern die verwendeten diagnostischen Verfahren Fehlklassifikationen mit sich bringen können (Worster, 2008). Aus diesem Grund kommt der systematischen Untersuchung von zur Diagnose verwendeten Informationen und Tests eine große Bedeutung zu. Um zu evaluieren, welche diagnostischen Tests dazu geeignet sind, bei Patienten mit bestimmten Symptomkomplexen eine bestimmte Zielerkrankung korrekt zu diagnostizieren, ist die Durchführung von Diagnosestudien notwendig.
In Diagnosestudien wird ein neues diagnostisches Verfahren bei erkrankten und nicht‐erkrankten Individuen angewendet und die Richtigkeit der Klassifizierung durch das neue Verfahren ausgewertet.
Zu diesem Zweck werden sowohl das neue, zu evaluierende Verfahren – im Folgenden als Indextest bezeichnet – als auch ein Referenzstandard‐Verfahren in einem gepaarten Studiendesign an allen Studienteilnehmern durchgeführt und die Ergebnisse der Klassifizierungen miteinander verglichen.
Der Referenzstandard ist die beste verfügbare Methode zur Bestimmung des wahren Krankheitsstatus hinsichtlich der Zielerkrankung (FDA, 2007). Es kann sich dabei um ein einzelnes anerkanntes Verfahren oder die Kombination mehrerer diagnostischer Verfahren handeln. Der Referenzstandard definiert nach bestem Wissen den Krankheitszustand jedes Individuums und stellt in der Studienauswertung den zu erreichenden Maßstab für den Indextest dar. Zur Beschreibung der diagnostischen Genauigkeit des Indextests gegenüber dem Referenzstandard können verschiedene statistische Kenngrößen berechnet werden. Die zwei Wichtigsten sind die Sensitivität (der Anteil der vom Indextest korrekt als krank eingestuften Erkrankten) und die Spezifität (der Anteil der vom Indextest korrekt als nicht‐
erkrankt eingestuften Gesunden).
Ein fehlerfreier Referenzstandard wird im Kontext von Diagnosestudien auch als Goldstandard bezeichnet (Cohen, 2016), allerdings sind komplett fehlerfreie Referenzstandards in der klinischen Forschung eher die Ausnahme als die Regel (Reitsma, 2009). Ziegler et al. sprechen in ihrer Übersichtsarbeit von Goldstandard und Referenzstandard als perfektem und „fast perfektem“
Standard zur Bestimmung des wahren Krankheitsstatus (Ziegler, 2013). Vorsicht in der Interpretation einer Diagnosestudie ist geboten, wenn als bestmöglicher Referenzstandard nur ein substanziell
fehlerbehafteter Referenzstandard existiert (Reitsma, 2009; Rutjes, 2007). In der Planung einer Diagnosestudie sowie in der späteren Interpretation der Ergebnisse ist grundsätzlich abzuwägen und zu diskutieren, in welchem Maße der verwendete Referenzstandard imperfekt ist (Bossuyt, 2003;
Whiting, 2011).
Die FDA Guideline zum statistischen Umgang mit Diagnosestudien weist darauf hin, dass bei nicht existierendem oder inakzeptabel imperfektem Referenzstandard in Betracht gezogen werden sollte, einen neuen, kombinierten Referenzstandard für die Studie zu konstruieren (FDA, 2007).
Referenzstandards, die aus verschiedenen klinischen Informationen und Tests miteinander kombiniert werden, heißen zusammengesetzte Referenzstandards (Alonzo, 1999). Solch ein zusammengesetzter Standard muss einen klaren prä‐spezifizierten Algorithmus haben, wie die verschiedenen Einzelelemente zur finalen Bestimmung des Krankheitsstatus kombiniert werden (FDA, 2007; Rutjes, 2007). Nachvollziehbarerweise sollte der neue diagnostische Indextest nicht im zusammengesetzten Referenzstandard enthalten sein (EMA, 2009; FDA, 2007). Andernfalls sind Überschätzungen der Sensitivität und Spezifität des Indextests im Vergleich zum zusammengesetzten Referenzstandard die existierender, hochvalider Referenzstandard sehr invasiv, belastend oder risikoreich ist und aus ethischen Gründen nur bei sehr konkretem Verdacht durchgeführt werden sollte. Manchmal ist eine Verifikation des Krankheitsstatus durch den Referenzstandard auch praktisch gar nicht umsetzbar, z.B.
wenn im Kontext von Krebs‐Screeningstudien zunächst ein positiver Indextest auf eine oder mehrere Läsionen hingedeutet haben muss, bevor an den Läsionen der Referenzstandard Biopsie durchgeführt werden kann.
In diesen Situationen wird der Krankheitsstatus nur für einen (ausgewählten) Teil der Studienteilnehmer mit dem Referenzstandard verifiziert. Häufig korrespondiert die Wahrscheinlichkeit zur Verifikation dabei mit dem Ergebnis des Indextests. Patienten mit positivem Indextest haben eine deutlich höhere Wahrscheinlichkeit mit dem Referenzstandard diagnostiziert zu werden, oder es werden gemäß Studienprotokoll sogar ausschließlich positiv getestete Patienten mit dem Referenzstandard verifiziert. Manchmal beinhaltet die Studie zusätzlich einen etablierten, konkurrierenden Vergleichstest und Patienten werden verifiziert, falls der Indextest oder aber der Vergleichstest (oder beide) positiv sind. Die Entscheidung zur Durchführung des Referenzstandards kann außerdem von anderen Kovariablen wie z.B. Alter, Vorliegen bestimmter Risikofaktoren, Schwere der Symptomatik oder weiteren Testergebnissen abhängen (Diamond, 1991).
Wenn die Verifikationswahrscheinlichkeit mit dem Ergebnis des Indextests korrespondiert, kommt es zu Verzerrungen in der Schätzung der diagnostischen Genauigkeit des Indextests, zu sogenanntem Verifikationsbias (im englischsprachigen Raum auch Workup‐ oder Referral‐Bias genannt) (Kohn, 2013;
Lijmer, 1999; Rutjes, 2007; Whiting, 2003). Je nach Umgang mit den Individuen, die nicht den Referenzstandard erhalten haben, unterscheidet man weiter zwischen partiellem und differentiellem Verifikationsbias. Partieller Verifikationsbias entsteht, wenn die entsprechenden Studienteilnehmer ohne Referenzstandard keine weitere Verifikation durchlaufen und im Sinne einer „complete case“
Analyse aus der Auswertung ausgeschlossen werden (Abbildung 1). Werden die nicht durch den Referenzstandard verifizierten Patienten hingegen durch ein anderes, weniger invasives/schädigendes/teures, aber auch weniger valides diagnostisches Verfahren als den Referenzstandard verifiziert, so kann es zu differentiellem Verifikationsbias kommen. Als alternativer Referenzstandard wird häufig das (kurzfristige) klinische Follow‐Up der Studienteilnehmer verwendet (Naaktgeboren, 2016).
Abbildung 1: Diagnosestudie mit (A) vollständiger Verifikation, (B) partieller Verifikation und (C) differentieller Verifikation (adaptiert nach (Rutjes, 2007))
Eine partielle Verifikation, bei der alle Patienten ohne Referenzstandard‐Diagnose aus der Analyse ausgeschlossen werden, führt klassischerweise zu Überschätzungen der Sensitivität und Unterschätzungen der Spezifität (Kohn, 2013; Whiting, 2013). Die Überschätzung der Sensitivität resultiert aus dem Ausschluss von in Wahrheit erkrankten Patienten, die aufgrund eines (falsch‐) negativen Testergebnisses nicht verifiziert wurden. Analog dazu wird die Spezifität unterschätzt, weil in Wahrheit nicht‐erkrankte Individuen mit richtig‐negativem Testergebnis aus der Auswertung ausgeschlossen werden (Kohn, 2013).
Bei differentieller Verifikation der Studienteilnehmer wird eine Überschätzung von Sensitivität und Spezifität angenommen (Lijmer, 1999; Rutjes, 2006). Die Richtung der Verzerrung von Sensitivität und Spezifität sowie die zugrundeliegenden Mechanismen sind aber weniger klar als bei partiellem Verifikationsbias und hängen unter anderem vom Anteil der alternativ verifizierten Patienten, der Art des Selektionsprozesses für die Anwendung des Referenzstandards und von der diagnostischen Güte der beiden verwendeten Referenzstandards ab (Rutjes, 2007).
Für eine angemessene Auswertung solcher Studiendaten ist es bei der Planung einer Diagnosestudie erforderlich, sich die Problematik und das zu erwartende Ausmaß an Verzerrung durch partielle oder
differentielle Verifikation bewusst zu machen und diese entsprechend im Studiendesign, in der geplanten statistischen Auswertung und in der Interpretation der Ergebnisse zu berücksichtigen.