• Keine Ergebnisse gefunden

1.  EINLEITUNG

1.1.  Bias in Diagnosestudien

In  der  öffentlichen  Wahrnehmung  steht  im  Mittelpunkt  der  ärztlichen  Tätigkeit  die  Anwendung  medikamentöser oder nicht‐medikamentöser Verfahren zur Therapie von Erkrankungen. Dies spiegelt  sich auch in der klinischen Forschung wider, in der auf Therapiestudien sowohl regulatorisch als auch  methodisch ein besonderer Fokus gelegt wird. Therapeutische Ansätze können aber nur dann sinnvoll  und wirksam sein, wenn klar ist, welche Personengruppen von der jeweiligen Therapie profitieren und  wenn klar zugeordnet werden kann, ob ein Individuum zu der entsprechenden Personengruppe gehört  oder nicht. Die einfachste Form einer solchen Zuordnung ist die binäre Klassifikation in „erkrankt“ und 

„nicht  erkrankt“  anhand  bestimmter  Charakteristika  und  Testergebnisse.  Dies  wird  als  Diagnosestellung für eine konkrete Zielerkrankung bezeichnet. Die Testergebnisse werden auch als  positiv (für „erkrankt“) bzw. negativ (für „nicht erkrankt“) bezeichnet. Ohne korrekte Diagnosestellung  ist in der Regel keine zielgerichtete, erfolgreiche Therapie der Erkrankung möglich. Es ist daher wichtig,  in der Diagnosestellung mit guten, hochinformativen Kriterien zu arbeiten und sich am Ende dennoch  bewusst zu sein, dass und inwiefern die verwendeten diagnostischen Verfahren Fehlklassifikationen  mit sich bringen können (Worster, 2008). Aus diesem Grund kommt der systematischen Untersuchung  von zur Diagnose verwendeten Informationen und Tests eine große Bedeutung zu. Um zu evaluieren,  welche diagnostischen Tests dazu geeignet sind, bei Patienten mit bestimmten Symptomkomplexen  eine bestimmte Zielerkrankung korrekt zu diagnostizieren, ist die Durchführung von Diagnosestudien  notwendig. 

In  Diagnosestudien  wird  ein  neues  diagnostisches  Verfahren  bei  erkrankten  und  nicht‐erkrankten  Individuen angewendet und die Richtigkeit der Klassifizierung durch das neue Verfahren ausgewertet. 

Zu diesem Zweck werden sowohl das neue, zu evaluierende Verfahren – im Folgenden als Indextest  bezeichnet  –  als  auch  ein  Referenzstandard‐Verfahren  in  einem  gepaarten  Studiendesign  an  allen  Studienteilnehmern  durchgeführt  und  die  Ergebnisse  der  Klassifizierungen  miteinander  verglichen. 

Der Referenzstandard ist die beste verfügbare Methode zur Bestimmung des wahren Krankheitsstatus  hinsichtlich der Zielerkrankung (FDA, 2007). Es kann sich dabei um ein einzelnes anerkanntes Verfahren  oder  die  Kombination  mehrerer  diagnostischer  Verfahren  handeln.  Der  Referenzstandard  definiert  nach bestem Wissen den Krankheitszustand jedes Individuums und stellt in der Studienauswertung  den zu erreichenden Maßstab für den Indextest dar. Zur Beschreibung der diagnostischen Genauigkeit  des  Indextests  gegenüber  dem  Referenzstandard  können  verschiedene  statistische  Kenngrößen  berechnet werden. Die zwei Wichtigsten sind die Sensitivität (der Anteil der vom Indextest korrekt als  krank  eingestuften  Erkrankten)  und  die  Spezifität  (der  Anteil  der  vom  Indextest  korrekt  als  nicht‐

erkrankt eingestuften Gesunden). 

Ein  fehlerfreier  Referenzstandard  wird  im  Kontext  von  Diagnosestudien  auch  als  Goldstandard  bezeichnet  (Cohen,  2016),  allerdings  sind  komplett  fehlerfreie  Referenzstandards  in  der  klinischen  Forschung  eher  die  Ausnahme  als  die  Regel  (Reitsma,  2009).  Ziegler  et  al.  sprechen  in  ihrer  Übersichtsarbeit  von  Goldstandard  und  Referenzstandard  als  perfektem  und  „fast  perfektem“ 

Standard zur Bestimmung des wahren Krankheitsstatus (Ziegler, 2013). Vorsicht in der Interpretation  einer  Diagnosestudie  ist  geboten,  wenn  als  bestmöglicher  Referenzstandard  nur  ein  substanziell 

fehlerbehafteter  Referenzstandard  existiert  (Reitsma,  2009; Rutjes,  2007).  In  der  Planung  einer  Diagnosestudie sowie in der späteren Interpretation der Ergebnisse ist grundsätzlich abzuwägen und  zu  diskutieren,  in  welchem  Maße  der  verwendete  Referenzstandard  imperfekt  ist  (Bossuyt,  2003; 

Whiting, 2011).  

Die FDA Guideline zum statistischen Umgang mit Diagnosestudien weist darauf hin, dass bei nicht  existierendem oder inakzeptabel imperfektem Referenzstandard in Betracht gezogen werden sollte,  einen  neuen,  kombinierten  Referenzstandard  für  die  Studie  zu  konstruieren  (FDA,  2007). 

Referenzstandards, die aus verschiedenen klinischen Informationen und Tests miteinander kombiniert  werden, heißen zusammengesetzte Referenzstandards (Alonzo, 1999). Solch ein zusammengesetzter  Standard  muss  einen  klaren  prä‐spezifizierten  Algorithmus  haben,  wie  die  verschiedenen  Einzelelemente zur finalen Bestimmung des Krankheitsstatus kombiniert werden (FDA, 2007; Rutjes,  2007). Nachvollziehbarerweise sollte der neue diagnostische Indextest nicht im zusammengesetzten  Referenzstandard  enthalten  sein  (EMA,  2009; FDA,  2007).  Andernfalls  sind  Überschätzungen  der  Sensitivität und Spezifität des Indextests im Vergleich zum zusammengesetzten Referenzstandard die  existierender,  hochvalider  Referenzstandard  sehr  invasiv,  belastend  oder  risikoreich  ist  und  aus  ethischen Gründen nur bei sehr konkretem Verdacht durchgeführt werden sollte. Manchmal ist eine  Verifikation des Krankheitsstatus durch den Referenzstandard auch praktisch gar nicht umsetzbar, z.B. 

wenn im Kontext von Krebs‐Screeningstudien zunächst ein positiver Indextest auf eine oder mehrere  Läsionen hingedeutet haben muss, bevor an den Läsionen der Referenzstandard Biopsie durchgeführt  werden kann.  

In  diesen  Situationen  wird  der  Krankheitsstatus  nur  für  einen  (ausgewählten)  Teil  der  Studienteilnehmer mit dem Referenzstandard verifiziert. Häufig korrespondiert die Wahrscheinlichkeit  zur Verifikation dabei mit dem Ergebnis des Indextests. Patienten mit positivem Indextest haben eine  deutlich  höhere  Wahrscheinlichkeit  mit  dem  Referenzstandard  diagnostiziert  zu  werden,  oder  es  werden  gemäß  Studienprotokoll  sogar  ausschließlich  positiv  getestete  Patienten  mit  dem  Referenzstandard  verifiziert.  Manchmal  beinhaltet  die  Studie  zusätzlich  einen  etablierten,  konkurrierenden  Vergleichstest  und  Patienten  werden  verifiziert,  falls  der  Indextest  oder  aber  der  Vergleichstest (oder beide) positiv sind. Die Entscheidung zur Durchführung des Referenzstandards  kann außerdem von anderen Kovariablen wie z.B. Alter, Vorliegen bestimmter Risikofaktoren, Schwere  der Symptomatik oder weiteren Testergebnissen abhängen (Diamond, 1991).  

Wenn die Verifikationswahrscheinlichkeit mit dem Ergebnis des Indextests korrespondiert, kommt es  zu Verzerrungen in der Schätzung der diagnostischen Genauigkeit des Indextests, zu sogenanntem  Verifikationsbias (im englischsprachigen Raum auch Workup‐ oder Referral‐Bias genannt) (Kohn, 2013; 

Lijmer,  1999; Rutjes,  2007; Whiting,  2003).  Je  nach  Umgang  mit  den  Individuen,  die  nicht  den  Referenzstandard erhalten haben, unterscheidet man weiter zwischen partiellem und differentiellem  Verifikationsbias. Partieller Verifikationsbias entsteht, wenn die entsprechenden Studienteilnehmer  ohne Referenzstandard keine weitere Verifikation durchlaufen und im Sinne einer „complete case“ 

Analyse  aus  der  Auswertung  ausgeschlossen  werden  (Abbildung  1).  Werden  die  nicht  durch  den  Referenzstandard  verifizierten  Patienten  hingegen  durch  ein  anderes,  weniger  invasives/schädigendes/teures,  aber  auch  weniger  valides  diagnostisches  Verfahren  als  den  Referenzstandard verifiziert, so kann es zu differentiellem Verifikationsbias kommen. Als alternativer  Referenzstandard wird häufig das (kurzfristige) klinische Follow‐Up der Studienteilnehmer verwendet  (Naaktgeboren, 2016).    

Abbildung  1:  Diagnosestudie  mit  (A)  vollständiger  Verifikation,  (B)  partieller  Verifikation  und  (C)  differentieller Verifikation (adaptiert nach (Rutjes, 2007)) 

 

Eine partielle Verifikation, bei der alle Patienten ohne Referenzstandard‐Diagnose aus der Analyse  ausgeschlossen  werden,  führt  klassischerweise  zu  Überschätzungen  der  Sensitivität  und  Unterschätzungen  der  Spezifität  (Kohn,  2013; Whiting,  2013).  Die  Überschätzung  der  Sensitivität  resultiert  aus  dem  Ausschluss  von  in  Wahrheit  erkrankten  Patienten,  die  aufgrund  eines  (falsch‐)  negativen Testergebnisses nicht verifiziert wurden. Analog dazu wird die Spezifität unterschätzt, weil  in  Wahrheit  nicht‐erkrankte  Individuen  mit  richtig‐negativem  Testergebnis  aus  der  Auswertung  ausgeschlossen werden (Kohn, 2013).     

Bei differentieller Verifikation der Studienteilnehmer wird eine Überschätzung von Sensitivität und  Spezifität angenommen (Lijmer, 1999; Rutjes, 2006). Die Richtung der Verzerrung von Sensitivität und  Spezifität  sowie  die  zugrundeliegenden  Mechanismen  sind  aber  weniger  klar  als  bei  partiellem  Verifikationsbias und hängen unter anderem vom Anteil der alternativ verifizierten Patienten, der Art  des Selektionsprozesses für die Anwendung des Referenzstandards und von der diagnostischen Güte  der beiden verwendeten Referenzstandards ab (Rutjes, 2007).  

Für eine angemessene Auswertung solcher Studiendaten ist es bei der Planung einer Diagnosestudie  erforderlich, sich die Problematik und das zu erwartende Ausmaß an Verzerrung durch partielle oder 

differentielle  Verifikation  bewusst  zu  machen  und  diese  entsprechend  im  Studiendesign,  in  der  geplanten statistischen Auswertung und in der Interpretation der Ergebnisse zu berücksichtigen.