• Keine Ergebnisse gefunden

3.  VERIFIKATIONSBIAS BEI NEURODEGENERATIVEN ERKRANKUNGEN MIT AUTOPSIE ALS

3.5.  Ergebnisse

3.5.2.  Ergebnisse eines einzelnen Simulationsszenarios S1

Im „realistischsten“ Simulationsszenario S1 ergaben sich moderate Verzerrungen der Sensitivität und  Spezifität (Abbildung 6). Nur die Spezifität von 14‐3‐3 im Vergleich zum Goldstandard Autopsie wurde  stark  unterschätzt.  Anstatt  der  zugrundeliegenden  wahren  Spezifität  von  70%  wurden  in  den  Simulationsläufen des konkreten Szenarios nur Spezifitäten von etwa 42‐52% beobachtet (Abbildung  6(2)). Die Gesamt‐Autopsierate in diesem konkreten Simulationsszenario lag im Mittel bei 32%. 

 

Abbildung  6:  (1)  Geschätzte  Sensitivitäten  und  (2)  geschätzte  Spezifitäten  von  14‐3‐3  gegen  die  verschiedenen Referenzstandards in einem konkreten Simulationsszenario S1 

   

Analog zu den Gesamtergebnissen wurde die Sensitivität von 14‐3‐3 gegenüber dem Goldstandard  Autopsie  im  Mittel  fast  unverzerrt  geschätzt  (Abbildung  6(1)).  Jedoch  kam  es  dabei  aufgrund  der  reduzierten Fallzahl (CJK‐Prävalenz im Datensatz 10% und davon nicht alle mit Autopsie verifiziert) zu  stärkeren Schwankungen von +/‐ 5 Prozentpunkten. Die Sensitivitäten von 14‐3‐3 im Vergleich zu ZGS  oder BEST wurden im konkreten Simulationsszenario S1 wiederum überschätzt (Abbildung 6(1)). Der  Bias  war  für  beide  Studiendesigns  mit  rund  0‐5  Prozentpunkten  eher  gering,  wobei  der  Bias  im  Studiendesign mit Referenzstandard BEST leicht höher war als mit Referenzstandard ZGS. 

Auch für die Verzerrung der Spezifität ergab sich ein ähnliches Bild wie bei der Gesamtauswertung über  alle  Simulationsszenarien:  Während  die  Spezifität  gegenüber  der  Autopsie  um  mehr  als  20  Prozentpunkte  unterschätzt  wurde,  waren  die  geschätzten  Spezifitäten  gegenüber  den  anderen  beiden Referenzstandards stets zu hoch (Abbildung 6(2)). Es zeigte sich ein moderater Bias von 5‐10  Prozentpunkten.  Im  Studiendesign  mit  BEST  als  Referenzstandard  war  der  Bias  um  etwa  3  Prozentpunkte niedriger als im ZGS‐Studiendesign. 

Zur  Analyse  der  Verzerrungsgründe  wurden  im  realistischen  Szenario  S1  in  allen  untersuchten  Studiendesigns  pro  Simulationslauf  diagnostische  Vierfeldertafeln  erstellt.  Für  jedes  Studiendesign  wurden die Patientenzahlen dieser Vierfeldertafeln über alle 10000 Simulationsläufe gemittelt und  gerundet. Diese Zahlen (Abbildung 7) geben Aufschluss darüber, durch welche Mechanismen es zu  falschen  Diagnosen  und  verzerrten  statistischen  Kenngrößen  kommt.  Richtig‐positive  Patienten  wurden  in  der  Abbildung  mit  schwarzer  Hintergrundfarbe  kenntlich  gemacht,  richtig‐negative  Patienten  mit  hellgrauer  Hintergrundfarbe.  Des  Weiteren  sind  falsch‐positive  Patienten  mittelgrau  hinterlegt und falsch‐negative Patienten dunkelgrau. Cave: Es ist bei der Interpretation zu beachten,  dass  sich  die  Einstufungen  („richtig‐positiv“  etc.)  in  jedem  untersuchten  Studiendesign  auf  den  entsprechenden eingesetzten Referenzstandard und nicht auf die (in den Simulationen festgelegte)  Wahrheit beziehen.   

 

(1)  (2) 

Abbildung  7:  Flowchart  des  Patientenflusses  in  der  Diagnose  von  CJK  mit  verschiedenen  Referenzstandards 

GESAMT: n=5000

Erkrankt: n=500 Nicht-erkrankt: n=4500

400 950 50 3100

425 25 25 25

240 380 20 2480

255 10 10 20 ZGS für Patienten ohne Autopsie (D) 14-3-3 vs. BEST

  Im ZGS‐Studiendesign  (Abbildung 7(B)) wurden viele in Wahrheit  nicht an CJK erkrankte  Patienten 

sowohl  vom  Test  14‐3‐3  als  auch  vom  Referenzstandard  ZGS  als  erkrankt  eingestuft  (n=400).  Dies  führte  dazu,  dass  die  Zahl  der  richtig‐positiven  Patienten  inkorrekterweise  deutlich  erhöht  wurde,  nämlich  fast  verdoppelt.  Zugleich  wurde  die  Sensitivität  aber  auch  von  mehr  falsch‐negativen  Patienten  beeinflusst,  die  von  14‐3‐3  korrekt  als  negativ  diagnostiziert  worden  waren,  aber  vom  Referenzstandard  ZGS  als  erkrankt  definiert  wurden  (n=50).  So  ergab  sich  insgesamt  eine  leichte  Erhöhung der geschätzten Sensitivität. Die hohe Anzahl an doppelt‐positiven Testergebnissen bei den  Nicht‐Erkrankten führte außerdem dazu, dass die Spezifität überschätzt wurde. Denn die Zahl der in  Wahrheit  „falsch‐positiven“  Patienten  (n=1350)  wurde  künstlich  verringert,  da  falsch‐positive  Patienten  nun  fälschlicherweise  als  richtig‐positiv  gewertet  wurden.  Es  gab  durch  diese  Fehlklassifikationen  eine  erhebliche  Verschiebung  der  Relationen  in  der  ersten  Zeile  der  Vierfeldertafel, während sich die zweite Zeile mit den 14‐3‐3‐negativen Ergebnissen kaum veränderte  (vergleiche dazu Abbildung 7(A) und Abbildung 7(B), Vierfeldertafeln).  

Im  Studiendesign  mit  Autopsie  als  Referenzstandard  (Abbildung  7(C)  spielten  die  Autopsie‐

Wahrscheinlichkeiten eine zentrale Rolle in der Entstehung von Bias. Ein Großteil der nicht‐erkrankten  Patienten war korrekterweise von 14‐3‐3 und dem ZGS als negativ erkannt worden (n=3100 Patienten 

=  62  Prozent  der  Studienpopulation).  Von  diesen  Patienten  wurden  jedoch  nur  620  Patienten  verifiziert;  die  anderen  rund  2500  korrekt  klassifizierten  Patienten  wurden  aus  der  Analyse  ausgeschlossen. Folglich kam es zu einer massiven Senkung der geschätzten Spezifität. Dieser Effekt  mit  jeweils  90%  recht  hoch  und  gleich  hoch  waren,  sowie  die  hohe  Korrelation  zwischen  den  Testergebnissen eine Rolle. Dadurch war nur eine vernachlässigbare Anzahl an tatsächlich erkrankten  Patienten von 14‐3‐3 und ZGS diskordant (+/‐ oder ‐/+) oder komplett falsch‐negativ (‐/‐) eingestuft  worden  (Abbildung  7(B)).  Die  Unterschiede  in  den  Verifikationswahrscheinlichkeiten  kamen  daher  kaum zum Tragen und es entstanden nur geringe Verzerrungen. 

Gegenüber einem differentiellen Referenzstandard BEST ergaben sich bezüglich der diagnostischen  Performance von 14‐3‐3 ähnliche Verzerrungen wie beim ZGS‐Studiendesign. Die Patientenzahlen in  den  Zellen  der  Vierfeldertafel  wurden  aufgrund  der  geringen  Gesamt‐Autopsierate  (32%)  von  den  verwendeten Ergebnissen des ZGS dominiert (siehe Abbildung 7(D) untere Zeile). Wiederum gab es  eine Verschiebung  der Patientenzahlen in  der  ersten Zeile  der  Vierfeldertafel aus dem  Feld  der in  Wahrheit falsch‐positiven fälschlicherweise hinüber ins Feld der richtig‐positiven. Die zweite Zeile der  Vierfeldertafel  blieb  in  Summe  unverändert.  Das  Ausmaß  der  Verschiebung  war  aufgrund  der  Berücksichtigung von Autopsieergebnissen um 40% niedriger als im ZGS Studiendesign, so dass eine  schwächere  Überschätzung  der  Sensitivität  zu  erwarten  gewesen  wäre.  Da  jedoch  zugleich  eine  geringere Anzahl an inkorrekten falsch‐negativen Diagnosen auftrat als im ZGS Studiendesign, wurde  die Sensitivität im BEST Studiendesign etwas stärker überschätzt als im ZGS Studiendesign. Der Bias  bei  der  Spezifität  konnte  durch  die  Hinzunahme  einer  großen  Anzahl  von  Patienten  mit  korrekten  richtig‐negativen  Diagnosen  im  Vergleich  zu  den  anderen  Studiendesigns  verringert  werden.  Die  (gemäßigte) Verschiebung von Patienten mit falsch‐positiver Diagnose hin zur inkorrekten „richtig‐

positiven“ Diagnose sorgte aber nach wie vor für eine (gemäßigte) Überschätzung der Spezifität.