3. VERIFIKATIONSBIAS BEI NEURODEGENERATIVEN ERKRANKUNGEN MIT AUTOPSIE ALS
3.5. Ergebnisse
3.5.2. Ergebnisse eines einzelnen Simulationsszenarios S1
Im „realistischsten“ Simulationsszenario S1 ergaben sich moderate Verzerrungen der Sensitivität und Spezifität (Abbildung 6). Nur die Spezifität von 14‐3‐3 im Vergleich zum Goldstandard Autopsie wurde stark unterschätzt. Anstatt der zugrundeliegenden wahren Spezifität von 70% wurden in den Simulationsläufen des konkreten Szenarios nur Spezifitäten von etwa 42‐52% beobachtet (Abbildung 6(2)). Die Gesamt‐Autopsierate in diesem konkreten Simulationsszenario lag im Mittel bei 32%.
Abbildung 6: (1) Geschätzte Sensitivitäten und (2) geschätzte Spezifitäten von 14‐3‐3 gegen die verschiedenen Referenzstandards in einem konkreten Simulationsszenario S1
Analog zu den Gesamtergebnissen wurde die Sensitivität von 14‐3‐3 gegenüber dem Goldstandard Autopsie im Mittel fast unverzerrt geschätzt (Abbildung 6(1)). Jedoch kam es dabei aufgrund der reduzierten Fallzahl (CJK‐Prävalenz im Datensatz 10% und davon nicht alle mit Autopsie verifiziert) zu stärkeren Schwankungen von +/‐ 5 Prozentpunkten. Die Sensitivitäten von 14‐3‐3 im Vergleich zu ZGS oder BEST wurden im konkreten Simulationsszenario S1 wiederum überschätzt (Abbildung 6(1)). Der Bias war für beide Studiendesigns mit rund 0‐5 Prozentpunkten eher gering, wobei der Bias im Studiendesign mit Referenzstandard BEST leicht höher war als mit Referenzstandard ZGS.
Auch für die Verzerrung der Spezifität ergab sich ein ähnliches Bild wie bei der Gesamtauswertung über alle Simulationsszenarien: Während die Spezifität gegenüber der Autopsie um mehr als 20 Prozentpunkte unterschätzt wurde, waren die geschätzten Spezifitäten gegenüber den anderen beiden Referenzstandards stets zu hoch (Abbildung 6(2)). Es zeigte sich ein moderater Bias von 5‐10 Prozentpunkten. Im Studiendesign mit BEST als Referenzstandard war der Bias um etwa 3 Prozentpunkte niedriger als im ZGS‐Studiendesign.
Zur Analyse der Verzerrungsgründe wurden im realistischen Szenario S1 in allen untersuchten Studiendesigns pro Simulationslauf diagnostische Vierfeldertafeln erstellt. Für jedes Studiendesign wurden die Patientenzahlen dieser Vierfeldertafeln über alle 10000 Simulationsläufe gemittelt und gerundet. Diese Zahlen (Abbildung 7) geben Aufschluss darüber, durch welche Mechanismen es zu falschen Diagnosen und verzerrten statistischen Kenngrößen kommt. Richtig‐positive Patienten wurden in der Abbildung mit schwarzer Hintergrundfarbe kenntlich gemacht, richtig‐negative Patienten mit hellgrauer Hintergrundfarbe. Des Weiteren sind falsch‐positive Patienten mittelgrau hinterlegt und falsch‐negative Patienten dunkelgrau. Cave: Es ist bei der Interpretation zu beachten, dass sich die Einstufungen („richtig‐positiv“ etc.) in jedem untersuchten Studiendesign auf den entsprechenden eingesetzten Referenzstandard und nicht auf die (in den Simulationen festgelegte) Wahrheit beziehen.
(1) (2)
Abbildung 7: Flowchart des Patientenflusses in der Diagnose von CJK mit verschiedenen Referenzstandards
GESAMT: n=5000
Erkrankt: n=500 Nicht-erkrankt: n=4500
400 950 50 3100
425 25 25 25
240 380 20 2480
255 10 10 20 ZGS für Patienten ohne Autopsie (D) 14-3-3 vs. BEST
Im ZGS‐Studiendesign (Abbildung 7(B)) wurden viele in Wahrheit nicht an CJK erkrankte Patienten
sowohl vom Test 14‐3‐3 als auch vom Referenzstandard ZGS als erkrankt eingestuft (n=400). Dies führte dazu, dass die Zahl der richtig‐positiven Patienten inkorrekterweise deutlich erhöht wurde, nämlich fast verdoppelt. Zugleich wurde die Sensitivität aber auch von mehr falsch‐negativen Patienten beeinflusst, die von 14‐3‐3 korrekt als negativ diagnostiziert worden waren, aber vom Referenzstandard ZGS als erkrankt definiert wurden (n=50). So ergab sich insgesamt eine leichte Erhöhung der geschätzten Sensitivität. Die hohe Anzahl an doppelt‐positiven Testergebnissen bei den Nicht‐Erkrankten führte außerdem dazu, dass die Spezifität überschätzt wurde. Denn die Zahl der in Wahrheit „falsch‐positiven“ Patienten (n=1350) wurde künstlich verringert, da falsch‐positive Patienten nun fälschlicherweise als richtig‐positiv gewertet wurden. Es gab durch diese Fehlklassifikationen eine erhebliche Verschiebung der Relationen in der ersten Zeile der Vierfeldertafel, während sich die zweite Zeile mit den 14‐3‐3‐negativen Ergebnissen kaum veränderte (vergleiche dazu Abbildung 7(A) und Abbildung 7(B), Vierfeldertafeln).
Im Studiendesign mit Autopsie als Referenzstandard (Abbildung 7(C) spielten die Autopsie‐
Wahrscheinlichkeiten eine zentrale Rolle in der Entstehung von Bias. Ein Großteil der nicht‐erkrankten Patienten war korrekterweise von 14‐3‐3 und dem ZGS als negativ erkannt worden (n=3100 Patienten
= 62 Prozent der Studienpopulation). Von diesen Patienten wurden jedoch nur 620 Patienten verifiziert; die anderen rund 2500 korrekt klassifizierten Patienten wurden aus der Analyse ausgeschlossen. Folglich kam es zu einer massiven Senkung der geschätzten Spezifität. Dieser Effekt mit jeweils 90% recht hoch und gleich hoch waren, sowie die hohe Korrelation zwischen den Testergebnissen eine Rolle. Dadurch war nur eine vernachlässigbare Anzahl an tatsächlich erkrankten Patienten von 14‐3‐3 und ZGS diskordant (+/‐ oder ‐/+) oder komplett falsch‐negativ (‐/‐) eingestuft worden (Abbildung 7(B)). Die Unterschiede in den Verifikationswahrscheinlichkeiten kamen daher kaum zum Tragen und es entstanden nur geringe Verzerrungen.
Gegenüber einem differentiellen Referenzstandard BEST ergaben sich bezüglich der diagnostischen Performance von 14‐3‐3 ähnliche Verzerrungen wie beim ZGS‐Studiendesign. Die Patientenzahlen in den Zellen der Vierfeldertafel wurden aufgrund der geringen Gesamt‐Autopsierate (32%) von den verwendeten Ergebnissen des ZGS dominiert (siehe Abbildung 7(D) untere Zeile). Wiederum gab es eine Verschiebung der Patientenzahlen in der ersten Zeile der Vierfeldertafel aus dem Feld der in Wahrheit falsch‐positiven fälschlicherweise hinüber ins Feld der richtig‐positiven. Die zweite Zeile der Vierfeldertafel blieb in Summe unverändert. Das Ausmaß der Verschiebung war aufgrund der Berücksichtigung von Autopsieergebnissen um 40% niedriger als im ZGS Studiendesign, so dass eine schwächere Überschätzung der Sensitivität zu erwarten gewesen wäre. Da jedoch zugleich eine geringere Anzahl an inkorrekten falsch‐negativen Diagnosen auftrat als im ZGS Studiendesign, wurde die Sensitivität im BEST Studiendesign etwas stärker überschätzt als im ZGS Studiendesign. Der Bias bei der Spezifität konnte durch die Hinzunahme einer großen Anzahl von Patienten mit korrekten richtig‐negativen Diagnosen im Vergleich zu den anderen Studiendesigns verringert werden. Die (gemäßigte) Verschiebung von Patienten mit falsch‐positiver Diagnose hin zur inkorrekten „richtig‐
positiven“ Diagnose sorgte aber nach wie vor für eine (gemäßigte) Überschätzung der Spezifität.