• Keine Ergebnisse gefunden

2.  METHODEN

2.3.  Design und Auswertung der angewandten Simulationsstudien

2.3. Design und Auswertung der angewandten Simulationsstudien 

Im Rahmen dieser Arbeit wurden zwei Simulationsstudien durchgeführt. In Simulationsstudien werden  Datensätze unter kontrollierten, realitätsnahen Bedingungen künstlich erzeugt. Die Bedingungen (also  z.B. die wahre Sensitivität und Spezifität eines bestimmten Tests) werden dabei vorher festgelegt und  sind somit bekannt. Nach Erzeugung und Auswertung eines künstlichen Datensatzes kann zum Beispiel  die Abweichung von dem aus dem Datensatz geschätzten Kennwert zum festgelegten wahren Wert  ermittelt  werden.  Unter  einer  bestimmten  Kombination  von  Bedingungen,  man  spricht  auch  von  einem Simulations‐Szenario, werden wiederholte Datensätze erzeugt. In der Regel werden dabei 5000  oder  10000  solcher  Wiederholungen  (sogenannte  Simulationsläufe)  pro  Szenario  durchgeführt.  So  lässt  sich  unter  anderem  untersuchen,  in  welchem  Ausmaß  und  mit  welcher  Variabilität  es  zu  Abweichungen vom wahren Kennwert kommt.   

Die Simulationsstudien wurden in zwei speziellen medizinischen Anwendungsbereichen (Creutzfeldt‐

Jakob‐Krankheit und chronische thromboembolische pulmonale Hypertonie) durchgeführt. Während  die  eine  Studie  auf  die  Quantifizierung  der  auftretenden  Verzerrungen  fokussiert,  zielt  die  andere  Studie primär darauf ab, eine robuste Fallzahlplanung unter differentiellen Verifikationsbedingungen  zu gewährleisten. Obwohl die Indikationsgebiete und Simulationsstudienziele unterschiedlich sind, ist  im Grundsatz das gleiche Simulationsdesign verwendet worden. 

 

   

2.3.1. Grundlegendes Design der Simulationsstudien  In beiden Simulationsstudien ging es jeweils um die Anwendung  

(a) eines zu bewertenden diagnostischen Tests A,  

(b) eines weiteren diagnostischen Tests B, der bisher als Standard verwendet wurde, und   (c) des diagnostischen Referenzstandards C, der nicht immer durchgeführt wird, sowie  (d) eines differentiellen Referenzstandards D, der C und ein alternatives Verfahren nutzt 

Den  Simulationen  lag  ein  „within‐subject“  Studiendesign  für  Diagnosestudien  zugrunde,  welches  –  sofern ethisch vertretbar – das bevorzugte Design in Diagnosestudien darstellt (Bossuyt, 2006; EMA,  2009).  Im  within‐subject  Studiendesign  werden  bei  allen  Individuen  alle  diagnostischen  Tests  angewendet. Grundsätzlich wird auch der Referenzstandard für alle Patienten erhoben.  

In  den  Simulationsdatensätzen  sind  für  alle  Patienten  zunächst  alle  Informationen  verfügbar:  die  Ergebnisse  der  Tests  A  und  B  sowie  des  schwer  erhebbaren  Referenzstandards  C  und  des  differentiellen Referenzstandards D. In der Auswertung der simulierten Daten wurden die Ergebnisse  von  C  jedoch  nur  partiell  verwendet,  um  widerzuspiegeln,  dass  für  einige  Patienten  der  Referenzstandard nicht verfügbar ist. Die Auswirkungen davon sind primärer Forschungsgegenstand  der  Arbeit.  Die  Entscheidung  über  die  Durchführung  des  Referenzstandards  C  hängt  von  den  Testergebnissen der Tests A und B ab. Beim differentiellen Referenzstandard D handelt es sich um  einen kombinierten Referenzstandard, der für jeden Patienten die bestmögliche Information nutzt,  d.h. das Ergebnis von C falls verfügbar und das Ergebnis eines anderen definierten Referenzverfahrens,  falls C nicht verfügbar ist. Referenzstandard D ermöglicht die Verwendung von allen Patienten in der  Auswertung. 

Anhand  der  festgelegten  Gesamtfallzahl  (N)  und  der  festgelegten  Prävalenz  der  Erkrankung  (prev)  wurden die Stichprobengrößen für den Datensatz der in Wahrheit Erkrankten und für den Datensatz  der  in  Wahrheit  Nicht‐Erkrankten  berechnet.  Anschließend  wurden  separate  Datensätze  dieser  Stichprobengrößen erzeugt. Die Datensätze zur Sensitivität und zur Spezifität wurden also getrennt  voneinander simuliert. 

In beiden Fällen wurden die Daten mithilfe einer bivariaten, verschobenen Standardnormalverteilung   simuliert.  Bivariat  bezieht  sich  dabei  darauf,  dass  die  Testergebnisse  der  Tests  A  und  B  aus  einer  gemeinsamen  Verteilung  simuliert  wurden.  Die  Varianzen  wurden  als  σ=1  angenommen.  Die  Korrelation  (korrA,B)  zwischen  dem  zu  bewertenden  diagnostischen  Test  A  und  dem  weiteren  diagnostischen  Test  B  konnte  im  Rahmen  der  Simulationen  auf  verschiedene  Werte  eingestellt  werden.  Als  Mittelwerte  der  bivariaten  Normalverteilung  wurden  die  Standardnormalverteilungs‐

Quantile  der  jeweiligen  Sensitivitäten  von  A  und  B  (uSens)  bzw.  der  Spezifitäten  (uSpez)  verwendet. 

Insgesamt heißt das, es wurden Zahlen aus folgenden Verteilungen simuliert: 

 

Stetige Zahlen im Datensatz zur Sensitivität:  𝑋 („erkrankt“  im  Datensatz  zur  Sensitivität  und  „nicht‐erkrankt“  im  Datensatz  zur  Spezifität).  Die  Ergebnisse  des  Referenzstandards  C  wurden  im  Rahmen  der  Simulationsstudien  nicht  simuliert,  sondern der wahre Zustand des Patienten wurde als Ergebnis des Referenzstandards C übertragen. Es  wurde also ohne Beschränkung der Allgemeinheit von einem perfekten Goldstandard ausgegangen,  um die Simulationsergebnisse klarer und fokussierter interpretieren zu können. 

Im weiteren Verlauf der Simulation wurde basierend auf gleichverteilten Zufallszahlen die Verifikation  der  Testergebnisse  durch  den  Referenzstandard  C  simuliert.  Es  wurden  dabei  in  verschiedenen  definierten  Subgruppen  von  Patienten  Zahlen  aus  einer  [0,1]‐Gleichverteilung  gezogen  und  an  verschiedenen Cutpoints dichotomisiert (mit 0=nicht‐verifiziert und 1=verifiziert). Die Cutpoints waren  Subgruppen‐spezifisch  und  waren  abhängig  von  der  Gesamtwahrscheinlichkeit  einer  Verifikation  sowie  von  den  konkreten  Ergebnissen  der  Tests  A  und  B  (zum  Beispiel  höhere  Verifikationswahrscheinlichkeit bei positiven Testergebnissen).  

Zuletzt  wurde  die  Diagnose  eines  differentiellen  Referenzstandards  D  in  den  Datensatz  eingefügt. 

Hierzu war kein Simulationsprozess erforderlich. Es wurden für verifizierte Patienten die Ergebnisse  des  Referenzstandards  C  übertragen.  Für  nicht‐verifizierte  Patienten  gab  es  –  je  nach  Anwendungsbeispiel – eine klare Regelung, welche Information andernfalls als Diagnose eingetragen  werden soll (z.B. das Ergebnis von Test B, falls C nicht verfügbar).  

Der Ablauf der Datensimulation lässt sich wie folgt zusammenfassen: 

(1) Festlegung  der  Gesamtfallzahl,  der  Prävalenz  und  damit  der  zu  simulierenden  Stichprobengröße des Sensitivitäts‐ und des Spezifitätsdatensatzes 

(2) Erzeugung eines Vektors von Diagnoseergebnissen eines perfekten Referenzstandards C  (3) Simulation der Diagnosen von Test A und Test B gemäß der vorgegebenen Sensitivitäten und 

Spezifitäten von A und B (siehe beschriebene Simulationsmethodik)  (4) Simulation der Verifikation (siehe beschriebene Simulationsmethodik) 

(5) Eliminierung der Ergebnisse des Goldstandards C für nicht‐verifizierte Patienten  (6) Erstellung der Diagnosen eines differentiellen Referenzstandards D 

(7) Berechnung der interessierenden Kenngrößen   

(8) Berechnung der Evaluationskriterien für jedes Simulationsszenario 

(9) Deskriptive Analyse der  mittleren Schätzer und  der  Evaluationskriterien über  verschiedene  gruppierte Simulationsszenarien hinweg 

 

Tabelle 3: Visualisierter Simulationsdatensatz (beispielhaft für Sensitivität) 

(2) Theoretische Diagnose Goldstandard C  (3a‐stetig) Diagnose Test A  (3b‐stetig) Diagnose Test B  (3a‐binär) Diagnose Test A  (3b‐binär) Diagnose Test B  (4‐stetig) Verifikationsentscheidung  (4‐binär) Verifikationsentscheidung  (5) Verfügbare Diagnose Goldstandard C   (6) Diagnose  Referenzstandard D 

1  0.8033  2.3347  1  1  0.6420  1  1  1 

1  1.2093  0.6951  1  1  0.0288  0  .  1 

1  2.0477  2.1599  1  1  0.9904  1  1  1 

1  ‐0.1036  0.4845  0  1  0.3409  1  1  1 

1  1.6891  2.1185  1  1  0.7478  1  1  1 

1  2.2817  2.1804  1  1  0.3959  0  .  1 

1  0.4585  ‐0.4644  1  0  0.8443  1  1  1 

1  2.2676  1.7444  1  1  0.0982  0  .  1 

1  1.8108  1.5085  1  1  0.9690  1  1  1 

1  1.0407  1.4415  1  1  0.4518  1  1  1 

1  2.4508  1.7972  1  1  0.1717  0  .  1 

1  ‐0.2645  ‐0.9771  0  0  0.2321  0  .  0 

1  1.5922  0.8680  1  1  0.6600  1  1  1 

:  :  :  :  :  :  :  :  : 

:  :  :  :  :  :  :  :  : 

 

2.3.2. Evaluationskriterien der Simulationsstudien 

In den zwei durchgeführten Simulationsstudien wurden auf Basis der simulierten Datensätze eines  einzelnen Szenarios verschiedene Kriterien zur Evaluation des Szenarios berechnet. Dabei wurden der  Bias, der Mean Squared Error (MSE), die Überdeckungswahrscheinlichkeit (Coverage) und die Power  betrachtet. Die zum Einsatz kommenden Kriterien waren dabei abhängig vom Anwendungsbeispiel.  

Das wichtigste Bewertungskriterium bezüglich der Schätzung einer Kenngröße ist der Bias. Der Bias  gibt die mittlere Abweichung der geschätzten Werte vom wahren Wert an, man spricht auch von der  Verzerrung des Schätzers. Der Bias berechnet sich als  

Bias β β, 

wobei β  der  wahre  Wert  ist  (der  im  Rahmen  der  Simulation  bekannt  ist)  und β ∑ β B⁄   der  arithmetische  Mittelwert  der  Kenngröße  über  alle  Simulationsläufe  hinweg  (B  ist  die  Anzahl  an 

Simulationsläufen und β die geschätzte Kenngröße aus dem i‐ten Simulationslauf) (Burton, 2006). Ein  geeignetes, gutes Schätzverfahren erzeugt einen erwartungstreuen Schätzer mit einem Bias von 0. 

Ergibt sich ein negativer Bias, so wird der wahre Wert im Mittel unterschätzt. Ist der Bias größer als 0,  so wird der wahre Wert im Mittel überschätzt. 

Doch auch wenn der Bias 0 beträgt, kann nicht zwangsläufig davon ausgegangen werden, dass ein  einzelner,  sich  realisierender  Schätzer  den  wahren  Wert  nicht  doch  stark  über‐  oder  unterschätzt. 

Unter Umständen liegen die erhaltenen Schätzer aus den verschiedenen Simulationsdatensätzen im  Mittel genau um den wahren Wert herum, jedoch ist die Variabilität der Schätzer so hoch, dass starke  Abweichungen nach oben und unten auftreten.  

Daher wird mit dem Mean Squared Error (MSE) ein zusätzliches Evaluationskriterium herangezogen,  welches den Bias sowie die Variabilität des Schätzers berücksichtigt. Der MSE ist mit  

MSE β β SE β  

die Summe aus dem quadrierten Bias und der quadrierten Standardabweichung des Schätzers, also  dem quadrierten Standardfehler (Burton, 2006). Der Standardfehler ist dabei gegeben durch SE β

∑ β β B 1 . Der MSE hat einen Wertebereich von [0,). Es wird ein möglichst niedriger  MSE  angestrebt,  da  eine  niedrige  mittlere  Abweichung  des  Schätzers  bei  gleichzeitiger  geringer  Streuung wünschenswert ist. Aufgrund der Kombination dieser beiden wichtigsten Eigenschaften eines  Schätzers,  wird  auch  davon  gesprochen,  dass  der  MSE  insgesamt  die  Genauigkeit  (die  sogenannte 

„accuracy“) eines Schätzers widergibt. 

In Hinblick darauf, dass nicht nur eine gute, unverzerrte (Punkt‐) Schätzung der Kenngrößen sondern  auch  eine  verlässliche  Bereichsschätzung  und  entsprechende  inferentielle  Statistik  von  großer  Relevanz sind, wurden neben Bias und MSE außerdem die Überdeckungswahrscheinlichkeit und die  Power als Evaluationskriterien in Betracht gezogen.  

Als empirische Überdeckungswahrscheinlichkeit (Coverage) bezeichnet man die Wahrscheinlichkeit,  dass ein berechnetes (1‐α)‐Konfidenzintervall den wahren Wert der Kenngröße überdeckt. Es handelt  sich im Rahmen einer Simulationsstudie um die Rate derjenigen Konfidenzintervalle, die die wahre  Kenngröße beinhalten. Die Überdeckungswahrscheinlichkeit wird also bestimmt, indem die Anzahl der  Simulationsläufe mit „erfolgreichen“ Konfidenzintervallen, die die Kenngröße überdecken, durch die  Gesamtanzahl an Simulationsläufen geteilt wird (Burton, 2006): 

Coverage ∑ 𝕀

B  

Dabei ist 𝕀 eine Indikatorfunktion, die 1 ist, wenn der wahre Parameter β im (1‐ α)‐Konfidenzintervall  enthalten  ist  und  0  wenn  die  vorgenannte  Bedingung  nicht  erfüllt  ist.  Die  Überdeckungswahrscheinlichkeit  liegt  zwischen  0  und  100%  und  sollte  dem  nominalen  Level  1‐α  entsprechen. Im Rahmen dieser Arbeit wurde stets mit einem Signifikanzniveau von α=5% gearbeitet,  so dass eine Coverage von 95% anvisiert wird.  

Die Überdeckungswahrscheinlichkeit lässt Rückschlüsse über die Güte der Bereichsschätzung zu. Da  Konfidenzintervalle  jedoch  nicht  nur  deskriptiv  einen  Vertrauensbereich  angeben  sondern  auch  konfirmatorisch  zur  Hypothesentestung  verwendet  werden  können,  geht  die  Interpretation  der  Überdeckungswahrscheinlichkeit noch weiter. Bei einer geringeren Coverage als 1‐α wird der erlaubte  Fehler 1. Art (also die Wahrscheinlichkeit einer Ablehnung der Nullhypothese obwohl diese richtig ist)  verletzt ((L. M. Collins, 2001). Eine höhere Coverage geht zwar mit einer Einhaltung des erlaubten  Fehlers 1. Art einher. Sie deutet aber darauf hin, dass der Fehler 2. Art (also die Wahrscheinlichkeit  einer  ausbleibenden  Ablehnung  der  falschen  Nullhypothese)  erhöht  und  somit  die  Power  zum  Nachweis einer Hypothese verringert ist. 

Die Power eines statistischen Tests ist definiert als die Wahrscheinlichkeit, eine falsche Nullhypothese  korrekterweise zugunsten der in Wahrheit richtigen Alternativhypothese zu verwerfen. Es besteht ein  direkter  Zusammenhang  zum  Fehler  2.  Art    in  der  Form,  dass  es  sich  um  die  entsprechende  Gegenwahrscheinlichkeit  handelt  (Power  =  1  –  Fehler  2.  Art).  Während  der  Fehler  1.  Art  über  die  Festlegung des Signifikanzniveaus kontrolliert wird, kann der Fehler 2. Art und damit die Power nur  über  die  Festlegung  einer  adäquaten  Fallzahl  reguliert  werden.  Im  Rahmen  statistischer  Methodenforschung  zeigt  sich  häufig,  dass  für  eine  bestimmte  auszuwertende  Fragestellung  verschiedene geeignete Auswertungsmethoden eine unterschiedlich hohe Power aufweisen. In der  späteren Praxis sind Verfahren zu bevorzugen, die unter Einhaltung des Fehlers 1. Art eine möglichst  hohe Power bieten und damit bei vorgegebener zu erreichender Power zu niedrigeren erforderlichen  Fallzahlen führen. In Fallzahlabschätzungen von klinischen Studien wird die zu erreichende Power auf  einen Wert festgelegt (häufig 80% oder 90%). Basierend auf dem primären Auswertungsverfahren und  der  erwarteten  Effektgröße  wird  die  Fallzahl  berechnet,  die  voraussichtlich  zum  Erreichen  der  festgelegten Power notwendig ist.  

 

2.3.3. Deskriptive Analyse der Simulationsstudien 

Nach der Simulation eines einzelnen Datensatzes aus einem bestimmten Simulationsszenario wurden  zunächst Schätzer für die interessierenden Kenngrößen aus dem Datensatz berechnet. Im nächsten  Schritt  wurden  die  Schätzer  aus  den  wiederholten  Datensätzen  eines  bestimmten  Simulationsszenarios deskriptiv ausgewertet und – sofern von Interesse – die Evaluationskriterien über  alle Schätzer eines Szenarios berechnet. Anschließend wurden über alle Szenarien hinweg Mittelwerte  für die Evaluationskriterien gebildet, um eine erste Gesamtaussage zu erhalten. Zusätzlich wurden die  Ergebnisse stratifiziert nach den verschiedenen Simulationsparametern ausgewertet. Zur graphischen  Veranschaulichung der Ergebnisse wurden Boxplots und Flowcharts verwendet. In den Boxplots sind  die Mediane sowie (als Enden der Box) die Quartile dargestellt. Die Whisker gehen bis zum extremsten  beobachteten Datenpunkt, der nicht mehr als 1,5∙Interquartilsabstand vom entsprechenden Quartil  entfernt ist. Außerhalb der Whisker liegende Werte sind als Punkte dargestellt. Alle Simulationen und  Auswertungen erfolgten im Statistikprogramm R 3.1.2 (R Core Team, 2014).   

3. Verifikationsbias  bei  neurodegenerativen  Erkrankungen  mit