2. METHODEN
2.3. Design und Auswertung der angewandten Simulationsstudien
2.3. Design und Auswertung der angewandten Simulationsstudien
Im Rahmen dieser Arbeit wurden zwei Simulationsstudien durchgeführt. In Simulationsstudien werden Datensätze unter kontrollierten, realitätsnahen Bedingungen künstlich erzeugt. Die Bedingungen (also z.B. die wahre Sensitivität und Spezifität eines bestimmten Tests) werden dabei vorher festgelegt und sind somit bekannt. Nach Erzeugung und Auswertung eines künstlichen Datensatzes kann zum Beispiel die Abweichung von dem aus dem Datensatz geschätzten Kennwert zum festgelegten wahren Wert ermittelt werden. Unter einer bestimmten Kombination von Bedingungen, man spricht auch von einem Simulations‐Szenario, werden wiederholte Datensätze erzeugt. In der Regel werden dabei 5000 oder 10000 solcher Wiederholungen (sogenannte Simulationsläufe) pro Szenario durchgeführt. So lässt sich unter anderem untersuchen, in welchem Ausmaß und mit welcher Variabilität es zu Abweichungen vom wahren Kennwert kommt.
Die Simulationsstudien wurden in zwei speziellen medizinischen Anwendungsbereichen (Creutzfeldt‐
Jakob‐Krankheit und chronische thromboembolische pulmonale Hypertonie) durchgeführt. Während die eine Studie auf die Quantifizierung der auftretenden Verzerrungen fokussiert, zielt die andere Studie primär darauf ab, eine robuste Fallzahlplanung unter differentiellen Verifikationsbedingungen zu gewährleisten. Obwohl die Indikationsgebiete und Simulationsstudienziele unterschiedlich sind, ist im Grundsatz das gleiche Simulationsdesign verwendet worden.
2.3.1. Grundlegendes Design der Simulationsstudien In beiden Simulationsstudien ging es jeweils um die Anwendung
(a) eines zu bewertenden diagnostischen Tests A,
(b) eines weiteren diagnostischen Tests B, der bisher als Standard verwendet wurde, und (c) des diagnostischen Referenzstandards C, der nicht immer durchgeführt wird, sowie (d) eines differentiellen Referenzstandards D, der C und ein alternatives Verfahren nutzt
Den Simulationen lag ein „within‐subject“ Studiendesign für Diagnosestudien zugrunde, welches – sofern ethisch vertretbar – das bevorzugte Design in Diagnosestudien darstellt (Bossuyt, 2006; EMA, 2009). Im within‐subject Studiendesign werden bei allen Individuen alle diagnostischen Tests angewendet. Grundsätzlich wird auch der Referenzstandard für alle Patienten erhoben.
In den Simulationsdatensätzen sind für alle Patienten zunächst alle Informationen verfügbar: die Ergebnisse der Tests A und B sowie des schwer erhebbaren Referenzstandards C und des differentiellen Referenzstandards D. In der Auswertung der simulierten Daten wurden die Ergebnisse von C jedoch nur partiell verwendet, um widerzuspiegeln, dass für einige Patienten der Referenzstandard nicht verfügbar ist. Die Auswirkungen davon sind primärer Forschungsgegenstand der Arbeit. Die Entscheidung über die Durchführung des Referenzstandards C hängt von den Testergebnissen der Tests A und B ab. Beim differentiellen Referenzstandard D handelt es sich um einen kombinierten Referenzstandard, der für jeden Patienten die bestmögliche Information nutzt, d.h. das Ergebnis von C falls verfügbar und das Ergebnis eines anderen definierten Referenzverfahrens, falls C nicht verfügbar ist. Referenzstandard D ermöglicht die Verwendung von allen Patienten in der Auswertung.
Anhand der festgelegten Gesamtfallzahl (N) und der festgelegten Prävalenz der Erkrankung (prev) wurden die Stichprobengrößen für den Datensatz der in Wahrheit Erkrankten und für den Datensatz der in Wahrheit Nicht‐Erkrankten berechnet. Anschließend wurden separate Datensätze dieser Stichprobengrößen erzeugt. Die Datensätze zur Sensitivität und zur Spezifität wurden also getrennt voneinander simuliert.
In beiden Fällen wurden die Daten mithilfe einer bivariaten, verschobenen Standardnormalverteilung simuliert. Bivariat bezieht sich dabei darauf, dass die Testergebnisse der Tests A und B aus einer gemeinsamen Verteilung simuliert wurden. Die Varianzen wurden als σ=1 angenommen. Die Korrelation (korrA,B) zwischen dem zu bewertenden diagnostischen Test A und dem weiteren diagnostischen Test B konnte im Rahmen der Simulationen auf verschiedene Werte eingestellt werden. Als Mittelwerte der bivariaten Normalverteilung wurden die Standardnormalverteilungs‐
Quantile der jeweiligen Sensitivitäten von A und B (uSens) bzw. der Spezifitäten (uSpez) verwendet.
Insgesamt heißt das, es wurden Zahlen aus folgenden Verteilungen simuliert:
Stetige Zahlen im Datensatz zur Sensitivität: 𝑋 („erkrankt“ im Datensatz zur Sensitivität und „nicht‐erkrankt“ im Datensatz zur Spezifität). Die Ergebnisse des Referenzstandards C wurden im Rahmen der Simulationsstudien nicht simuliert, sondern der wahre Zustand des Patienten wurde als Ergebnis des Referenzstandards C übertragen. Es wurde also ohne Beschränkung der Allgemeinheit von einem perfekten Goldstandard ausgegangen, um die Simulationsergebnisse klarer und fokussierter interpretieren zu können.
Im weiteren Verlauf der Simulation wurde basierend auf gleichverteilten Zufallszahlen die Verifikation der Testergebnisse durch den Referenzstandard C simuliert. Es wurden dabei in verschiedenen definierten Subgruppen von Patienten Zahlen aus einer [0,1]‐Gleichverteilung gezogen und an verschiedenen Cutpoints dichotomisiert (mit 0=nicht‐verifiziert und 1=verifiziert). Die Cutpoints waren Subgruppen‐spezifisch und waren abhängig von der Gesamtwahrscheinlichkeit einer Verifikation sowie von den konkreten Ergebnissen der Tests A und B (zum Beispiel höhere Verifikationswahrscheinlichkeit bei positiven Testergebnissen).
Zuletzt wurde die Diagnose eines differentiellen Referenzstandards D in den Datensatz eingefügt.
Hierzu war kein Simulationsprozess erforderlich. Es wurden für verifizierte Patienten die Ergebnisse des Referenzstandards C übertragen. Für nicht‐verifizierte Patienten gab es – je nach Anwendungsbeispiel – eine klare Regelung, welche Information andernfalls als Diagnose eingetragen werden soll (z.B. das Ergebnis von Test B, falls C nicht verfügbar).
Der Ablauf der Datensimulation lässt sich wie folgt zusammenfassen:
(1) Festlegung der Gesamtfallzahl, der Prävalenz und damit der zu simulierenden Stichprobengröße des Sensitivitäts‐ und des Spezifitätsdatensatzes
(2) Erzeugung eines Vektors von Diagnoseergebnissen eines perfekten Referenzstandards C (3) Simulation der Diagnosen von Test A und Test B gemäß der vorgegebenen Sensitivitäten und
Spezifitäten von A und B (siehe beschriebene Simulationsmethodik) (4) Simulation der Verifikation (siehe beschriebene Simulationsmethodik)
(5) Eliminierung der Ergebnisse des Goldstandards C für nicht‐verifizierte Patienten (6) Erstellung der Diagnosen eines differentiellen Referenzstandards D
(7) Berechnung der interessierenden Kenngrößen
(8) Berechnung der Evaluationskriterien für jedes Simulationsszenario
(9) Deskriptive Analyse der mittleren Schätzer und der Evaluationskriterien über verschiedene gruppierte Simulationsszenarien hinweg
Tabelle 3: Visualisierter Simulationsdatensatz (beispielhaft für Sensitivität)
(2) Theoretische Diagnose Goldstandard C (3a‐stetig) Diagnose Test A (3b‐stetig) Diagnose Test B (3a‐binär) Diagnose Test A (3b‐binär) Diagnose Test B (4‐stetig) Verifikationsentscheidung (4‐binär) Verifikationsentscheidung (5) Verfügbare Diagnose Goldstandard C (6) Diagnose Referenzstandard D
1 0.8033 2.3347 1 1 0.6420 1 1 1
1 1.2093 0.6951 1 1 0.0288 0 . 1
1 2.0477 2.1599 1 1 0.9904 1 1 1
1 ‐0.1036 0.4845 0 1 0.3409 1 1 1
1 1.6891 2.1185 1 1 0.7478 1 1 1
1 2.2817 2.1804 1 1 0.3959 0 . 1
1 0.4585 ‐0.4644 1 0 0.8443 1 1 1
1 2.2676 1.7444 1 1 0.0982 0 . 1
1 1.8108 1.5085 1 1 0.9690 1 1 1
1 1.0407 1.4415 1 1 0.4518 1 1 1
1 2.4508 1.7972 1 1 0.1717 0 . 1
1 ‐0.2645 ‐0.9771 0 0 0.2321 0 . 0
1 1.5922 0.8680 1 1 0.6600 1 1 1
: : : : : : : : :
: : : : : : : : :
2.3.2. Evaluationskriterien der Simulationsstudien
In den zwei durchgeführten Simulationsstudien wurden auf Basis der simulierten Datensätze eines einzelnen Szenarios verschiedene Kriterien zur Evaluation des Szenarios berechnet. Dabei wurden der Bias, der Mean Squared Error (MSE), die Überdeckungswahrscheinlichkeit (Coverage) und die Power betrachtet. Die zum Einsatz kommenden Kriterien waren dabei abhängig vom Anwendungsbeispiel.
Das wichtigste Bewertungskriterium bezüglich der Schätzung einer Kenngröße ist der Bias. Der Bias gibt die mittlere Abweichung der geschätzten Werte vom wahren Wert an, man spricht auch von der Verzerrung des Schätzers. Der Bias berechnet sich als
Bias β β,
wobei β der wahre Wert ist (der im Rahmen der Simulation bekannt ist) und β ∑ β B⁄ der arithmetische Mittelwert der Kenngröße über alle Simulationsläufe hinweg (B ist die Anzahl an
Simulationsläufen und β die geschätzte Kenngröße aus dem i‐ten Simulationslauf) (Burton, 2006). Ein geeignetes, gutes Schätzverfahren erzeugt einen erwartungstreuen Schätzer mit einem Bias von 0.
Ergibt sich ein negativer Bias, so wird der wahre Wert im Mittel unterschätzt. Ist der Bias größer als 0, so wird der wahre Wert im Mittel überschätzt.
Doch auch wenn der Bias 0 beträgt, kann nicht zwangsläufig davon ausgegangen werden, dass ein einzelner, sich realisierender Schätzer den wahren Wert nicht doch stark über‐ oder unterschätzt.
Unter Umständen liegen die erhaltenen Schätzer aus den verschiedenen Simulationsdatensätzen im Mittel genau um den wahren Wert herum, jedoch ist die Variabilität der Schätzer so hoch, dass starke Abweichungen nach oben und unten auftreten.
Daher wird mit dem Mean Squared Error (MSE) ein zusätzliches Evaluationskriterium herangezogen, welches den Bias sowie die Variabilität des Schätzers berücksichtigt. Der MSE ist mit
MSE β β SE β
die Summe aus dem quadrierten Bias und der quadrierten Standardabweichung des Schätzers, also dem quadrierten Standardfehler (Burton, 2006). Der Standardfehler ist dabei gegeben durch SE β
∑ β β B 1 . Der MSE hat einen Wertebereich von [0,). Es wird ein möglichst niedriger MSE angestrebt, da eine niedrige mittlere Abweichung des Schätzers bei gleichzeitiger geringer Streuung wünschenswert ist. Aufgrund der Kombination dieser beiden wichtigsten Eigenschaften eines Schätzers, wird auch davon gesprochen, dass der MSE insgesamt die Genauigkeit (die sogenannte
„accuracy“) eines Schätzers widergibt.
In Hinblick darauf, dass nicht nur eine gute, unverzerrte (Punkt‐) Schätzung der Kenngrößen sondern auch eine verlässliche Bereichsschätzung und entsprechende inferentielle Statistik von großer Relevanz sind, wurden neben Bias und MSE außerdem die Überdeckungswahrscheinlichkeit und die Power als Evaluationskriterien in Betracht gezogen.
Als empirische Überdeckungswahrscheinlichkeit (Coverage) bezeichnet man die Wahrscheinlichkeit, dass ein berechnetes (1‐α)‐Konfidenzintervall den wahren Wert der Kenngröße überdeckt. Es handelt sich im Rahmen einer Simulationsstudie um die Rate derjenigen Konfidenzintervalle, die die wahre Kenngröße beinhalten. Die Überdeckungswahrscheinlichkeit wird also bestimmt, indem die Anzahl der Simulationsläufe mit „erfolgreichen“ Konfidenzintervallen, die die Kenngröße überdecken, durch die Gesamtanzahl an Simulationsläufen geteilt wird (Burton, 2006):
Coverage ∑ 𝕀 ∈ ∝
B
Dabei ist 𝕀 eine Indikatorfunktion, die 1 ist, wenn der wahre Parameter β im (1‐ α)‐Konfidenzintervall enthalten ist und 0 wenn die vorgenannte Bedingung nicht erfüllt ist. Die Überdeckungswahrscheinlichkeit liegt zwischen 0 und 100% und sollte dem nominalen Level 1‐α entsprechen. Im Rahmen dieser Arbeit wurde stets mit einem Signifikanzniveau von α=5% gearbeitet, so dass eine Coverage von 95% anvisiert wird.
Die Überdeckungswahrscheinlichkeit lässt Rückschlüsse über die Güte der Bereichsschätzung zu. Da Konfidenzintervalle jedoch nicht nur deskriptiv einen Vertrauensbereich angeben sondern auch konfirmatorisch zur Hypothesentestung verwendet werden können, geht die Interpretation der Überdeckungswahrscheinlichkeit noch weiter. Bei einer geringeren Coverage als 1‐α wird der erlaubte Fehler 1. Art (also die Wahrscheinlichkeit einer Ablehnung der Nullhypothese obwohl diese richtig ist) verletzt ((L. M. Collins, 2001). Eine höhere Coverage geht zwar mit einer Einhaltung des erlaubten Fehlers 1. Art einher. Sie deutet aber darauf hin, dass der Fehler 2. Art (also die Wahrscheinlichkeit einer ausbleibenden Ablehnung der falschen Nullhypothese) erhöht und somit die Power zum Nachweis einer Hypothese verringert ist.
Die Power eines statistischen Tests ist definiert als die Wahrscheinlichkeit, eine falsche Nullhypothese korrekterweise zugunsten der in Wahrheit richtigen Alternativhypothese zu verwerfen. Es besteht ein direkter Zusammenhang zum Fehler 2. Art in der Form, dass es sich um die entsprechende Gegenwahrscheinlichkeit handelt (Power = 1 – Fehler 2. Art). Während der Fehler 1. Art über die Festlegung des Signifikanzniveaus kontrolliert wird, kann der Fehler 2. Art und damit die Power nur über die Festlegung einer adäquaten Fallzahl reguliert werden. Im Rahmen statistischer Methodenforschung zeigt sich häufig, dass für eine bestimmte auszuwertende Fragestellung verschiedene geeignete Auswertungsmethoden eine unterschiedlich hohe Power aufweisen. In der späteren Praxis sind Verfahren zu bevorzugen, die unter Einhaltung des Fehlers 1. Art eine möglichst hohe Power bieten und damit bei vorgegebener zu erreichender Power zu niedrigeren erforderlichen Fallzahlen führen. In Fallzahlabschätzungen von klinischen Studien wird die zu erreichende Power auf einen Wert festgelegt (häufig 80% oder 90%). Basierend auf dem primären Auswertungsverfahren und der erwarteten Effektgröße wird die Fallzahl berechnet, die voraussichtlich zum Erreichen der festgelegten Power notwendig ist.
2.3.3. Deskriptive Analyse der Simulationsstudien
Nach der Simulation eines einzelnen Datensatzes aus einem bestimmten Simulationsszenario wurden zunächst Schätzer für die interessierenden Kenngrößen aus dem Datensatz berechnet. Im nächsten Schritt wurden die Schätzer aus den wiederholten Datensätzen eines bestimmten Simulationsszenarios deskriptiv ausgewertet und – sofern von Interesse – die Evaluationskriterien über alle Schätzer eines Szenarios berechnet. Anschließend wurden über alle Szenarien hinweg Mittelwerte für die Evaluationskriterien gebildet, um eine erste Gesamtaussage zu erhalten. Zusätzlich wurden die Ergebnisse stratifiziert nach den verschiedenen Simulationsparametern ausgewertet. Zur graphischen Veranschaulichung der Ergebnisse wurden Boxplots und Flowcharts verwendet. In den Boxplots sind die Mediane sowie (als Enden der Box) die Quartile dargestellt. Die Whisker gehen bis zum extremsten beobachteten Datenpunkt, der nicht mehr als 1,5∙Interquartilsabstand vom entsprechenden Quartil entfernt ist. Außerhalb der Whisker liegende Werte sind als Punkte dargestellt. Alle Simulationen und Auswertungen erfolgten im Statistikprogramm R 3.1.2 (R Core Team, 2014).