• Keine Ergebnisse gefunden

Auswirkungen von partieller und differentieller Verifikation des Krankheitsstatus auf die Planung und Auswertung von Diagnosestudien

N/A
N/A
Protected

Academic year: 2022

Aktie "Auswirkungen von partieller und differentieller Verifikation des Krankheitsstatus auf die Planung und Auswertung von Diagnosestudien"

Copied!
106
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Medizinische Hochschule Hannover 

Institut für Biometrie   

     

Auswirkungen von partieller und differentieller Verifikation des    Krankheitsstatus auf die Planung und Auswertung von Diagnosestudien 

     

INAUGURAL‐DISSERTATION   

zur Erlangung des Grades einer Doktorin der Naturwissenschaften 

‐ Doctor rerum naturalium ‐  (Dr. rer. nat.) 

       

vorgelegt von     

Annika Karch, geb. Müller‐Heine     

aus Wolfsburg      

   

Hannover 2020   

   

(2)

 Angenommen durch den Senat:   01.06.2021    

  Präsident:      Prof. Dr. med. Michael Manns  Wissenschaftliche Betreuung:    Prof. Dr. sc. hum. Armin Koch   Wissenschaftliche Zweitbetreuung:    Prof. Dr. med. Wilfried Gwinner   

 

1. Referent/in:     Prof. Dr. sc. hum. Armin Koch   2. Referent/in:    Prof. Dr. med. Wilfried Gwinner  3. Referent/in:     Prof. Dr. med. Bernhard Schmidt   

 

Tag der mündlichen Prüfung:    01.06.2021   

Prüfungsausschuss 

Vorsitz:    Prof. Dr. rer. nat. Falk Büttner  1. Prüfer/in:   Prof. Dr. sc. hum. Armin Koch   2. Prüfer/in:   Prof. Dr. med. Wilfried Gwinner  3. Prüfer/in:   Prof. Dr. med. Bernhard Schmidt    

(3)

Inhaltsverzeichnis 

1.  EINLEITUNG ... 1 

1.1.  Bias in Diagnosestudien ... 1 

1.2.  Motivation ... 4 

1.3.  Forschungsziele ... 5 

1.4.  Gliederung dieser Arbeit ... 5 

2.  METHODEN ... 7 

2.1.  Kontext der beschriebenen Methoden ... 7 

2.2.  Statistische Methoden und Bias in Diagnosestudien ... 7 

2.2.1.  Sensitivität und Spezifität mit 95%‐Konfidenzintervallen ... 7 

2.2.2.  Verifikationsbias ... 9 

2.2.3.  Inkorporationsbias ... 14 

2.3.  Design und Auswertung der angewandten Simulationsstudien ... 15 

2.3.1.  Grundlegendes Design der Simulationsstudien ... 16 

2.3.2.  Evaluationskriterien der Simulationsstudien ... 18 

2.3.3.  Deskriptive Analyse der Simulationsstudien ... 20 

3.  VERIFIKATIONSBIAS BEI NEURODEGENERATIVEN ERKRANKUNGEN MIT AUTOPSIE ALS  REFERENZSTANDARD ... 21 

3.1.  Diagnosestellung bei neurodegenerativen Erkrankungen ... 21 

3.2.  Anwendungsbeispiel: Diagnose von Creutzfeldt‐Jakob Krankheit (CJK) ... 22 

3.3.  Motivation einer Simulationsstudie für das Beispiel CJK ... 24 

3.4.  Simulation zur Quantifizierung des Bias ... 27 

3.5.  Ergebnisse ... 30 

3.5.1.  Gesamtergebnisse über alle Simulationsszenarien ... 30 

3.5.2.  Ergebnisse eines einzelnen Simulationsszenarios S1 ... 31 

3.5.3.  Einfluss der verschiedenen Simulationsparameter ... 34 

3.5.3.1.  Bias im Autopsie‐Studiendesign ... 35 

3.5.3.2.  Bias im ZGS‐Studiendesign ... 36 

3.5.3.3.  Bias im BEST‐Studiendesign ... 38 

3.6.  Zusammenfassung der Ergebnisse ... 39 

4.  VERIFIKATIONSBIAS BEI PRÄTESTS VOR INVASIVEN REFERENZSTANDARDS ... 41 

4.1.  Diagnosestellung bei invasiven Referenzstandards ... 41 

4.2.  Anwendungsbeispiel: Diagnose von chronisch thromboembolischer pulmonaler Hypertonie  (CTEPH) ... 43 

4.3.  Motivation einer Simulationsstudie für das Beispiel CTEPH ... 45 

4.4.  Simulation zur Abschätzung des Bias und der benötigten Fallzahl ... 48 

4.5.  Ergebnisse ... 51 

4.5.1.  Mittlere Häufigkeitsverteilung zur Unterstützung der Studienplanung ... 51 

4.5.2.  Bias der Sensitivität und Spezifität ... 53 

4.5.3.  Schlussfolgerung für die Studienplanung ... 54 

4.6.  Zusammenfassung der Ergebnisse ... 55 

(4)

5.  DISKUSSION ... 56 

6.  LITERATURVERZEICHNIS... 71 

7.  ANHANG ... 80 

LEBENSLAUF ... 90 

WISSENSCHAFTLICHE PUBLIKATIONEN ... 91 

PUBLIKATIONEN VON TEILERGEBNISSEN ... 95   

   

(5)

Tabellenverzeichnis 

Tabelle 1: Diagnostische Vierfeldertafel ... 7 

Tabelle 2: Richtung des Bias bei verschiedenen Szenarien differentieller Verifikation ... 13 

Tabelle 3: Visualisierter Simulationsdatensatz (beispielhaft für Sensitivität) ... 18 

Tabelle 4: Elemente im zusammengesetzten Referenzstandard der Creutzfeldt‐Jakob Krankheit ... 22 

Tabelle 5: Übersicht der möglichen Referenzstandards für CJK und zugehörige Problematik ... 26 

Tabelle 6: Simulationsparameter und zugehörige Einstellungen in der CJK‐Simulation ... 27 

Tabelle 7: Mittelwerte von Bias, Mean Squared Error (MSE) und Coverage für alle CJK‐ Simulationsszenarien ... 30 

Tabelle 8: Übersicht des beobachteten Bias unter möglichen Referenzstandards für CJK ... 40 

Tabelle 9: Simulationsparameter und zugehörige Einstellungen in der CTEPH‐Simulation ... 49 

Tabelle 10: Häufigkeitsverteilung in der CTEPH‐Simulation bei Korrelation 0.2 ... 51 

Tabelle 11: Häufigkeitsverteilung in der CTEPH‐Simulation bei Korrelation 0.5 ... 51 

Tabelle 12: Häufigkeitsverteilung in der CTEPH‐Simulation bei Korrelation 0.8 ... 51 

Tabelle 13: Konkordanz und Anteil der doppelt‐negativen Diagnosen ... 52 

Tabelle 14: Schätzung der primären Endpunkte der CHANGE‐MRI Studie ... 53   

 

   

(6)

Abbildungsverzeichnis 

Abbildung 1: Diagnosestudie mit (A) vollständiger Verifikation, (B) partieller Verifikation und (C) 

differentieller Verifikation (adaptiert nach (Rutjes, 2007)) ... 3 

Abbildung 2: Ergebnis zweier Reviews zum Einfluss von partieller und differentieller Verifikation .... 12 

Abbildung 3: Kriterien zur Diagnose der Creutzfeldt‐Jakob Krankheit ... 23 

Abbildung 4: Anzahl der Verdachtsfälle und der bestätigten Fälle von CJK ... 24 

Abbildung 5: (1) Bias der Sensitivitäten und (2) Bias der Spezifitäten von 14‐3‐3 gegen die  verschiedenen Referenzstandards für alle CJK‐Simulationsszenarien ... 30 

Abbildung 6: (1) Geschätzte Sensitivitäten und (2) geschätzte Spezifitäten von 14‐3‐3 gegen die  verschiedenen Referenzstandards in einem konkreten Simulationsszenario S1 ... 32 

Abbildung 7: Flowchart des Patientenflusses in der Diagnose von CJK mit verschiedenen  Referenzstandards ... 33 

Abbildung 8: Einflussgrößen auf den Bias der Spezifität von 14‐3‐3 mit Referenzstandard Autopsie . 35  Abbildung 9: Einflussgrößen auf den Bias der Sensitivität von 14‐3‐3 mit Referenzstandard ZGS ... 36 

Abbildung 10: Multifaktorieller Einfluss auf den Bias der Sensitivität von 14‐3‐3 vs. ZGS ... 36 

Abbildung 11: Einflussgrößen auf den Bias der Spezifität von 14‐3‐3 mit Referenzstandard ZGS ... 38 

Abbildung 12: Diagnose von CTEPH (aus der Leitlinie von Galiè et al. 2016) ... 45 

Abbildung 13: Sensitivität und Spezifität des MRT mit den Referenzstandards ANGIO und BEST ... 54 

Abbildung 14: Auswirkung der diskordanten Verifikation in der CJK‐Simulation ... 58   

   

(7)

Abkürzungsverzeichnis 

 

ALS  Amyotrophe Lateralsklerose 

ANGIO  Angiographie 

ASPIRE  CTEPH‐Register  “Assessing  the  Spectrum  of  Pulmonary  hypertension  Identified at a REferral centre” 

BEST  Bestmöglich verfügbarer (differentieller) Referenzstandard  CHANGE‐MRI  Diagnosestudie „CTEPH diagnosis Europe – MRI“ 

CJK  Creutzfeldt‐Jakob Krankheit 

Chronische PE  Chronische Lungenembolien (pulmonary embolism)  CTEPH  Chronisch thromboembolische pulmonale Hypertonie 

DOR  Diagnostisches Odds Ratio 

DZL  Deutsches Zentrum für Lungenerkrankungen 

EEG  Elektroenzephalogramm 

EMA  European Medicines Agency 

FDA  Food and Drug Administration  GEE  Generalized estimating equations 

KI  Konfidenzintervall 

PEA  Pulmonale Endarteriektomie 

PH  Pulmonale Hypertonie 

MAR  Missing at random 

MCAR  Missing completely at random 

MNAR  Missing not at random 

ML  Maximum‐Likelihood 

MRT  Magnetresonanztomographie 

MSE  Mean Squared Error 

NRZ‐TSE  Nationales  Referenzzentrum  für  die  Surveillance  Transmissibler  Spongiformer Enzephalopation 

QUADAS  Initiative “Quality Assessment of Diagnostic Accuracy Studies” 

RDOR  Relatives Diagnostisches Odds Ratio 

Ref.  Referenzstandard 

Ref.standard  Referenzstandard 

rTPR  Relative True Positive Rate  rFPR  Relative False Positive Rate 

sCJK  Sporadische Creutzfeldt‐Jakob Krankheit 

Sens  Sensitivität 

Spez  Spezifität 

STARD  Initiative “Standards for Reporting of Diagnostic Accuracy Studies” 

VQ‐SPECT  Ventilation/Perfusion‐ Einzelphotonen Emissions‐Computertomography  

WHO  World Health Organization 

ZGS  Zusammengesetzter Referenzstandard 

(8)

 

Zusammenfassung 

Annika Karch: Auswirkungen von partieller und differentieller Verifikation des Krankheitsstatus auf  die Planung und Auswertung von Diagnosestudien 

In Diagnosestudien entstehen Verzerrungen, wenn ein Referenzstandard zur Festlegung des wahren  Krankheitsstatus  in  der  Studie  verwendet  wird,  der  nicht  für  alle  Studienteilnehmer  durchgeführt  werden  kann  (z.B.,  weil  er  risikoreich,  belastend  oder  kostenintensiv  ist).  Für  eine  korrekte  Interpretation der Studienergebnisse ist es dabei wichtig, das Ausmaß und die mögliche Richtung der  potentiellen  Verzerrung  zu  berücksichtigen.  Ziel  dieser  Arbeit  war  es  anhand  systematischer  Simulationsstudien  die  zu  erwartenden  Verzerrungen,  die  sich  für  die  Sensitivität  und  Spezifität  in  Abhängigkeit von der Wahl des Umgangs mit fehlenden Werten für den Referenzstandard ergeben,  hinsichtlich Richtung und Stärke zu evaluieren. Zwei klinische Fragestellungen wurden als Motivation  für das Design der konkreten Simulationsstudien herangezogen. 

Zunächst  wurde  auf  Grundlage  einer  Fragestellung  aus  der  Demenzforschung  evaluiert,  welche  Verzerrungen entstehen, wenn ein bereits etablierter, in einen zusammengesetzten Referenzstandard  integrierter  Biomarker  zur  Diagnose  einer  Erkrankung  re‐evaluiert  wird  und  dabei  (i)  gegen  den  tatsächlichen  Referenzstandard  Autopsie,  (ii)  gegen  einen  alternativen,  zusammengesetzten  Referenzstandard („ZGS“) oder (iii) gegen einen differentiellen, aus diesen beiden Referenzstandards  kombinierten Standard („BEST“) verglichen wird. In der Simulationsstudie zeigte sich, dass Spezifitäten  im  Autopsie‐Studiendesign  stark  unterschätzt  (im  Mittel  ‐16%),  im  ZGS‐Studiendesign  hingegen  deutlich  und  im  BEST‐Studiendesign  moderat  überschätzt  werden  (im  Mittel  +11%  bzw.  +6%).  Die  Sensitivitäten sind im Autopsie‐Studiendesign fast unverzerrt, jedoch treten in den beiden anderen  Studiendesigns teilweise massive Verzerrungen der Sensitivität in beide Richtungen auf (bis –25% und  bis +25%). Die wahre diagnostische Güte des Indextests ist dabei ausschlaggebend für die Richtung der  Verzerrung,  wobei  Überschätzungen  bei  niedriger  wahrer  Sensitivität  und  Spezifität  und  Unterschätzungen bei hoher wahrer Sensitivität und Spezifität auftreten.  

In einem zweiten Schritt wurde auf Basis einer klinischen Fragestellung aus der Radiologie evaluiert,  welche Verzerrungen auftreten, wenn in einer Diagnosestudie ein neuartiger Prätest mit einem bereits  etablierten  Prätest  unter  Nutzung  eines  invasiven,  nicht  immer  durchführbaren  Referenzstandards  verglichen wird. Positive Ergebnisse mindestens eines der zu vergleichenden Prätests führten dabei  zur Durchführung des invasiven Referenzstandards, während Patienten mit zwei negativen Prätests  alternativ mittels sechsmonatigem Follow‐Up verifiziert wurden. Zur Unterstützung einer konkreten  Fallzahlplanung  wurden  die  Zellhäufigkeiten  der  diagnostischen  Kontingenztabellen  sowie  die  entstehenden  Verzerrungen  von  Sensitivität  und  Spezifität  und  weiteren  definierten  Studienendpunkten im Rahmen einer Simulationsstudie untersucht. Es konnte gezeigt werden, dass  zwar  ein  profunder  Anteil  an  Patienten  (rund  35%)  „doppelt‐negative“  Prätest‐Ergebnisse  hat  und  damit  nicht  durch  den  invasiven  Referenzstandard  verifiziert  wird.  Die  zentrale  Erkenntnis  der  durchgeführten  Simulation  war  jedoch,  dass  der  Anteil  der  falschen  doppelt‐negativen  Prätest‐

Diagnosen mit maximal 1% aller Patienten in allen Szenarien unbedeutend gering ist. Die definierten 

(9)

primären Endpunkte der Studie sowie die Spezifität können damit auch unter extremen Annahmen  unverzerrt geschätzt werden.  

Die Ergebnisse dieser Arbeit zeigen, dass im Falle systematisch fehlender Werte für den eigentlichen  Referenzstandard kaum allgemeine Rückschlüsse auf die zu erwartenden Verzerrungen für Maßzahlen  der  diagnostischen  Güte  gezogen  werden  können,  sondern  die  jeweilige  Situation  individuell  betrachtet und mit Hilfe von Simulationsstudien evaluiert werden muss, bevor eine Entscheidung zu  Studiendesign, Fallzahlplanung und Analysekonzept getroffen werden kann. 

   

(10)

Summary 

Annika  Karch:  Effects  of  partial  and  differential  verification  of  disease  status  on  the  design  and  analysis of diagnostic studies 

In  diagnostic  studies,  bias  arises  when  the  reference  standard  that  is  used  to  determine  the  true  disease status is not performed for all study participants (e.g. because it is risky, burdensome or costly). 

For a correct interpretation of the study results, it is important to consider the extent and possible  direction of the potential bias. The aim of this thesis was to evaluate the expected bias (in terms of  direction and strength) in sensitivity and specificity dependent on the choice of handling missing values  for the reference standard by means of systematic simulation studies. Two clinical questions were used  as motivation for the design of the concrete simulation studies. 

Firstly, based on a question from dementia research, it was evaluated which biases arise when an  already established biomarker integrated into a composite reference standard is re‐evaluated for the  diagnosis of a disease and compared (i) against the actual reference standard autopsy, (ii) against an  alternative,  composite  reference  standard  ("ZGS")  or  (iii)  against  a  differential  reference  standard  ("BEST") combined from these two reference standards. The simulation study showed that specificities  in the autopsy study design are strongly underestimated (on average ‐16%), whereas they are clearly  overestimated in the ZGS study design and moderately overestimated in the BEST study design (on  average +11% and +6% respectively). The sensitivities are almost unbiased in the autopsy study design,  but in the two other study designs there are massive biases of sensitivity in both directions (up to ‐25% 

and up to +25%). The true diagnostic accuracy of the index test is decisive for the direction of the bias,  with overestimation occurring at low true sensitivity and specificity and underestimation at high true  sensitivity and specificity.  

In a second step, based on a clinical question from radiology, it was evaluated which biases occur when  a novel pretest is compared in a diagnostic study with an already established pretest using an invasive  reference standard that cannot always be performed. Positive results of at least one of the pretests to  be compared lead to the implementation of the invasive reference standard, while patients with two  negative pre‐tests are alternatively verified by a six‐month follow‐up. To support a concrete sample  size planning, the cell frequencies of the diagnostic contingency tables as well as the resulting biases  of sensitivity and specificity (and further defined study endpoints) were investigated in a simulation  study. It could be shown that a profound proportion of patients (about 35%) had "double‐negative" 

pretest results and thus were not verified by the invasive reference standard. However, the central  finding of the simulation study was that the proportion of false double‐negative pretest diagnoses is  low in all scenarios with a maximum of 1% of all patients. The defined primary endpoints of the study  as well as the specificity can thus be estimated without bias even under extreme assumptions.  

The results of this study show that in the case of systematically missing values for the actual reference  standard, it is hardly possible to draw general conclusions about the expected biases for measures of  diagnostic accuracy. Instead, the respective situation must be considered individually and evaluated  with  the  help  of  simulation  studies  before  a  decision  on  study  design,  case  number  planning  and  analysis concept can be made. 

(11)

1. Einleitung 

1.1. Bias in Diagnosestudien 

In  der  öffentlichen  Wahrnehmung  steht  im  Mittelpunkt  der  ärztlichen  Tätigkeit  die  Anwendung  medikamentöser oder nicht‐medikamentöser Verfahren zur Therapie von Erkrankungen. Dies spiegelt  sich auch in der klinischen Forschung wider, in der auf Therapiestudien sowohl regulatorisch als auch  methodisch ein besonderer Fokus gelegt wird. Therapeutische Ansätze können aber nur dann sinnvoll  und wirksam sein, wenn klar ist, welche Personengruppen von der jeweiligen Therapie profitieren und  wenn klar zugeordnet werden kann, ob ein Individuum zu der entsprechenden Personengruppe gehört  oder nicht. Die einfachste Form einer solchen Zuordnung ist die binäre Klassifikation in „erkrankt“ und 

„nicht  erkrankt“  anhand  bestimmter  Charakteristika  und  Testergebnisse.  Dies  wird  als  Diagnosestellung für eine konkrete Zielerkrankung bezeichnet. Die Testergebnisse werden auch als  positiv (für „erkrankt“) bzw. negativ (für „nicht erkrankt“) bezeichnet. Ohne korrekte Diagnosestellung  ist in der Regel keine zielgerichtete, erfolgreiche Therapie der Erkrankung möglich. Es ist daher wichtig,  in der Diagnosestellung mit guten, hochinformativen Kriterien zu arbeiten und sich am Ende dennoch  bewusst zu sein, dass und inwiefern die verwendeten diagnostischen Verfahren Fehlklassifikationen  mit sich bringen können (Worster, 2008). Aus diesem Grund kommt der systematischen Untersuchung  von zur Diagnose verwendeten Informationen und Tests eine große Bedeutung zu. Um zu evaluieren,  welche diagnostischen Tests dazu geeignet sind, bei Patienten mit bestimmten Symptomkomplexen  eine bestimmte Zielerkrankung korrekt zu diagnostizieren, ist die Durchführung von Diagnosestudien  notwendig. 

In  Diagnosestudien  wird  ein  neues  diagnostisches  Verfahren  bei  erkrankten  und  nicht‐erkrankten  Individuen angewendet und die Richtigkeit der Klassifizierung durch das neue Verfahren ausgewertet. 

Zu diesem Zweck werden sowohl das neue, zu evaluierende Verfahren – im Folgenden als Indextest  bezeichnet  –  als  auch  ein  Referenzstandard‐Verfahren  in  einem  gepaarten  Studiendesign  an  allen  Studienteilnehmern  durchgeführt  und  die  Ergebnisse  der  Klassifizierungen  miteinander  verglichen. 

Der Referenzstandard ist die beste verfügbare Methode zur Bestimmung des wahren Krankheitsstatus  hinsichtlich der Zielerkrankung (FDA, 2007). Es kann sich dabei um ein einzelnes anerkanntes Verfahren  oder  die  Kombination  mehrerer  diagnostischer  Verfahren  handeln.  Der  Referenzstandard  definiert  nach bestem Wissen den Krankheitszustand jedes Individuums und stellt in der Studienauswertung  den zu erreichenden Maßstab für den Indextest dar. Zur Beschreibung der diagnostischen Genauigkeit  des  Indextests  gegenüber  dem  Referenzstandard  können  verschiedene  statistische  Kenngrößen  berechnet werden. Die zwei Wichtigsten sind die Sensitivität (der Anteil der vom Indextest korrekt als  krank  eingestuften  Erkrankten)  und  die  Spezifität  (der  Anteil  der  vom  Indextest  korrekt  als  nicht‐

erkrankt eingestuften Gesunden). 

Ein  fehlerfreier  Referenzstandard  wird  im  Kontext  von  Diagnosestudien  auch  als  Goldstandard  bezeichnet  (Cohen,  2016),  allerdings  sind  komplett  fehlerfreie  Referenzstandards  in  der  klinischen  Forschung  eher  die  Ausnahme  als  die  Regel  (Reitsma,  2009).  Ziegler  et  al.  sprechen  in  ihrer  Übersichtsarbeit  von  Goldstandard  und  Referenzstandard  als  perfektem  und  „fast  perfektem“ 

Standard zur Bestimmung des wahren Krankheitsstatus (Ziegler, 2013). Vorsicht in der Interpretation  einer  Diagnosestudie  ist  geboten,  wenn  als  bestmöglicher  Referenzstandard  nur  ein  substanziell 

(12)

fehlerbehafteter  Referenzstandard  existiert  (Reitsma,  2009; Rutjes,  2007).  In  der  Planung  einer  Diagnosestudie sowie in der späteren Interpretation der Ergebnisse ist grundsätzlich abzuwägen und  zu  diskutieren,  in  welchem  Maße  der  verwendete  Referenzstandard  imperfekt  ist  (Bossuyt,  2003; 

Whiting, 2011).  

Die FDA Guideline zum statistischen Umgang mit Diagnosestudien weist darauf hin, dass bei nicht  existierendem oder inakzeptabel imperfektem Referenzstandard in Betracht gezogen werden sollte,  einen  neuen,  kombinierten  Referenzstandard  für  die  Studie  zu  konstruieren  (FDA,  2007). 

Referenzstandards, die aus verschiedenen klinischen Informationen und Tests miteinander kombiniert  werden, heißen zusammengesetzte Referenzstandards (Alonzo, 1999). Solch ein zusammengesetzter  Standard  muss  einen  klaren  prä‐spezifizierten  Algorithmus  haben,  wie  die  verschiedenen  Einzelelemente zur finalen Bestimmung des Krankheitsstatus kombiniert werden (FDA, 2007; Rutjes,  2007). Nachvollziehbarerweise sollte der neue diagnostische Indextest nicht im zusammengesetzten  Referenzstandard  enthalten  sein  (EMA,  2009; FDA,  2007).  Andernfalls  sind  Überschätzungen  der  Sensitivität und Spezifität des Indextests im Vergleich zum zusammengesetzten Referenzstandard die  Folge, ein sogenannter Inkorporationsbias tritt auf (Kohn, 2013). Generell wird davon ausgegangen,  dass ein zusammengesetzter Referenzstandard eine höhere diagnostische Güte besitzt als jedes der  einzelnen enthaltenen Elemente (Rutjes, 2007). Jedoch muss berücksichtigt werden, dass es sich in der  Regel nicht um einen Goldstandard handelt, sondern es trotz der verbesserten Validität weiterhin zu  fehlerhaften Klassifikationen des Krankheitsstatus kommen kann (Reitsma, 2009). 

Neben fehlerhaften Diagnosen des Referenzstandards stellen gleichermaßen auch fehlende Diagnosen  zum wahren Krankheitsstatus ein Problem dar. Fehlende Werte können zufällig entstehen, etwa durch  eine für den Referenzstandard erforderliche aber verlorengegangene Blutprobe oder aufgrund von  technischen Fehlern (Naaktgeboren, 2016). Häufiger jedoch treten systematisch fehlende Werte auf,  die sich aus ethischen, praktischen oder finanziellen Gründen im Studienverlauf ergeben haben oder  sogar gemäß Studiendesign so vorgesehen sind (Naaktgeboren, 2016). Das ist etwa der Fall, wenn ein  existierender,  hochvalider  Referenzstandard  sehr  invasiv,  belastend  oder  risikoreich  ist  und  aus  ethischen Gründen nur bei sehr konkretem Verdacht durchgeführt werden sollte. Manchmal ist eine  Verifikation des Krankheitsstatus durch den Referenzstandard auch praktisch gar nicht umsetzbar, z.B. 

wenn im Kontext von Krebs‐Screeningstudien zunächst ein positiver Indextest auf eine oder mehrere  Läsionen hingedeutet haben muss, bevor an den Läsionen der Referenzstandard Biopsie durchgeführt  werden kann.  

In  diesen  Situationen  wird  der  Krankheitsstatus  nur  für  einen  (ausgewählten)  Teil  der  Studienteilnehmer mit dem Referenzstandard verifiziert. Häufig korrespondiert die Wahrscheinlichkeit  zur Verifikation dabei mit dem Ergebnis des Indextests. Patienten mit positivem Indextest haben eine  deutlich  höhere  Wahrscheinlichkeit  mit  dem  Referenzstandard  diagnostiziert  zu  werden,  oder  es  werden  gemäß  Studienprotokoll  sogar  ausschließlich  positiv  getestete  Patienten  mit  dem  Referenzstandard  verifiziert.  Manchmal  beinhaltet  die  Studie  zusätzlich  einen  etablierten,  konkurrierenden  Vergleichstest  und  Patienten  werden  verifiziert,  falls  der  Indextest  oder  aber  der  Vergleichstest (oder beide) positiv sind. Die Entscheidung zur Durchführung des Referenzstandards  kann außerdem von anderen Kovariablen wie z.B. Alter, Vorliegen bestimmter Risikofaktoren, Schwere  der Symptomatik oder weiteren Testergebnissen abhängen (Diamond, 1991).  

(13)

Wenn die Verifikationswahrscheinlichkeit mit dem Ergebnis des Indextests korrespondiert, kommt es  zu Verzerrungen in der Schätzung der diagnostischen Genauigkeit des Indextests, zu sogenanntem  Verifikationsbias (im englischsprachigen Raum auch Workup‐ oder Referral‐Bias genannt) (Kohn, 2013; 

Lijmer,  1999; Rutjes,  2007; Whiting,  2003).  Je  nach  Umgang  mit  den  Individuen,  die  nicht  den  Referenzstandard erhalten haben, unterscheidet man weiter zwischen partiellem und differentiellem  Verifikationsbias. Partieller Verifikationsbias entsteht, wenn die entsprechenden Studienteilnehmer  ohne Referenzstandard keine weitere Verifikation durchlaufen und im Sinne einer „complete case“ 

Analyse  aus  der  Auswertung  ausgeschlossen  werden  (Abbildung  1).  Werden  die  nicht  durch  den  Referenzstandard  verifizierten  Patienten  hingegen  durch  ein  anderes,  weniger  invasives/schädigendes/teures,  aber  auch  weniger  valides  diagnostisches  Verfahren  als  den  Referenzstandard verifiziert, so kann es zu differentiellem Verifikationsbias kommen. Als alternativer  Referenzstandard wird häufig das (kurzfristige) klinische Follow‐Up der Studienteilnehmer verwendet  (Naaktgeboren, 2016).    

Abbildung  1:  Diagnosestudie  mit  (A)  vollständiger  Verifikation,  (B)  partieller  Verifikation  und  (C)  differentieller Verifikation (adaptiert nach (Rutjes, 2007)) 

 

Eine partielle Verifikation, bei der alle Patienten ohne Referenzstandard‐Diagnose aus der Analyse  ausgeschlossen  werden,  führt  klassischerweise  zu  Überschätzungen  der  Sensitivität  und  Unterschätzungen  der  Spezifität  (Kohn,  2013; Whiting,  2013).  Die  Überschätzung  der  Sensitivität  resultiert  aus  dem  Ausschluss  von  in  Wahrheit  erkrankten  Patienten,  die  aufgrund  eines  (falsch‐)  negativen Testergebnisses nicht verifiziert wurden. Analog dazu wird die Spezifität unterschätzt, weil  in  Wahrheit  nicht‐erkrankte  Individuen  mit  richtig‐negativem  Testergebnis  aus  der  Auswertung  ausgeschlossen werden (Kohn, 2013).     

Bei differentieller Verifikation der Studienteilnehmer wird eine Überschätzung von Sensitivität und  Spezifität angenommen (Lijmer, 1999; Rutjes, 2006). Die Richtung der Verzerrung von Sensitivität und  Spezifität  sowie  die  zugrundeliegenden  Mechanismen  sind  aber  weniger  klar  als  bei  partiellem  Verifikationsbias und hängen unter anderem vom Anteil der alternativ verifizierten Patienten, der Art  des Selektionsprozesses für die Anwendung des Referenzstandards und von der diagnostischen Güte  der beiden verwendeten Referenzstandards ab (Rutjes, 2007).  

Für eine angemessene Auswertung solcher Studiendaten ist es bei der Planung einer Diagnosestudie  erforderlich, sich die Problematik und das zu erwartende Ausmaß an Verzerrung durch partielle oder 

(14)

differentielle  Verifikation  bewusst  zu  machen  und  diese  entsprechend  im  Studiendesign,  in  der  geplanten statistischen Auswertung und in der Interpretation der Ergebnisse zu berücksichtigen. 

1.2. Motivation 

Verifikationsbias  gehört  zu  den  häufigsten  Formen  von  Bias  in  Diagnosestudien  (De  Groot,  2008; 

Gupta,  2004)  und  muss  bei  der  Planung  und  Interpretation  von  Diagnosestudien  berücksichtigt  werden. Diese Arbeit ist motiviert durch zwei konkrete Anwendungsbeispiele aus dem statistischen  Alltag: 

Im  Bereich  der  neurodegenerativen  Erkrankungen  stellte  sich  die  Frage,  wie  ein  bestimmter  Biomarker, der bereits seit 20 Jahren Teil eines komplexen zusammengesetzten Referenzstandards zur  Diagnose von Creutzfeldt‐Jakob Krankheit (CJK) ist, adäquat hinsichtlich seiner diagnostischen Güte re‐

evaluiert werden kann. Es lag recht offensichtlich auf der Hand, dass Sensitivität und Spezifität des  Biomarker‐Tests wegen Inkorporationsbias überschätzt werden, wenn die diagnostische Genauigkeit  des  Tests  gegenüber  dem  zusammengesetzten,  den  Biomarker  beinhaltenden  Referenzstandard  betrachtet wird. Alternativ wird eine Autopsie zur Verifikation des Krankheitsstatus verwendet. Sie  stellt den Goldstandard für CJK dar, kann allerdings erst nach dem Tod durchgeführt werden und ist  nur  für  einen  relativ  geringen  Anteil  an  untersuchten  Patienten  verfügbar  (ca.  30‐40%).  Die  Entscheidung zur Durchführung einer Autopsie wird nach einem Gespräch mit dem behandelnden Arzt  durch  die  Angehörigen  getroffen.  Sie  hängt  unter  anderem  von  den  Ergebnissen  der  einzelnen  Elemente des zusammengesetzten Referenzstandards ab (welche Tests waren positiv, welche negativ,  wie stimmig ist das Gesamtbild?) und damit vom Indextest als Teil des Referenzstandards, so dass  Verifikationsbias  zu  erwarten  war.  In  Anbetracht  dessen,  dass  die  Re‐Evaluation  eines  etablierten  Biomarkers  häufig  mit  einem  Vergleich  gegen  neu  entwickelte  Konkurrenz‐Biomarker  einhergeht,  stand  die  wissenschaftliche  Frage  im  Raum,  welcher  diagnostische  Referenzstandard  bei  der  Re‐

Evaluation  eines  bereits  etablierten  CJK  Biomarkers  verwendet  werden  sollte,  um  möglichst  unverzerrte Auswertungsergebnisse zu erhalten. 

Die Studienplanung einer pneumologischen Diagnosestudie brachte das Problem mit sich, dass aus  ethischen Gründen aufgrund der starken Invasivität des diagnostischen Referenzstandards nicht alle  Patienten  mit  diesem  verifiziert  werden  können.  Patienten  mit  dem  Verdacht  auf  chronisch  thromboembolische  pulmonale  Hypertonie  (CTEPH)  durchlaufen  ein  bestimmtes  diagnostisches  Procedere.  Der  wichtigste  Prätest  ist  dabei  eine  nuklearmedizinische  Röntgenuntersuchung  (VQ‐

SPECT).  Sein  Ergebnis  ist  ausschlaggebend  für  die  Verifizierung  des  CTEPH‐Verdachts  durch  den  invasiven  Referenzstandard  Angiographie.  In  einer  prospektiven  Diagnosestudie  sollte  untersucht  werden,  inwiefern  ein  MRT  die  strahlenintensive  SPECT‐Untersuchung  im  diagnostischen  Ablauf  ersetzen könnte. Während der Studienplanung wurde das Konzept erarbeitet, positive Testergebnisse  des Vergleichstests VQ‐SPECT sowie des Indextests MRT durch den diagnostischen Referenzstandard  zu  verifizieren.  Für  Patienten  mit  negativen  Ergebnissen  in  beiden  Tests  sollte  zur  Festlegung  des  Krankheitsstatus als alternativer Referenzstandard der weitere klinische Verlauf bis 6 Monate nach  Studienstart  verwendet  werden.  Es  handelt  sich  um  eine  klassische  Situation  von  differentiellem  Verifikationsbias. Im Rahmen der  biometrischen Studienplanung galt es zu identifizieren, (i) wie die  primären  Endpunkte  definiert  werden  sollten,  um  die  zugrundeliegende  Fragestellung  optimal  zu  beantworten, (ii) wie viele Patienten von der Verifikation durch den alternativen Referenzstandard 

(15)

betroffen sind, (iii) wie stark die Auswirkungen/Verzerrungen sind, und (iv) wie hoch schlussendlich  die Fallzahl gewählt werden sollte.  

1.3. Forschungsziele  

Das  Auftreten  von  partieller  oder  differentieller  Verifikation  des  wahren  Krankheitsstatus  in  Diagnosestudien  führt  zu  Schwierigkeiten  in  der  späteren  Interpretation  der  Daten.  Diagnostische  Maßzahlen  können  verzerrt  sein.  Schon  in  der  Studienplanung  bedarf  es  genauer,  informierter  Überlegungen darüber, wie der wahre Krankheitszustand des Patienten bestimmt werden soll (Gibt es  einen Referenzstandard? Wie valide ist dieser? Kann er für alle Patienten erhoben werden, und wenn  nein,  für  wie  viele  nicht?  Welche  Alternativen  gibt  es?).  Es  stellte  sich  für  zwei  verschiedene  Anwendungsgebiete die primäre Forschungsfrage, welche konkreten Auswirkungen die entsprechend  vorliegende  Verifikationsproblematik  sowie  eine  mögliche  Inkorporationsproblematik  auf  die  Schätzung  der  diagnostischen  Genauigkeit  des  untersuchten  Indextests  haben  würden.  Zur  Beantwortung dieser Frage war es erforderlich, Wissen über die Verifikationshäufigkeit und die Höhe  des  resultierenden  Bias  zu  generieren.  Zu  diesem  Zweck  wurden  zwei  Simulationsstudien  durchgeführt. 

Stellvertretend  für  Studien  bei  neurodegenerativen  Erkrankungen  mit  dem  problem‐behafteten  Goldstandard  einer  Autopsie  am  verstorbenen  Patienten  wurde  eine  Simulationsstudie  zu  einer  konkreten  Erkrankung  (CJK)  aufgesetzt.  Das  Ziel  der  Simulation  war  ein  Vergleich  verschiedener  Referenzstandard‐Szenarien hinsichtlich der entstehenden Verzerrungen in Anbetracht von partieller  Verifikation, differentieller Verifikation und Inkorporation des zu untersuchenden Indextests. Auf diese  Weise sollte Hilfestellung bei der Interpretation vorhandener publizierter Auswertungsergebnisse und  eine Empfehlung bei der prospektiven Planung weiterer Studien gegeben werden.  

In  der  zweiten  Simulationsstudie  lag  der  Fokus  auf  differentiellem  Verifikationsbias,  der  im  Studiensetting  mit  einem  oder  mehreren  vorgeschalteten  Prätests  angesichts  eines  sehr  invasiven  Referenzstandards eingeführt wird. Anhand einer Beispielstudie, die in der radiologischen Bildgebung  zur  Diagnose  einer  Lungenerkrankung  angesiedelt  ist,  wurden  die  Verifikationswahrscheinlichkeit  evaluiert,  der  Bias  quantifiziert  und  die  benötigte  Fallzahl  abgeschätzt.  Die  Durchführung  der  Simulationsstudie  sollte  aufzeigen,  wie  in  der  Praxis  bei  vorhandener  Verifikationsproblematik  die  konkrete Studienplanung durch Simulationen unterstützt werden kann.  

Zusammengefasst  bestand  das  übergeordnete  Forschungsziel  dieser  Arbeit  also  darin,  in  zwei  konkreten Anwendungsgebieten Erkenntnisse über die Auswirkungen von partieller und differentieller  Verifikation  des  Krankheitsstatus  zu  gewinnen  und  Wege  aufzuzeigen,  mit  dieser  Art  von  Bias  umzugehen.  

 

1.4. Gliederung dieser Arbeit 

In Kapitel 2 dieser Arbeit werden die verwendeten statistischen Methoden und Konzepte vorgestellt. 

Die relevanten statistischen Kenngrößen in Diagnosestudien werden definiert und die behandelten  Bias‐Formen ausführlicher beleuchtet. Auf der nächsten Ebene werden die verwendeten statistischen  Methoden zur systematischen Untersuchung der Fragestellung erläutert. Dabei werden der Aufbau 

(16)

der  Simulationsstudien  sowie  die  verwendeten  Evaluationskriterien  und  die  deskriptiven  Auswertungsmethoden der Simulationen dargestellt. 

Es folgen zwei Hauptkapitel, Kapitel 3 und 4, zu den durchgeführten Simulationsstudien, die auf gleiche  Weise  strukturiert  sind.  Sie  beinhalten  genauere  Hintergrundinformationen  zum  medizinischen  Kontext und eine Motivation für die resultierenden statistischen Fragestellungen. Die Durchführung  der Simulationsstudie wird konkretisiert und um die verwendeten Parametereinstellungen ergänzt. 

Dann folgt eine Darstellung der wesentlichen Ergebnisse.  

In  Kapitel  5  werden  die  Ergebnisse  diskutiert,  entsprechende  Schlussfolgerungen  und  sich  daraus  ergebende Empfehlungen zusammengefasst, sowie Limitationen dieser Arbeit dargelegt.  

   

(17)

2. METHODEN 

2.1. Kontext der beschriebenen Methoden 

Die wichtigsten statistischen Kenngrößen in Diagnosestudien sind die Sensitivität und die Spezifität  eines  Tests  im  Vergleich  zum  diagnostischen  Referenzstandard.  Daher  wurden  im  Rahmen  dieser  Arbeit primär diese beiden Kenngrößen mit zugehörigen 95% Konfidenzintervallen betrachtet. Je nach  Wahl des Referenzstandards können die geschätzten Sensitivitäten und Spezifitäten verzerrt sein und  zu falschen Schlussfolgerungen über die diagnostische Güte eines neuen Tests führen. In dieser Arbeit  wurde der (partielle und differentielle) Verifikationsbias als häufig auftretende Verzerrung genauer  untersucht.  Darüber  hinaus  ergab  sich  in  alternativen  Studiendesigns  mit  zusammengesetztem  Referenzstandard die Problematik eines bestehenden Inkorporationsbias, der ebenfalls untersucht  wurde. In der Einleitung sind die drei behandelten Bias‐Formen bereits eingeführt worden, in Kapitel  2.2.2 und 2.2.3 werden detailliertere Informationen im Kontext der bisherigen Forschung gegeben.  

Unter welchen Umständen, in welchem Umfang und mit welcher Konsequenz für die Studienplanung  und  –auswertung  die  genannten  Verzerrungen  in  der  Schätzung  von  Sensitivität  und  Spezifität  auftreten,  wurde  mithilfe  von Simulationsstudien  untersucht.  Hierbei  wurden  Studiendatensätze  künstlich  erzeugt  und  an  ihnen  die  geschätzten  Sensitivitäten  und  Spezifitäten  mit  den  zugrundeliegenden  „wahren“  Werten  verglichen.  Als  beschreibende  Maßzahlen  zur  Evaluation  der  Simulationsstudien wurden – je nach Simulationsstudien‐Design – der Bias, der Mean Squared Error  (MSE),  die Überdeckungswahrscheinlichkeit  (Coverage)  und  die Power  berechnet.  Abschließend  wurden  die  aus  verschiedenen  Simulationsszenarien  erhaltenen  Maßzahlen  im  Rahmen  einer  deskriptiven  statistischen  Analyse  der  Simulationsstudie  ausgewertet  und  zusammenfassend  dargestellt. 

2.2. Statistische Methoden und Bias in Diagnosestudien 

2.2.1. Sensitivität und Spezifität mit 95%‐Konfidenzintervallen 

Bei der Diagnosestellung handelt es sich aus praktischen Gründen in der Regel um eine dichotome  Entscheidung: Am Ende möchten Arzt und Patient klar wissen, ob der Patient an einer bestimmten  Erkrankung erkrankt ist oder nicht und ob folglich eine entsprechende Therapie gestartet wird oder  nicht. Die Ergebnisse einer Diagnosestudie mit dichotomem Testergebnis (erkrankt (Test positiv) vs. 

nicht‐erkrankt (Test negativ)) werden in einer diagnostischen Vierfeldertafel (Tabelle 1) dargestellt,  aus der verschiedene diagnostische Kenngrößen berechnet werden können.  

Tabelle 1: Diagnostische Vierfeldertafel 

  Krankheitsstatus gemäß Referenzstandard   

Positiv  Negativ 

Indextest  Positiv  a (richtig‐positiv)  b (falsch‐positiv)  a+b  Negativ  c (falsch‐negativ)  d (richtig‐negativ)  c+d 

  a+c  b+d  n 

(18)

Die wichtigsten und für Phase‐III Diagnosestudien empfohlenen primären Kenngrößen (EMA, 2009)  sind die Sensitivität und die Spezifität:  

Die Sensitivität (Sens) eines diagnostischen Tests ist die bedingte Wahrscheinlichkeit, dass der Test ein  positives  Ergebnis  ausgibt,  wenn  die  Erkrankung  vorliegt.  Sie  kann  aus  der  diagnostischen  Vierfeldertafel einer Diagnosestudie geschätzt werden als 

Sens  . 

Die  Sensitivität  spiegelt  also  wider,  welcher  Anteil  der  tatsächlich  erkrankten  Personen  vom  Test  korrekterweise  als  erkrankt  eingestuft  wird.  Man  spricht  auch  von  der  „richtig‐positiv“  Rate. 

(Schumacher, 2008) 

Die Spezifität (Spez) eines diagnostischen Tests ist die bedingte Wahrscheinlichkeit, dass der Test ein  negatives  Ergebnis  ausgibt,  wenn  die  Erkrankung  nicht  vorliegt.  Auch  die  Spezifität  kann  aus  der  diagnostischen Vierfeldertafel geschätzt werden mit 

Spez  . 

Die Spezifität spiegelt wider, welcher Anteil der nicht‐erkrankten Personen vom Test korrekterweise  als nicht‐erkrankt identifiziert wird. Man spricht auch von der „richtig‐negativ“ Rate. (Schumacher,  2008) 

Sensitivität und Spezifität haben einen Wertebereich von 0‐1 (bzw. 0‐100%). Ein Ergebnis von 50% zeigt  sich,  wenn  der  diagnostische  Test  rein  zufällige  Diagnosen  erzielt  (Beispiel:  Wurf  einer  Münze  als  Diagnoseverfahren  mit  Kopf=nicht‐erkrankt,  Zahl=erkrankt).  Im  klinischen  Kontext  werden  üblicherweise Werte von mindestens 80% für beide Maßzahlen angestrebt. Es ist zu beachten, dass  keine der beiden Kenngrößen für sich allein betrachtet werden sollte, da Sensitivität und Spezifität eng  miteinander  verknüpft  sind  und  steigende  Werte  der  einen  mit  sinkenden  Werten  der  anderen  Maßzahl einhergehen (Abel, 2009). Ein diagnostischer Test mit guter diagnostischer Performance, also  mit ausreichend hoher Sensitivität und Spezifität, wird als valide bezeichnet.   

Die direkt aus einer Diagnosestudie berechneten Schätzer für Sensitivität und Spezifität sind zunächst  nur deskriptive Punktschätzer aus der konkret erhobenen Stichprobe. Wäre im Rahmen der Studie eine  andere  zufällige  Stichprobe  gezogen  worden,  so  hätten  sich  vermutlich  andere  Werte  für  die  Punktschätzer  ergeben.  Es  besteht  also  eine  gewisse  Variabilität  in  der  Punktschätzung,  die  von  Faktoren wie der Stichprobengröße oder der Größenordnung der Maßzahl abhängt. Um eine valide  Aussage  darüber  zu  machen,  welche  wahre  Sensitivität  und  Spezifität  in  der  zugrunde  liegenden  Grundgesamtheit  zu  erwarten  sind,  müssen  zusätzlich  zu  den  Punktschätzern  Bereichsschätzer  bestimmt werden, die einen Vertrauensbereich (Konfidenzintervall, KI) um den Punktschätzer herum  angeben.  

Es gibt verschiedene Methoden zur Berechnung von Konfidenzintervallen für Raten. Im Rahmen dieser  Arbeit  wurden  klassische  Wald‐Konfidenzintervalle  und  Wilson‐Konfidenzintervalle  betrachtet. 

Wilson‐Konfidenzintervalle  gelten  als  besonders  geeignet  für  sehr  kleine  und  sehr  große  Raten  (Newcombe, 2000) und damit als gut geeignet für sehr hohe Sensitivitäten und Spezifitäten. 

(19)

Bei einer festgelegten Irrtumswahrscheinlichkeit von α=5% sind für die Sensitivität und die Spezifität  95%‐Wald‐Konfidenzintervalle anwendbar: 

95%𝐾𝐼 Sens Sens u . ∙ Sens ∙ 1 Sens

a c  

bzw. 

95%𝐾𝐼 Spez Spez u . ∙ Spez ∙ 1 Spez

b d  

wobei u .   das  1‐(α/2)‐Quantil  der  Standardnormalverteilung  darstellt,  welches  gerundet  1.96  beträgt (Newcombe, 1998). Die obere Grenze dieser Konfidenzintervalle wird, wenn sich ein größerer  Wert als 1 ergibt, auf den Wert 1 festgesetzt.  

95%‐Konfidenzintervalle nach Wilson werden für die Sensitivität und Spezifität wie folgt berechnet  (Newcombe, 1998): 

95%𝐾𝐼 Sens 2 ∙ 𝑎 𝑐 ∙ 𝑆𝑒𝑛𝑠 𝑢 . 𝑢 . ∙ 𝑢 . 4 ∙ 𝑎 𝑐 ∙ 𝑆𝑒𝑛𝑠 ∙ 1 𝑆𝑒𝑛𝑠

2 ∙ 𝑎 𝑐 𝑢 .  

bzw. 

95%𝐾𝐼 Spez 2 ∙ 𝑏 𝑑 ∙ 𝑆𝑝𝑒𝑧 𝑢 . 𝑢 . ∙ 𝑢 . 4 ∙ 𝑏 𝑑 ∙ 𝑆𝑝𝑒𝑧 ∙ 1 𝑆𝑝𝑒𝑧

2 ∙ 𝑏 𝑑 𝑢 .  

wobei u .  wiederum das 1‐(α/2)‐Quantil der Standardnormalverteilung ist und die obere Grenze  der Konfidenzintervalle auf den Wert 1 festgesetzt wird, wenn sich ein größerer Wert als 1 ergibt.  

 

2.2.2. Verifikationsbias  Was ist Verifikationsbias? 

Eine häufig auftretende Form der Verzerrung in Diagnosestudien ist der Verifikationsbias (De Groot,  2008; Gupta, 2004). Dieser kann entstehen, wenn nicht alle in die Studie eingeschlossenen Patienten  mit  dem  definierten  Referenzstandard  diagnostiziert  werden.  Solange  die  Verifikation  mit  dem  Referenzstandard  für  eine  rein  zufällige  Partition  der  Studienpopulation  stattfindet,  können  Sensitivität  und  Spezifität  weiterhin  erwartungstreu  geschätzt  werden  und  lediglich  die  Präzision  verringert sich (Kosinski, 2003a; Lu, 2010; Xue, 2014). Zu Verzerrungen kommt es hingegen, wenn die  Entscheidung  über  eine  Verifikation  nicht  zufällig  ist  sondern  mit  dem  Ergebnis  des  Indextests  korrespondiert,  insbesondere  wenn  das  Ergebnis  des  Indextests  die  Entscheidung  zur  Verifikation  direkt beeinflusst (Lijmer, 1999).  

Es  wird  genauer  unterschieden  zwischen partiellem  Verifikationsbias,  falls  anschließend  nur  die  verifizierten Patienten in die Auswertung eingehen, und differentiellem Verifikationsbias, falls nicht‐

verifizierte  Patienten  mit  einem  anderen  diagnostischen  Verfahren  als  dem  Referenzstandard 

(20)

verifiziert  und  mitausgewertet  werden  (Ziegler,  2013).  Partieller  Verifikationsbias  ist  eine  spezielle  Form  des  Selektionsbias  (Hall,  2019).  Differentieller  Verifikationsbias  überschneidet  sich  mit  sogenanntem „imperfektem Referenzstandard Bias“, weil das zur Verifizierung verwendete alternative  Verfahren in der Regel  imperfekt  und deutlich fehlerbehafteter als der eigentliche Referenzstandard  ist (Alonzo, 2011).   

Verifikationsbias  ist  eine  der  häufigsten  Bias‐Formen  in  Diagnosestudien  (De  Groot,  2008; Gupta,  2004). In zwei Publikationen trat die Problematik bei 30‐50% der untersuchten Studien auf (Gupta,  2004; Zhou, 2003). In zwei Übersichtsarbeiten zeigten sich 1999 eine Häufigkeit von rund 25% sowohl  für partiellen als auch für differentiellen Verifikationsbias (Lijmer, 1999) und 2006 eine Prävalenz von  10%  für  partiellen  und  20%  für  differentiellen  Verifikationsbias  (Rutjes,  2006).  Die  Häufigkeit  des  Auftretens  ist  naturgemäß  von  den  Indikationsgebieten  und  den  entsprechenden  verfügbaren  Referenzstandards  abhängig.  Im  Bereich  der  Radiologie  unterlagen  rund  27%  der  in  hochrangigen  Radiologie‐Journalen veröffentlichten Diagnosestudien dem Risiko eines partiellen Verifikationsbias  (Petscavage, 2011). Entsprechend dem häufigen Auftreten in der klinischen Forschung ist das Thema  methodisch viel beforscht worden.  

Richtung der Verzerrung und zugrundeliegende Verzerrungsmechanismen 

In einem systematischen Review zu Bias in Diagnosestudien war partieller Verifikationsbias die am  häufigsten untersuchte Biasform (32 von 111 = 29% der eingeschlossenen Arbeiten haben sich damit  beschäftigt), und diejenige Biasform, in der am konsistentesten Verzerrungen gefunden worden sind  (Whiting, 2013). Konsistent heißt dabei: 18 Studien fanden eine überschätzte Sensitivität, 16 Studien  zeigten eine unterschätzte Spezifität. Die anderen Arbeiten beschrieben Verzerrungen in die jeweils  andere Richtung oder keinen Zusammenhang. Zu den 111 eingeschlossenen Arbeiten zählten einige  Meta‐Reviews,  Reviews  diagnostischer  Studien,  theoretische  Arbeiten  wie  experimentelle/ 

Modellierungs‐/ Simulationsstudien, sowie rund 40 primäre klinische Diagnosestudien. 

Jedoch  herrscht,  basierend  auf  einem  klar  definierten  Wirkprinzip,  in  der  gängigen  Literatur  zur  methodischen  Erforschung  von  Verifikationsbias  generell  die  Meinung,  dass  bei  partiellem  Verifikationsbias die Sensitivität überschätzt und die Spezifität unterschätzt wird (Begg, 1983; Kohn,  2013). Das Wirkprinzip ist nachvollziehbar:  

In einem Setting von partieller Verifikation werden in aller Regel Individuen mit positivem Indextest deutlich  häufiger verifiziert als Individuen mit negativem Testergebnis (Mower, 1999; Panzer, 1987). Dies kann der  Tatsache geschuldet sein, dass der Referenzstandard besonders invasiv (z.B. Biopsie) oder schädigend ist  (z.B. Strahlenbelastung im Röntgen) und aus ethischen Gründen nur Patienten mit erhärtetem Verdacht  (positivem Testergebnis) zugemutet werden soll. Dies kann auch darin begründet sein, dass etwa im Kontext  von groß angelegten Screeningstudien ein teurer Referenzstandard aus Kostengründen nicht bei allen (vor  allem asymptomatischen) Patienten angewendet werden kann, so dass überwiegend auffällige Patienten  (mit positivem Testergebnis) weitergehend diagnostiziert und verifiziert werden. Möglich ist dabei auch,  dass der – vielleicht sogar verblindet durchgeführte – Indextest die Entscheidung über eine Verifikation nicht  kausal beeinflusst, es aber auf indirektem Wege zu einem Oversampling von positiven Testergebnissen in  den verifizierten Patienten kommt, etwa weil vor allem Patienten mit stark ausgeprägter Symptomatik den  Referenzstandard durchlaufen und der Indextest in Patienten mit starker Symptomatik besonders oft positiv  ist. Ob nun kausal oder nicht: Wenn viele positiv‐getestete Patienten verifiziert wurden und damit in der  Auswertungspopulation  sind,  aber  nur  wenige  negativ‐getestete,  so  fehlt  es  (1.)  an  falsch‐negativen 

(21)

Patienten, was zu einer Überschätzung der Sensitivität führt und (2.) an richtig‐negativen Patienten, was  zu einer Unterschätzung der Spezifität führt.  

Das Ausmaß  des entstehenden partiellen Verifikationsbias hängt  vom Anteil der nicht‐verifizierten  Patienten ab (De Groot, Bossuyt, 2011; Rutjes, 2007), sowie von der Art des Selektionsprozesses und  wie stark der Indextest damit assoziiert ist (De Groot, Bossuyt, 2011; Mower, 1999; Rutjes, 2007; Zhou,  2003).  Je  stärker  der  Zusammenhang  zwischen  Indextest  und  Selektion  zur  Verifikation  ist,  desto  größer  ist  der  Bias  (Zhou,  2003).  Gemeint  ist,  dass  ein  Szenario  mit  beispielsweise  10%  nicht‐

verifizierten Patienten innerhalb der Test‐Positiven und 80% nicht‐verifizierten Patienten innerhalb  der Test‐Negativen deutlich mehr Verzerrungen nach sich zieht als ein Szenario, in dem diese Anteile  30% und 60% betragen. Es gilt zu bemerken, dass Rutjes et al. 2007 und De Groot et al. 2011 von  Einflussfaktoren auf Größe und Richtung des Verifikationsbias sprechen. Die Richtung ist in diesen  Forschungsarbeiten also nicht festgelegt auf Überschätzung für Sensitivität und Unterschätzung für  Spezifität. Jedoch wird weder erläutert, welche der genannten Kriterien sich auf das Ausmaß und/oder  die Richtung auswirken noch inwiefern sich die genannten Kriterien auswirken. 

Zusammenfassend  ist  also  der  aktuelle  Forschungsstand,  dass  in  den  meisten  Settings  von  auftretender  partieller  Verifikation  die  Sensitivität  über‐  und  die  Spezifität  unterschätzt  wird.  In  Reviews wurden allerdings auch Studien analysiert, bei denen sich eine andere Verzerrungsrichtung  oder  keine  Verzerrung  gezeigt  hatten.  Offensichtlich  kommt  es  bei  der  Entstehung  von  partiellem  Verifikationsbias auf die Art des Verifikationsprozesses und die Häufigkeit einer Verifikation an. 

Bei  der  Planung  einer  Diagnosestudie  mit  voraussichtlicher  partieller  Verifikation  wird  oft  ein  Umschwenken auf eine differentielle Verifikation als möglicher Ausweg genutzt (Naaktgeboren, 2016; 

Rutjes, 2007; Schmidt, 2013). Bevor der Krankheitsstatus unbekannt bleibt und die Patienten nicht  mitanalysiert werden können, wird der Krankheitsstatus lieber mit einer „schlechteren“ Alternative  festgelegt. Manche argumentieren, dass differentielle Verifikation (wenn auch nicht unverzerrt) zu  weniger Bias führen sollte als partielle Verifikation. Zum Beispiel befinden Whiting et al. 2003 in der  QUADAS‐Guideline  zur  Qualität  von  diagnostischen  Studien  in  Reviews  (Whiting,  2003): „The  link  (correlation) between a particular (negative) test result and being verified by a less accurate reference  standard  will  affect  measures  of  test  accuracy  in  a  similar  way  as  for  partial  verification,  but  less  seriously.”  Andere wiederum zweifeln, ob differentielle Verifikation wirklich vorteilhafter ist: “If the  alternative  reference  standard  classifies  disease  status  with  less  accuracy  than  does  the  preferred  standard, this approach essentially results in misclassification of the outcome. As such, it may increase,  rather than reduce, the bias in the estimated accuracy of the index test(s).” (Naaktgeboren, 2016)  Aussagen über das Vorhandensein eines substanziellen differentiellen Verifikationsbias waren lange  Zeit gestützt durch zwei vielzitierte Meta‐Reviews, die sich mit Verzerrungen in Reviews diagnostischer  Studien beschäftigt haben (Lijmer, 1999; Rutjes, 2006):  

In diesen Meta‐Reviews wurden unter anderem Studien mit partieller bzw. differentieller Verifikation  identifiziert  und  denjenigen  Studien  mit  vollständiger  Verifikation  durch  einen  einzigen  Referenzstandard gegenübergestellt. Verglichen wurden dabei die Diagnostischen Odds Ratios (DOR). 

Das DOR ist eine zusammenfassende Maßzahl der diagnostischen Güte eines Indextests und setzt die  Odds  für  ein  positives  Testergebnis  bei  den  Erkrankten  in  Verhältnis  zu  den  Odds  für  ein  positives  Testergebnis  bei den Nicht‐Erkrankten (Lijmer, 1999). Eine gute Sensitivität und Spezifität schlägt sich  in  einem  hohen  DOR  nieder  (Gogtay,  2017).  Die  Meta‐Reviews  ermittelten  in  Regressionsanalysen 

(22)

sogenannte relative DORs (rDOR), die widerspiegeln, um wie viel höher bzw. niedriger die DORs von  Studien mit partieller und differentieller Verifikation gegenüber Studien mit vollständiger Verifikation  sind.  In  beiden  Arbeiten  deuteten  die  Ergebnisse  mit  rDORs  um  die  2  auf  eine  Überschätzung  der  diagnostischen  Performance  eines  Indextests  durch  differentielle  Verifikation  hin  (Abbildung  2).  Die  diagnostische Performance des Indextests war also in Studien mit differentieller Verifikation doppelt so  gut wie in Studien mit vollständiger Verifikation. Darüber hinaus zeigte sich in beiden Reviews, dass  partielle  Verifikation  keinen  Effekt  auf  das  DOR  und  damit  auf  die  Schätzung  der  generellen  diagnostischen Güte hat. 

Abbildung 2: Ergebnis zweier Reviews zum Einfluss von partieller und differentieller Verifikation  

  Diese  Ergebnisse  sind  jedoch  aufgrund  des  gewählten  Vergleichskriteriums  DOR  mit  Vorsicht  zu  interpretieren. Das DOR stellt eine zusammenfassende Gesamtmaßzahl zur diagnostischen Genauigkeit  dar. Ein‐ und dasselbe DOR kann dabei aus verschiedenen Kombinationen von Sensitivität und Spezifität  entstanden  sein  (Gogtay,  2017).  Entsprechend  ist  es  möglich,  dass  eine  Studie  mit  überschätzter  Sensitivität und unterschätzter Spezifität im Vergleich zu einer unverzerrten Studie das gleiche DOR  aufweist  (Rutjes,  2006).  Das  verwendete  Effektmaß  ist  somit  insensitiv  gegenüber  gegensätzlichen  Verzerrungen von Sensitivität und Spezifität (Rutjes, 2006; Whiting, 2004). Die mittels rDOR analysierten  Effekte lassen keinen Rückschluss darauf zu, ob, in welche Richtung und in welchem Ausmaß Sensitivität  und Spezifität verzerrt sind. Das betrifft sowohl die Bewertung des Bias bei partiellem Verifikationsbias  (rDOR=1, aber Sensitivität überschätzt und Spezifität unterschätzt) als auch den resultierenden Bias bei  differentiellem  Verifikationsbias. Beide  Kenngrößen,  Sensitivität  und  Spezifität,  könnten  (moderat)  überschätzt sein. Es wäre aber auch denkbar, dass eine Maßzahl stark überschätzt wird und die andere  nicht verzerrt oder unterschätzt wird. 

Folglich wurden das Ausmaß und die Richtung von differentiellem Verifikationsbias weiter beforscht. 

Es  wurden  diverse  Faktoren  beschrieben,  die  sich  auf  den  Effekt  von  differentieller  Verifikation  auswirken. Differentieller Verifikationsbias hängt ab (i) vom Anteil der alternativ verifizierten Patienten  (Rutjes, 2007), (ii) der Art des Selektionsprozesses (Kohn, 2013; Rutjes, 2007), (iii) der diagnostischen  Güte der beiden verwendeten Referenzstandards (Kohn, 2013; O’Sullivan, 2018; Rutjes, 2007) sowie  (iv)  einem  möglichen  Zusammenhang  zwischen  dem  Indextest  und  den  Referenzstandards,  insbesondere  der  Konkordanz  zwischen  dem  Indextest  und  dem  fehlerbehafteten  alternativen  Referenzstandard (Kohn, 2013; O’Sullivan, 2018; Rutjes, 2007). Über die genaueren Auswirkungen auf  die  Größe  oder  Richtung  wurden  dabei  keine  Angaben  gemacht.  Rutjes  et  al  2006  erklärten  die  Überschätzung der diagnostischen Gesamtperformance damit, dass die Übereinstimmung zwischen  Indextest und definiertem Krankheitsstatus künstlich erhöht wird, wenn die Missklassifikationen des  imperfekten alternativen Referenzstandards mit den Fehlern des Indextests korrelieren (Rutjes, 2006). 

(23)

Eine  Modellierungsstudie  hat  sich  in  einem  klar  abgesteckten  Setting  von  Screeningtest‐Szenarien  genauer  mit  Richtung  und  Ausmaß  von  Verzerrungen  durch  differentielle  Verifikation  beschäftigt  (Alonzo,  2011).  Als  zugrundeliegende  Verifikationsschemata  wurden  in  der  Arbeit  zwei  Varianten  betrachtet:  vollständige  differentielle  Verifikation  (alle  positiv  gescreenten  Patienten  werden  mit  einem  Goldstandard  und  alle  negativ  gescreenten  Patienten  mit  einer  imperfekten  Alternative  verifiziert) und unvollständige differentielle Verifikation (ein großer Anteil der positiv gescreenten und  ein  kleiner  Anteil  der  negativ  gescreenten  Patienten  werden  mittels  Goldstandard  verifiziert,  alle  anderen mit imperfekter Alternative). Es wurde das Spezialszenario betrachtet, dass in einem Setting  vollständiger differentieller Verifikation der alternative Referenzstandard 100% Spezifität besitzt, wie  es für Follow‐Up‐basierte Referenzstandards häufig angenommen wird (Alonzo, 2011).  

Summa summarum zeigte sich kein oder nur geringer Bias für die Spezifität (Tabelle 2). Die Sensitivität  wurde je nach Konkordanz von Indextest und imperfektem Alternativreferenzstandard bei niedriger  Übereinstimmung  unterschätzt  und  bei  hoher  Übereinstimmung  überschätzt.  Das  Ausmaß  an  Bias  variierte in jedem der Szenarien sehr stark. Als Einflussfaktoren auf die Höhe des Bias wurden die  Prävalenz  der  Erkrankung,  der  Anteil  der  mittels  Goldstandard  verifizierten  positiv‐getesteten  Patienten, die Sensitivität des imperfekten Referenzstandards und der Grad der Übereinstimmung von  Index‐ und Referenztest angegeben, was sich mit den oben genannten Faktoren deckt.   

Tabelle 2: Richtung des Bias bei verschiedenen Szenarien differentieller Verifikation    Verifikations‐

schema  Validität  des  alternativen  Ref.standard 

Übereinstimmung  Indextest  &  alternativer  Ref.standard 

BIAS 

Sensitivität  BIAS Spezifität  (A)  Vollständig 

 

Sens < 100% 

Spez = 100% 

Minimal     

Maximal                    (geringfügig) 

(B)  Vollständig  Sens < 100% 

Spez < 100% 

Minimal             

Maximal   

(C)  Unvollständig  Sens < 100% 

Spez < 100% 

Minimal     

     –       (geringfügig) 

Maximal   

Zusammenfassend lässt sich sagen, dass die Auswirkungen einer differentiellen Verifikation schwer  vorherzusagen  sind  (O’Sullivan,  2018; Rutjes,  2007).  Es  kann  durch  differentielle  Verifikation  zu  deutlichen  Verzerrungen  in  beide  Richtungen  oder  auch  zu  keinem  Bias  kommen.  Die  Größe  und  Richtung von differentiellem Verifikationsbias hängen von zahlreichen Charakteristika des konkreten  Studiensettings  ab,  insbesondere  von  der  Validität  des  alternativen  Referenzstandards,  dem  Zusammenhang  zwischen  Indextest  und  alternativem  Referenzstandard  sowie  vom  Anteil  der  alternativ Verifizierten.   

   

(24)

2.2.3. Inkorporationsbias 

Ein  imperfekter  Referenzstandard  führt  zu  Verzerrungen  in  der  Schätzung  der  Sensitivität  und  Spezifität eines neuen Tests (Reitsma, 2009). Dabei kann es sich um Unterschätzungen handeln,

 

wenn 

in  Wahrheit  korrekte  Diagnosen  eines  sehr  validen  Indextests  für  die  mit  dem  Referenzstandard  fehlklassifizierten  Patienten  als  falsche  Diagnosen  gewertet  werden.  Es  kann  aber  auch  zu  Überschätzungen kommen, falls der Referenzstandard und der Indextest stark miteinander korreliert  sind  und  somit  an  den  gleichen  Stellen  Fehler  machen,  die  dann  als  korrekte  Diagnosen  gewertet  werden (Reitsma, 2009). Existiert für eine Zielerkrankung kein etablierter Referenzstandard oder ist  nur  ein  substanziell  imperfekter  Referenzstandard  vorhanden,  so  wird  die  Konstruktion  eines  aus  mehreren Informationen und Einzeltests kombinierten Referenzstandards vorgeschlagen (EMA, 2009).  

Dies kann ein ganz klassischer „zusammengesetzter“ Referenzstandard sein, bei dem die einfließenden  Informationen (Symptome, Tests, etc.) klar benannt sind und dazu ein prä‐spezifizierter Algorithmus  die  Klassifizierung  in  „erkrankt“  und  „nicht‐erkrankt“  eindeutig  vorgibt  (EMA,  2009; FDA,  2007; 

Reitsma, 2009). Möglich ist es aber auch, als Referenzstandard ein Experten‐Panel einzusetzen, das  aus allen vorhandenen Informationen (Anamnese, Testergebnisse, mögliche Follow‐Up Daten, etc.)  den finalen Krankheitsstatus bestimmt (Kea, 2019; Reitsma, 2009; Rutjes, 2007). Diese Variante ist  flexibler  und  unter  Umständen  treffsicherer  als  ein  vordefinierter  zusammengesetzter  Referenzstandard, hat aber den Nachteil der Subjektivität und einer möglicherweise geringen Inter‐

/Intrareader‐Reliabilität (Rutjes, 2007). 

Die europäische sowie die US‐amerikanische Guideline zu Diagnosestudien weisen explizit darauf hin,  dass  derart  konstruierte  Referenzstandards  nicht  den  zu  bewertenden  Indextest  als  Komponente  beinhalten sollten. Andernfalls entsteht Inkorporationsbias (EMA, 2009; FDA, 2007). Diese Art von Bias  tritt nur bei konstruierten, aus mehreren Komponenten bestehenden Referenzstandards auf (Whiting,  2003). Sensitivität und Spezifität werden überschätzt (Kea, 2019; Kohn, 2013; Reitsma, 2009; Schiller,  2016; Worster, 2008). Die Kausalität ist leicht nachvollziehbar: Der Grund für die Überschätzung liegt  in der Mitbestimmung des zu diagnostizierenden Krankheitsstatus durch den Indextest, der in den  Referenzstandard einfließt (Kohn, 2013).  Das Ausmaß an Überschätzung dürfte davon abhängen, in  welchem Grad der konstruierte Referenzstandard imperfekt ist und wie stark der Indextest die finale  Diagnose des Referenzstandards beeinflusst.  

Tatsächlich gibt es – vielleicht aufgrund der trivialen, intuitiven Wirkweise von Inkorporationsbias –  kaum methodische Forschungsarbeiten, die sich mit den genaueren Umständen wie Häufigkeit, Höhe  des Bias und Einflussfaktoren befasst haben.  In der Übersichtsarbeit von Whiting et al. 2013 konnten  nur 3 Arbeiten zum Thema Inkorporationsbias ausfindig gemacht werden (von 111 eingeschlossenen  Publikationen) (Whiting, 2013). Dazu gehörte unter anderem der Meta‐Review von Rutjes et al. 2006  (siehe  oben),  der  anhand  von  32  Studien  mit  Inkorporation  (Häufigkeit  6%)  zu  einem  nicht‐

signifikanten rDOR von 1.4 kam, so dass in der Übersichtsarbeit geschlussfolgert wurde, dass es keine  Evidenz für einen resultierenden Bias gäbe (Rutjes, 2006). Die anderen beiden von Whiting erwähnten  Arbeiten erzielten ebenfalls wenig aufschlussreiche Ergebnisse. 

Zusammengefasst  ist  Inkorporationsbias  also  ein  seit  langer  Zeit  bekannter,  von  den  gängigen  statistischen  Guidelines  deutlich  aufgezeigter,  aber  insgesamt  wenig  beforschter  Bias,  der  zu  Überschätzungen der Sensitivität und Spezifität führen kann.  

(25)

  

2.3. Design und Auswertung der angewandten Simulationsstudien 

Im Rahmen dieser Arbeit wurden zwei Simulationsstudien durchgeführt. In Simulationsstudien werden  Datensätze unter kontrollierten, realitätsnahen Bedingungen künstlich erzeugt. Die Bedingungen (also  z.B. die wahre Sensitivität und Spezifität eines bestimmten Tests) werden dabei vorher festgelegt und  sind somit bekannt. Nach Erzeugung und Auswertung eines künstlichen Datensatzes kann zum Beispiel  die Abweichung von dem aus dem Datensatz geschätzten Kennwert zum festgelegten wahren Wert  ermittelt  werden.  Unter  einer  bestimmten  Kombination  von  Bedingungen,  man  spricht  auch  von  einem Simulations‐Szenario, werden wiederholte Datensätze erzeugt. In der Regel werden dabei 5000  oder  10000  solcher  Wiederholungen  (sogenannte  Simulationsläufe)  pro  Szenario  durchgeführt.  So  lässt  sich  unter  anderem  untersuchen,  in  welchem  Ausmaß  und  mit  welcher  Variabilität  es  zu  Abweichungen vom wahren Kennwert kommt.   

Die Simulationsstudien wurden in zwei speziellen medizinischen Anwendungsbereichen (Creutzfeldt‐

Jakob‐Krankheit und chronische thromboembolische pulmonale Hypertonie) durchgeführt. Während  die  eine  Studie  auf  die  Quantifizierung  der  auftretenden  Verzerrungen  fokussiert,  zielt  die  andere  Studie primär darauf ab, eine robuste Fallzahlplanung unter differentiellen Verifikationsbedingungen  zu gewährleisten. Obwohl die Indikationsgebiete und Simulationsstudienziele unterschiedlich sind, ist  im Grundsatz das gleiche Simulationsdesign verwendet worden. 

 

   

Referenzen

ÄHNLICHE DOKUMENTE

Wie kann dich welche Wertschätzung noch mehr motivieren bei deinem Ehrenamt dabei zu bleiben. ODER Wie kann dich welche Wertschätzung motivieren ein

- Der Begriff Nachbarschaft in Absatz 6 wird nach Empfehlung des Fachjuristen nicht näher konkretisiert und bleibt unverändert (nach Rechtsprechung des Bundesgerichts kann

Investmentfonds: Die Wertentwicklung wird gemäß der Methode des Bundesverbandes Deutscher Investmentgesellschaften (BVI) berechnet und geht dabei von folgendem aus: Einmalanlage,

#$ &amp; ; $ &lt; - dener Anbausysteme nicht möglich ist. Auch die menschliche und tierische Gesundheit ist gefährdet, denn neben den anvisierten neuen Eigenschaften

a) Die bisherigen Möglichkeiten der Agrarumweltförderung auch im Ackerbau und des Vertragsnaturschutzes werden fortentwickelt, damit diese in deutlich größerem Um- fang als

Darüber hinaus gibt es auch für beide Lerninhalte Nervenzellen, die ihre Aktivität nicht ändern (gelb dargestellt).Der Gedächtnisinhalt (hier der belohnte Duft bzw. der nicht

Menzel von der Freien Universität Berlin zeigen, dass der Orientierungssinn von Bienen durch Insektizide und auch Glyphosat stark beeinträchtigt werden kann – Der BUND

„Die große Unterstützung des Volksbegehrens in Bayern zeigt, dass die Menschen in Bayern mehr Naturschutz wollen und bessere Bedingungen für eine