Klinische Prüfung / Klinische Studie (Clinical Trials Regulation)

(1)

Thomas Sudhop | Einführung in die Planung Klinischer Studien | 18.01.2022 1

Einführung in Planung und

Auswertung klinischer Prüfungen:

Biometrische Grundlagen

PD Dr. Thomas Sudhop

Klinische Studie

Biomedizinisches Experiment mit Arzneimitteln am Menschen zur gezielten Untersuchung von Wirksamkeit, Sicherheit oder Pharmakokinetik von Arzneimitteln Klinische Prüfung

Sonderform einer Klinischen Studie mit Abweichungen bzgl. der Behandlungszuweisung oder der Behandlungsüberwachung von der normalen Behandlungspraxis

Beide Experimentformen versuchen eine Aussage für eine Population zu generieren anhand von Daten, die (lediglich) aus einer Stichprobe aus der Population ermittelt wurden.

Grundsätzliche Fragestellungen:

•

Ist die Fragestellung von klinischer Relevanz?

•

Ist die Stichprobe repräsentativ für die Population?

Klinische Prüfung / Klinische Studie

(Clinical Trials Regulation)

(2)

Explorative Studien

• i.A. keine statistischen Tests

• Methodik kann variabel an die Fragestellung während der Analyse angepasst werden

• Deskriptive Analytik

• Lagemaße, Streumaße

• Konfidenzintervalle (‐> Übergang in die analytische Statistik) Konfirmatorische Fragestellungen

• i.A. Anwendung statistischer Tests

• Vorherige Festlegungen erforderlich

• Primäre Zielgröße(n), sekundäre Zielgrößen …

• Irrtumswahrscheinlichkeiten …

Fragestellungen Klinischer Studien

Pharmakokinetik

• AUC, C

_max

, t

_max

, t

_1/2

• Häufig Geometrischer Mittelwert

• Bestimmung aus logarithmierten Werten Bestimmung einer Wirkdifferenz

• Mittelwert mit Streuungsparameter Bestimmung eines Verhältnisses

• Odd‘s Ratio

• Risk/Hazard Ratios

Beispiele für explorative Analysen

(3)

• Prüfung einer vorab festgelegten Hypothese

• Entscheidung, ob an der vorab festgelegten Hypothese festgehalten wird oder diese Hypothese verworfen werden muss, erfolgt auf der Basis einer experimentellen Beobachtung

• Die Daten der Beobachtungen in einem Experiment sind „Realisationen“

von Zufallsvariablen, die sich bei Wiederholungen des Experiments immer wieder etwas unterscheiden

• Daher besteht keine absolute Sicherheit, ob die Hypothese tatsächlich zutrifft oder nicht

• Aber: Mit Hilfe statistischer Tests wird versucht die Wahrscheinlichkeit von Fehlentscheidungen zu kontrollieren

Konfirmatorische Fragestellungen

Vereinfacht formuliert basiert der Falsifikationismusauf der Annahme, dass sich wissenschaftliche Hypothesen niemals sicher beweisen lassen, aber gegebenenfalls widerlegen lassen

Beispiel

• Forschungsfrage: „Sind alle Schwäne weiß?“

• Hypothese: „Alle Schwäne sind weiß“ (‐> schwierig alle Schwäne zu sichten)

• Die Hypothese lässt sich aber durch das (Beobachtungs‐)Experiment widerlegen, wenn z.B.

ein schwarzer Schwan gesichtet wird

• Wenn im Experiment also tatsächlich ein schwarzer Schwan gesichtet wurde, muss die Hypothese „Alle Schwäne sind weiß“ falsch sein

• ‐> Die Alternative „nicht alle Schwäne sind weiß“ muss dann folglich stimmen

Nach diesem Prinzip werden viele statistische Tests in der Medizin durchgeführt:

• Die Widerlegung einer (fehlerhaften) Hypothese führt zur Akzeptanz der Alternativ‐

Hypothese (in einem vollständigen Hypothesenmodell)

• D.h. viele Tests haben nicht den Beweis der Grundhypothese (H0‐Hypothese) zum Ziel, sondern deren Widerlegung

Falsifikationismus

(4)

„Wie viele Schwäne muss ich denn beobachten, um sicher zu sein, dass alle Schwäne weiß sind – oder einer dabei ist, der nicht weiß ist?“

• 5?

• 100?

• 100000?

>>> Fallzahlschätzung für ein Experiment

„Wie sicher bin ich denn, wenn bei 100 Schwänen nur weiße dabei waren, dass es nicht auch „nicht‐weiße“ Schwäne gibt?“

>>> Irrtumswahrscheinlichkeit

Fragen zum Schwäne‐Experiment

0) „Das Arzneimittel wirkt nicht (Falls man einen Effekt sieht, war dieser zufällig)“

1) „Das Arzneimittel wirkt (Die beobachtete Wirkung war systematischer Natur)“

•

Die beiden Hypothesen schließen sich aus

•

Wenn die Hypothese unter 0) wahr ist, muss die alternative Hypothese unter 1) falsch sein, und umgekehrt

•

Weicher formuliert: Wenn angenommen wird, die Null‐Hypothese (H0) sei falsch, dann muss daraus gefolgert werden, die Alternativ‐Hypothese (H1 oder HA) ist wahr

Hypothese‐Modelle am Beispiel einer

Arzneimittelstudie

(5)

0) „Das Arzneimittel wirkt nicht“ => „Der Angeklagte ist nicht schuldig“

1) „Das Arzneimittel wirkt“ => „Der Angeklagte ist schuldig“

Welche Fehlannahme (d.h., welcher Irrtum) ist „schlimmer“?

•

In der Rechtsprechung gilt: „In dubio pro reo – Im Zweifel für den Angeklagten“

•

Würde fälschlicherweise die obige Hypothese H0 widerlegt (verworfen), würde deshalb fälschlicherweise die Hypothese H1 als wahr angenommen



Ein Unschuldiger würde fälschlich verurteilt

•

Das ist auf jeden Fall zu vermeiden

•

Lieber einen Täter im Zweifel „davon kommen lassen“, als einen Unschuldigen zu verurteilen

Konsequenzen einer Entscheidung für eine falsche Hypothese: Vergleich zum Justizsystem

Untersuchung zum Einfluss einer medizinischen Intervention

• H

₀

: Die Intervention hat keinen Einfluss auf Erkrankungsverlauf

• H

₁

: Die Intervention hat einen Einfluss auf Erkrankungsverlauf

Bezogen auf gemessene Differenzen einer Stichprobe (z.B. vorher‐nachher‐

Vergleich)

• H

₀

: Die Differenz („vorher‐nachher“) ist nicht „0“ verschieden

• H

₁

: Die Differenz ist von „0“ verschieden (d.h. die Intervention hat Einfluss!)

Statistischer Test

Hypothesengenerierung

(6)

• Die Null‐Hypothese (H

₀

) geht von keinem systematischen Unterschied aus.

Falls Unterschiede gefunden werden, werden diese als zufällig und nicht als systematisch betrachtet

• Die Alternativ‐Hypothese (H

₁

/ H

_A

) ist die logische Umkehrung der Null‐

Hypothese, d.h. es existiert ein systematischer Unterschied

• Gefundene Unterschiede sind nicht zufällig, sondern systematisch

• Null‐ und Alternativ‐Hypothesen müssen sich gegenseitig ausschließen und alle Möglichkeiten abdecken

• Wenn H

₀

falsch ist, muss H

₁

wahr sein

• Wenn H

₀

wahr ist, muss H

₁

falsch sein

Aufbau eines Testhypothesen‐Modells

Statistische Fehler

Fehler 1. und 2. Art

Richtig positiv (Power = 1‐β)

Falsch positiv (Fehler 1. Art

= α‐Fehler) Falsch

negativ (Fehler 2. Art

= β‐Fehler)

Richtig negativ

(1‐α)

AM wirkt!

(H1ist wahr)

AM wirkt nicht (Zufall)!

(H0ist wahr)

AM wirkt!

(H1ist wahr‐>

H₀ablehnen)

AM wirkt nicht!

(H0beibehalten)

Testergebnis

(auf der Basis der Stichprobe)

Wirklichkeit

(objektiv richtig)

(7)

‐Fehler (FALSCH POSITIVES TESTERGEBNIS)

• Eine Wirkung wird angenommen, wo keine ist

• H

₀

‐Hypothese wird abgelehnt, obwohl H

₀

in Wirklichkeit wahr ist

• Es wird angenommen das Arzneimittel wirkt, obwohl?

‐Fehler (FALSCH NEGATIVES TESTERGEBNIS)

• Eine vorhandene Wirkung wird nicht erkannt

• H

₀

‐Hypothese wird akzeptiert, obwohl H

₁

in Wirklichkeit wahr ist

• Es wird angenommen das Arzneimittel wirkt nicht, obwohl?

Welcher Fehler ist „schlimmer“ und ist daher eher zu vermeiden?

Testergebnis und Wirklichkeit Statistische Fehler

Konsequenzen eines falsch‐positiven Tests

•

Uneffektive Behandlung

•

Risiko ohne Nutzen („Nihil nocere“)

•

Kosten ohne Nutzen Fazit

•

Das Risiko eines falsch positiven Tests ist zwar nicht vermeidbar, sollte aber vorher bekannt sein und durch vorherige Festlegung eines ‐Niveaus (Signifikanz‐

Niveaus) kontrolliert werden

•

Festlegung der maximalen Wahrscheinlichkeit ein falsch positives Testergebnis zu akzeptieren (Irrtumswahrscheinlichkeit)

•

Übliche Werte für 

•

0,05 (5%), 0,01 (1%), 0,001 (0,1%) ...

•

Das Signifikanz‐Niveau muss vorher im Experimentierplan (Prüfplan) festgelegt werden

Signifikanz‐Niveau

(8)

Festlegung der Test‐Hypothesen H0: „AM wirkt nicht“ / H1: „AM wirkt“ und

Festlegung des stat. Verfahrens

Festlegung des Höchstwertes für den Fehlers 1. Art (α‐Fehler) Üblich α< 0,05 (<5%)

Datengenerierung in der klinischen Prüfung, Datenpflege und Anschließende Dateneingabe in Statistik‐Programm

Statistik‐Programm liefert einen p‐Wert

für die vorgegebene Test‐Statistik und die eingegebenen Daten

Ist der p‐Wert < α(0,05)?

Testergebnis signifikant H0 wird verworfen H1 wird angenommen

„AM wirkt!“

Testergebnis nicht signifikant H0 wird beibehalten H1 wird nicht angenommen

„AM wirkt nicht!“

nein ja

Ablauf eines stat is ti sc h e n Te st s

Der p‐Wert aus dieser Stichprobe gibt die Wahrscheinlichkeit für ein falsch positives Testergebnis

auf der Basis dieser Stichprobe an

• Stat. Tests liefern einen p‐Wert, der in Relation zum vorher festgelegten Signifikanz‐Niveau α die Entscheidung zur Annahme oder Ablehnung der Test‐Hypothesen bewirkt

• Ist der p‐Wert kleiner als das zuvor festgelegte Signifikanz‐Niveau , wird im klassischen Hypothesenmodell die H0‐Hypothese verworfen und H1‐Hypothese angenommen

• Einfacher formuliert (Voraussetzung H0/H1 sind korrekt gewählt und = 0,05):

• „Ist p < 0,05 haben wir einen signifikanten Unterschied gefunden“

• „Ist p < 0,05 nehmen wir eine Wirkung des AM an!“

• „Ist p < 0,05 irren wir uns mit einer Irrtumswahrscheinlichkeit von höchstens 5%, dass das AM fälschlicherweise wirkt [falsch positiv]“

• „Würden wir 100 mal das Experiment bzw. die Studie wiederholen, würden wir allerhöchstens in 5 Experimenten (Studien) zufällig eine Wirkung des AMs beobachten, ohne dass das AM tatsächlich wirkt“

• „Mit einer Wahrscheinlichkeit von p ist der beobachtete Unterschied rein zufälliger Natur, ohne dass er auf einem systematischem Zusammenhang basiert“

Interpretation des p‐Wertes

(9)

Statistische Testverfahren

Zweistichproben‐Tests

Vergleich zweier Gruppen

Parametrische Tests Nicht‐parametrische Tests

Verbundene

Daten* (gepaart)

Gepaarter t‐Test

Wilcoxon signed‐ranks Test

unverbundene Daten

t‐Test für unverbundene

Daten

Mann‐Whitney U Test

*Verbunden bedeutet: Bestimmte Datenpunkte der beiden Stichproben sind miteinander korreliert, d.h. sie bilden Datenpaare, z.B. weil sie vom gleichen Individuum stammen (Beispiel: Vorher/Nachher‐Vergleiche)

(10)

• Bei der parametrischen Testung wird die gesamte Information der

Stichprobe , d.h. z.B. die absolute Differenz zum Lagemaß (z.B. zum arithm.

Mittelwert), herangezogen

• Bei nicht‐parametrischer Testung werden die Absolutwerte durch z.B.

Rangwerte ersetzt, d.h. es wird nur noch die relative Position in einer Stichprobe zur Berechnung herangezogen, nicht aber die absolute Lage

Parametrische vs. nicht‐parametrische Testung

Studie: Neue Tablette zur RR‐Senkung

Diastolischer Blutdruck (mmHg)

vor Behandlung nach Behandlung Differenz Vorzeichen

97 95 ‐2 ‐

96 90 ‐6 ‐

98 94 ‐4 ‐

99 89 ‐10 ‐

90 88 ‐2 ‐

89 82 ‐7 ‐

90 90 0 0

95 85 ‐10 ‐

91 95 4 +

90 90 0 0

94 96 2 +

(11)

Studie: Neue Tablette zur RR‐Senkung

Gepaarter t‐Test (t‐Test für verbundene Stichproben); α = 0.05 (5%)

Diastolischer Blutdruck (mmHg)

vor Behandlung nach Behandlung Differenz

97 95 ‐2

96 90 ‐6

98 94 ‐4

99 89 ‐10

90 88 ‐2

89 82 ‐7

90 90 0

95 85 ‐10

91 95 4

90 90 0

94 96 2

‐3.18 p‐Wert (gepaarter t‐Test, 2‐seitig) 0.0472

Im Voraus definiertes Signifikanzniveau  = 0,05

Ermittelter p‐Wert im gepaarten t‐Test: p = 0,047 = 4,7/100 = 4,7% = 47/1000

 p < 0,05, 5%)

Interpretation des p‐Wertes (p = 0,047)

• Bei 1000‐facher Wiederholung des Experiments würde bei 47 Experimenten eine Differenz von 3,18 mmHg oder mehr im diastolischen Blutdruck zufälligbeobachtet werden, ohne dass das Arzneimittel tatsächlich wirkt

• Die Wahrscheinlichkeit, dass die im Experiment gefundene Differenz von 3,18 mmHg zufälliger Natur ist und nicht auf einem systematischen Effekt beruht, ist 4,7% (und damit kleiner als das vorher festgelegte Signifikanzniveau von 5%)

• Da der p‐Wert kleiner als das vorher festgelegte Signifikanzniveau ist, wird der gefundene Unterschiednicht als zufällig sondern als systematisch betrachtet, d.h. wir sind hinreichend sicher, dass die gefundene Differenz auf den Effekten der Intervention basiert (Einnahme der neuen Tablette) und nicht eine zufällige Beobachtung darstellt

• Ein solche Differenz wird „signifikant“ genannt, man spricht von einem „signifikanten Unterschied“

Interpretation des p‐Wertes

(12)

Von welchen Parametern wird der p‐Wert beeinflusst?

• Umfang der Stichprobe („Fallzahl“)

• Tatsächlicher Gruppenunterschied in der Stichprobe

• Streuung in der Stichprobe

Abhängigkeit des p‐Wertes

Studie: Neue Tablette zur RR‐Senkung

Gepaarter t‐Test (t‐Test für verbundene Stichproben); α = 0.05 (5%)

Vor Therapie Nach Therapie Differenz

97 95 -2

96 90 -6

98 94 -4

99 89 -10

90 88 -2

89 82 -7

90 90 0

95 85 -10

91 95 4

90 90 0

94 96 2

Differenz -3,18

p-Wert (2-seitiger verbundener t-Test) 0,04720228

(13)

Studie: Neue Tablette zur RR‐Senkung

Gepaarter t‐Test (t‐Test für verbundene Stichproben); α = 0.05 (5%)

Vor Therapie Nach Therapie Differenz

97 95 -2

96 90 -6

98 94 -4

99 89 -10

89 82 -7

90 90 0

95 85 -10

91 95 4

90 90 0

94 96 2

Differenz -3,30

p-Wert (2-seitiger verbundener t-Test) 0,0620570

Entfernung eines Datensatzes aus der Stichprobe führt trotz Zunahme der RR‐Senkung (‐

3,30 vs. ‐3,18) zu einer „Verschlechterung“ des p‐Wertes (p > 0,05): Senkung des RR nicht mehr statistisch signifikant! ‐> Effekt wird nur als zufällig betrachtet!

Einfluss der Fallzahl

• Eine zu geringe Fallzahl kann falsch negative statistische Testergebnisse bewirken (Fehler 2. Art / ‐Fehler)

• Experimente müssen die notwendige statistische Power aufweisen, um signifikante Ergebnisse liefern zu können

• Fazit: Beim Design eines Experiments ist eine Fallzahlabschätzung

notwendig!

(14)

‐Fehler

•

Definition: Wahrscheinlichkeit H

0

nicht zu verwerfen, obwohl H

0

falsch ist

• „Auf der Basis des Testergebnis halten wir an der Null‐Hypothese fest, dass das Arzneimittel keine systematische Wirkung hat; die beobachteten Unterschiede waren zufälliger Natur“ (>>>falsch negatives Ergebnis)

Statistische Power (1‐)

•

Definition: Wahrscheinlichkeit H0 zu verwerfen, wenn H0 falsch ist, d.h. die Wahrscheinlichkeit eine “reale” Differenz auch als solche mit dem Test zu belegen

•

Vereinfacht: Wahrscheinlichkeit ein signifikantes Testergebnis zu erhalten (wenn ein „wirklicher“ Unterschied besteht)

‐Fehler und Statistische Power

Power‐Schätzung

• Wenn die statistische Power eines Studiendesigns nur 50% beträgt und die Fallzahl entsprechend geschätzt wird, wird jede 2. Studie mit dieser Fallzahl keine signifikanten Unterschiede anzeigen, obwohl eine systematischer Unterschied existiert

• Konfirmatorische Studien: Power  80%

• Große Phase III Studien: 85‐90%

Vermeidung von ‐Fehlern

Power‐Schätzung

(15)

Zusammenhang zwischen Power & Fallzahl

GPOWER ‐Version 2.0 Franz Faul & Edgar Erdfelder

Fallzahl beeinflussende Faktoren

Signifikanz‐Niveau ()

• Je niedriger das angestrebte , um so höher die erforderliche Fallzahl

Power (1‐)

• Je größer die gewünschte Power, um so höher die erforderliche Fallzahl

Geschätzte Differenz

• Je kleiner die nachzuweisende Differenz, um so höher die erforderliche Fallzahl

Geschätzte Standardabweichung

• Je größer die Standardabweichung (SD), um so höher die erforderliche Fallzahl

n



nnn

Power

µ_PBO-_Z99

SD

(16)

1. Festlegung von  und gewünschter Power und Festlegung ob ein‐ oder zweiseitig getestet werden soll und welcher geeigneter Test verwendet werden soll

• z.B. = 0.05 (5%), power = 80%, 2‐seitiger t‐test (two‐tailed)

2. Schätzung der nachzuweisenden Differenz (=Effekt)

• Ist die Schätzung klinisch relevant?

3. Schätzung der erwarteten Varianz/Standardabweichung

• Möglichst realistische Werte aus vorangegangenen Experimenten oder der Literatur verwenden

4. Effektstärke berechnen

• Effekt / Standardabweichung

5. Fallzahlberechnung durchführen (oder durchführen lassen!)

• Ist die geschätzte Fallzahl klinisch realisierbar?

• Ist die geschätzte Fallzahl adäquat zum klinischen Problem?

• Anpassung der Fallzahl an die geschätzte Drop‐Out‐Rate

Fallzahlberechnung

(Differenztestung)

Beispiel einer Fallzahlschätzung

•  = 5%, 2‐seitiger t‐Test

• Power = 80%

• Annahmen für geschätzte Differenz der Gruppenmittelwerte & SD

•

Effekt: x

PBO‐xTestsubstanz~ 13 mmHg

• SD_pooled~ 16

•

Effektstärke

= 13/16 = 0,8125

• Fallzahlberechnung

• 2 x n = 50, n = 25

• Ggf. Anpassung an antizipierte „Drop out“‐Rate

(17)

Unabhängig von der Teststatistik ist die klinische Relevanz der beobachteten Unterschiede zu bewerten

• Ist eine signifikante Senkung des diastolischen Blutdrucks von 0,9 mmHg wirklich auch klinisch relevant?

• Wie viele Patienten müssten im obigen Beispiel behandelt werden, um einen Schlaganfall zusätzlich zu verhindern? (Number‐needed‐to‐treat)

Umgekehrt: Ist ein nicht‐signifikantes Ergebnis ohne Information?

• Ist eine Senkung des diastolischen Blutdrucks um 12 mmHg mit einem p‐

Wert von p=0,055 in einer Studie mit 13 Patienten wirklich ein Beweis, dass das Arzneimittel nicht den Blutdruck senkt?

Signifikant ≠ Relevant

Konfidenzintervalle und

statistische Tests

(18)

Konfidenzintervalle

• 95%‐KI für einen Mittelwert: Das Intervall, in dem mit 95%iger Wahrscheinlichkeit der „wahre“

Mittelwert liegt

• 99%‐KI: Das Intervall für einen Wert, in dem mit 99%iger

Wahrscheinlichkeit der „wahre“

Mittelwert liegt

• Die Breite des KI hängt ab

• Vom Stichprobenumfang: Je kleiner die Stichprobe umso größer das KI

• Von der Präzision des KI: 99%‐KI ist breiter als 95%‐KI

SEM x  1 , 96 *

n SEM SD

x = 6 mmHG

9 mmHG 3 mmHG

x = 12 mmHG

1 mmHG 13 mmHG

Beispielstudie zum RR‐Senker

• Mittlere Differenz ‐3,18 mmHg, SD 4,76 mmHg, p=0,0472

• 95%‐Konfidenzintervall der Differenz [‐5,94 ; ‐0,42 mmHg]

Interpretation

• Die wahre RR‐Differenz der Population liegt mit 95%iger Wahrscheinlichkeit in dem Intervall [‐5,94 ; ‐0,42 mmHg] >> ist also kleiner als Null „0“

• Mit mindestens 95% Wahrscheinlichkeit ist die Null („0“) nicht im Konfidenzintervall enthalten, d.h. es wird mit 95% Wahrscheinlichkeit ein systematischer Effekt der Behandlung beobachtet

• Die Wahrscheinlichkeit, dass die beobachtete Differenz nur zufälliger Natur ist, liegt unter 5%

• Es wird daher mit höchstens 5% Irrtumswahrscheinlichkeit angenommen, dass die beobachtete RR‐Senkung systematischer Natur sei, also das AM die Blutdrucksenkung hervorgerufen hat

Vergleich p‐Wert eines gepaarten t‐Test mit dem

Konfidenzintervall für Differenz

(19)

Konfidenzintervalle

Beispiel für Verhältnisse

Fiktives Beispiel: Odd‘s Ratio (OR) für Depressionen in Abhängigkeit vom Geschlecht bei 2 verschiedenen Studien

Bedeutung der OR in den Studien

• > 1: Depressionsrisiko für Frauen gegenüber Männern erhöht

• = 1: Risiko für Frauen gleich hoch

• < 1: Risiko für Frauen erniedrigt

Fiktive Studie A

• OR für Depressionen bei Frauen: 2,8 95%KI: [1,4; 4,2]

• >>> „Frauen haben ein erhöhtes Depressionsrisiko“

Fiktive Studie B

• OR für Depressionen bei Frauen: 2,8 95% KI:[0,9; 5,7]

• >>> „Frauen haben kein erhöhtes Depressionsrisiko“

1,4 4,2

0,9 5,7

1,0 2,8

Bundesinstitut für Arzneimittel und Medizinprodukte Abteilung 10 „Informationstechnik / Klinische Prüfung“

Kurt‐Georg‐Kiesinger‐Allee 3 53175 Bonn

Ansprechpartner PD Dr. med. Thomas Sudhop thomas.sudhop@bfarm.de www.bfarm.de Tel. +49 (0)228 99 307‐3424