• Keine Ergebnisse gefunden

3.4 Die Daten zum Hauptzielparameter ¨ Uberlebenszeit

3.4.3 Die ¨ Uberlebenszeit in Abh¨angigkeit vom vorgesehenen IFN-α-Therapie-

F¨ur die 1329 Patienten der 11 verschiedenen Studien waren als Therapienans¨atze IFN-α-Mono-therapie oder IFN-α in Kombination entweder mit Hydroxyurea oder Ara-C vorgesehen. Unter Betrachtung dieser drei Therapienans¨atze als Kategorien der Variablen

”IFN-α-Therapieansatz“

sollte deren Einfluss auf den Hauptzielparameter ¨Uberlebenszeit untersucht werden, bevor ei-ne gemeinsamen Analysestichprobe ohei-ne Adjustierung f¨ur

”IFN-α-Therapieansatz“ akzeptiert werden konnte. Diese Notwendigkeit wurde durch die Ergebnisse von Guilhot et al. [38] unter-strichen. Die Franzosen hatten einen statistisch signifikanten ¨Uberlebensvorteil der Kombina-tionstherapie IFN-α + Ara-C gegen¨uber einer IFN-α-Monotherapie nachweisen k¨onnen. Schon wegen der durch die verschiedenen Studien bedingten unterschiedlichen Selektionsmechanismen, konnte dem hier durchgef¨uhrten,

”Therapievergleich“ nur ein deskriptiver Charakter zugebilligt werden, dessen Hauptaufgabe das Erkennen eines in allen Analysen ggf. gesondert zu ber ¨ uck-sichtigenden ¨Uberlebensunterschiedes zwischen den Therapieans¨atzen war.

Festlegung der Stichprobe zum Vergleich der vorgesehenen Therapieans¨atze

Um keine subjektiven Entscheidungen aus dem Therapieverlauf einfließen zu lassen, wurde auf Basis der 1329 f¨ur die Entwicklung des Prognosesystems relevanten Patienten das

”ITT-Prinzip“

angewandt. Bei den sieben randomisierten Studien [2, 15, 37, 47, 48, 57, 80], denen 1017 (77%) der 1329 Patienten angeh¨orten, war die vorgesehene Therapiekombination (ITT) mit dem

Ran-7Auch bei den in 1. CP transplantierten Patienten betrug die mediane Zeit bis zur SZT immerhin 23 Monate.

8Die autolog transplantierten Patienten waren tendenziell j¨unger, die Auswahl nicht zuf¨allig etc.

domisationsergebnis festgelegt. F¨ur die vier ¨ubrigen Studien [74, 107, 115, 116] mit zusammen 312 Patienten (23%) existierte jeweils ein per Studienprotokoll genau festgelegter Therapie-ansatz, welcher die vorgesehene Therapiekombination ebenfalls eindeutig definierte. Ohne 29 Patienten, die initial f¨ur HU randomisiert worden waren oder f¨ur die, abweichend vom Studien-protokoll, bereits initial andere Therapien vorgesehen waren, verblieben 1300 Patienten in der Stichprobe f¨ur die Therapievergleiche.

Unterschiedliche Selektionsmechanismen bei Daten verschiedener Studien

F¨ur die Therapieans¨atze des vorliegenden Datensatzes waren die Patientenanteile, die einem bestimmten Selektionsmechanismus unterlagen, v¨ollig unterschiedlich. Verschiedene Selektions-mechanismen tragen wesentlich zur nat¨urlichen biologischen Heterogenit¨at zwischen Patienten-stichproben bei. Inwieweit ¨Uberlebensunterschiede zwischen Stichproben mit verschiedenen Se-lektionsmechanismen eher dieser Heterogenit¨at oder unterschiedlichen Therapieans¨atzen zuzu-schreiben ist, bleibt schwer beurteilbar. Durch die beschriebenen Ein- und Ausschlusskriterien wurde der Heterogenit¨at aufgrund unterschiedlicher Selektionsmechanismen bereits entgegenge-wirkt. Indem man beim Vergleich verschiedener Patientengruppen hinsichtlich des Zielparame-ters eine nach validierten Risikogruppen stratifizierte Analyse vornimmt, kann der Einfluss der Heterogenit¨at auf das Analyseergebnis wesentlich weiter reduziert werden. Dieser klassischen Aufgabe eines Prognosesystems (vgl. Abschnitt 1.3) werden im Falle des Zielparameters

”Uber-¨ lebenszeit IFN-α-behandelter Patienten“ die Risikogruppen des New CML-Scores von Hasford et al. [42] gerecht.

Uberpr¨¨ ufung einer stichprobenunabh¨angigen Anwendbarkeit des New CML-Scores Vor einer Anwendung des New CML-Scores [42] auf alle Patienten der Analysestichprobe galt es zu pr¨ufen, ob das Prognosesystem bei den an seiner Entwicklung unbeteiligten Patienten von vergleichbarer Aussagekraft sein w¨urde. Der New CML-Score war f¨ur 1279 (96%) der 1329 Patienten berechenbar. Die mediane ¨Uberlebenszeit der 1279 betrug 72 Monate, 611 Patien-ten (48%) waren verstorben.9 Die Daten von 826 der 1279 Patienten (65%) waren als Teil der JNCI-Lernstichprobe [42] bei der Entwicklung des New CML-Scores beteiligt. Die media-ne ¨Uberlebenszeit der 826 Patienten (412 verstorben (50%)) lag bei 69 Monaten und bei den 453 an der Score-Entwicklung unbeteiligten Patienten (199 verstorben (44%)) bei 76 Monaten.

Abbildung 3.2 zeigt die Kaplan-Meier-Kurven zu den Risikogruppen des New CML-Scores in beiden Stichproben, zwischen welchen sich die ¨Uberlebenswahrscheinlichkeiten der jeweils selben Risikogruppe nicht statistisch signifikant unterschieden, w¨ahrend jeder paarweise Vergleich der Uberlebenswahrscheinlichkeiten zweier verschiedener Risikogruppen zu einem¨ p-Wert < 0,0005 f¨uhrte (Logrank-Test). Mit der stichprobenunabh¨angigen, deutlichen Diskriminierung der drei Risikogruppen brauchte in der Analysestichprobe bei Verwendung des New CML-Scores im folgenden keine Unterscheidung f¨ur die Herkunft aus der JNCI-Lernstichprobe vorgenommen werden. Die hohen statistisch signifikanten Korrelationen zwischen Risikogruppe und ¨ Uberle-benswahrscheinlichkeiten (Logrank-Test: p <0,0001 in beiden Stichproben) sprachen f ¨ur risiko-stratifizierte Vergleiche [86] zwischen Stichproben mit unterschiedlichen Verteilungen hinsichtlich

9Die zeitliche Differenz zwischen dem Erhebungszeitpunkt der Scorevariablen (bei Diagnose) und dem Beginn der ¨Uberlebenszeitrechnung (erster Therapietag mit IFN-α) war, wegen ihrer

Ereignislosigkeit“ und ihrer kurzen Dauer in Relation zu den medianen Beobachtungszeiten, f¨ur die Aussagekraft des New CML-Scores unerheblich.

Abbildung 3.2: Kaplan-Meier-Kurven zur Sch¨atzung der ¨ Uberlebenswahrschein-lichkeiten in Abh¨angigkeit von der Risikogruppe des New CML-Scores und von der Stichprobenbeteiligung an seiner Entwicklung. In der JNCI-Lernstichprobe geh¨orten 41,0% der Patienten zur Niedrigrisikogruppe (n = 339, 110 verstorben, mediane ¨Uberlebenszeit: 94 Monate), 44,7% zur mittleren Risikogruppe (n= 369, 215 verstorben, mediane ¨Uberlebenszeit: 67 Monate) und 14,3% zur Hochrisi-kogruppe (n= 118, 87 verstorben, mediane ¨Uberlebenszeit: 43 Monate). In der unbeteiligten Stichprobe ergab sich folgende Verteilung: 45,5% zur Niedrigrisikogruppe (n = 206, 62 verstorben, mediane ¨Uberlebenszeit: 100 Monate), 45,5% zur mittleren Risikogruppe (n= 206, 104 verstorben, mediane ¨Uberlebenszeit: 69 Monate) und 9,1% zur Hochrisikogruppe (n= 41, 33 verstorben, mediane ¨Uberlebenszeit: 43 Monate).

der Risikogruppen des New CML-Scores.10

Ein prospektiver, randomisierter Vergleich zweier IFN-α-Therapieans¨atze

Die einzige der 11 Studien, bei welcher mit einem prospektiven, randomisierten Design zwei IFN-α-Therapienans¨atze verglichen wurden, war die Studie von Guilhot et al. aus dem Jah-re 1988 [37]. Von der franz¨osischen Studie verblieben 196 Patienten in der Analysestichpro-be (vgl. TaAnalysestichpro-belle 3.1). Davon waren 99 Patienten in den IFN-α-Monotherapiearm randomisiert worden (mediane ¨Uberlebenszeit 72 Monate, siehe Tabelle 3.3) und 97 in den IFN-α + Ara-C-Kombinationstherapiearm (mediane ¨Uberlebenszeit 80 Monate). Die ¨ Uberlebenswahrschein-lichkeiten der beiden Therapien waren weder unstratifiziert noch risikogruppenstratifiziert

sta-10Die ¨Uberlebenswahrscheinlichkeiten der JNCI-Lernstichprobe waren niedriger als bei den 453 unbeteiligten Patienten (Logrank-Test: p = 0,0861). Allerdings hatte die JNCI-Lernstichprobe das ung¨unstigere Risikoprofil (vgl. Legende Abbildung 3.2). Ein nach den drei Risikogruppen stratifizierter Logrank-Test [86] f¨uhrte zum p-Wert 0,4007 und konnte damit einen großen Teil der unterschiedlichen ¨Uberlebenswahrscheinlichkeiten erkl¨aren.

Abbildung 3.3: Einteilung der acht IFN-α-Monotherapiearme in drei Gruppen mit unterschiedlichen ¨Uberlebenswahrscheinlichkeiten. Kaplan-Meier Kurven zu den drei Gruppen. Die Legende

(222/47), noch kein Median“ bedeutet: Unter den 222 Patienten mit nach Kaplan-Meier gesch¨atzten ¨Uberlebenswahrscheinlichkeiten wurden 47 Todesf¨alle beobachtet. Die mediane ¨ Uber-lebenszeit wurde noch nicht erreicht. Zu den Zeitpunkten 3, 6 und 9 Jahre wurden um die gesch¨atzte ¨ Uberle-benswahrscheinlichkeit mit Hilfe der Greenwood-Formel [36, 40] 95%-K.I. berechnet. Die L¨ange der horizentalen Abschlusslinien f¨ur die in die Kurven eingezeichneten 95%-K.I. w¨achst mit der Reihenfolge der Nennung in der Legende von oben nach unten. Derp-Wert ist das Ergebnis des Logrank-Tests beim gemeinsamen Vergleich der drei Kurven.

tistisch signifikant unterschiedlich (p-Werte> 0,5).

Einteilung nach Therapieansatz und ¨Uberlebenswahrscheinlichkeiten

Bevor die 1300 Patienten zu Therapiearmen mit jeweils demselben vorgesehenen IFN-α-Therapie-ansatz zusammengef¨ugt wurden, wurde die Heterogenit¨at in den ¨Uberlebenswahrscheinlichkeiten innerhalb des jeweiligen IFN-α-Therapieansatzes betrachtet. Bei den ersten drei der in Tabelle 3.3 angef¨uhrten Studien beobachtete man IFN-α-Monotherapiearme mit einander sehr ¨ahnlichen Uberlebenswahrscheinlichkeiten; die Kaplan-Meier-Kurven waren kaum unterscheidbar. Da sich¨ die drei Studien auch weder bzgl. der Risikogruppenverteilungen des New CML-Scores noch bei den entsprechend stratifizierten Logrank-Tests als statistisch signifikant unterschiedlich heraus-stellten, wurden die drei Studien in einer

”Gruppe A“ zusammengefasst. Mit derselben Argumen-tation ließen sich in Tabelle 3.3 die f¨unf nachfolgenden Studienarme zu zwei Gruppen

”B“ und

”C“ zusammenfassen. Abbildung 3.3 zeigt die drei bzgl. der ¨Uberlebenswahrscheinlichkeiten sta-tistisch signifikant unterschiedlichen Gruppen, in welche sich die acht IFN-α-Monotherapiearme

Tabelle 3.3: Vergleich der ¨Uberlebensdaten zwischen verschiedenen Studien und den vorgesehenen IFN-α-Therapieans¨atzen

Anzahl Mediane Beo- Einteilung

der bachtungszeit Mediane nach Anzahl beobach- noch unter Ri- Uber-¨ Therapie und

Studie der teten siko stehender lebens- Uberlebenswahr-¨

Patienten Todesf¨alle Patienten zeit scheinlichkeiten

n n(%) Monate (na) Monate Gruppe

D - CML I [47] 96 61 (64%) 110 ( 9) 65

IFN-α-GB - CML III [2] 186 100 (54%) 78 ( 40) 63 Monotherapie

J - Hamamatsu [80] 75 35 (47%) 63 ( 31) 66 Gruppe A

A - CML III [115] 45 23 (51%) 101 ( 18) 80

IFN-α-F - Poitiers [37] Monotherapie

IFN-α 99 56 (57%) 94 ( 34) 72 Gruppe B

I - Bologna [57] 196 128 (65%) 122 ( 42) 74

E - Madrid [107] 99 21 (21%) 49 ( 52) n.e.b

IFN-α-F - Bordeaux [74] 123 26 (21%) 51 ( 80) n.e. Monotherapie Gruppe C

B/NL/LUX [15] 79 49 (62%) 86 ( 14) 62 IFN-α + HU

D - CML II [48] 178 68 (38%) 64 ( 63) 68 Gruppe D

A - CML V [116] 27 5 (19%) 54 ( 22) n.e. IFN-α + Ara-C

Gruppe E

F - Poitiers [37] IFN-α + Ara-C

IFN-α + Ara-C 97 50 (52%) 92 ( 32) 80 Gruppe F

Gesamtc 1300 622 (48%) 74 (437) 72

aDie Anzahln der noch unter Risiko stehenden Patienten (der Datenbasis f¨ur die Berechnung der medianen Beobachtungszeit) beinhaltete alle noch lebenden Patienten, die aus anderen Gr¨unden als

SZT in 1. chronischer Phase“ zensiert wurden.

bDas K¨urzel

n.e.“ steht in dieser Tabelle f¨ur noch

nicht erreichte“ mediane ¨Uberlebenszeit.

cZieht man von den 1300 Patienten die verstorbenen 622 und die noch unter Risiko stehenden 437 ab, verbleiben die 241 (19%), welche eine allogene SZT in erster chronischer Phase erhielten und f¨ur die damit kein Ereignis mehr unter IFN-αbeobachtet werden konnte. Analog lassen sich aus der Tabelle die zensierten SZT-Patienten auch f¨ur die einzelnen Studien(arme) berechnen.

einteilen ließen (gemeinsamer Logrank-Test: p < 0,0001, paarweise Logrank-Tests: p jeweils <

0,0025). Außer studienspezifischen Heterogenit¨aten hatten die zwischen den Gruppen A, B und C statistisch signifikant unterschiedlichen Prognosegruppenverteilungen nach dem New CML-Score (paarweise χ2-Tests: p jeweils ≤0,05) einen Einfluss auf die gruppenspezifischen ¨ Uberle-benswahrscheinlichkeiten. Gruppe A hatte das ung¨unstigste Risikogruppenprofil, Gruppe C das G¨unstigste. Die ¨Uberlebenswahrscheinlichkeiten bei nach Risikogruppen stratifizierter Analyse blieben f¨ur die Gruppenvergleiche A vs. C und B vs. C weiter statistisch signifikant unterschied-lich, w¨ahrend die Adjustierung f¨ur das unterschiedliche Risikogruppenprofil beim Vergleich A vs. B nun zu einem statistisch nicht signifikanten Ergebnis f¨uhrte.

Von den vier Studien(armen) zu den Kombinationstherapien waren, analog obigen Vorgehens,

nur die zwei IFN-α + HU-Arme [15, 48] zur Gruppe D zusammenfassbar; die beiden Studi-en(arme) zu IFN-α + Ara-C [37, 116] mussten jeweils in einer eigenen Gruppe belassen werden:

bei einander sehr ¨ahnlicher Risikogruppenverteilung nach dem New CML-Score indizierten der unstratifizierte wie der risikogruppenstratifizierte Logrank-Test statistisch signifikant g ¨unstigere Uberlebenswahrscheinlichkeiten f¨¨ ur die ¨osterreichischen Patienten (p= 0,0445 undp = 0,0308).

Die Kombinationstherapiearme im Vergleich zu den Monotherapiegruppen

Im n¨achsten Schritt wurde untersucht, wo die drei verschiedenen Kombinationstherapiegrup-pen bzgl. der beobachteten ¨Uberlebenswahrscheinlichkeiten und Risikogruppenverteilungen im Vergleich zu den drei IFN-α-Monotherapie-Gruppen A, B und C einzuordnen waren. Die ¨ Uber-lebenswahrscheinlichkeiten der IFN-α + HU-Gruppe D (257 Patienten, 117 beobachtete To-desf¨alle, 65 Monate mediane ¨Uberlebenszeit) lagen zwischen denen der Gruppen A und B. Auch risikogruppenstratifziert waren keine statistisch signifikanten Unterschiede zwischen A und D oder zwischen B und D festzustellen. Ebenso wie die einander ¨ahnlichen ¨ Uberlebenswahrschein-lichkeiten der Gruppen C und E waren auch diejenigen der Gruppen B und F miteinander vergleichbar und f¨uhrten beim stratifizierten Logrank-Test zu keinem statistisch signifikanten Ergebnis.

Zusammenfassend ließ sich feststellen, dass bei den vorliegenden Studien(armen) f ¨ur keine der Kombinationstherapien Resultate vorlagen, die nicht derjenigen einer der drei großen Patienten-gruppen (A, B oder C), jeweils bestehend aus zwei oder drei IFN-α-Monotherapiearmen, ent-sprochen h¨atten. Die Risikogruppenzugeh¨origkeit bei Diagnose - nicht die vorgesehene Therapie - unterstrich ihre prognostische Bedeutung f¨ur die k¨unftigen ¨Uberlebenswahrscheinlichkeiten.

Da keine der betrachteten Studien f¨ur sich genommen außergew¨ohnliche ¨ Uberlebenswahrschein-lichkeiten aufwies, wurden abschließend alle Studienarme zu Therapieans¨atzen zusammengefasst.

Einteilung der zw¨olf Studien(arme) in drei IFN-α-Therapieans¨atze

Die ersten 4-5 Jahre war keine ¨Uberlegenheit einer der drei Therapien erkennbar (Abbildung 3.4). Danach zeigte sich eine Schere zwischen den beiden Kombinationstherapien, in deren Mitte die Kaplan-Meier-Kurve der Monotherapie-Gruppe lag. Zwischen den Risikogruppenverteilun-gen der drei Therapieans¨atze existierten keine statistisch signifikanten Unterschiede (paarweise χ2-Tests). Weder unadjustiert noch nach Risikogruppen adjustiert erwiesen sich der gemein-same Logrank-Test ¨uber alle drei Therapieans¨atze oder die paarweisen Logrank-Tests IFN-α-Monotherapie vs. IFN-α+ Ara-C und IFN-α-Monotherapie vs. IFN-α+ HU als statistisch signi-fikant. Dagegen zeitigte der Paarvergleich zwischen den Kombinationstherapien, ob unadjustiert oder adjustiert, eine statistisch signifikante ¨Uberlegenheit zugunsten von IFN-α + Ara-C (p = 0,0203 bzw.p= 0,0105). Aufgrund des multiplen Testens ohne Adjustierung der Teststatistiken sind auch diese p-Werte als deskriptive, nur explorativ zur Hypothesenentwicklung verwertbare Ergebnisse anzusehen. Therapeutische Schlussfolgerungen verboten sich, weil die Therapiever-gleiche auf drei Patientengruppen basierten, die nicht innerhalb derselben Studie randomisiert wurden, sondern bei ihrer Rekrutierung v¨ollig unterschiedlichen Selektionsmechanismen unter-lagen. Inwieweit dieser Heterogenit¨at durch retrospektiv festgelegte, gemeinsame Ein- und Aus-schlusskriterien und den New CML-Score entgegengewirkt werden konnte, ist nicht bezifferbar.

Festzuhalten blieb v.a., dass der

”ITT-Therapievergleich“ keine außergew¨ohnlichen ¨ Uberlebens-unterschiede hervorbrachte, die signifikanten p-Werte aber vor der sp¨ateren Modellentwicklung ein besonderes Augenmerk auf die mit den vorgesehenen Therapien meist ¨ubereinstimmenden, tats¨achlich verabreichten Therapien nahelegten.

Abbildung 3.4: Kaplan-Meier-Kurven zu den drei IFN-α-Therapieans¨atzen gem¨aß der Studienprotokolle zu 1300 Patienten aus zw¨olf Studien(armen). Die Legende

(124/55), 82 Monate“ bedeutet: Unter den 124 Patienten mit anhand der zugeh¨origen Kaplan-Meier-Kurve gesch¨atzten ¨Uberlebenswahrscheinlichkeiten wurden 55 Todesf¨alle beobachtet. Die mediane ¨Uberlebenszeit be-trug 82 Monate. Zu den Zeitpunkten 3, 6 und 9 Jahre wurden um die gesch¨atzten ¨Uberlebenswahrscheinlichkeiten mit Hilfe der Greenwood-Formel [36, 40] 95%-K.I. berechnet. Die L¨ange der horizentalen Abschlusslinien f¨ur die in die Kurven eingezeichneten 95%-K.I. w¨achst mit der Reihenfolge der Nennung in der Legende von oben nach unten.

3.4.4 Die ¨Uberlebenszeit in Abh¨angigkeit vom applizierten Therapieansatz,