• Keine Ergebnisse gefunden

MARTIN-LUTHER-UNIVERSITÄT HALLE-WITTENBERG Wirtschaftswissenschaftliche Fakultät

N/A
N/A
Protected

Academic year: 2022

Aktie "MARTIN-LUTHER-UNIVERSITÄT HALLE-WITTENBERG Wirtschaftswissenschaftliche Fakultät"

Copied!
23
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

HALLE-WITTENBERG

Wirtschaftswissenschaftliche Fakultät Lehrstuhl für Statistik

Prof. Dr. Claudia Becker

Wintersemester 2005/06 2. Termin

Klausur Anwendungsprojekte

über Varianzanalyse

„Einflussgrößen auf die Überlebenszeit bei Krebserkrankungen“

24.03.2006

Name: ...

Matrikelnummer: ...

(2)

Inhaltsverzeichnis

1. Einleitung ... 1

2. Problemstellung ... 2

3. Theoretische Grundlagen der statistischen Verfahren ... 3

3.1 Deskriptive Verfahren ... 3

3.2 Varianzanalyse ... 6

4. Statistische Auswertung... 11

4.1 Deskriptive Analyse ... 11

4.2 Varianzanalyse ... 13

5. Zusammenfassung...17

Abkürzungsverzeichnis ... 18

Literaturverzeichnis ... 19

Anhang... 20

(3)

1. Einleitung

Nach den verheerenden Folgen eines medizinischen Wirkstofftests bei 6 bri- tischen Versuchspersonen ist in Deutschland eine Diskussion um die zur Zu- lassung von Arzneimitteln nötigen Prüfverfahren entbrannt. Im Allgemeinen gelten die sich an die Produktentwicklung anschließenden gesetzlich gere- gelten Test- und Zulassungsverfahren als sicher. Denn neben Tierversuchen müssen die neuen Arzneimittel klinische Verträglichkeits- und Wirkstofftests an menschlichen Probanden erfolgreich durchlaufen. Bevor also ein Arznei- mittel zugelassen wird, hat der Hersteller bereits mehrere Jahre Forschung und hunderte Millionen Euro investiert.

Dennoch ist mit dieser Prozedur nicht sicher gestellt, dass die neuen Arz- neimittel wirksamer sind als bisherige Medikamente oder bereits existierende alternative Behandlungsmethoden. Insbesondere Krankenkassen als Träger der Arzneimittelausgaben haben ein Interesse daran zu prüfen, ob neue (und womöglich teure) Medikamente bei der tatsächlichen Behandlung von Pati- enten mit dem Medikament eine größere Wirksamkeit als die bisherigen (und womöglich günstigeren) Behandlungsformen zeigen und somit die Kosten- steigerung wirklich mit medizinischem Fortschritt verbunden ist. Solche Wirk- samkeitsstudien werden bei häufig auftretenden Krankheitsbildern mit hohen Behandlungskosten – wie etwa der Krebserkrankung – durchgeführt.

Im vorliegenden Bericht wird die Auswertung einer solchen Studie über die Wirksamkeit von unterschiedlichen Behandlungsmethoden bei Krebspatien- ten vorgenommen. Dazu wurden Daten über die Wirksamkeit einer neuen Behandlungsmethode mit denen von zwei anerkannten, traditionellen Be- handlungsmethoden bei Patienten mit Krebs im fortgeschrittenen Stadium verglichen. Die Wirksamkeit der Behandlungsmethoden wird dabei anhand der Überlebenszeit der Patienten gemessen. Das Ziel der Arbeit besteht dar- in, zu ermitteln, ob sich die Überlebenszeit in Bezug auf die Behandlungs- formen unterscheidet und somit die Behandlungsformen unterschiedlich wirksam sind. Auch soll festgestellt werden, ob andere Einflussfaktoren die Überlebenszeit beeinflussen. Als Analyseinstrument wurde dabei die Vari- anzanalyse eingesetzt, welche in den folgenden Kapiteln beschrieben wird.

(4)

2. Problemstellung

Die Anwendbarkeit der Varianzanalyse in der medizinischen Forschung zur Überprüfung der Wirksamkeit von verschiedenen Medikamenten bzw. Be- handlungsmethoden wurde erstmals durch den grundlegenden Artikel von Cameron und Pauling (1978) gezeigt.1 Seitdem werden regelmäßig Studien zu diesem Zweck durchgeführt, welche die dort beschriebene Untersu- chungsmethodik und das Studiendesign nutzen.

Die in diesem Bericht noch näher zu beschreibende Studie über die Wirk- samkeit von verschiedenen Behandlungsformen bei der Krebstherapie greift ebenfalls auf diese theoretischen Vorarbeiten zurück. Die Studie umfasst die vollständig anonymisierten Daten von insgesamt 64 Patienten, bei denen Krebs im fortgeschrittenen Stadium diagnostiziert wurde. Die Daten bestehen aus allen gemeldeten derartigen Neuerkrankungen in Halle (Saale) im Jahr 2000 und wurden vom zentralen Krebsregister bereitgestellt. Insofern liegt eine Vollerhebung vor und die Daten können als repräsentativ für die Region und den Zeitraum angesehen werden.

Auslöser dieser Studie war die Zulassung einer neuen Behandlungsmethode zur Krebstherapie: einer neuartigen Chemotherapie auf Basis von genetisch veränderten Stammzellen, die eine belastende Operation des Patienten ü- berflüssig machen soll. Ihre Wirksamkeit wird mit zwei anerkannten und bis- her standardmäßig eingesetzten, sich gegenseitig ausschließenden Behand- lungsformen verglichen. Dies sind:

• Operation in Kombination mit einer konventionellen Chemotherapie bzw.

• Bestrahlung mit anschließender Misteltherapie, wobei Mistelextrakte wie z.B. Iscador verabreicht werden.

Um die Wirksamkeit aller 3 Behandlungsmethoden bewerten zu können, wurde die Überlebensdauer der Patienten [in Wochen] nach Beginn der Be- handlung erfasst. Zeigen sich - je nach Behandlungsform - Unterschiede in der Überlebensdauer der Patienten, kann womöglich auf eine unterschiedli-

1 Cameron, E. / Pauling, L. (1978): Supportive treatment of cancer: Re-evaluation of prolongation of survival times in terminal human cancer, in: Proceedings of the National Academy of Science USA, 4538-4542.

(5)

che Wirksamkeit der 3 Behandlungsmethoden geschlossen werden. Als wei- tere mögliche Einflussfaktoren auf die Überlebenszeit wurde erfasst, welches Organ vom Krebs (auslösend) betroffen wurde und ob der Patient einer Risi- kogruppe (Raucher, Übergewicht, bestimmte Berufsgruppen, erblich Vorbe- lastete) zuzuordnen ist oder nicht. Tabelle 1 gibt noch einmal eine Übersicht über alle erhobenen Variablen.

Insgesamt kann festgestellt werden, dass im Datenmaterial keine fehlenden Werte auftreten. Die Auswertungen wurden mit dem Programm SPSS 12.0 für Windows durchgeführt.

Tabelle 1: Merkmale und Ausprägungen

Variablen Ausprägungen Skalenniveau

Fernere Überle- benszeit

Wochen metrisch

Behandlungsform - Neuartige Chemotherapie

- Operation und traditionelle Chemotherapie - Bestrahlung und Misteltherapie

metrisch

Betroffenes Or- gan

- Magen

- Bronchien/Lunge - Dickdarm

- Fortpflanzungsorgane - Brust

metrisch

Zugehörigkeit zu Risikogruppe

- Risikogruppe - Keine Risikogruppe

metrisch

3. Theoretische Grundlagen der statistischen Verfahren 3.1 Deskriptive Verfahren

Bevor die eigentliche Auswertung der Daten mit Hilfe der Varianzanalyse erfolgt, ist es empfehlenswert, den Datensatz deskriptiv zu analysieren. Da- bei wird das Ziel verfolgt, mit Hilfe von Kenngrößen (Lage-, Streuungs- und Schiefeparameter) die Verteilungen der einzelnen Merkmale zu charakteri- sieren und somit die zu analysierende statistische Masse zusammenfassend beurteilen zu können.

Lageparameter geben Auskunft über die Größenordnung der Merkmalswerte und somit über die Lage des Zentrums einer Verteilung. Sie sollen die Ge-

(6)

samtheit der Beobachtungswerte möglichst gut repräsentieren. Als Lagepa- rameter werden in der Regel der Median, die Quantile und das arithmetische Mittel berechnet. Als Median xmed wird jede Merkmalsausprägung eines min- destens nominal skalierten Merkmals bezeichnet, welche die Reihe der Beo- bachtungswerte in zwei gleiche Teile teilt. Er repräsentiert die Mitte der Ver- teilung und ist durch seine Berechnung extrem unempfindlich gegen außer- gewöhnlich hohe/niedrige und somit untypische Beobachtungen (Ausreißer).

Quantile stellen die Verallgemeinerungen des Median dar. Als p-Quantil xp wird diejenige Merkmalsausprägung eines mindestens nominal skalierten Merkmals bezeichnet, welche die Reihe der Beobachtungswerte in p gleiche Teile zerlegt:

N

3 i i 1

3

N 2

2 i i 1 p

N

i i

i 1

X Y

1 (x x)

N , wenn n ungerade,

1 (x x)

N x

1 (x x)(y y)

N , wenn n gerade.

s s

=

=

=

⎧ −

⎪⎪

⎪⎛ ⎞

⎪⎜ − ⎟

⎪⎝ ⎠

= ⎨⎪

⎪⎪ − −

⎪⎪

⎪⎪

Unterhalb von xp befinden sich folglich höchstens genauso viele Untersu- chungseinheiten wie oberhalb dieses Wertes.

Das arithmetische Mittel x ist das am häufigsten verwendete Lagemaß.

Die Bestimmung von x ist nur sinnvoll für Merkmale, die auf einer metri- schen Skala gemessen werden können. Es beschreibt jenen Wert, der sich ergibt, wenn die gesamte Merkmalssumme auf alle n Merkmalsträger zu glei- chen Teilen aufgeteilt wird:

i

x 1x

= n .

Die Aussagefähigkeit von x wird dadurch eingeschränkt, dass es von Aus- reißern beeinflusst wird. Es ist deshalb für die konkreten Daten jeweils zu prüfen, welches Lagemaß eine sinnvolle Aussage über die Verteilung liefern kann. Dazu empfiehlt es sich, die graphische Darstellung einer Häufigkeits- verteilung zu analysieren und dann festzulegen, welches Lagemaß eine

(7)

sinnvolle Aussage über die Verteilung geben kann. Zur graphischen Darstel- lung eignen sich Histogramme und Boxplots für diskrete Merkmale und Stab- bzw. Balkendiagramme für stetige Merkmale. In allen Graphiken werden die Lageparameter mit ihren relativen bzw. absoluten Häufigkeiten abgetragen.

Die Lageparameter reichen zur Charakterisierung einer Häufigkeitsverteilung oft nicht aus. In vielen Fällen ist es auch wichtig zu wissen, ob die Beobach- tungswerte weit auseinander liegen, d.h. stark streuen oder ob sie sehr nahe um einen Mittelwert angeordnet sind. Je geringer die Abweichungen vom Mittelwert sind, desto besser repräsentiert dieser den Datensatz. Das am häufigsten verwendete Streuungsmaß ist die Standardabweichung s bzw.

die positive Quadratwurzel daraus, die Varianz s2. Als Varianz wird die durchschnittliche quadratische Abweichung der Merkmalswerte von x be- zeichnet:

2 n

i i 1

s 1 | x x |

n 1 =

= −

.

Die Varianz besitzt als Maßeinheit das Quadrat der Einheit des Merkmals, für das sie berechnet wurde, und ist daher kaum zu interpretieren. Wichtig für solche Zwecke ist vor allem die Standardabweichung, die durch einen festen Wertebereich von − ≤ ≤ +1 s 1 anschaulich interpretiert werden kann. Je grö- ßer s ist, desto weiter liegen die Merkmalswerte auseinander. Je kleiner s ist, desto kleiner ist die Abweichung der Merkmalswerte von x. Bei s= −1 sind alle Merkmalswerte kleiner als x.

Insbesondere für Vergleichszwecke von Streuungen verschiedener Merkma- le sind Varianz und Standardabweichung ungeeignet. Hierzu müssen so ge- nannte absolute Streuungsmaße wie der Variationskoeffizient genutzt wer- den. Dieser setzt s2 und x in Beziehung und erlaubt als dimensionslose Maßzahl eine merkmalsübergreifende Vergleichbarkeit der Streuungen:

s2

v= x .

Durch Lage- und Streuungsparameter kann eine Häufigkeitsverteilung im Allgemeinen ausreichend charakterisiert werden. Es gibt aber Fälle, in denen unterschiedliche Verteilungen sowohl in Lageparametern als auch in Streu-

(8)

ungsmaßen übereinstimmen. So ist es in diesen Fällen erforderlich, weitere Kennzahlen wie die Schiefe zur Charakterisierung der Verteilung heranzu- ziehen. Die Schiefe beschreibt dabei, inwieweit bei der Verteilung eine Symmetrie bzw. Asymmetrie (Schiefe) vorliegt. Verteilen sich die Beobach- tungswerte eines mindestens ordinal skalierten Merkmals gleichförmig zu beiden Seiten um den Mittelwert x und gilt x=xmed, liegt eine symmetrische Häufigkeitsverteilung vor. Anderenfalls ist die Häufigkeitsverteilung asymmet- risch bzw. schief. Ist x>xmed, wird von einer rechtsschiefen (rechtssteilen) Verteilung gesprochen, bei x<xmed von einer linksschiefen (linkssteilen) Ver- teilung. In der Regel ist es nützlich, die Ausgeprägtheit der Schiefe der Ver- teilung mit einer Maßzahl zu messen. Die üblichen Schiefemaße sind wie folgt definiert:

• rechtsschiefe Verteilung: Schiefemaß positiv,

• symmetrische Verteilung: Schiefemaß 0,

• linksschiefe Verteilung: Schiefemaß negativ.

3.2 Varianzanalyse

Die Varianzanalyse ist ein Verfahren, das die Wirkung einer/mehrerer min- destens nominal skalierter unabhängiger Variablen auf eine/mehrere met- risch skalierte abhängige Variable untersucht. Im vorliegenden Bericht wird jedoch nur auf den Fall einer abhängigen Variable eingegangen. Die Vari- anzanalyse unterstellt eine Vermutung über die Wirkungsrichtung der Variab- len in der Art, dass die unabhängigen Variablen xj (j=1,…,k) als ursächlich für das Entstehen der Werte der abhängigen Variable y angesehen werden:

) , ,..., ,..., ,

(x1 x2 xj xk ε f

y= .

Die erklärenden (unabhängigen) Variablen werden in der Varianzanalyse allgemein als Faktoren bezeichnet, die Ausprägungen der unabhängigen Va- riablen als Faktorstufen g (g=1,…,G). Die Faktoren müssen sich inhaltlich eindeutig voneinander unterscheiden und die Faktorstufen müssen stets al- ternative Zustände beschreiben. Der Modellparameter ε erfasst alle Ein- flussgrößen außerhalb des vermuteten Modells, welche die Werte von y mit- bestimmen (wie unberücksichtigte Faktoren, Mess- oder Beobachtungsfeh-

(9)

ler). Für ε werden dabei in allen Faktorstufen g die üblichen Annahmen un- terstellt:

• die äußeren Einflüsse sollen rein zufällig auftreten: Eig)=0,

• die äußeren Einflüsse wirken sich in allen Faktorstufen gleich aus (Va- rianzhomogenität): var(εig)=σε2 =constant,

• die äußeren Einflüsse folgen einer Normalverteilung: εig ~ N(0,σε2),

• die äußeren Einflüsse sind unkorreliert.

Das Ziel des gesamten Verfahrens besteht in der Analyse, ob die unter- schiedlichen Werte der abhängigen Variable auf die Variation der Faktorstu- fen eines Faktors zurückzuführen sind und somit der Faktor einen statistisch gesicherten Einfluss auf y ausübt oder nicht. Der Aufruf der Varianzanalyse in SPSS erfolgt aus dem Menü „Analysieren“. Im Unterpunkt „Allgemeines lineares Modell“ muss dann die Prozedur „Univariat“ aufgerufen werden. An- schließend sind die unabhängigen Variablen (Feste Faktoren) und y festzu- legen und die Analyse mit „OK“ zu starten.

Die analytische Idee der Varianzanalyse wird zunächst am Beispiel einer ein- faktoriellen Varianzanalyse erläutert. Nachdem die G Ausprägungen des Faktors A ermittelt wurden, werden von y insgesamt G Teilstichproben vom Umfang ng gezogen (vereinfachend sei unterstellt, dass ng =n). Danach erfolgt die Berechnung des Gesamtmittelwertes y und des Mittelwertes je Faktorstufe yg aus den Beobachtungswerten yig. Die Aufgabe ist nun, zu untersuchen, ob Faktor A die Variable y beeinflusst oder nicht. Dazu werden die Mittelwertunterschiede zwischen y und yg analysiert. Bestehen solche Mittelwertunterschiede, haben die Faktorstufen keinen Einfluss auf y. Können keine Unterschiede festgestellt werden, dann haben die Faktorstufen Ein- fluss. Für die rechnerische Analyse der Mittelwertunterschiede wird folgen- des additives, lineares Modell der Varianzanalyse unterstellt:

ig g ig

y = μ + α + ε .

Dabei beschreibt μ den Gesamtmittelwert der Grundgesamtheit, welcher in der Stichprobe durch y geschätzt wird, und αg die Wirkung der g-ten Fak- torstufe des Faktors A (lg

yg y

α = − ). Die Parameter αgund εig werden mit

(10)

Hilfe der Kleinsten-Quadrate-Methode geschätzt. Hat der Faktor A keinen Einfluss auf y und gelten die Annahmen über εig, so ist (in der Stichprobe) der Prognosewert für y lediglich y. Nimmt man jedoch einen Einfluss des Faktors A an, so errechnet man (je nach Faktorstufe) yg als Prognosewert für y. Die Abweichungen ε =ig (yig−y )g werden durch zufällige äußere Ein- flüsse bewirkt und können durch das Modell nicht erklärt werden.

Um die im Modell erfassten Einflüsse von den im Modell nicht erfassten tren- nen zu können, wird also eine Streuungszerlegung der abhängigen Variablen vorgenommen. Dabei wird die Gesamtabweichung SSt in eine durch das Modell erklärte Abweichung SSb und eine vom Modell nicht erklärte Abwei- chung SSw zerlegt:

n G G n G

2 2 2

ig g ig g

i 1 g 1 g 1 i 1 g 1

(y y) n(y y) (y y )

= = = = =

− = − + −

∑∑ ∑ ∑∑

Gesamtab- = erklärte Ab- + nicht erklärte weichung SSt weichung SSb Abweichung SSw. Die nicht erklärte Abweichung SSw erfasst die Summe der quadrierten Ab- weichungen innerhalb der Faktorstufen. Denn streuen die Beobachtungswer- te yig um yg, ist diese Streuung allein auf unberücksichtigte Einflussgrößen zurückzuführen und kann somit nicht durch das Modell erklärt werden. Die erklärte Abweichung SSb erfasst die Summe der quadrierten Abweichungen zwischen den Faktorstufen. Wirkt sich die nicht erklärte Abweichung in allen Faktorstufen gleich aus, so drückt die Abweichung (ygy) den Einfluss der Faktorstufe g des Faktors A aus.

In einem weiteren Rechenschritt werden die 3 verschiedenen quadrierten Abweichungen SS durch ihre Freiheitsgrade dividiert und dadurch so ge- nannte mittlere quadratische Abweichungen MS ermittelt. Eine Gegenüber- stellung der Größen MSw und MSb ermöglicht es, die Bedeutung des Faktors A im Vergleich zu den nicht erfassten Einflussgrößen abschätzen zu können.

Ist MSw= 0, so wird SSt alleine durch den Faktor A erklärt. Je größer MSw im

(11)

Vergleich zu MSb ist, desto geringer ist der Erklärungsanteil und somit die Wirkung des Faktors A auf y und desto größer ist der Erklärungsanteil der im Modell nicht erfassten Einflussgrößen. Je größer also der Quotient (MSb/MSw) ausfällt, desto eher ist eine Wirkung des Faktors A anzunehmen.

Die statistische Signifikanzprüfung des Faktors erfolgt schließlich durch den F-Test. Hier werden nun folgende Hypothesen überprüft:

H1: Die Faktorstufen haben keinen Einfluss auf y (αg =0 ∀ = g 1,..., G) vs.

H0: mindestens eine Faktorstufe hat einen Einfluss (mind. 2 αg ≠0).

Gilt H1, so unterscheiden sich die Faktorstufen des Faktors A bezüglich ihrer durchschnittlichen Ausprägung yg nicht und die Mittelwertunterschiede (ygy) sind nur zufällig zustande gekommen. Daher kann kein Einfluss des Faktors angenommen werden. Würde H0 gelten, unterscheidet sich mindes- tens eine Faktorstufe hinsichtlich yg signifikant von y. Es kann daher ein Einfluss des Faktors vermutet werden.

Um über die Annahme bzw. Ablehnung von H0 und H1 entscheiden zu kön- nen, wird eine Prüfgröße Femp berechnet, welche dann mit der Irrtumswahr- scheinlichkeit α verglichen wird:

b emp

w

F MS

= MS .

Die Irrtumswahrscheinlichkeit α (auch Signifikanzniveau oder Fehler 1. Art genannt) stellt den vom Anwender maximal tolerierbaren Irrtum dar, dass H0 angenommen wird, obwohl H1 korrekt ist. Es wird - wie allgemein üblich - im Bericht α = 0.05 gesetzt. Durch die Wahl von α wird ebenso die Vertrau- enswahrscheinlichkeit 1−α = 0.95 (auch Wahrscheinlichkeit für den Fehler 2. Art genannt) festgelegt. Dies bedeutet, dass in 95% aller Fälle die Annah- me von H1 erfolgt, wenn diese korrekt ist, und nur in 5% der Fälle irrtümlich H0 angenommen wird. Durch das Studiendesign ist es also möglich, den Fehler 1. und 2. Art gleichzeitig zu kontrollieren.

Beim Vergleich von Femp mit α können nun folgende Testentscheidungen getroffen werden:

(12)

• Ist Femp> α, muss H0 angenommen werden und H1 verworfen wer- den. Dies bedeutet, dass für Faktor A ein Einfluss auf y nachgewiesen werden konnte.

• Ist Femp< α, ist H1 anzunehmen. SPSS konnte folglich keinen signifi- kanten Einfluss des Faktors A berechnen.

Lehnt man mittels F-Test die Hypothese des mangelnden Einflusses des Faktors A auf y ab, stellt sich zwangsläufig die Frage, welche Faktorstufen für den signifikanten Einfluss des Faktors verantwortlich sind. Zu dieser Prob- lematik sind jedoch keine Tests möglich, denn würde sich unter den Beo- bachtungswerten ein Ausreißer befinden, könnte dieser zu einem signifikan- ten F-Wert führen, obwohl die Mittelwerte yg sich ohne den Ausreißer nicht signifikant unterscheiden.

Die mehrfaktorielle Varianzanalyse untersucht den Einfluss mehrerer Fak- toren auf y. Das Grundprinzip der Streuungszerlegung bleibt auch hier erhal- ten, allerdings umfasst die erklärte Abweichung SSb nun den Einfluss der einzelnen Faktoren und zusätzlich so genannte Wechselwirkungen der Fak- toren. Dies sind Interaktionseffekte, die bei gleichzeitigem Wirksamwerden zweier oder mehrerer Faktoren eine eigenständige Wirkung auf y haben. Für die rechnerische Durchführung wird folgendes additives, lineares Modell (am Beispiel einer zweifaktoriellen Varianzanalyse mit den Faktoren A und B, wo- bei für Faktor B die Faktorstufen mit h = 1,...,H bezeichnet werden) unter- stellt:

igh gh h

g

yig =μ+α +β +(αβ) +ε .

Dabei beschreibt αg die Wirkung des Faktors A auf der g-ten Faktorstufe (lg

yg y

α = − ), βh den Einfluss des Faktors B auf der h-ten Faktorstufe (

h yh y

β = − ) und (αβ)gh den Interaktionseffekt zwischen der g-ten Faktorstu- fe von A und der h-ten Faktorstufe von B. Die Wechselwirkungen können im Plot der Faktorstufenmittelwerte ygh erkannt werden: Wechselwirkungen lie- gen vermutlich vor, wenn die Verbindungslinien der Mittelwerte parallel ver- laufen. Keine Wechselwirkungen werden vorliegen, wenn ein nichtparalleler

(13)

Verlauf dieser Linien zu beobachten ist, denn dann verändert sich der Wir- kungsunterschied zweier Faktorstufen.

Die statistische Prüfung erfolgt wiederum durch den F-Test, wobei jetzt für jeden Faktor und für jede mögliche Wechselwirkung getrennt ein F-Test durchzuführen ist.

4. Statistische Auswertung 4.1 Deskriptive Analyse

Den Ausgangspunkt der statistischen Analyse stellt die Ermittlung von de- skriptiven Kennzahlen für jedes der 4 Merkmale dar (vgl. Tabelle 2). Die Fer- nere Überlebenszeit stellt in Kapitel 4.2 die abhängige Variable dar, die rest- lichen 3 Merkmale die so genannten Faktoren.

Tabelle 2: Deskriptive Analyse der 4 Merkmale

Deskriptive Statistik

64 64 64 64 64

3788 4 2 1

20 1 1 1

3808 5 3 2

35752 177 120 98

558,63 2,77 1,88 1,53

776,479 1,354 ,807 ,503

602919,1 1,833 ,651 ,253

2,658 ,363 ,234 -,128

N Spannweite Minimum Maximum Summe Mittelwert Standardab weichung Varianz Schiefe

Fernere Überlebe

nszeit Betroffen es Organ

Behandlu ngsform

Zugehöri gkeit zu Risikogru

Gültige Werte (Listenwe

Im Durchschnitt über alle 64 Krebspatienten beträgt die Fernere Überlebens- zeit nach Beginn der Behandlung 558.63 Wochen. Am häufigsten ist der Dickdarm vom Krebs betroffen (Mittelwert = 2.77 ≈ 3) und die in den meisten Fällen genutzte Behandlungsform ist die Operation in Kombination mit einer traditionellen Chemotherapie (Mittelwert = 1.88 ≈ 2). Die Mehrheit der Pro- banden gehört keiner Risikogruppe an (Mittelwert 1.53 ≈ 2).

Der Vergleich der Standardabweichungen zwischen den Merkmalen zeigt, dass die Variable Fernere Überlebenszeit die größte Streuung hat. Hier schwanken die Werte im Durchschnitt um 776.479 Wochen um den Mittel-

(14)

wert. Bei der Auswertung der Werte des Schiefemaßes kann festgestellt wer- den, dass alle Merkmale rechtsschief verteilt sind.

In Tabelle 3 wird die durchschnittliche Fernere Überlebenszeit in Abhängig- keit der jeweiligen Faktorstufen eines Faktors dargestellt.

Tabelle 3: Überlebenszeit in Abhängigkeit der Faktoren

Univariate Statistiken

286,00 211,59 457,41 884,33 1395,91

13,000 17,000 17,000 6,000 11,000

Mittelwert N

Statistik Statistik Statistik Statistik Statistik Magen Bronchie Dickdarm Fortpflanz Brust

Betroffenes Organ

Die größte Überlebenszeit haben Patienten, bei denen der Krebs die Brust oder die Fortpflanzungsorgane befällt (im Mittel 1395.91 bzw. 884.33 Wo- chen). Im Vergleich dazu geringe Überlebenszeiten haben Patienten mit Krebsbefall am Magen, an den Bronchien und am Dickdarm.

Auch die Wirksamkeit der 3 möglichen Behandlungsformen zur Krebsthera- pie kann schon in Tabelle 3 grob beurteilt werden. So scheint die Operation in Kombination mit der traditionellen Chemotherapie mit durchschnittlich 775.59 Wochen Überlebenszeit deutlich wirksamer zu sein als die neuartige Chemotherapie (459.88 Wochen) und die Bestrahlung in Kombination mit der Misteltherapie (423.06 Wochen). Ebenso kann vermutet werden, dass die Zugehörigkeit zu einer Risikogruppe die Überlebensdauer bei einer Krebser- krankung beeinflusst: Risikopatienten erleben im Durchschnitt noch weitere 240.83 Wochen, jedoch Patienten, die keiner Risikogruppe angehören, 839.03 Wochen.

Mit Hilfe der Analyse der Boxplots der Überlebenszeit in den jeweiligen Fak- torstufen eines Faktors können keine Anzeichen auf Ausreißer oder Asym- metrie der Häufigkeitsverteilungen gewonnen werden (vgl. Abbildung A1 im Anhang). In allen Boxplots wird jedoch die Normalverteilung der abhängigen Variablen deutlich.

Univariate Statistiken

240,83 839,03 30,000 34,000 Mittelwert

N

Statistik Statistik Risikogru Keine

Zugehörigkeit zu Univariate Statistiken

459,88 775,59 423,06

25,000 22,000 17,000

Mittelwert N

Statistik Statistik Statistik neuartige

Chemoth erapie

Operation und traditionel

Bestrahlu ng und Mistelther Behandlungsform

(15)

4.2 Varianzanalyse

Bevor die Varianzanalyse durchgeführt werden kann, ist zu überprüfen, ob das in Kapitel 3.2 eingeführte additive, lineare Modell der Varianzanalyse überhaupt unterstellt werden kann. Dazu ist zu kontrollieren, ob zwischen den Merkmalen lineare Beziehungen bestehen. Dies kann mittels des Korre- lationskoeffizienten nach Bravais/Pearson geschehen:

Tabelle 4: Korrelation nach Bravais/Pearson

Korrelationen

1 ,504** ,004 ,387**

,000 ,974 ,002

64 64 64 64

,504** 1 ,118 ,209

,000 ,353 ,097

64 64 64 64

,004 ,118 1 ,088

,974 ,353 ,489

64 64 64 64

,387** ,209 ,088 1

,002 ,097 ,489

64 64 64 64

Korrelation nach Pearson Signifikanz (2-seitig) N

Korrelation nach Pearson Signifikanz (2-seitig) N

Korrelation nach Pearson Signifikanz (2-seitig) N

Korrelation nach Pearson Signifikanz (2-seitig) N

Fernere Überlebenszeit [Wochen]

Betroffenes Organ

Behandlungsform

Zugehörigkeit zu Risikogruppe

Fernere Überlebensz eit [Wochen]

Betroffenes Organ

Behandlu ngsform

Zugehörigkeit zu Risikogruppe

Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.

**.

Aus Tabelle 4 kann abgelesen werden, dass zwischen der abhängigen Vari- able und den Faktoren deutliche bis starke lineare Zusammenhänge beste- hen. Daher kann die Varianzanalyse unter Anwendung des linearen Modells durchgeführt werden.

Das Ziel des Berichtes besteht darin, zu ermitteln, welche Faktoren Einfluss auf die Überlebenszeit haben. Die Analyse wird dazu in folgende Schritte unterteilt: Zuerst werden 3 einfaktorielle Varianzanalysen durchgeführt, um zu beurteilen, ob die einzelnen Faktoren isoliert eine Wirkung auf die Überle- benszeit ausüben. Anschließend wird überprüft, ob mögliche Wechselwir- kungen der Faktoren die abhängige Variable y signifikant beeinflussen oder nicht. Zum Abschluss der Analyse ist die Einhaltung der Annahmen über εig zu kontrollieren.

(16)

Tabelle 5: Einfaktorielle Varianzanalyse (Behandlung)

Tests der Zwischensubjekteffekte Abhängige Variable: Fernere Überlebenszeit [Wochen]

1591826,101a 2 795913,05 1,334 ,271

19065411,543 1 19065412 31,957 ,000

1591826,101 2 795913,05 1,334 ,271

36392078,899 61 596591,46

57955866,000 64

37983905,000 63

Quelle

Korrigiertes Modell Konstanter Term Behandlung Fehler Gesamt Korrigierte Gesamtvariation

Quadratsum me vom Typ III df

Mittel der

Quadrate F Signifikanz

R-Quadrat = ,042 (korrigiertes R-Quadrat = ,010) a.

Die erste einfaktorielle Varianzanalyse untersucht den Einfluss der Behand- lungsform auf die abhängige Variable (vgl. Tabelle 5). Es zeigt sich, dass der Faktor Behandlungsform keine signifikante Wirkung auf die Überlebenszeit hat, denn R2 < α. Dies bedeutet, dass nicht davon ausgegangen werden kann, dass die 3 Behandlungsformen unterschiedlich wirksam sind. Die Un- terschiede der Faktorstufenmittelwerte sind also als zufällig anzusehen und nicht statistisch gesichert. Die neue Chemotherapie ist also nicht wirksamer als die bisherigen Behandlungsformen.

Tabelle 6: Einfaktorielle Varianzanalyse (Risikogruppe)

Tests der Zwischensubjekteffekte Abhängige Variable: Fernere Überlebenszeit [Wochen]

11535760,522a 4 2883940,1 6,433 ,000

23149150,967 1 23149151 51,641 ,000

11535760,522 4 2883940,1 6,433 ,000

26448144,478 59 448273,64

57955866,000 64

37983905,000 63

Quelle

Korrigiertes Modell Konstanter Term Organ

Fehler Gesamt Korrigierte Gesamtvariation

Quadratsum me vom Typ III df

Mittel der

Quadrate F Signifikanz

R-Quadrat = ,304 (korrigiertes R-Quadrat = ,256) a.

Mit der zweiten einfaktoriellen Varianzanalyse wird überprüft, ob die Zugehö- rigkeit zu einer Risikogruppe die Überlebenszeit beeinflussen kann (vgl. Ta- belle 6). Hier wird ersichtlich, dass von einem signifikanten Einfluss der Zu- gehörigkeit zu einer Risikogruppe auf die weitere Lebenserwartung ausge- gangen werden muss, da Femp > α. Wie aus Tabelle 6 zu ersehen ist, verkürzt die Zugehörigkeit zu einer Risikogruppe die Überlebenszeit.

(17)

Tabelle 7: Einfaktorielle Varianzanalyse (Organ)

Tests der Zwischensubjekteffekte Abhängige Variable: Fernere Überlebenszeit [Wochen]

5703051,863a 1 5703051,9 10,954 ,002

18584775,300 1 18584775 35,695 ,000

5703051,863 1 5703051,9 10,954 ,002

32280853,137 62 520658,92

57955866,000 64

37983905,000 63

Quelle

Korrigiertes Modell Konstanter Term Risikogruppe Fehler Gesamt Korrigierte Gesamtvariation

Quadratsum me vom Typ III df

Mittel der

Quadrate F Signifikanz

R-Quadrat = ,150 (korrigiertes R-Quadrat = ,136) a.

Die letzte einfaktorielle Varianzanalyse mit dem Faktor Organ zeigt, dass auch hier ein signifikanter Einfluss auf die Überlebenszeit vorliegt (vgl. Tabel- le 7). Es spielt also keine Rolle, welches Organ vom Krebs betroffen wurde, denn die durchschnittlichen Überlebenszeiten in den Faktorstufen unter- scheiden sich nicht signifikant.

Tabelle 8: Dreifaktorielle Varianzanalyse mit Wechselwirkungen

Tests der Zwischensubjekteffekte Abhängige Variable: Fernere Überlebenszeit [Wochen]

26258570,150a 27 972539,64 2,986 ,001

11214327,934 1 11214328 34,431 ,000

3531151,241 4 882787,81 2,710 ,045

92921,491 2 46460,745 ,143 ,868

2609387,694 1 2609387,7 8,012 ,008

3763010,730 8 470376,34 1,444 ,212

1999177,760 4 499794,44 1,535 ,213

1377289,013 2 688644,51 2,114 ,135

1976122,177 6 329353,70 1,011 ,433

11725334,850 36 325703,75

57955866,000 64

37983905,000 63

Quelle

Korrigiertes Modell Konstanter Term Organ

Behandlung Risikogruppe Organ * Behandlung Organ * Risikogruppe Behandlung * Risikogruppe Organ * Behandlung * Risikogruppe Fehler Gesamt Korrigierte Gesamtvariation

Quadratsum me vom Typ III df

Mittel der

Quadrate F Signifikanz

R-Quadrat = ,691 (korrigiertes R-Quadrat = ,460) a.

In einem letzten Analyseschritt wird überprüft, ob auch die Wechselwirkun- gen der Faktoren eine eigenständige Wirkung auf y haben. Denn es ist an- zunehmen, dass die Zugehörigkeit zu einer Risikogruppe dazu führt, dass bestimmte Organe besonders vom Krebs betroffen werden und dadurch die Überlebenszeit beeinflusst wird. Ebenso ist es vorstellbar, dass die anzu- wendende therapeutische Behandlung davon abhängt, welches Organ vom Krebs betroffen ist. Daher ist in Tabelle 8 eine Varianzanalyse mit allen 3

(18)

Faktoren und allen möglichen Wechselwirkungen berechnet worden. Es ist zu erkennen, dass für nahezu alle Interaktionseffekte der Test wegen Insigni- fikanz zu verwerfen ist. Einzig die Wechselwirkung „Behandlungsform und Risikogruppe“ hat einen signifikanten F-Wert von 0.143 aufzuweisen. Die Plots der Faktorstufenmittelwerte (vgl. Abbildung A2 im Anhang) bestätigen insgesamt diesen Eindruck. Für die Faktoren selbst ist in dieser dreifaktoriel- len Varianzanalyse dieselbe Testentscheidung wie bei den einfaktoriellen Varianzanalysen zu treffen.

Abschließend ist - beispielhaft für die dreifaktorielle Varianzanalyse - die Ein- haltung der Annahmen über εig (Varianzhomogenität und Normalverteilung) zu überprüfen. Ob Varianzhomogenität von εig in den Faktorstufen unterstellt werden darf, kann graphisch mit einer Inspektion von Boxplots der Varianzen oder Histogrammen abgeschätzt werden (vgl. Abbildung 1).

Abbildung 1: Überprüfung der Varianzhomogenität der Residuen

Aus den Abbildungen kann geschlossen werden, dass sich der Term εig in allen Faktorstufen gleich auswirkt und daher die Eigenschaft der Varianzho- mogenität erfüllt ist.

Für die Überprüfung auf Normalverteilung der εig in den einzelnen Faktorstu- fen müssen die εig gegen ihren Vorgängerwert εi 1,g geplottet werden. Kann durch die im Plot entstehende Punktewolke eine Regressionsgerade gelegt

0 1.000 2.000 3.000 4.000

Beobachteter Wert -0,6

-0,3 0,0 0,3 0,6 0,9 1,2

Abweichung von Normal

von Risikogruppe= Keine Risikogruppe

Trendbereinigtes Q-Q-Diagramm von Fernere Überlebenszeit [Wochen]

0 1000 2000 3000 4000

Fernere Überlebenszeit [Wochen]

0 5 10 15 20

Häufigkeit

Mean = 839,03 Std. Dev. = 960,597 N = 34

von Risikogruppe= Keine Risikogruppe Histogramm

(19)

werden, bestätigt dies die Güte des linearen Modells unter Annahme der Normalverteilung (vgl. Abbildung 2).

Abbildung 2: Überprüfung der Normalverteilung der Residuen

Im vorliegenden Fall streuen die Werte im Plot unsystematisch. Somit wäre eine gewisse Abweichung von der Normalverteilungsannahme zu befürchten.

0 1000 2000 3000 4000

Fernere Überlebenszeit [Wochen] (Lag 1) 0

1000 2000 3000 4000

Fernere Überlebenszeit [Wochen]

-250 0 250 500 750 1.000

Beobachteter Wert -2

-1 0 1 2

Erwarteter Normalwert

von Risikogruppe= Risikogruppe

Q-Q-Diagramm von Fernere Überlebenszeit [Wochen]

(20)

Abkürzungsverzeichnis

(21)

Literaturverzeichnis

Prof. Dr. Eckey, H.F. / Prof. Dr. Kosfeld, R. / Dipl.-Vw. Rengers, M. (2002):

Multivariate Statistik – Grundlagen, Methoden, Beispiele, Gabler Verlag, Wiesbaden.

Prof. Dr. Backhaus, K. / Prof. Dr. Erichson, B. / Prof. Dr. Plinke, W. / Prof. Dr.

Weiber, R. (2000): Multivariate Analysemethoden – Eine anwendungsorien- tierte Einführung, 9. Auflage, Springer Verlag, Berlin.

Prof. Dr. Schwarze, J. (1998): Grundlagen der Statistik I – Beschreibende Statistik, 8. Auflage, Verlag Neue Wirtschafts-Briefe, Herne/Berlin.

(22)

Anhang

Abbildung A1: Boxplots

Risikogruppe Keine Risikogruppe

Zugehörigkeit zu Risikogruppe

0 1000 2000 3000 4000

Fernere Überlebenszeit [Wochen]

4

18 64 63

Magen Bro

nchien/Lu nge

Dickda rm

Fortpfl anzung

sorgane Brust

Betroffenes Organ

0 1000 2000 3000 4000

Fernere Überlebenszeit [Wochen]

3

18

64 63

30

12

neuartige Chemotherapie Operation und traditionelle Chemotherapie

Bestrahlung und Misteltherapie Behandlungsform

0 1000 2000 3000 4000

Fernere Überlebenszeit [Wochen]

359 61

41 18

64 63

(23)

Abbildung A2: Plot der Faktorstufenmittelwerte

neuartige Chemotherapie

Operation und traditionelle Chemotherapie

Bestrahlung und Misteltherapie

Behandlungsform

200 400 600 800 1000

Geschätztes Randmittel

Zugehörigkeit zu Risikogruppe

Risikogruppe Keine Risikogruppe

Geschätztes Randmittel von Fernere Überlebenszeit [Wochen]

Magen Bro

nchien /Lunge

Dickdarm Fortp

flanzungso rgane Brust

Betroffenes Organ

0 500 1000 1500

Geschätztes Randmittel

Behandlungsform neuartige Chemotherapie Operation und traditionelle Chemotherapie Bestrahlung und Misteltherapie

Geschätztes Randmittel von Fernere Überlebenszeit [Wochen]

Magen Bronc

hien/Lunge Dickdarm For

tpflanzungsorgan

e Brust

Betroffenes Organ

0 500 1000 1500

Geschätztes Randmittel

Zugehörigkeit zu Risikogruppe

Risikogruppe Keine Risikogruppe

Geschätztes Randmittel von Fernere Überlebenszeit [Wochen]

Abbildung

Tabelle 1: Merkmale und Ausprägungen
Tabelle 2: Deskriptive Analyse der 4 Merkmale
Tabelle 3: Überlebenszeit in Abhängigkeit der Faktoren
Tabelle 4: Korrelation nach Bravais/Pearson
+7

Referenzen

ÄHNLICHE DOKUMENTE

7. Kognitive Einschränkungen sowie vermehrtes Auftreten von NSS bei Patientinnen mit AN und BN werden bestätigt. Die Ergebnisse der Testverfahren mit guten psychometri-

So wurden zunächst Gesprächsaktivitäten und -strategien für kulturreflexives Sprechen besprochen (Nazarkiewicz) und es wurde diskutiert, welche Praktiken eine

Hier wird ersichtlich, dass nicht von einem signifikanten Einfluss des Ge- schlechts auf die Performance ausgegangen werden muss, da. F emp &lt; −

Für den Fall, dass R² den Wert 0 annimmt, kann der Zusammenhang zwischen y und den unabhängigen Variablen nicht durch die unterstellte Regressionsfunktion dargestellt werden..

Es lässt sich feststellen, dass sich die politischen Grenzen nicht vollständig abbilden lassen, weil die Cluster aus Staaten mit unterschiedlicher Zugehörigkeit zu

Das Ergebnis in Tabelle 5 zeigt, dass von einem signifikanten Zusammenhang zwischen den beiden Variablen auszugehen ist und somit die Variable Arbeitslosenrate für die

Vor vielen Jahren fragte mich Y IGAL B RONNER brieflich, als er mit der Arbeit an seiner Dissertation begann, ob ich ihm eine sinnvolle Begründung für die Wahl einer solch

But even if the Copts had not been particularly eager to study the theological texts trans- lated by the Germans, the importance of these documents for the history of Ara-