• Keine Ergebnisse gefunden

Version 2 Februar 2000

N/A
N/A
Protected

Academic year: 2022

Aktie "Version 2 Februar 2000"

Copied!
44
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Skripte zur Methodenlehre, V

Einfuhrung in die statistische Analyse

von Zustandsverlaufen

G. Rohwer U. Potter

Version 2 Februar 2000

(2)

Vorbemerkung.

Bei den "Skripten zur Methodenlehre\ handelt es sich um Texte, die als Leitfaden fur Seminare zur sozialwissenschaftlichen Me- thodenlehre dienen sollen. Das vorliegende Skript beschaftigt sich mit statistischen Methoden zur Analyse von Langsschnittdaten. Dabei ori- entieren wir uns an Anwendungen dieser Methoden in der empirischen Sozialforschung, bei denen es in erster Linie um eine Untersuchung von Lebensverlaufen geht und Daten dementsprechend in Gestalt von Zu- standsverlaufen gegeben sind. Darauf bezieht sich die im ersten Kapitel eingefuhrte Terminologie.

Der Text enthalt zahlreiche Ubungsaufgaben, die wahrend der Bear- beitung des Stoes gelost werden sollten. Die meisten Aufgaben konnen mit Bleistift und Papier gelost werden; fur einige Aufgaben ist die Ver- wendung eines Taschenrechners hilfreich.

Fur Anwendungen der Methoden in der empirischen Sozialforschung, bei denen man es meist mit groeren Datensatzen zu tun hat, mu man allerdings Computer und geeignete Statistikprogramme verwenden. Der Text enthalt deshalb einen Anhang, anhand dessen man das Programm TDAkennenlernen kann, mit dem die meisten Fragestellungen der Ver- laufsdatenanalyse bearbeitet werden konnen. Mit den Aufgaben dieses Anhangs kann man sich entweder parallel zur Behandlung des Haupt- textes oder in einem sich anschlieenden Workshop beschaftigen.

Uber die hier behandelten statistischen Methoden gibt es eine sehr umfangreiche Literatur. Wer sein Wissen uber die statistischen Aspek- te der Methoden vertiefen mochte, sei auf Lawless (1982) und Cox und Oakes (1984) hingewiesen. Fur eine weiterfuhrende Diskussion von An- wendungen in der empirischen Sozialstrukturforschung sei auf Blossfeld und Rohwer (1995) verwiesen.

mete.tex Februar 2000

Homepage:http://www.stat.ruhr-uni-bochum.de [lecture notes]

i

Inhaltsverzeichnis

1 Einfuhrung 1

1.1 Objekte und Lebensverlaufe . . . 1

1.2 Verhalten und Zustande . . . 1

1.3 Der Zustandsraum . . . 1

1.4 Biographieschema . . . 2

1.5 Mehrdimensionale Zustandsraume . . . 2

1.6 Die Zeitachse . . . 3

1.7 Ereignisse als Zustandswechsel . . . 3

1.8 Kalenderzeit und Prozezeit . . . 4

1.9 Verlaufsdiagramme . . . 5

1.10 Kohorten . . . 5

2 Statistische Beschreibungen 7 2.1 Statistische Variablen . . . 7

2.2 Zustandsvariablen . . . 8

2.3 Partielle Lebensverlaufe . . . 9

2.4 Statistische Verteilungen . . . 10

2.5 Zustandsverteilungen . . . 11

3 Verweildauerverteilungen 15 3.1 Episoden . . . 15

3.2 Statistischer Begrisrahmen . . . 16

3.3 Ein moglicher Folgezustand . . . 17

3.4 Mehrere mogliche Folgezustande . . . 19

4 Zensierte Beobachtungen 21 4.1 Rechts zensierte Beobachtungen . . . 21

4.2 Berechnung von Survivorfunktionen . . . 22

4.3 Das Kaplan-Meier-Verfahren . . . 23

4.4 Mehrere Folgezustande . . . 25

4.5 Selbst-Konsistenz . . . 25

5 Regressionsmodelle fur Zustande 29 5.1 Der Modellansatz . . . 29

5.2 Spekulation und Empirie . . . 30

5.3 Modelle fur zwei Zustande . . . 31

5.4 Modelle mit Kovariablen . . . 32

5.5 Binare Logitmodelle . . . 34

5.6 Maximum-Likelihood-Schatzung . . . 35

(3)

6 Modelle fur Verweildauern 39

6.1 Zeitkonstante Raten . . . 39

6.2 Weibull-Verteilung . . . 40

6.3 Loglogistische Verteilung . . . 41

6.4 Lognormal-Verteilung . . . 42

6.5 Mehrere Zielzustande . . . 44

6.6 Mischungen . . . 44

7 Ratenmodelle mit Kovariablen 47 7.1 Das Exponentialmodell . . . 47

7.2 Parameterschatzungen . . . 48

7.3 Ein allgemeiner Modellansatz . . . 50

7.4 Mehrere Folgezustande . . . 51

7.5 Pseudo-Residuen . . . 52

8 Zeitveranderliche Kovariablen 55 8.1 Konditionale Survivorfunktionen . . . 55

8.2 Reformulierte Likelihoodfunktion . . . 56

8.3 Zeitveranderliche Indikatorvariablen . . . 56

8.4 Episodensplitting . . . 57

A Exercises with TDA 59

Literatur 82

Kapitel 1

Einfuhrung

In diesem Kapitel besprechen wir Grundzuge des begriichen Rahmens, der in den nachfolgenden Kapiteln vorausgesetzt wird.

1.1 Objekte und Lebensverlaufe

Wir beziehen uns zunachst ganz allgemein auf Objekte. Jedes Objekt existiert in der Form eines Lebensverlaufs: Es wird geboren, dann macht es einen gewissen Entwicklungsproze durch, und schlielich stirbt es.

Unser Ziel ist es, uns mit einigen statistischen Begrien und Modellen zu beschaftigen, die vorgeschlagen worden sind, um Lebensverlaufe be- schreiben und uber ihre Entwicklung nachdenken zu konnen.

Wie wir sehen werden, sind diese Begrie und Modelle sehr allgemein.

Bei ihrer Verwendung in der empirischen Sozialforschung ist darauf zu achten, da wir es dann meistens mit spezischen Objekten zu tun ha- ben, namlich sozialen Akteuren (sowohl individuelle als auch korporative Akteure), die selbst Anteil daran nehmen, wie sich ihre Lebensverlaufe entwickeln. Wir werden die Objekte, mit denen wir uns beschaftigen, in allgemeiner Weise als Individuen bezeichnen.

1.2 Verhalten und Zustande

Man kann Individuen unter zwei komplementaren Betrachtungsweisen vergegenstandlichen: als Objekte, die sich verhalten konnen, und als Ob- jekte, die sich in wechselnden Zustanden benden konnen. Der in diesem Text behandelte Ansatz geht von der zweiten Betrachtungsweise aus:

Lebensverlaufe von Individuen werden als Folgen von Zustanden konzi- piert.

1.3 Der Zustandsraum

Ausgangspunkt ist also die Konzeption eines Zustandsraum. Wir setzen voraus, da es stets nur eine endliche Menge moglicher Zustande gibt und bezeichnen den Zustandsraum mit dem Symbol ~Y. Der Lebensverlauf eines Individuums besteht dann in einer Folge von Zustanden aus dem

(4)

2 einfuhrung 1

vorgegebenen Zustandsraum. Die Aufenthaltsdauer in den Zustanden ist unbestimmt, und es wird auch nicht vorausgesetz, da alle Zustande durchlaufen werden mussen. Aus diesem Ansatz folgt, da der hier ver- wendete Begri des Lebensverlaufs wesentlich davon abhangt, welcher Zustandsraum vorausgesetzt wird.

Man beachte, da ein Zustandsraum eindeutig sein mu. Damit ist gemeint, da sich die zu betrachtenden Individuen zu jedem Zeitpunkt in genau einem der moglichen Zustande benden mussen.

Wir sprechen von einem vollstandigen Zustandsraum, wenn der Zu- standsraum insbesondere die beiden Quasi-Zustande noch nicht geboren und gestorben umfat. Um Lebensverlaufe vollstandig zu erfassen, ist ein vollstandiger Zustandsraum erforderlich.

1.4 Biographieschema

Unter einem Biographieschema verstehen wir die Festlegung einer Menge moglicher (ggf. unvollstandiger) Lebensverlaufe in einem Zustandsraum.

Ein Biographieschema kann graphisch durch ein Zustandsdiagramm ver- anschaulicht werden. Es besteht dann aus einem gerichteten Graphen, in dem die moglichen Zustande durch Knoten, die moglichen Ubergange durch gerichtete Kanten reprasentiert werden.

Aufgabe 1.1 Konzipieren Sie einen vollstandigen Zustandsraum fur die Erfassung von Erwerbsverlaufen, der die folgenden Zustande unterschei- det: (1) erwerbstatig, (2) arbeitslos, (3) weder erwerbstatig noch arbeits- los.

Aufgabe 1.2 Konzipieren Sie mit dem Zustandsraum aus Aufgabe 1.1 ein Biographieschema.

1.5 Mehrdimensionale Zustandsraume

Die Konzeption eines Zustandsraum mu durch den Modellkonstrukteur vorgegeben werden. Dies hangt davon ab, welche Aspekte realer Lebens- verlaufe erfat werden sollen, z.B. Erwerbsverlaufe oder Ausbildungs- verlaufe oder Beziehungsverlaufe. Man kann mehrere solcher Aspekte durch einen mehrdimensionalen Zustandsraum reprasentieren. Als sym- bolische Form einesm-dimensionalen Zustandsraum hat man dann

Y~ = ~Y1Y~m

1.6 die zeitachse 3

Andererseits ist es moglich, stattdessen einen einfachen (eindimensiona- len) Zustandsraum zu verwenden, bei dem jede mogliche Kombination von Zustanden in ~Y1;::: ;Y~mals ein gesonderter Zustand im kombinier- ten Zustandsraum ~Y reprasentiert wird.

Aufgabe 1.3 Konzipieren Sie einen vollstandigen Zustandsraum fur die Zustande: (1) unverheiratet, (2) verheiratet. Bilden Sie dann aus diesem und dem in Aufgabe 1.1 konzipierten Zustandsraum einen zweidimen- sionalen Zustandsraum.

Aufgabe 1.4 Konzipieren Sie fur den zweidimensionalen Zustandsraum aus Aufgabe 1.3 ein Biographieschema.

1.6 Die Zeitachse

Die Grundvorstellung besteht darin, Lebensverlaufe als ein zeitlich ge- ordnetes "Durchwandern\ von Zustandsraumen aufzufassen. Es ist also erforderlich, sich explizit auf eine Zeitachse zu beziehen. Hierfur gibt es zwei Moglichkeiten.

Wir konnen uns eine Zeitachse als eine Folge von Zeitstellen vorstel- len, z.B. Stunden, Tage, Wochen oder Monate. Man spricht dann von einer diskreten Zeitachse, und zur numerischen Reprasentation konnen die naturlichen Zahlen verwendet werden.

Wir konnen uns eine Zeitachse als einen kontinuierlichen Zeitu vorstellen, d.h. von der Annahme ausgehen, da Zeitstellen beliebig teilbar sind. Man spricht dann von einer kontinuierlichen oder ste- tigen Zeitachse und verwendet zur numerischen Reprasentation die reellen Zahlen.

Wir werden zunachst von einer diskreten Zeitachse ausgehen. Dies hat den Vorteil, da von einer Folge von Zeitstellen gesprochen werden kann.

Statistische Modelle verwenden jedoch haug eine kontinuierliche Zeit- achse, so da wir uns spater auch dieser Vorstellung bedienen werden.

1.7 Ereignisse als Zustandswechsel

Wir haben bisher Lebensverlaufe als Folgen von Zustanden betrachtet, wobei die Aufenthaltsdauer in jedem der moglichen Zustande von un- terschiedlicher Dauer sein kann. Stattdessen kann man das Augenmerk auch auf die Zustandswechsel richten, also auf die Ubergange von einem

(5)

4 einfuhrung 1

Box 1.1 Datensatz 1

Beginn des Ende ID Geburt Studiums des Studiums ---

1 1970 1990 1995

2 1975 1994 1999

3 1973 1991 1996

4 1970 1989 1995

5 1975 1993 1999

6 1973 1993 1996

7 1970 1988 1995

8 1975 1995 1999

9 1973 1992 1997

gegebenen in einen neuen Zustand. Diese Zustandswechsel werden auch Ereignisse genannt.1

Aufgabe 1.5 Geben Sie eine Liste aller Ereignisse an, die in dem Bio- graphieschema, das in Aufgabe 1.2 konzipiert wurde, moglich sind.

1.8 Kalenderzeit und Prozezeit

Wenn man sich auf reale Individuen und deren Lebensverlaufe beziehen will, mu man zunachst immer von einer Kalenderzeitachse ausgehen.

Man spricht gelegentlich auch von einer historischen Zeitachse. Fur die Modellbildung verwendet man stattdessen meistens eine Prozezeitach- se. Es handelt sich um eine Zeitachse, bei der der Nullpunkt durch das Eintreten eines Ereignisses deniert wird. Zum Beispiel konnte man eine Prozezeitachse konzipieren, die mit der Geburt beginnt oder mit der Aufnahme eines Studiums oder dem Beginn einer Eheschlieung.

Aufgabe 1.6 Betrachten Sie die Daten in Box 1.1. Konzipieren Sie dazu einen Zustandsraum und ein Biographieschema. Stellen Sie die Daten auf einer Prozezeitachse dar, deren Zeiteinheiten Jahre sind und die mit dem Beginn des Studiums beginnt.

1Es sei angemerkt, da das Wort `Ereignis' dadurch eine spezische Bedeutung be- kommt. Wer sich fur eine grundlichere Diskussion interessiert, sei auf Galton (1994) verwiesen.

1.9 verlaufsdiagramme 5

1.9 Verlaufsdiagramme

Ein Verlaufsdiagramm ist ein Diagramm, bei dem die horizontale Achse die Zeitachse und die vertikale Achse den Zustandsraum reprasentiert.

Dabei kann die Zeitachse entweder eine Kalenderzeitachse oder eine Pro- zezeitachse sein. Solche Diagramme sind oft nutzlich, um exemplarisch einzelne oder auch mehrere Verlaufe darzustellen.

Aufgabe 1.7 Stellen Sie die ersten drei Verlaufe aus dem Datensatz in Box 1.1 zunachst in einem Verlaufsdiagramm dar, bei dem die Zeitachse eine Kalenderzeitachse ist, dann in einem Verlaufsdiagramm, bei dem die Zeitachse die Prozezeitachse ist, die mit dem Beginn des Studiums beginnt.

1.10 Kohorten

In der empirischen Sozialforschung wird oft der Begri Kohorte verwen- det, um eine Menge von Individuen zu bezeichnen, die ein Ereignis eines bestimmten Typs in der gleichen Kalenderzeitstelle erfahren haben. Zum Beispiel bilden alle Individuen, die im Jahr 1970 geboren worden sind, eine Geburtskohorte. Dabei mu naturlich angegeben werden, auf welche Grundgesamtheit von Individuen man sich beziehen mochte. Und auer- dem mu die Dauer der Zeitstelle xiert werden, die zur Denition von Kohorten dienen soll.

Aufgabe 1.8 Betrachten sie die Daten in Box 1.1. Wieviel Geburts- kohorten gibt es? Erstellen Sie eine Tabelle, in der die Individuen den Geburtskohorten zugeordnet werden. Machen Sie dann das gleiche fur die Kohorten von Studienanfangern.

(6)

6 einfuhrung 1

Kapitel 2

Statistische Beschreibungen

In diesem Kapitel beginnen wir mit einer Diskussion der Frage, wie Lebensverlaufe beschrieben werden konnen. Zwei komplementare Be- trachtungsweisen konnen eingenommen werden. Man kann versuchen, Lebensverlaufe spezischer Individuen ins Auge zu fassen und in ihrer jeweils einmaligen Entwicklung zu beschreiben. Andererseits kann man eine vergleichende Betrachtungsweise einnehmen. Dies setzt voraus, da man sich auf eine Mehrzahl vergleichbarer Lebensverlaufe beziehen kann.

Vergleichbarkeit ist allerdings kein Merkmal, das Lebensverlaufen \an und fur sich" zukommt oder nicht zukommt, sondern Gesichtspunkte fur einen Vergleich kommen stets durch den Sozialforscher zustande. Er ist es, der Lebensverlaufe vergleichen mochte und dafur die ihm wichtig erscheinenden Gesichtspunkte deniert.

Fur den hier zu behandelnden statistischen Ansatz kommen die Ge- sichtspunkte fur einen Vergleich von Lebensverlaufen durch die De- nition eines Biographieschemas zustande. Wir nehmen im folgenden an, da ein Biographieschema deniert worden ist und da man sich auf eine vorgegebene Menge von Individuen beziehen kann, deren Lebensverlaufe (meistens nur ausschnitthaft) durch das vorgegebene Biographieschema verglichen werden konnen. Wir bezeichnen diese Menge von Individuen mit dem Symbol .

Diese Voraussetzungen erlauben es, Lebensverlaufe mit statistischen Begrien zu beschreiben. Was damit gemeint ist, wird sogleich deutlicher werden, wenn wir die beiden Grundbegrie, statistische Variable und statistische Verteilung, eingefuhrt haben.

2.1 Statistische Variablen

Eine statistische Variable ist eine Abbildung (auch Funktion genannt), die jedem Individuum aus einer vorgegebenen Menge einen bestimmten Wert in einem Merkmalsraum zuordnet. Zur symbolischen Reprasenta- tion verwenden wir die Schreibweise

X : !X~

(7)

8 statistische beschreibungen 2

Hier istX eine statistische Variable, die jedem Individuum !2 einen Merkmalswert X(!) aus dem Merkmalsraum ~X zuordnet. Wir setzen voraus, da es fur den Merkmalsraum eine numerische Reprasentation gibt. In dieser Einfuhrung betrachten wir zwei Arten numerischer Re- prasentationen. Wenn ~X durch eine Teilmenge der naturlichen Zahlen reprasentiert werden kann, nennen wir~ X eine diskrete Variable. Wenn X durch einen zusammenhangenden Teilbereich der reellen Zahlen re- prasentiert werden kann, nennen wir X eine kontinuierliche Variable.

Variablen konnen auerdem danach unterschieden werden, ob es sich um einen qualitativen, ordinalen oder quantitativen Merkmalsraum handelt.

Eine diskrete numerische Reprasentation kann fur alle drei Arten von Variablen verwendet werden, eine kontinuierliche numerische Reprasen- tation ist im allgemeinen nur bei quantitativen Variablen sinnvoll.

2.2 Zustandsvariablen

Der Begri der statistischen Variablen kann nun verwendet werden, um Lebensverlaufe zu reprasentieren. Vorausgesetzt wird ein Biographie- schema, also insbesondere ein Zustandsraum ~Y und eine Zeitachse ~T, die zunachst als eine diskrete Prozezeitachse angenommen wird, also

T~=f0;1;2;3;:::g

Weiterhin wird eine endliche Menge von Individuen, , vorausgesetzt.

Dann konnen die Zustande, in denen sich die Individuen benden, durch statistische Zustandsvariablen erfat werden. Fur jede Zeitstellet 2 T~ gibt es eine Zustandsvariable

Yt: !Y~

Yt(!) ist der Zustand, in dem sich das Individuum!2 in der Zeitstelle t bendet. Der Lebensverlauf jedes Individuums ist dann durch eine Folge von Zustanden:

(Y0(!);Y1(!);Y2(!);:::)

gegeben. Da wir angenommen haben, da Zustandsraume stets nur eine endliche Anzahl unterschiedlicher Zustande enthalten, handelt es sich bei Zustandsvariablen stets um diskrete Variablen.

2.3 partielle lebensverlaufe 9

2.3 Partielle Lebensverlaufe

Die Idee, Lebensverlaufe durch Folgen von Zustanden zu reprasentie- ren, bereitet dann keine Schwierigkeiten, wenn es sich um vollstandige Lebensverlaufe handelt. Jeder Lebensverlauf mundet dann in einem End- zustand, in dem Quasi-Zustand gestorben. In der empirischen Sozialfor- schung werden jedoch meistens nur partielle Lebensverlaufe untersucht.

Man mu dann festlegen, welchen Teil von Lebensverlaufen man betrach- ten mochte. Dafur gibt es zwei Moglichkeiten. In beiden Fallen beginnt man mit einem Anfangsereignis, dessen Eintritt den Beginn des parti- ellen Lebensverlaufs markiert; zum Beispiel: Geburt eines Individuums, Beginn eines Studiums, Eintritt in das Erwerbsleben. Dies erlaubt es, eine entsprechende Prozezeitachse zu denieren. Um die Entwicklung partieller Lebensverlaufe auf dieser Prozezeitachse zu erfassen und zu vergleichen, gibt es dann zwei Moglichkeiten.

a) Man kann einen festen Zeitraum xieren; zum Beispiel die ersten 20 Jahre seit der Geburt, oder 6 Jahre seit dem Beginn eines Studiums.

Das heit, man xiert auf der vorgegebenen Zeitachse eine maxima- le Zeitstelle t und erhalt dann fur alle Individuen aus partielle Lebensverlaufe gleicher Lange, namlich

(Y0(!);Y1(!);Y2(!);::: ;Yt(!))

Hierbei mu naturlich ein geeigneter Zustandsraum vorausgesetzt werden, der es erlaubt, alle Lebensverlaufe fur die vorgegebene Zeit- spanne zu denieren.

b) Eine andere Moglichkeit besteht darin, da man die partiellen Le- bensverlaufe enden lat, wenn eines aus einer vorgegebenen Menge moglicher Ereignisse eintritt. Statistiker sprechen dann manchmal von einem "absorbierenden Endzustand\, der durch das Eintreten eines solchen Ereignisses erreicht wird. Analog kann man von "ab- sorbierenden Endereignissen\ sprechen, die einen partiellen Lebens- verlauf beenden. Um eine Menge absorbierender Endzustande zu - xieren, verwenden wir das Symbol ~Y. Es mu gelten, da ~Y eine Teilmenge des Zustandsraums ist, also ~Y Y~. Jeder individuel- le Lebensverlauf wird dann so lange erfat, bis zum ersten Mal ein Zustand in ~Y erreicht wird.

In der empirischen Sozialforschung wird hauptsachlich die zweite Heran- gehensweise verwendet. Sie hat zur Folge, da die individuellen (partiel-

(8)

10 statistische beschreibungen 2

len) Lebensverlaufe im allgemeinen eine unterschiedliche zeitliche Aus- dehnung bekommen. Einige Individuen erreichen einen absorbierenden Endzustand schon nach kurzer Zeit, andere brauchen dafur langer.

2.4 Statistische Verteilungen

Grundlegend fur statistische Beschreibungen ist der Begri der statisti- schen Verteilung. Vorausgesetzt wird, da man sich auf eine statistische Variable beziehen kann, also auf ein Kollektiv und eine AbbildungX, die jedem Mitglied des Kollektivs einen Wert in einem Merkmalsraum,~ X, zuordnet. Die Idee ist, da man sich bei einer statistischen Beschrei- bung nicht fur die jeweils individuellen Merkmalswerte der Mitglieder des Kollektivs interessiert, sondern nur dafur, wie sich die Mitglieder auf die moglichen Merkmalswerte verteilen. Diese Betrachtungsweise kommt gut in folgenden Worten der \Declaration on Professional Ethics" zum Ausdruck, die vom International Statistical Institute erstellt worden ist:

\Statistical data are unconcerned with individual identities. They are collected to answer questions such as `how many?' or `what proportions?', not `who?'.

The identities and records of cooperating (or non-cooperating) subjects should therefore be kept condential, whether or not condentiality has been explicitly pledged."1

Eine statistische Verteilung wird deshalb als eine Funktion P :A( ~X) ![0;1]

deniert.A( ~X) ist eine Menge von Teilmengen des Merkmalsraums ~X. Dabei wird ublicherweise vorausgesetzt, da es sich um eine Mengenal- gebra handelt, die bezuglich der mengentheoretischen Basisoperationen (Vereinigung, Durchschnitt und Komplement) abgeschlossen ist. Die Ele- mente vonA( ~X) werden wir Merkmalsmengen nennen. Die Funktion P kann dann folgendermaen speziziert werden: Sie soll fur jede Merk- malsmenge ~x 2A( ~X) den Anteil der Mitglieder von angeben, deren Merkmalswerte in dieser Merkmalsmenge liegen. Also in einer expliziten Denition:

P(~x) :=jf!2jX(!)2x~gjjj

Es ist erkennbar, wie durch diese Denition eine Bezugnahme auf indivi- duelle Mitglieder von verschwindet und es nur noch darauf ankommt,

1International Statistical Institute 1986, S.238.

2.5 zustandsverteilungen 11

wieviele Mitglieder an den jeweiligen Merkmalsmengen teilhaben.

Um uns exibler auf Merkmalsmengen beziehen zu konnen, werden wir auch noch einige abkurzende Schreibweisen verwenden; insbesondere die folgenden:

P(X 2x~) := P(~x) P(X =x) := P(fxg)

Bei quantitativen Variablen wird auch noch die Schreibweise P(X x) := P(f!2jX(!)xg

verwendet und im allgemeinen als (kumulative) Verteilungsfunktion von X bezeichnet. Die meistens verwendete Symbolik is

F(x) := P(X x)

Aufgabe 2.1 Es sei ein Kollektiv mit 10 Mitgliedern und es gebe die folgenden Merkmalswerte einer VariablenX:

3;2;3;1;4;3;1;3;4;2

(a) Geben sie den Merkmalsraum an. (b) Denieren Sie eine Algebra von Merkmalsmengen durch die Potenzmenge des Merkmalsraums. (c) Berechnen Sie die statistische Verteilung der VariablenX und geben Sie das Resultat fur alle moglichen Merkmalsmengen in einer Tabelle an.

(d) Nehmen Sie an, da es sich um eine quantitative Variable handelt.

Berechnen Sie dann die Verteilungsfunktion der Variablen und geben Sie das Resultat in einer Tabelle an.

Aufgabe 2.2 Zeigen Sie, da die Verteilungsfunktion P additiv ist, d.h.

da folgendes gilt: Wenn ~x1und ~x2zwei disjunkte Merkmalsmengen sind, dann gilt

P(~x1[x~2) = P(~x1) + P(~x2)

2.5 Zustandsverteilungen

Zu uberlegen ist, wie statistische Beschreibungen von Lebensverlaufen entwickelt werden konnen. Das kann man zunachst auf ganz einfache

(9)

12 statistische beschreibungen 2

Box 2.1 Datensatz 2

ID t = 1 2 3 4 5 6 ---

1 0 0 1 1 0 0

2 1 0 0 0 1 1

3 1 1 0 0 0 0

4 0 0 0 1 1 1

5 0 1 1 1 0 0

6 1 1 0 0 1 1

Weise dadurch machen, da man sich auf die Zustandsvariablen Yt be- zieht, die in Abschnitt 2.2 zur Reprasentation von Lebensverlaufen ein- gefuhrt worden sind. D.h. man kann fur jede Zeitstellet2T~die statisti- sche Verteilung der Zustandsvariablen Yt berechnen. Bezieht man sich nur auf eine einzige Zeitstelle, spricht man von einer Querschnittsver- teilung. Eine Querschnittsverteilung ergibt naturlich noch kein Bild der Entwicklung von Lebensverlaufen. Eine Moglichkeit, hier weiterzukom- men, besteht darin, die Querschnittsverteilungen fur alle Zeitstellen der Zeitachse zu berechnen. Wir sprechen dann von diachronen Zustands- verteilungen. Man kann das Ergebnis in einer Tabelle oder in einem Schaubild darstellen.

Aufgabe 2.3 Betrachten Sie die Daten in Box 2.1. Es handelt sich um Erwerbsverlaufe bei 6 Individuen. Es gibt zwei Zustande: 1 = er- werbstatig, 0 = nicht erwerbstatig. Berechnen sie die diachrone Zu- standsverteilung und stellen Sie diese Verteilung (a) in einer Tabelle und (b) in einem Schaubild dar.

Problematik.

Diachrone Zustandsverteilungen liefern sinnvolle stati- stische Beschreibungen, wenn es sich um nicht wiederholbare Zustande handelt. Zum Beispiel: 0 = noch nie verheiratet gewesen, 1 = verheira- tet oder mindestens einmal verheiratet gewesen. Wenn es sich jedoch um wiederholbare Zustande handelt, wie z.B. bei Erwerbsverlaufen, konnen diachrone Zustandsverteilungen irrefuhrend werden, weil sie keine Ruck- schlusse auf die individuellen Verlaufe gestatten.

Aufgabe 2.4 Konstruieren Sie ein Beispiel, um diese Problematik sicht- bar zu machen. Es soll zwei Zustande geben: 1 = arbeitslos, 0 = nicht arbeitslos. Konstruieren Sie dann zwei Varianten fur 6 individuelle Ver- laufe, so da der Anteil der arbeitslosen Personen in jeder Zeitstelle 1=3 betragt. Bei der ersten Variante sollen 2 Personen immer, 4 Personen nie

2.5 zustandsverteilungen 13

arbeitslos sein. Bei der zweiten Variante sollen alle Personen gleichmaig von Arbeitslosigkeit betroen sein.

(10)

14 statistische beschreibungen 2

Kapitel 3

Verweildauerverteilungen

In diesem Kapitel werden einige Begrie diskutiert, die dazu dienen konnen, die Verweildauern in den durch ein Biographieschema vorgege- benen Zustanden statistisch darzustellen. Soweit wir uns dabei auf Daten beziehen, wird angenommen, da vollstandige Beobachtungen verfugbar sind. Die Problematik unvollstandiger (zensierter) Beobachtungen wird im nachsten Teil behandelt.

3.1 Episoden

Gegeben ein Biographieschema, stellen wir uns einen Lebensverlauf als ein sequentielles Durchwandern des zugehorigen Zustandsraums vor. Ein Individuum beginnt in einem gewissen Zustand und halt sich eine mehr oder weniger lange Zeit in diesem Zustand auf, dann wechselt es in einen neuen Zustand und halt sich in diesem neuen Zustand mehr oder weni- ger lange auf, usw. Wir konnen uns einen Lebensverlauf also auch als eine Folge von Episoden vorstellen, d.h. Aufenthaltsdauern in einem ge- gebenen Zustand bis ein Wechsel in einen neuen Zustand erfolgt. Eine einzelne Episode lat sich durch vier Angaben charakterisieren:

durch einen Anfangszustand, mit dessen Auftreten die Episode be- ginnt;

durch einen Endzustand, oder Folgezustand, mit dessen Auftreten die Episode beendet wird;

durch eine Anfangszeitstelle, die angibt, wann der Anfangszustand zum erstenmal eingenommen wird; und

durch eine Endzeitstelle, die angibt, wann der Endzustand zum er- stenmal eingenommen wird.

Der Begri der Episode (verwendet wird auch gelegentlich das englische Wort Spell) erlaubt es, ein allgemeines Schema fur die Representation von Lebensverlaufsdaten zu denieren. Box 3.1 illustriert dies Schema anhand von vier Verlaufen. Der Zustandsraum umfat vier Zustande; 1 ist der Anfangszustand, 4 ist der (absorbierende) Endzustand. Jede Zeile

(11)

16 verweildauerverteilungen 3

Box 3.1 Schema fur Episodendaten (Datensatz 3)

ID SN ORG DES TS TF ---

1 1 1 2 0 10

1 2 2 3 10 15

1 3 3 4 15 20

2 1 1 4 0 15

3 1 1 3 0 16

3 2 3 4 19 18

4 1 1 2 0 6

4 2 2 3 6 11

4 3 3 2 11 17

4 4 2 4 17 23

in dem Schema bezieht sich auf eine Episode, und fur jedes Individuum gibt es also so viele Zeilen, wie ihr Lebensverlauf Episoden aufweist. Die die Spalten benennenden Abkurzungen sind folgendermaen zu verste- hen:

IDist die Identikationsnummer der Individuen,

SNist die laufende Nummer der Episode,

ORGist der Anfangszustand der Episode,

DESist der Endzustand der Episode,

TSist die Anfangszeitstelle der Episode,

TFist die Endzeitstelle der Episode.

Wir werden ein solches Schema ein Episodendatenschema nennen.

Aufgabe 3.1 Konstruieren Sie fur den Datensatz 1 (Box 1.1) zunachst ein Biographieschema und stellen Sie die Daten dann in einem Episo- dendatenschema dar.

Aufgabe 3.2 Konstruieren Sie fur den Datensatz 2 (Box 2.1) zunachst ein vollstandiges Biographieschema und stellen Sie die Daten dann in einem Episodendatenschema dar.

3.2 Statistischer Begrisrahmen

Wir setzen jetzt die in Abschnitt 2 begonnene Diskussion fort, wie Le- bensverlaufe statistisch beschrieben werden konnen. Die Idee, die wir im

3.3 ein moglicher folgezustand 17

weiteren verfolgen, besteht darin, sich zunachst auf einzelne Episoden zu konzentrieren, genauer gesagt, auf die Gesamtheit der Episoden, die in einem bestimmten, der Beschreibung vorausgesetzten Anfangszustand beginnen. Wir setzen auerdem voraus, da wir diese Episoden auf einer Prozezeitachse beschreiben wollen, die mit dem Eintritt des Anfangszu- stands beginnt. Die Gesamtheit der Episoden, auf die wir uns beziehen wollen, kann dann durch eine zweidimensionale statistische Variable

(T;D)

reprasentiert werden.T erfat die Zeitdauer der Episode, d.h. die Ver- weildauer im Ausgangszustand, undD erfat den Folgezustand, dessen Eintreten die Epiosde abschliet.

Es ist klar, da sich die Darstellung vereinfacht, wenn eine Episode in nur einem moglichen Folgezustand enden kann. Dann kann D nur einen moglichen Wert annehmen und braucht nicht explizit erfat zu werden. Oder anders gesagt, eine Episode wird dann vollstandig durch ihre Dauer, den Wert vonT, charakterisiert.

3.3 Ein moglicher Folgezustand

Wenn es nur einen moglichen Folgezustand gibt, genugt es, die Verweil- dauervariableT zu betrachten. Eine statistische Beschreibung zielt dann darauf, die statistische Verteilung dieser Verweildauervariablen zu ermit- teln und darzustellen. Die begriichen Hilfsmittel hangen davon ab, ob man sich die Zeitachse als diskret oder stetig vorstellen will. In beiden Fallen konnen wir die Verteilung durch eine (kumulative) Verteilungs- funktion

F(t) = P(T t)

charakterisieren. Ebenfalls unabhangig von der Art der Zeitachse kann man einen weiteren in der Verweildaueranalyse oft verwendeten Begri denieren, die Survivorfunktion. Sie ergibt sich unmittelbar aus der Ver- teilungsfunktion durch die Denition

G(t) = 1 F(t)

Eine Unterscheidung wird allerdings erforderlich, wenn wir uns auf ei- ne zeitstellenbezogene Ereignisdichte beziehen wollen. Im diskreten Fall kann man dann eine diskrete Dichtefunktion

f(t) = P(T =t)

(12)

18 verweildauerverteilungen 3

verwenden. Im stetigen Fall wird der Ausdruck P(T =t) problematisch, und es ist zweckmaig, zunachst von Zeitintervallen auszugehen, also Ausdrucken der Art

P(tT < t+ )

wobei die Dauer des Zeitintervals angibt, das an der Stelletbeginnt.

Es ist klar, da der Wert eines solchen Ausdrucks von abhangt, und man deniert deshalb die Ereignisdichte pro Zeiteinheit durch

f(t) = lim

!0 P(tT < t+ )

Schlielich ist die Unterscheidung auch noch fur den Begri der Uber- gangsrate relevant, der in vielen Ansatzen der Verweildaueranalyse eine zentrale Rolle spielt. Die Idee ist, eine zeitstellenbezogene Ereignisdichte unter der Bedingung zu betrachten, da das Ereignis noch nicht einge- treten ist. Im diskreten Fall lautet die Denition

r(t) = P(T=tjT t)

Im stetigen Fall verwendet man die Denition r(t) = lim

!0 P(tT < t+ jT t)

Aufgabe 3.3 Zeigen Sie zunachst fur den diskreten, dann fur den steti- gen Fall, da die Begrie `Verteilungsfunktion', `Survivorfunktion', `Dich- tefunktion' und `Ubergangsrate' aquivalent sind, d.h. da sie wechselsei- tig auseinander abgeleitet werden konnen. Zeigen Sie insbesondere, da folgende Zusammenhange gelten. Im diskreten Fall:

r(t) =f(t)=G(t 1) und

G(t) = Yt

=1(1 r()) Und im stetigen Fall:

r(t) =f(t)=G(t) und

G(t) = exp

Z t

0 r()d

3.4 mehrere mogliche folgezustande 19

Aufgabe 3.4 Berechnen Sie mit dem Datensatz 1 (Box 1.1) die diskrete

Ubergangsrate fur die Beendigung des Studiums.

Aufgabe 3.5 Betrachten Sie im Datensatz 2 (Box 2.1) zwei Gruppen von Episoden: Episoden, die im Zustand 0 beginnen, und Episoden, die im Zustand 1 beginnen. Verwenden Sie nur die nicht-zensierten Episo- den, d.h. diejenigen Episoden, fur die aus dem Datenbestand erkennbar ist, da sie durch den Ubergang in einen neuen Zustand beendet wer- den. Berechnen Sie dann die Ubergangsraten fur den Ubergang in den Zustand 1 und fur den Ubergang in den Zustand 0.

3.4 Mehrere mogliche Folgezustande

Wenn eine Episode in zwei oder mehr moglichen Folgezustanden enden kann, genugt es nicht, nur die Verweildauervariable T zu betrachten, sondern man mu sich direkt auf die zweidimensionale Variable (T;D) beziehen. Die Aufgabe besteht dann darin, eine zweidimensionale Vertei- lung zu ermitteln und darzustellen. Um einen Zugang zu dieser Aufgabe zu nden, ist es zweckmaig, mit der Idee einer zielzustandsspezischen

Ubergangsrate zu beginnen. Im diskreten Fall lautet die Denition rd(t) = P(T =t;D=djTt)

wobeideinen der moglichen Folgezustande bezeichnet. Im stetigen Fall lautet die Denition

rd(t) = lim

!0 P(tT < t+ ;D=djT t)

Die Menge der moglichen Folgezustande werden wir im folgenden stets mit dem Symbol ~Dbezeichnen und dabei als Konvention annehmen, da

D~ =f1;::: ;mg

ist, wenn esmmogliche Folgezustande gibt.

Aufgabe 3.6 Betrachten Sie in Box 3.1 alle Episoden, die im Zustand 1 beginnen. Bestimmen Sie die Menge ~D der moglichen Folgezustande und berechnen Sie fur jeden Zustandd2D~ die Ubergangsraterd(t).

Aufgabe 3.7 Wenn Episoden in mehreren moglichen Folgezustanden enden konnen, kann man auch von den Unterscheidungen abstrahieren und stattdessen nur einen moglichen Folgezustand betrachten, namlich

(13)

20 verweildauerverteilungen 3

das Verlassen des Anfangszustands. Man kann dann die Episoden so betrachten, als ob es nur einen moglichen Folgezustand gibt und die in Abschnitt 3.3 eingefuhrten Begrisbildungen verwenden. Zeigen Sie, da folgender Zusammenhang gilt:

r(t) =X

d2D~ rd(t)

wobei ~Ddie Menge der moglichen Folgezustande bezeichnet. Verizieren Sie diesen Zusammenhang an den Rechenergebnissen der Aufgabe 3.6.

Aufgabe 3.8 Bei Episoden mit mehreren moglichen Folgezustanden kann man folgendermaen sog. Sub-Survivorfunktionen denieren:

Gd(t) = exp

Z t

0 rd()d

(a) Uberlegen Sie sich, ob bzw. wie man diese Sub-Survivorfunktionen inhaltlich interpretieren kann. (b) Zeigen Sie, da folgender Zusammen- hang zum Begri der Survivorfunktion gilt:

G(t) = Y

d2D~ Gd(t)

Kapitel 4

Zensierte Beobachtungen

Bisher haben wir angenommen, da fur die VerweildauervariableT, bzw.

(T;D) bei mehreren moglichen Folgezustanden, vollstandige Beobach- tungen verfugbar sind, da also die Episoden fur alle Individuen abge- schlossen sind und wir die Verweildauern und Folgezustande kennen. Das ist bei den in der Praxis ermittelbaren Daten oft nicht der Fall. In die- sem Kapitel behandeln wir einen wichtigen Spezialfall unvollstandiger Daten, sog. rechts zensierte Beobachtungen.

4.1 Rechts zensierte Beobachtungen

Man sagt, da die Beobachtung einer Episode bei einem Individuum rechts zensiert ist, wenn man zwar wei, wie lange sich das Individuum schon im Anfangszustand aufhalt, aber nicht wei, wie lange es noch in diesem Zustand bleiben wird und welcher der moglichen Folgezustande dann eintreten wird. Die Situation ist dann folgende: Wir unterstellen ei- ne statistische Variable (~ T;D) mit einer Menge moglicher Folgezustande D. Unsere Beobachtungen fur i = 1;::: ;n Individuen liefern uns je- doch nicht unmittelbar Werte von (T;D), sondern Werte einer Variablen (T;D).D kann Werte in einer Menge

D~= ~D[f0g

annehmen, wobei 0 der Anfangszustand der Episode ist und infolgedessen kein Element von ~D sein kann.1 Die Beobachtungen sind in Form von Werten

(ti;di) fur i= 1;::: ;n

gegeben, und der Zusammenhang mit den unterstellten Werten (ti;di), also den Werten der als theoretischer Rahmen angenommenen Variablen (T;D), wird folgendermaen hergestellt:

a) Wenndi 2D~, liegt eine nicht zensierte Beobachtung vor, und es gilt:

ti=ti unddi=di.

1Entsprechend unserer Konvention, fur ~D positive naturliche Zahlen zu verwenden, ist also ~D=f0;1;::: ;mg, wenn esm mogliche Folgezustande gibt.

(14)

22 zensierte beobachtungen 4

b) Wenn di = 0, liegt eine zensierte Beobachtung vor; uber den Folge- zustand ist also nichts bekannt, es gilt jedochti> ti.

Diese Form der Reprasentation zensierter Beobachtungen erlaubt es, sie auf einfache Weise in einem Episodendatenschema (vgl. Abschnitt 3.1) kenntlich zu machen. Sie werden dadurch kenntlich gemacht, da man fur den Endzustand der Episode ihren Anfangszustand einsetzt, und fur die Endzeitstelle diejenige Zeitstelle, bis zu der man wei, da sich das Individuum im Anfangszustand der Episode aufgehalten hat.

Aufgabe 4.1 Stellen Sie die Daten des Datensatzes 2 (Box 2.1) in einem Episodendatenschema dar, wobei rechts zensierte Episoden durch die eben genannte Konvention kenntlich gemacht werden.

4.2 Berechnung von Survivorfunktionen

Wir behandeln zunachst eine Situation, in der es nur einen moglichen Folgezustand gibt. Wir konnen also ~D=f0;1gannehmen, wobei 0 zen- sierte, 1 unzensierte Beobachtungen kennzeichnet. Wie lassen sich dann Survivorfunktionen berechnen, wenn einige Beobachtungen rechts zen- siert sind? Eine genaue Berechnung ist oenbar nicht moglich, denn bei den zensierten Beobachtungen kennt man nur ti, nicht jedoch ti. Wir konnen jedoch untere und obere Grenzen fur die unbekannte Survivor- funktionG(t) berechnen.

a) Eine untere Grenze, wir bezeichnen sie mitG`(t), erhalt man, wenn man fur die zensierten Beobachtungen annimmt, da der Anfangs- zustand unmittelbar nach dem Zensierungszeitpunkt verlassen wird, alsoti=ti oder, bei einer diskreten Zeitachse,ti=ti + 1.

b) Eine obere Grenze, durch Ga(t) bezeichnet, erhalt man, wenn man fur die zensierten Beobachtungen annimmt, da der Anfangszustand erst nach einer "beliebig langen\ Verweildauer verlassen wird. Es genugt jedoch, die Verweildauern der zensierten Episoden so anzu- setzen, da sie langer sind als die langste unzensierte Verweildauer.

Die unbekannte Survivorfunktion G(t) liegt sicherlich zwischen diesen Grenzen, d.h.

G`(t)G(t)Ga(t)

Die Breite der Intervalle (abhangig vont) hangt naturlich von dem Anteil zensierter Beobachtungen ab und davon, wie sie sich auf der Zeitachse

4.3 das kaplan-meier-verfahren 23

Box 4.1 Datensatz 4

ID DUR CEN ---

1 17 1

2 5 0

3 22 1

4 13 1

5 2 0

6 9 1

7 12 0

8 15 1

verteilen. Je nachdem liefern die Daten mehr oder weniger viel Informa- tion uber die SurvivorfunktionG(t).

Aufgabe 4.2 Berechnen Sie fur die Daten in Box 4.1 untere und obere Grenzen der Survivorfunktion. Stellen Sie dann das Ergebnis in einem Schaubild dar.

4.3 Das Kaplan-Meier-Verfahren

Wenn man etwas nicht genau kennt, wie in diesem Fall die Survivorfunk- tionG(t), neigen Statistiker dazu, sich Verfahren auszudenken, wie man das, was man nicht kennt, trotzdem moglichst sinnvoll schatzen kann.

Ein fur diesen Zweck ausgedachtes Verfahren stammt von E.L. Kaplan und P. Meier (1958). Um das Verfahren darzustellen, wird zunachst ei- ne diskrete Zeitachse angenommen. Dann gibt es, wie in Abschnitt 3.3 gezeigt worden ist, folgenden Zusammenhang zwischen der Survivorfunk- tion und der Ubergangsrate:

G(t) = Yt

=1(1 r())

Die Idee ist nun, zunachst die Ubergangsratenr(t) zu schatzen und dann daraus die SurvivorfunktionG(t) zu berechnen. Wenn es keine zensierten Beobachtungen gibt, ist unmittelbar einsichtig, wie man die Ubergangs- raten berechnen kann, namlich durch

r(t) =E(t) R(t)

(15)

24 zensierte beobachtungen 4

Dabei ist E(t) die Anzahl der Individuen, die in der Zeitstelle t den Ausgangszustand der Episode verlassen; und R(t) ist die Anzahl der Individuen, bei denen es in der Zeitstelletnoch moglich ist, da sie den Ausgangszustand verlassen, also die Anzahl derjenigen Individuen, die den Ausgangszustand nicht schon vorher verlassen haben.

Wenn es zensierte Beobachtungen gibt, kennen wir zwar wederE(t) nochR(t), jedoch zwei vergleichbare Groen. NamlichE(t), die Anzahl der Individuen, deren Verlassen des Ausgangszustands in der Zeitstellet wir beobachten konnen; undR(t), die Anzahl der Individuen, bei denen ein Verlassen des Ausgangszustands intnoch beobachtet werden konn- te, weil sie nicht schon vorher den Ausgangszustand verlassen und/oder rechts zensiert sind. Mithilfe dieser beobachteten Groen kann dann eine beobachtete Ubergangsrate

r(t) =E(t) R(t)

und daraus schlielich durch Anwendung der Formel (die jetzt eine De- nition ist)

G(t) =Yt

=1(1 r())

eine Survivorfunktion G(t) berechnet werden. Oenbar is G(t) eine sinnvolle Schatzung fur G(t), wenn man voraussetzen kann, da r(t) sinnvoll durchr(t) geschatzt werden kann.

Das gleiche Verfahren kann naturlich angewendet werden, wenn man annimmt, da die beobachteten (zensierten und nicht zensierten) Ver- weildauern als exakte Zeitangaben auf einer kontinuierlichen Zeitachse interpretiert werden konnen. Man erhalt dann eine Treppenfunktion, die genau in denjenigen Zeitpunkten Sprungstellen aufweist, in denen min- destens ein Ereignis stattndet.

Aufgabe4.3 Berechnen Sie fur die Daten in Box 4.1 die Survivorfunk- tion G(t) mit dem Kaplan-Meier-Verfahren. Stellen Sie dann das Er- gebnis in einem Schaubild dar, das auerdem die unteren und oberen Schranken,G`(t) undGa(t), zeigt. Beachten Sie, dar(t) nur fur dieje- nigen Zeitstellen berechnet zu werden braucht, in denen mindestens ein Ereignis stattndet, alsoE(t)6= 0 ist.

4.4 mehrere folgezustande 25

4.4 Mehrere Folgezustande

Das Kaplan-Meier-Verfahren lat sich auch dann verwenden, wenn die Episoden in zwei oder mehr moglichen Folgezustanden enden konnen.

Es werden dann Sub-Survivorfunktionen geschatzt, also Gd(t) =Yt

=1(1 rd())

wobeid2D~. Die zielzustandsspezischen Ubergangsraten konnen durch rd(t) =Ed(t)

R(t)

geschatzt werden, wobei jetzt Ed(t) die Anzahl der Individuen ist, bei denen in der Zeitstelletein Ubergang in den Folgezustanddfestgestellt werden kann. Man beachte, da in diesem Fall der multiplikative Zusam- menhang

G(t) Y

d2D~ Gd(t) nur naherungsweise gilt.

4.5 Selbst-Konsistenz

Das Kaplan-Meier-Verfahren kann auch mit der Idee einer Selbst-Kon- sistenz begrundet werden, die wir kurz diskutieren wollen. Die Idee ist nicht auf rechts zensierte Daten beschrankt, sondern allgemeiner, und wir besprechen sie deshalb zunachst fur eine beliebige diskrete Variable

X : !X~

Wenn uns fur alle Mitglieder von genaue Beobachtungen vorliegen, kann naturlich ohne weiteres die Verteilungsfunktion

P(X =x) fur alle x2X~

berechnet werden (vgl. Abschnitt 2.4). Jetzt nehmen wir jedoch an, da wir die genauen Werte nicht kennen, sondern fur jedes ! 2 nur eine Teilmenge von ~X, in der der VariablenwertX(!) liegt. Um den Gedan- kengang einfacher darstellen zu konnen, stellen wir uns vor, da es fur

(16)

26 zensierte beobachtungen 4

die Mitglieder von Nummern, i = 1;::: ;n, gibt. Die beobachteten Werte der Variablen seien durch Merkmalsmengen

x~iX~

gegeben. Dann konnen wir zwar die Verteilungsfunktion P nicht genau berechnen; wir konnen jedoch zunachst untere und obere Grenzen ermit- teln. In einem ersten Schritt denieren wir:

pmin(~xi;x~) :=

1 wenn ~xi ~x 0 andernfalls pmax(~xi;x~) :=

0 wenn ~xi\x~=; 1 andernfalls

wobei ~x eine beliebige Teilmenge von ~X sein kann. Dann ergeben sich untere und obere Grenzen fur P durch die Denitionen:

P`(~x) := 1n

n

X

i=1 pmin(~xi;x~) Pa(~x) := 1n

n

X

i=1 pmax(~xi;x~)

Wie man sich leicht uberlegen kann, gilt P`(~x)P(~x)Pa(~x)

Die Frage ist nun, wie man sinnvoll eine "mittlere\ Verteilungsfunktion denieren kann, die zwischen den beiden Grenzen liegt; denn die Vertei- lung P kennt man nicht, und man kann sie (ohne weitere Annahmen) auch nicht aus den Daten schatzen. Eine Uberlegung ware die folgende.

Man nimmt an, da das Individuumian der Merkmalsmenge ~xin dem Mae partizipiert, wie sich ~xi und ~x uberschneiden. Diese Idee fuhrt zu folgender Denition einer Verteilungsfunktion:

P(~x) := 1n

n

X

i=1

j~xi\~xj

jx~ij

Wir nennen sie mittlere Verteilungsfunktion. Dies ist jedoch ein Spezi- alfall einer allgemeineren Idee. Wenn wir uns namlich auf eine beliebige

4.5 selbst-konsistenz 27

Verteilungsfunktion ~P beziehen, erscheint es sinnvoll zu sagen, da das Individuumian ~x entsprechend der Groe von

~P(~xi\x~)

~P(~xi)

partizipiert. Die mittlere Verteilungsfunktion resultiert dann als ein Spe- zialfall, wenn man namlich fur ~P eine Gleichverteilung annimmt.

Ein zweiter Ansatz ergibt sich durch die Idee der Selbst-Konsistenz.

Die Idee ist, nach einer Verteilung ~P zu suchen, so da die folgende Funktionalgleichung erfullt ist:

~P(~x) := 1n

n

X

i=1

~P(~xi\x~)

~P(~xi) (4.5.1)

Eine Losung kann meistens mit einem iterativen Verfahren gefunden wer- den: Man beginnt mit einer beliebigen, z.B. der mittleren Verteilungs- funktion; dann wendet man die Formel an, um daraus eine neue Vertei- lungsfunktion zu berechnen; dann wiederholt man die Berechnung mit der neuen Verteilungsfunktion, usw., bis sich keine wesentlichen Ande- rungen mehr ergeben. Wenn man eine Losung gefunden hat, wird sie als selbst-konstistente Verteilung bezeichnet.

Aufgabe 4.4 Berechnen Sie mit den Daten

x~1=f1g;x~2=f2g;x~3=f3g;x~4=f1;2g;x~5=f2;3g die Verteilungen P`, Pa, P und ~P.

Aufgabe 4.5 Man kann zeigen, da das Kaplan-Meier-Verfahren eine selbst-konsistente Verteilung erzeugt. Uberlegen Sie sich, wie mit dem beschriebenen Verfahren eine selbst-konsistente Verteilungs- oder Survi- vorfunktion fur den Datensatz 4.1 berechnet werden kann.

(17)

28 zensierte beobachtungen 4

Kapitel 5

Regressionsmodelle fur Zustande

In den weiteren Kapiteln beschaftigen wir uns mit statistischen Model- len fur die Analyse von Abhangigkeiten zwischen Variablen. Um den Ausgangspunkt zu xieren, erinnern wir uns an die beiden Formen, die wir zur Reprasentation von Verlaufsdaten eingefuhrt haben. Einerseits haben wir Folgen von Zustandsvariablen betrachtet:Yt, wobei der Index t sich auf einer diskreten Zeitachse bewegen kann. Andererseits haben wir uns auf einzelne Episoden bezogen und diese durch eine zweidimen- sionale Variable (T;D) reprasentiert. Beide Varianten konnen als Aus- gangspunkt fur Modellkonstruktionen dienen. In diesem Kapitel gehen wir von der ersten Variante aus.

5.1 Der Modellansatz

Wir beziehen uns auf eine Prozezeitachset = 0;1;2;::: und nehmen an, da eine Folge von Zustandsvariablen

Yt: !Y~

gegeben ist. ~Y ist der Zustandsraum, der zwei oder mehr unterschiedliche Zustande enthalten kann. Wenn sich der Proze bis zu einem Zeitpunkt tentwickelt hat, wird er statistisch durch die Verteilung

P(Yt=yt;Yt 1=yt 1;::: ;Y0=y0)

erfat. Dabei sindy0;::: ;ytmogliche Zustande im Zustandsraum ~Y. Ein Modell soll es erlauben, uber Abhangigkeiten zwischen den Zu- standsvariablen nachzudenken zu konnen. Um unseren Modellansatz ein- fach zu schreiben, verwenden wir folgende Abkurzung:

Yt:= (Yt;Yt 1;::: ;Y0)

und nennen dies eine Prozevariable. Auf mogliche Werte wird durch entsprechende Kleinbuchstaben, also

yt:= (yt;yt 1;::: ;y0)

(18)

30 regressionsmodelle fur zustande 5

verwiesen; es handelt sich um mogliche Zustandsfolgen. Der Ausgangs- punkt fur die Modellbildung kann dann durch

P(Yt= yt)

xiert werden. Um Abhangigkeiten zwischen den Zustandsvariablen zu erfassen, werden bedingte Verteilungen verwendet. Dabei nehmen wir an, da die Ausgangsverteilung, also die Verteilung vonY0, vorgegeben ist und sich der Proze dann sequentiell entwickelt; in symbolischer No- tation:

Y0

Y1jY0

Y2jY0;Y1

Yt...jY0;Y1;::: ;Yt 1

Durch sukzessive Anwendung der Regel zur Bildung von bedingten Ver- teilungen erhalt man dann:

P(Yt= yt) =Yt

=1P(Y =yjY 1= y 1)P(Y0=y0) (5.1.1)

5.2 Spekulation und Empirie

Der allgemeine Modellansatz (5.1.1) kann in zwei unterschiedlichen Wei- sen als Ausgangspunkt fur weitere Uberlegungen dienen. Er kann einer- seits als Ausgangspunkt fur spekulative Uberlegungen zur Prozeent- wicklung, andererseits als ein formaler Rahmen fur die Reprasentation von Daten uber die Prozeentwicklung verwendet werden. Um mit dem Modellansatz etwas vertrauter zu werden, beginnen wir mit spekulativen

Uberlegungen.

Da wir annehmen, da die Verteilung vonY0vorgegeben ist, konzen- triert sich die Spekulation auf Annahmen uber

P(Y =yjY 1= y 1)

Eine einfache Annahme konnte zum Beispiel darin bestehen, da es nur ein einstuges Gedachtnis gibt:

P(Y =yjY 1= y 1) = P(Y =yjY 1=y 1)

5.3 modelle fur zwei zustande 31

Hier wird also angenommen, da der Zustand, der in einer Zeitstelle eingenommen wird, nur davon abhangt, welcher Zustand in der vorange- gangenen Zeitstelle angenommen worden ist. Etwas komplizierter ware ein zweistuges Gedachtnis, das man durch die Annahme

P(Y =yjY 1= y 1) =

P(Y =yjY 1=y 1;Y 2=y 2) ausdrucken kann.

Aufgabe 5.1 Betrachten Sie einen Proze mit einem einstugen Ge- dachtnis. Der Zustandsraum sei ~Y =f0;1g, zum Prozebeginn benden sich alle Individuen im Zustand 0, und die Ubergangswahrscheinlichkei- ten werden durch

P(Y = 1jY 1= 0) = 1=2 P(Y = 1jY 1= 1) = 1=3

angenommen. Konstruieren Sie mithilfe eines Wurfels 10 Realisationen dieses Prozesses, fur t = 0;::: ;8, und stellen Sie in einer Tabelle dar, wie sich die Zustandsverteilung im Zeitablauf entwickelt.

Aufgabe 5.2 Nehmen Sie an, da es 5 unterschiedliche Zustande gibt.

Wieviele Ubergangswahrscheinlichkeiten sind erforderlich, um einen Pro- ze mit einem zweistugen Gedachtnis vollstandig darzustellen?

5.3 Modelle fur zwei Zustande

Wir betrachten Prozesse, bei denen es nur zwei unterschiedliche Zustande gibt, also ~Y =f0;1g. Auerdem nehmen wir an, da es nur ein einstuges Gedachtnis gibt. Wenn man keine weiteren Einschrankungen vornimmt, mussen fur jede Zeitstelle zwei Parameter ermittelt werden:

P(Yt= 1jYt 1= 0) = 10;t

P(Yt= 1jYt 1= 1) = 11;t

Die Groen 10;t und 11;t nennen wir Parameter des Prozesses. Im allgemeinen mu angenommen werden, da sich diese Prozeparameter wahrend der Entwicklung des Prozesses verandern konnen. Eine radikal vereinfachende, aber auch problematische Annahme ist, da die Proze- parameter zeitkonstant sind; man spricht dann von einem stationaren

(19)

32 regressionsmodelle fur zustande 5

Proze. Der Modellansatz ist dann P(Yt= 1jYt 1= 0) = 10

P(Yt= 1jYt 1= 1) = 11

Aufgabe 5.3 Verwenden Sie die Daten aus Box 2.1. Berechnen Sie zunachst die zeitstellenspezischen Prozeparameter

ij;t fur i;j2f0;1g; t= 2;::: ;6

Nehmen Sie dann an, da die Daten aus einem stationaren Proze stam- men und berechnen Sie die zeitkonstanten Prozeparameter

ij fur i;j2f0;1g

5.4 Modelle mit Kovariablen

Bisher haben wir nur eine Prozevariable,Yt, betrachtet, und die Modell- bildung bezog sich darauf, herauszunden, wie der jeweils gegenwartige Zustand von vorangegangenen Zustanden abhangt. Bei praktischen An- wendungen ist man oft daran interessiert, noch weitere Variablen, sog.

Kovariablen, zu berucksichtigen. Zwei Arten von Kovariablen konnen dabei unterschieden werden:

Zeitunabhangige Kovariablen, deren Werte zu Beginn des Prozesses feststehen und sich wahrend des Prozesses nicht andern konnen; und

Zeitabhangige Kovariablen, deren Werte sich wahrend des Prozesses verandern konnen.

Oenbar konnen zeitunabhangige Kovariablen als ein Spezialfall zeitab- hangiger Kovariablen betrachtet werden. Wir betrachten deshalb im fol- genden nur zeitabhangige Kovariablen. Einen sinnvollen Begrisrahmen liefert dann die Vorstellung paralleler Prozesse. Den primar interessie- renden Proze reprasentieren wir wie bisher durch die Zustandsvariablen Yt, den parallelen Kovariablenproze durch eine Folge von Kovariablen Xt; in expliziter Schreibweise:

(Xt;Yt) : !X~Y~

Wie bisher nehmen wir an, da Yt eine diskrete eindimensionale Zu- standsvariable ist. BeiXtkann es sich um eine mehrdimensionale Varia- ble handeln, z.B. um einem-dimensionale Variable

Xt= (Xt1;::: ;Xtm)

5.4 modelle mit kovariablen 33

Box 5.1 Datensatz 5

ID t = 0 1 2 3 4 5 6 --- 1 Y 0 0 0 1 1 0 0 X1 0 0 0 0 0 0 0 X2 20 21 22 23 24 25 26 2 Y 1 1 0 0 0 1 1 X1 0 0 0 0 0 0 0 X2 22 23 24 25 26 27 28 3 Y 1 1 1 0 0 0 0 X1 0 0 0 0 0 0 0 X2 21 22 23 24 25 26 27 4 Y 0 0 0 0 1 1 1 X1 1 1 1 1 1 1 1 X2 20 21 22 23 24 25 26 5 Y 0 0 1 1 1 0 0 X1 1 1 1 1 1 1 1 X2 22 23 24 25 26 27 28 6 Y 1 1 1 0 0 1 1 X1 1 1 1 1 1 1 1 X2 21 22 23 24 25 26 27

Zur Vereinfachung werden wir jedoch annehmen, da auchXteine dis- krete Variable ist.

Die Idee ist nun, da der Zustand in einer Zeitstelle t nicht nur von Zustanden abhangen kann, die in vorangehenden Zeitstellen einge- nommen worden sind, sondern auch von den bisher realisierten Werten der Kovariablen. Fur die Modellbildung nehmen wir an, da die Werte der Kovariablen ihrerseits nicht von den bisher realisierten Werten der ProzevariablenYtabhangig sind.1Der allgemeine Modellansatz (5.1.1) kann dann folgendermaen erweitert werden:

P(Yt= yt) = (5.4.1)

t

Y

=1P(Y=yjY 1= y 1;X 1= x 1)

P(Y0=y0;X0=x0)

Wiederum kann dieser Modellansatz auf vielfaltige Weisen vereinfacht werden. Denkt man an die Idee eines Prozesses mit einem einstugen

1Die Kovariablen werden dannexogen genannt. Wenn diese Annahme nicht erfullt ist, spricht man gelegentlich voninterdependentenProzessen. Damit werden wir uns in dieser Einfuhrung jedoch nicht naher beschaftigen.

Referenzen

ÄHNLICHE DOKUMENTE

Schreiben Sie (rekursive) Funktionen, die die Werte aller Listen-Datenfelder einmal in der Reihenfolge vom Beginn bis zum Ende der Liste und ein anderes Mal in der Reihenfolge vom

Die Löslichkeit gibt an, welche (Gramm-)Menge eines Stoffes sich in einer bestimmten Menge eines Lösungsmittels bei einer bestimmten Temperatur löst.. Die Löslichkeit

Die Löslichkeit gibt an, welche (Gramm-)Menge eines Stoffes sich in einer bestimmten Menge eines Lösungsmittels bei einer bestimmten Temperatur löst.. Die Löslichkeit

Hinweis: Eine statistische Größe ist eine Abbildung ξ : Ω → R , die jedem elementaren Ereignis ω ∈ Ω einen reellen Wert zuordnet.. Weiterhin definieren Sie eine

Wörtlich heißt es: „Die Bundesre- gierung wird um sachgerechte Lö- sungen in den Fragen aller im Zuge des Zweiten Weltkrieges zur Zwangsarbeit gezwungenen Perso- nen,

Der Verlauf der Begegnung war für die Veteranen überraschend. Auch die Schülerinnen mit ihrer Lehrerin, die kein Wort beigetragen hatte, schienen angetan gewesen zu sein. Ob

Die Ziele dieser (Muster-)Weiterbildungsordnung sind zwar eindeutige Versuche, eine Deregulierung in Richtung „Bil- dungsordnung“ und weg von einer „Abrechnungsordnung“ so-

http://www.fotocommunity.de/search?q=nusse&amp;index=fotos&amp;options=YToyOntzOjU6InN0YXJ0IjtpOjA7czo3OiJkaXNwbGF5IjtzOjg6IjIyNDIxMTI1Ijt9/pos/245.