• Keine Ergebnisse gefunden

Die binäre Logistische Regression – ein vielseitiges und robustes

N/A
N/A
Protected

Academic year: 2022

Aktie "Die binäre Logistische Regression – ein vielseitiges und robustes"

Copied!
26
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Die binäre Logistische Regression – ein vielseitiges und robustes

Analyseinstrument

sozialwissenschaftlicher Forschung Eine Einführung für Anwender

- Marcel Erlinghagen -

Gelsenkirchen, Oktober 2003

Gliederung

1 Was heißt „Regression“?

2 Das Regressionsprinzip am Beispiel der „linearen Einfachregression“

3 Warum logistische Regression?

4 Datenvoraussetzungen und Datenvorbereitung für die logistische Regression

5 Interpretation der Regressionsergebnisse

6 Die Regressionsanalyse als iteratives Verfahren 7 „Odd Ratios“ – eine weitere Darstellungsform

der Schätzergebnisse 8 Ausblick

(2)

1

Was heißt „Regression“?

Ziel von Wissenschaft:

Klärung von Zusammenhängen zwischen

unterschiedlichen Sachverhalten

(3)

Es gibt zwei Arten von Zusammenhängen:

a) exakte Zusammenhänge (bspw. „Naturgesetze“) mathematisch darstellbar als Funktionsgleichung;

bspw.: y = f(x)

b) zufallsabhängige („stochastische“) Zusammenhänge mathematisch darstellbar als Regressionsgleichung;

bspw.: y = bx + a

„Regression“ (engl. regression = Zurückentwicklung, Rückbildung) Inwiefern lässt sich die Ausprägung einer abhängigen Variable auf die Ausprägung einer unabhängigen Variable zurückführen („regressieren“)?

2

Das Regressionsprinzip am Beispiel der

„linearen Einfachregression“

(4)

Beispiel 1

Wie hängt das Einkommen einer Personen mit der Dauer des Schulbesuches zusammen?

1. Schritt: Modellbildung

„Das Einkommen einer Person steigt proportional zur Schulbesuchsdauer“ (linearer Zusammenhang)

oder auch

geschätzte Einkommenshöhe = unbekannter Faktor multipliziert mit der Schulbesuchsdauer zuzüglich einer unbekannten Störgröße

oder auch y = bx + a

2. Schritt: Beobachtungsdaten gewinnen

Person Schuljahre Einkommen

Herr Müller 8 1400

Frau Meier 10 2100

Herr Schulz 13 2100

Herr Schmidt 9 1800

Frau Mustermann 10 1900

Herr Kleinknecht 15 2000

Frau Dorfner 13 2200

Herr Beier 8 1600

Herr Dudenhofen 10 1600

(5)

3. Schritt: Regressionsparameter schätzen

Unter der Modellvoraussetzung y = bx + a Wie groß ist a und b?

“Es gilt eine Gleichung zu finden, mit deren Hilfe die Werte der abhängigen Variablen [...] aufgrund der Werte der explikativen Variablen [...] so geschätzt werden können, dass die Schätzfehler minimal sind” (Kromrey 2000: 474).

0 500 1000 1500 2000 2500 3000

0 5 10 15 20

Schuljahre

Einkommen

Die Regressionsparameter a (Störfaktor; Achsenab- schnitt) und b (Regressionskoeffizient; Steigung) werden aus den Beobachtungswerten mittels der „Methode der kleinsten Quadrate“ (Ordinary-Least-Square- oder OLS- Regression) geschätzt.

In unserem Beispiel ergibt sich dabei:

y = 82,639x + 974,07

0 500 1000 1500 2000 2500 3000

0 5 10 15 20

Einkommen

y = 82,639x + 974,07 R2 = 0,5443

(6)

3

Warum logistische Regression?

Beispiel 2

Wie hängt die Besetzung einer betrieblichen Führungsposition mit der Dauer des Schulbesuches einer Person zusammen?

1. Schritt: Modellbildung

„Die Wahrscheinlichkeit, dass eine Person eine betriebliche Führungsposition inne hat, steigt mit der Dauer des Schulbesuchs.“ (linearer Zusammenhang

????)

(7)

2. Schritt: Beobachtungsdaten gewinnen

Person Schuljahre Führungsposition

Herr Müller 8 nein

Frau Meier 10 ja

Herr Schulz 13 ja

Herr Schmidt 9 ja

Frau Mustermann 10 nein

Herr Kleinknecht 15 nein

Frau Dorfner 13 ja

Herr Beier 8 nein

Herr Dudenhofen 10 ja

„binäre“ Kodierung: nein = 0 / ja = 1

3. Schritt: Regressionsparameter schätzen

1. Versuch: lineare Regression y = bx + a

y = 0,0347x + 0,1852 R2 = 0,026

-0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2

-15 -10 -5 0 5 10 15 20 25 30

(8)

Zur Analyse kategorialer Daten (hier: Führungsposi- tion ja/nein) ist die lineare Regression nicht brauch- bar

Binäre Logistische Regression

Lineare Reg.gleichung: y = bx + a

logistische Reg.gleichung:

x x

e e

1 0

1 0

1

1

β β

β

π

β + +

= +

Vorteile:

• Schätzwerte können nie > 1 oder < 0 werden

• Die Regressionsgleichung simmuliert eine allmähliche Annäherung an die Extremwerte 0 und 1 (kein linearer Zusammenhang) („Maximum-Likelihood-Schätzung“)

Besonders wichtig!

Bei der linearen Regression wird der Einfluss der erklärenden Variablen auf die abhängige Variable direkt geschätzt.

Bei der logistischen Regression wird der Einfluss der erklärenden Variablen auf die Wahrscheinlichkeit geschätzt, dass die abhängige Variable den Wert ‚1‘

annimmt.

(9)

-0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2

-15 -10 -5 0 5 10 15 20 25 30

Lineare und Logistische Regression im Vergleich

x x

e

y e0,6710,6710,2230,223

1 +

+

= +

1852 , 0 0347 ,

0 +

= x

y

Die Beziehung zwischen abhängiger (y) und erklärender Variable (x) als Wahrscheinlichkeits- wert

0,0 0,2 0,4 0,6 0,8 1,0 1,2

0 5 10 15 20 25 30

(10)

Die Logitische Regression wird in der Praxis nicht in „Zwei-Variablen-Fällen“ wie dem Beispiel angewendet. Der Vorteil des Verfahrens besteht vielmehr darin, dass die Einflüsse mehrerer erklärender Variablen auf eine abhängige Variable gleichzeitig untersucht werden können. Das Verfahren bietet die Möglichkeit, die jeweils nicht interessierenden Variablen zu kontrollieren.

4

Datenvoraussetzungen und Datenvorbereitung für die

logistische Regression

(11)

Datenvoraussetzungen

Die abhängige Variable muss als dichotome Dummy-Variable zerlegbar sein typische ja/nein Fragestellung (Kodierung 0/1)

Die unabhängigen (erklärenden) Variablen können jedwedes Messniveau besitzen. Sowohl metrische als auch nominal skalierte Daten können einfließen

Die Abhängige Variable Beispielfragestellung:

„Welche Faktoren beeinflussen die Wahrscheinlichkeit, zwischen 1992 und 1996 ehrenamtlich aktiv zu werden?“

(Quelle der Beispieldaten: SOEP)

Kodierung der abhängigen Variable EHRE:

0 = nicht ehrenamtlich aktiv geworden 1 = ehrenamtlich aktiv geworden

ACHTUNG: Es dürfen nur solche Fälle (Personen) in die Untersuchung aufgenommen werden, die prinzipiell „im Risiko sind“ ehrenamtlich aktiv zu werden. Das heißt, dass Personen, die bereits zum Beginn des Untersuchungszeitraums ehrenamtlich aktiv sind, aus der Untersuchung ausgeschlossen werden müssen.

(12)

Die erklärenden Variablen

Welche erklärenden Variablen in die Untersuchung einbezogen werden, hängt vom Modell (oder von unserer Theorie) ab. Hier: Wir nehmen an, dass folgende Variablen die Ehrenamts-Aufnahme-Wahrscheinlichkeit

beeinflussen:

•Geschlecht

•Erwerbsstatus

•Alter

•Haushaltskontext

•Qualifikation

Vorbereitung der Ursprungsdaten für die Regressionsschätzung

metrische Variablen müssen nicht verändert werden dichotome Variablen (bspw. Geschlecht) müssen nicht verändert werden (wenn Kodierung 0/1)

kategoriale Variablen mit mehr als 2 Ausprägungen müssen in dichotome Dummy-Variablen zerlegt werden

(13)

Beispiel für die Variablenzerlegung

Höchster Schulabschluss (SCHULE) mit den Ursprungswerten 1 = Hauptschule, 2 = Realschule und 3 = Gymnasium wird zerlegt in 3 Einzelvariablen

SCHULE1 (Hauptschule ja/nein):

1 wenn Hauptschulabschluss; alle anderen 0 SCHULE2 (Realschule ja/nein):

1 wenn Realschulabschluss; alle anderen 0 SCHULE3 (Abitur ja/nein):

1 wenn Abitur; alle anderen 0

ACHTUNG: Missing-Werte müssen in einer eigenen Dummy-Variable in die Schätzung einbezogen werden, also wenn SCHULE=missing, dann SCHULMIS=1 wenn kein Schulabschluss bekannt; alle anderen 0 !!!

Dummy Kodie-

rung Dummy Kodie-

rung

Geschlecht Erwerbsstatus

Mann* 0 voll erwerbstätig* R_ES1 0/1

Frau R_SEX 1 unregelm./teilzeit erwerbst. R_ES2 0/1

Alter arbeitslos R_ES3 0/1

16-25 Jahre R_AGE1 0/1 Rentner R_ES4 0/1

26-40 Jahre R_AGE2 0/1 sonst. Nicht-Erwerbstätige R_ES5 0/1 41-60 Jahre* R_AGE3 0/1 Schulabschluss

älter als 60 Jahre R_AGE4 0/1 missing R_SCH1 0/1

Haushalt kein Abschluss R_SCH2 0/1

alleinstehend R_HH1 0/1 Hauptschulabschluss R_SCH3 0/1 Paar ohne Kind* R_HH2 0/1 Realschulabschluss* R_SCH4 0/1 alleinerziehend R_HH3 0/1 (Fach-)Hochschulreife R_SCH5 0/1 Paar + 1 Kind R_HH4 0/1 Abschluss verbessert R_SCH5 0/1

Paar + 2 Kinder R_HH5 0/1

Paar + 3 o. mehr Kinder R_HH6 0/1

sonstige R_HH7 0/1

* Referenzgruppe

Variablenzerlegung im Beispieldatensatz

(14)

ACHTUNG 1: Referenzkategorie auswählen

Nicht alle erklärenden Variablen werden in die Rechnung einbezogen. Um die späteren Schätzergebnisse interpretieren zu können, muss in jedem Variablenblock eine Referenzkategorie ausgewählt werden. Alle Ergebnisse sind nur im Hinblick auf diese Referenzkategorie zu interpretieren Auswahlkriterien:

die bestbesetzte Kategorie

Interpretatorische Gründe

ACHTUNG 2: „Strukturelle Nullen“ vermeiden

Es sind sogenannte „Strukturelle Nullen“ zu vermeiden.

„Strukturelle Nullen“ entstehen dann, wenn einzelne Kategorien der erklärenden Variablen sich logisch ausschließen.

Bsp.: Kategorie Alter mit einer Ausprägung „jünger als 16 Jahre“ und Kategorie Berufsabschluss mit einer Ausprägung „Hochschulabschluss“.

Solche Effekte sind nicht immer zu vermeiden, sollten aber auf jeden Fall bewußt sein und bei der Interpretation berücksichtigt werden.

Außerdem empfiehlt sich ein Kreuztabellentest zwischen

(15)

Checkliste

Nur Fälle einbeziehen, die „im Risiko“ sind

abhängige Variable als dichotome Dummy-Variable

Je nach Meßniveau und Modellannahmen sind die erklärenden Variablen aufzubereiten

Nicht zuviele erklärende Variablen einführen.

Faustregel: Pro 100 Analysefälle eine erklärende Variable. In unserem Beispielfall: ca. 6000 Personen im Analysedatensatz, d.h. es sollten nicht mehr als maximal 60 erklärende Variablen einbezogen werden (wir haben 23 ausgewählt)

Sensible Auswahl der Referenzkategorie

„Strukturelle Nullen“ vermeiden

5

Interpretation der

Regressionsergebnisse

(16)

Signifikanz

***: p <= 0,01

**: 0,01 < p <= 0,05

*: 0,05 < p <= 0,1

Koeffizient Signifikanz Geschlecht

Männer RG

Frauen -0,278*** 0,000

Erwerbsstatus

regelm. Vollzeit RG

unregelm./Teilzeit 0,189 0,132

arbeitslos -0,199 0,218

Rentner -0,051 0,713

sonst. nicht-erwerbstätige 0,358*** 0,003 Alter

16-25 Jahre -0,006 0,968

26-40 Jahre 0,033 0,697

41-60 Jahre RG

älter als 60 Jahre -0,374*** 0,008 Haushaltstyp

Ein-Personen-Haushalt -0,314** 0,011

Paar ohne Kinder RG

Alleinerziehend -0,214 0,225

Paar mit einem Kind -0,026 0,801

Paar mit zwei Kindern 0,284*** 0,006 Paar mit drei Kindern + 0,379*** 0,010

sonst. Haushalte -0,273 0,139

Schulabschluss

missing 0,317 0,338

kein Abschluss -0,588** 0,016

Hauptschulabschluss -0,116 0,161

Realschulabschluss RG

(Fach-)Hochschulreife 0,057 0,589

Abschluss verbessert 0,357 0,142

Konstante -1,291*** 0,000

n 6012

Pseudo R2 0,043

RG = Referenzgruppe

Haushaltstyp

Ein-Personen-Haushalt -0,314**

Paar ohne Kinder RG

Alleinerziehend -0,214

Paar mit einem Kind -0,026

Paar mit zwei Kindern 0,284***

Paar mit drei Kindern + 0,379***

sonst. Haushalte -0,273

Schulabschluss

missing 0,317

kein Abschluss -0,588**

Hauptschulabschluss -0,116

Realschulabschluss RG

(Fach-)Hochschulreife 0,057

Abhängige Variable: Ehrenamt aufgenommen

(17)

Checkliste

Wichtig sind insbesondere zwei Werte: Die Koeffizienten (SPSS: „Regressionskoeffizient B“) und das Signivikanzniveau (SPSS: „Sig.“).

Negative (positive) Koeffizienten bedeuten einen negativen (positiven) Zusammenhang Bei kategorialen Dummies: Wenn Ausprägung zutrifft, reduziert (erhöht) sich die Wahrscheinlichkeit, dass die abhäbngige Variable den Wert 1 annimmt. Bei metrischen Variablen: Wenn sich die unabhängige Variable um eine Einheit erhöht, dann erhöht (verringert) sich die Wahrscheinlichkeit, dass die abhängige Variable den Wert 1 annimmt.

Checkliste (Fortsetzung)

Koeffizienten sind nur in der Richtung des Zusammenhangs zu interpretieren („eine Variabel erhöht/vermindert die Wahrscheinlichkeit, dass ...“)

Koeffizienten sind nur in Bezug auf die jeweilige Referenzgruppe zu interpretieren.

Es können nur statistisch signifikante Ergebnisse interpretiert werden.

Ab welchem Signifikanzniveau Zusammenhänge als bestätigt gelten, ist Definitionssache (allerdings

„Signifikanzgrenze“ > 0,1 in der Forschungsliteratur unüblich).

(18)

6

Die Regressionsanalyse als iteratives Verfahren

Es empfiehlt sich, nicht nur ein einziges Modell zu schätzen, sondern iterativ vorzugehen, in dem man nach und nach einzelne

„Variablenblöcke“ in die Schätzungen einbezieht.

Dabei ist darauf zu achten:

a) Wie verändern sich die Koeffizienten (Vorzeichenwechsel)?

1. Empfehlung

(19)

Schätzung 1 Schätzung

2 Schätzung 3 Schätzung

4 Geschlecht

Männer RG RG RG RG

Frauen -0,292*** -0,320*** -0,285*** -0,278***

Erwerbsstatus

regelm. Vollzeit RG RG RG RG

unregelm./Teilzeit 0,220* 0,262** 0,203 0,189

arbeitslos -0,202 -0,193 -0,208 -0,199

Rentner -0,497*** -0,057 -0,067 -0,051

sonst. Nicht-erwerbstät. 0,454*** 0,459*** 0,400*** 0,358***

Alter

16-25 Jahre 0,067 0,074 -0,006

26-40 Jahre 0,114 0,054 0,033

41-60 Jahre RG RG RG

älter als 60 Jahre -0,507*** -0,384*** -0,374***

Haushaltstyp

Ein-Personen-Haushalt -0,302** -0,314**

Paar ohne Kinder RG RG

Alleinerziehend -0,224 -0,214

Paar mit einem Kind -0,020 -0,026

Paar mit zwei Kindern 0,308*** 0,284***

Paar mit drei Kindern + 0,383*** 0,379***

sonst. Haushalte -0,273 -0,273

Schulabschluss

missing 0,317

kein Abschluss -0,588**

Hauptschulabschluss -0,116

Realschulabschluss RG

(Fach-)Hochschulreife 0,057

Abschluss verbessert 0,357

Konstante -1,293*** -1,322*** -1,358*** -1,291***

n 6012 6012 6012 6012

Pseudo R2 0,024 0,029 0,039 0,043

RG = Referenzgruppe

2. Empfehlung

Es empfiehlt sich, nach der Schätzung eines Gesamtmodells u.U. weitere differenziertere Schätzungen vorzunehmen. Beispielsweise bietet es sich in unserem Beispiel an, alle Modelle jeweils nochmals getrennt für Männer und Frauen zu berechnen.

Begründung: Durch die gemeinsame Schätzung können gegenläufige Einflüsse sich gegenseitig aufheben und daher nicht erkannt werden.

ACHTUNG: Auf Fallzahlen achten !

(20)

Männer Frauen Erwerbsstatus

regelm. Vollzeit RG RG

unregelm./Teilzeit 0,481 0,192

arbeitslos -0,174 -0,210

Rentner -0,219 0,076

sonst. nicht-erwerbstätige 0,214 0,443***

Alter

16-25 Jahre 0,017 -0,053

26-40 Jahre 0,016 0,010

41-60 Jahre RG RG

älter als 60 Jahre -0,330 -0,345*

Haushaltstyp

Ein-Personen-Haushalt -0,183 -0,447***

Paar ohne Kinder RG RG

Alleinerziehend -0,211 -0,181

Paar mit einem Kind -0,079 0,029

Paar mit zwei Kindern 0,217 0,334**

Paar mit drei Kindern + 0,318 0,432**

sonst. Haushalte -0,112 -0,463*

Schulabschluss

missing 0,776* -0,273

kein Abschluss -0,342 -0,858**

Hauptschulabschluss -0,044 -0,203*

Realschulabschluss RG RG

(Fach-)Hochschulreife -0,156 0,321**

Abschluss verbessert 0,356 0,440

Konstante -1,258*** -1,603***

n 2586 3426

Pseudo R2 0,026 0,057

RG = Referenzgruppe

7

„Odd Ratios“–

eine weitere Darstellungsformen

der Schätzergebnisse

(21)

Problem

Durch die Schätzung der Koeffizienten können wir zwar die Signifikanz und die Richtung des Zusammenhangs zwischen abhängiger und unabhängiger Variable bestimmen, aber es sind keine Aussagen über die Stärke des Zusammenhangsmöglich!

Alternative: Berechnung von „Odd Ratios“

A B C D E F G

sonstige

Todesursache Hirntumor n

Wahrscheinlichkeit d.

Todes durch HT (in %)

Gegenwahrschein- lichkeit sonst. Tod (in %)

Odds (Tod durch HT/sonst. Gründe)

1 Männer 60000 100 60100 0,166389 99,833611 0,001667

2 Frauen (RG) 35000 24 35024 0,068524 99,931476 0,000686

3 4

Prozentsatzdifferenz Männer-

Frauen 0,097865

5

6 Differenz der beiden Odds 0,000981 7

8 Odd Ratio Mann/Frau (RG) 2,430556 9

10 "Wahrscheinlichkeits-Ratio" 2,428175 11

12

Diff. Zw. Odd &

Wahrscheinlichkeits-Ratio 0,002380

Beispiel (a) zur Berechnung und Interpretation von „Odd Ratios“

Die Wahrscheinlichkeit von Männern, an einem Gehirntumor zu sterben, ist rund 2,4mal so groß wie die Wahrscheinlichkeit von Frauen, an einem Gehirntumor zu sterben

Exkurs: Was sind „Odd Ratios“ und wie werden sie interpretiert?

(22)

Beispiel (b) zur Berechnung und Interpretation von „Odd Ratios“

A B C D E F G

sonstige

Todesursache Hirntumor n

Wahrscheinlichkeit d.

Todes durch HT (in %)

Gegenwahrschein- lichkeit sonst. Tod (in %)

Odds (Tod durch HT/sonst. Gründe)

1 Männer 60000 1500 61500 2,439024 97,560976 0,025000

2 Frauen (RG) 35000 240 35240 0,681044 99,318956 0,006857

3 4

Prozentsatzdifferenz Männer-

Frauen 1,757980

5

6 Differenz der beiden Odds 0,018143 7

8 Odd Ratio Mann/Frau (RG) 3,645833 9

10 "Wahrscheinlichkeits-Ratio" 3,581301 11

12

Diff. Zw. Odd &

Wahrscheinlichkeits-Ratio 0,064533

Die Wahrscheinlichkeit von Männern, an einem Gehirntumor zu sterben, ist rund 3,6mal so groß wie die Wahrscheinlichkeit von Frauen, an einem Gehirntumor zu sterben

Beispiel (c) zur Berechnung und Interpretation von „Odd Ratios“

A B C D E F G

sonstige

Todesursache Hirntumor n

Wahrscheinlichkeit d.

Todes durch HT (in %)

Gegenwahrschein- lichkeit sonst. Tod (in %)

Odds (Tod durch HT/sonst. Gründe)

1 Männer 60000 1000 61000 1,639344 98,360656 0,016667

2 Frauen (RG) 35000 1000 36000 2,777778 97,222222 0,028571

3 4

Prozentsatzdifferenz Männer-

Frauen -1,138434

5

6 Differenz der beiden Odds -0,011905 7

8 Odd Ratio Mann/Frau (RG) 0,583333 9

10 "Wahrscheinlichkeits-Ratio" 0,590164 11

12

Diff. Zw. Odd &

Wahrscheinlichkeits-Ratio -0,006831

Die Wahrscheinlichkeit von Männern, an einem Gehirntumor zu sterben, ist rund

(23)

Wie sind Odd Ratios im Regressionsmodell zu interpretieren?

Die Werte von Odd Ratios (OR) liegen theoretisch zwischen 0 und unendlich.

OR < 1 bedeutet für die Analysegruppe eine geringere Wahrscheinlichkeit, dass die abhängige Variable „1“

ergibt, als die Referenzgruppe.

OR > 1 bedeutet für die Analysegruppe eine höhere Wahrscheinlichkeit, dass die abhängige Variable „1“

ergibt, als die Referenzgruppe.

Was ist bei der Interpretation von Odd Ratios im Regressionsmodell zu beachten?

a) Der „einfache“ Fall: OR > 1

ORs mit einem Wert > 1 sind relativ einfach zu interpretieren.

Bsp.: Frau: Referenzgruppe / Mann: OR= 1,432***

Abhängige Variable: Ehrenamtsaufnahme

„Männer haben (unter Kontrolle aller anderen Variablen im Modell) gegenüber Frauen eine um 43,2 % erhöhte Wahrscheinlichkeit, ein Ehrenamt aufzunehmen.“

(24)

b) Der „knifflige“ Fall: OR < 1

ORs mit einem Wert < 1 sind schwieriger zu interpretieren.

Bsp.: Frau: Referenzgruppe / Mann: OR= 0,650***

Abhängige Variable: Ehrenamtsaufnahme

„Männer haben (unter Kontrolle aller anderen Variablen im Modell) gegenüber Frauen eine 0,650mal so große Wahrscheinlichkeit, ein Ehrenamt aufzunehmen.“

ACHTUNG: Das heißt NICHT, dass Männer eine um 35 % verringerte Wahrscheinlichkeit der Ehrenamtsaufnahme

gegenüber Frauen aufweisen (also nicht 1 - 0,650 = 0,350) !!!

Interpretationsbeispiele bei OR < 1

OR 1-OR (Falsch!) %

0,95 5,00 5,26

0,90 10,00 11,11

0,85 15,00 17,65

0,80 20,00 25,00

0,75 25,00 33,33

0,70 30,00 42,86

0,65 35,00 53,85

0,60 40,00 66,67

0,55 45,00 81,82

0,50 50,00 100,00

0,45 55,00 122,22

0,40 60,00 150,00

0,35 65,00 185,71

0,30 70,00 233,33

P = (1 / 0,95)-1= 0,0526

P = (1 / 0,70)-1= 0,4286

P = (1 / 0,50)-1= 1

! VORSICHT !

??? A hat eine um 100 % verringerte Wahrscheinlichkeit als B ???

(25)

Bei OR Werten <= 0,5 bietet sich eine umgekehrte Interpretation an.

Interpretationsbeispiele

OR 1-OR (Falsch!) %

0,95 5,00 5,26

0,90 10,00 11,11

0,85 15,00 17,65

0,80 20,00 25,00

0,75 25,00 33,33

0,70 30,00 42,86

0,65 35,00 53,85

0,60 40,00 66,67

0,55 45,00 81,82

0,50 50,00 100,00

0,45 55,00 122,22

0,40 60,00 150,00

0,35 65,00 185,71

0,30 70,00 233,33

Die Referenzgruppe hat eine doppelt so hohe Wahrscheinlichkeit wie die Analysegruppe

Die Referenzgruppe hat eine um 122 % erhöhte Wahrscheinlichkeit gegenüber der Analysegruppe

Der „noch kniffligere“ Fall: OR <= 0,5

8

Ausblick

(26)

3. Sitzung (Praxis)

Donnerstag, 27.11.2003, 9.30-12.00 Uhr

• Kurze Wiederholung der wichtigen methodischen Punkte

• Gemeinsame Begutachtung der „Übungs-Rohdaten“ und Plan zur Aufbereitung der Daten für die logistische Regression

4. Sitzung (Praxis)

Donnerstag, 11.12.2003, 9.30-12.00 Uhr

• Einführung in STATA

• Aufbereitung der Daten in STATA 5. Sitzung (Praxis)

Donnerstag, 29.01.2004, 9.30-12.00 Uhr

• Anwendung der eigentlichen Logistischen Regression in STATA

• Diskussion und Interpretation der Schätzergebnisse 6. Sitzung (Praxis) (optional)

Donnerstag, 26.02.2004, 9.30-12.00 Uhr

• Bei Bedarf: Gemeinsamer Einstieg in eine neue Analyse mit anderer Fragestellung und anderen Daten

7. Sitzung (Theorie)

Donnerstag, 25.03.2004, 9.30-12.00 Uhr

• Ausblick: Weitere multivariate Analyseverfahren (bspw. multiple Logistische Regression, Übergangsratenmodelle etc.); Gemeinsamkeiten und Unterschiede zur Binären Logistischen Regression

Die weiteren Sitzungen

„Generally, descriptive studies are thus much more relevant for sociology as an explanatory enterprise than current journals and university curricula would have us belief.“

(Wippler/Lindenberg 1987: 159) Trotz der Vorzüge und Möglichkeiten multivariater Analyseinstrumente insbesondere für die sozialwissenschaftliche Forschung sollten scheinbar „einfache“ deskriptive Verfahren nicht vernachlässigt und deren Nutzen nicht unterschätzt werden:

Schlussbemerkung

Referenzen

ÄHNLICHE DOKUMENTE

Mit dieser massiven Ausdehnung der Nutzungsintensität und des Nutzungszeitraumes sind erhebliche Störungen für die Anwohne- rInnen und deren Wohn-, Freizeit- und

 Die Krankheit xyz tritt in der Bevölkerung bei etwa jeder tausendsten Person auf. Es wurde ein Screening für die breite Bevölkerung entwickelt. Die Fehlerrate in der.

■ Assume effect of either independent variable is the same, regardless of the value of the other variable (additivity, parallel regression lines).. ■ Usual assumptions on

Es ist zwar so, daß zu den ursprünglich von der Praxis aufgeworfenen Fragen noch eine Reihe weiterer hinzugekommen sind, durch welche eine wissenschaftliche Behandlung der Probleme

TEST-FUNKTIONEN IN R (FÜR DATEN IM DATAFRAME DF) VORAUSSETZUNGEN PRÜFEN. ALTERNATIVEN

• Bei der Regression soll eine Zielvariable, bezeichnet als abhängige Variable, durch die erklärenden Variablen, bezeichnet als unabhängige Variablen, erklärt werden..

Weiter wird untersucht, inwiefern die Ver- dunstung mit Bodenabdeckungen oder verschiedenen Varianten zur Unkrautregu- lierung reduziert werden kann.. Als Kontrolle dienen sowohl

Einige wenige Studien deuten dar- auf hin, dass Depression assoziiert ist mit einer Produktion von proinflammatori- schen Zytokinen, wobei diese sich aber in einem