• Keine Ergebnisse gefunden

Binär- und Binomialdaten

N/A
N/A
Protected

Academic year: 2021

Aktie "Binär- und Binomialdaten"

Copied!
8
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Binär- und Binomialdaten

Binäre Zielgrösse:

Yi =

( 0

Misserfolg

1

Erfolg

n Beobachtungen Beispiele:

Elektronische Komponente: defekt/ nicht defekt Insekt: stirbt/ stirbt nicht nach toxischer Exposition PatientIn: Übelkeit/keine Übelkeit nach Operation.

ETH – p. 1/16

Stress der Eltern von ambulant ope- rierten Kindern

Auftreten von Stress hängt eventuell ab vom Ge- schlecht des Kindes, Nationalität, Wartezeit, . . .

Eltern-Nr. Geschlecht Deutsch- unerwarteter Stress des Kindes sprachig Schmerz

1 m ja ja nein

2 m nein ja nein

. . . .

Binärdaten:

pi = P(Yi = 1), Yi ∼ B(1, pi) (ungruppiert)

ETH – p. 2/16

(2)

Insektizid Rotenon

Konzentration Anzahl Anzahl (log von mg/l) Insekten (

ni

) Getötete (

yi

)

0.96 50 6

1.33 48 16

1.63 46 24

2.04 49 42

2.32 50 44

Binomialdaten:

Yi ∼ B(ni, pi) (gruppiert)

pi

abhängig von erklärenden Variablen

x1, x2, x3

ETH – p. 3/16

Lineares Regressionsmodell

E(Yi/ni) = pi = β0 + β1xi1 + β2xi2 + . . .

ist schlecht, weil

Angepasste Werte

i

können ausserhalb des Intervalls

(0,1)

liegen. Prognose wenig sinnvoll!

Varianz der Zielvariablen

Yi/ni

ist nicht konstant, sondern

pi(1 − pi)/ni

.

ETH – p. 4/16

(3)

Insektizid (Fort.)

Einfache lineare Regression:

ˆ

p = −0.451 + 0.5999 · Konz

Für Konzentrationen über 2.42 wird p >ˆ 1!

0.5 1.0 1.5 2.0 2.5

0.0 0.2 0.4 0.6 0.8 1.0

Konzentration

Anteil getötete Insekten

ETH – p. 5/16

Zusammenhang zwischen x und p

0.0 0.2 0.4 0.6 0.8 1.0

x

Wahrscheinlichkeit p

ETH – p. 6/16

(4)

Link-Funktionen

Transformation:

p ∈ (0,1) 7→ g(p) ∈ (−∞,∞)

mit

g(p) = η = β0 + β1x1 + β2x2 + . . .

Logit-Transformation:

logit(pi) = log( pi

1 −pi) = β0 + β1xi1 + β2xi2 + . . . g(p) = log(1p

p), p = 1+exp(η)exp(η)

Probit-Transformation:

g(p) = Φ1(p), p = Φ(η)

ETH – p. 7/16

Logit- und Probit-Transformation

0.0 0.2 0.4 0.6 0.8 1.0

x

Wahrscheinlichkeit p

logit probit

ETH – p. 8/16

(5)

Lineares logistisches Modell

Gegeben sind n unabhängige binomialverteilte Zielgrössen

Yi

mit Erfolgswahrscheinlichkeit

pi = E(Yi/ni)

und

pi

hängt von erklärenden Variablen

x1, x2, . . .

in der folgenden Form ab:

logit(pi) = log( pi

1 −pi) = β0 + β1xi1 + β2xi2 + . . .

Maximum Likelihood-Schätzungen für die

Koeffizienten führt auf nichtlineares Gleichungs- system. Lösung durch IWLS.

ETH – p. 9/16

R-Output für Insektizid

> glm1=glm(cbind(y,n-y)˜conz,family=binomial)

> summary(glm1) Call:

glm(formula=cbind(y, n - y)˜conz, family = binomial) Deviance Residuals:

1 2 3 4 5

-0.1963 0.2099 -0.2978 0.8726 -0.7222 Coefficients:

Estimate Std. Error z value Pr(>|z|) (Intercept) -4.8923 0.6426 -7.613 2.67e-14 ***

conz 3.1088 0.3879 8.015 1.11e-15 ***

---

Signif.codes:0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

ETH – p. 10/16

(6)

R-Output für Insektizid (Fort.)

(Dispersion parameter for binomial f.. taken to be 1) Null deviance: 96.6881 on 4 degrees of freedom Residual deviance: 1.4542 on 3 degrees of freedom AIC: 24.675

Number of Fisher Scoring iterations: 4

0.5 1.0 1.5 2.0 2.5

0.0 0.2 0.4 0.6 0.8 1.0

Konzentration

Anteil getötete Insekten

ETH – p. 11/16

Interpretation der Koeffizienten

Fit:

log( pˆ

1 −pˆ) = −4.8923 + 3.1088·

Konz Interpretation von

βˆ1

schwierig,

Retourtransformation nötig.

ˆ p

1 −pˆ = exp(−4.8923 + 3.1088 ·

Konz

)

=

Odds

getötet zu werden in Abhängigkeit von einer Konzentration.

ETH – p. 12/16

(7)

Odds ratios

ˆ

p0

= Wahrscheinlichkeit getötet zu werden bei einer Konzentration von Konz

0

ˆ

p1

= Wahrscheinlichkeit getötet zu werden bei einer Konzentration von Konz

0 + 1

ˆ p1 1 −pˆ1

ˆ p0 1 −pˆ0

= exp(−4.8923 + 3.1088 · (

Konz

0 + 1)) exp(−4.8923 + 3.1088 ·

Konz

0)

= e3.1088 = 22.39

ETH – p. 13/16

R-Output für Stress

> summary(stress)

Call: glm(formula = stress ˜ sex + narkose + schmerz, family = binomial, data = daten2)

Coefficients:

Estimate Std. Error z value Pr(>|z|) (Intercept) -1.7368 0.2554 -6.801 1.04e-11 ***

sexw -1.1078 0.4376 -2.532 0.011353 * narkose 0.8663 0.3450 2.511 0.012029 * schmerz 1.7537 0.5243 3.345 0.000824 ***

---

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

ETH – p. 14/16

(8)

R-Output für Stress (Fort.)

(Dispersion parameter for binomial family taken to be 1) Null deviance: 244.98 on 250 degrees of freedom Residual deviance: 223.34 on 247 degrees of freedom AIC: 231.34

Number of Fisher Scoring iterations: 5

ETH – p. 15/16

Odds ratios

ˆ

p0

= Wahrscheinlichkeit für Stress bei einem Mädchen

ˆ

p1

= Wahrscheinlichkeit für Stress bei einem Knaben

ˆ

p1 1 −pˆ1

ˆ p0 1 −pˆ0

= exp(−1.7368 + . . .) exp(−1.7368 + . . . −1.1078)

= e1.1079 = 3.028.

ETH – p. 16/16

Referenzen

ÄHNLICHE DOKUMENTE

Wahlberechtigten soll die Hypothese H 0 (“Wäre am nächsten Sonntag Wahl, so erhielte die Partei P einen Stimmenanteil < 5%”) getestet werden.. Man bestimme einen Test zum

Oft: Modell-PDF nur durch Monte-Carlo bekannt  benötige >10-fache MC- Statistik..  In 1D: Glätten

iii.) Vergleichen Sie die gewonnenen Verteilungen mit der Standardnormalverteilung N (0, 1). Plot- ten Sie die Normalverteilung dazu gemeinsam mit den Histogrammen aus ii.) und

gesetz waren sie nur noch deutsche Staatsangehörige, aber keine mit allen politischen Rechten ausgestatteten Reichsbürger mehr. Der Reichsvertretung der J u d e n in Deutschland

Finden Sie die unbekannten Parameter nach dem Maxi- mum Likelihood Prinzip.. c) Finden Sie die Entscheidungsregel, die die Anzahl der Fehlklassifikationen auf der

bei endlichen Lernstichproben stimmt der Mittelwert des geschätzten Parameters nicht unbedingt mit dem tatsächlichen überein. Beispiele: ML für µ ist erwartungswerttreu, ML für σ

(Allgemein): Das Modell ist eine Wahrscheinlichkeitsverteilung p(x,k; Θ) für Paare x (Beobachtung) und k (Klasse).. In der Lernstichprobe ist die Information unvollständig – die

Finden Sie die unbekannten Parameter nach dem Maxi- mum Likelihood Prinzip.. c) Finden Sie die Entscheidungsregel, die die Anzahl der Fehlklassifikationen auf der