15.1 Allgemeines Lineares Regressions-Modell

(1)

15 Allgemeine Modelle und Robuste Regression

15.1 Allgemeines Lineares Regressions-Modell

a

Modell.

Y _i ∼ F hµ _i , γ i , g hµ _i i ⁼ η _i ⁼ x ^T _i β

b Weibull-Verteilung. Ausfalls-, Überlebenszeiten.

f hxi ⁼ α

σ ⁽ x/σ ⁾ ^α ⁻ ¹ ^exp h− ⁽ x/σ ⁾ ^α i

Erwartungswert

σ ^Γ h ¹ /α ^{+ 1} i

Keine Exponentialfamilie

−→

kein GLM.

σ

ist Skalen-Parameter:

c · Y ∼ W h c · σ, αi

α

Form-Parameter

(2)

1 2

012

α = 0.5

1 2

0.00.51.01.52.0

α = 1

1 2

0.00.51.01.52.0

α =1.3

1 2

0.00.51.01.52.0

α = 2

1 2

0.00.51.01.52.0

α = 4

1 2

0123

α = 10

(3)

Länge: 1, 10, 20, 50 mm, Zielgrösse Reisskraft.

20 50 150 Laenge = 300

1.8 2.0 2.2 2.4 2.6 2.8 3.0

Reissfestigkeit

Anzahl

(4)

d

Weibull-Regression.

Y _i ∼ W hσ _i , αi , ^log hσ _i i ⁼ x ^T _i β .

e

Gumbel-Regression. log hY i ∼

Gumbel

f hxi ⁼ τ ⁻¹ e ^z ^exp h−e ^z i , z ⁼ x − µ τ µ ^{= log} hσ i , τ ^{= 1} /α

.

Erwartungswert

µ ⁺ γτ ≈ µ − ⁰ . ⁵⁷⁷ τ

.

−4 −3 −2 −1 0 1 2 3

0.000.050.100.150.200.250.300.35

Dichte

(5)

Regressionsmodell

Y e _i ^{= log} Y _i ∼ G hµ _i , τ i , µ _i ⁼ x ^T _i β .

f

*

Zensierte Daten. Von einigen Beobachtungen weiss man nur, dass sie grösser sind als ein gegebener Wert, z.B. bei Abschluss der Studie.

Weibull-Regression wird oft im Zusammenhang mit zensierten Daten behandelt.

g

Lineares Modell mit nicht-normalen Fehlern.

Form „Zielgrösse = Regressionsfunktion + Zufallsabweichung"

Y _i ⁼ x ^T _i β ⁺ E _i , E _i /σ ∼ F ₁ .

h

Langschwänzige Fehler.

(6)

15.1

i

t-Verteilung.

Dichte der t-Veretilung mit

ν

Freiheitsgraden:

f _ν hz i ⁼ c ^{(1 +} z ² /ν ⁾ ^−(ν ^+1)/2

Skaliereen und verschieben

−→

„Lokations-Skalen-Familie", Dichte

f _µ,σ,ν hxi ⁼ c

σ ^{(1 +} z ² /ν ⁾ ^−(ν ^+1)/2 ν ⁼ ∞

: Normalverteilung

ν ^{= 1}

: Cauchy-Verteilung

F ₁ ⁼ t hµ ^{= 0} , σ ^{= 1} , ν i

,

ν ^{= 3} , ⁵ , ⁷

.

(7)

j

Maximum Likelihood.

``

β, σ

= X

i ρ

* Y _i − x ^T _I β σ

+

+ n ^log hσ i

ρ hr i ⁼ − ^log hf ₁ hr ii .

Normalverteilung:

f ₁ = φ −→ ρ hr i ⁼ r ² / 2

t-Verteilung:

ρ hr i ⁼ ^ν ⁺¹ ₂ ^log

1 + r ² /ν

(8)

15.1

k

Normalgleichungen. R _i ^{= (} Y _i − x ^T _I β ⁾ /σ

ableiten nach

β −→ −x _i /σ

X

i ψ

* Y _i − x ^T _i β b σ

+

x _i ⁼ ⁰ , ψ hr i ⁼ ρ ⁰ hr i

Normalverteilung:

ψ hr i ⁼ r −→ P

i ( Y _i − x ^T _i β ⁾ x _i ^{= 0}

t-Verteilung:

ψ hr i ^{= (1 + 1} /ν ⁾ ^r

1+r

²

/ν

(9)

−5 −4 −3 −2 −1 0 1 2 3 4 5

−2−1012

r

ψ

ν 20 9 5 3

(10)

Die LS Methode ist besonders einfach, da

•

die Normalgleichungen nach

β

aufgelöst werden können,

•

die zu minimierende Grösse

P

r _i ²

die Skala

σ

nicht enthält

−→

•

der Skalen-Parameter

σ

nach

β

geschätzt werden kann.

Schätzung für andere Verteilungen braucht iterativen Algorithmus.

(Kein Problem.)

l

Gewichtete Kleinste Quadrate.

X

i w _i R _i x _i ⁼ ⁰ , R _i ⁼ Y _i − x ^T _i β b

σ , w _i ⁼ ψ hR _i i /R _i .

(11)

m

.

Beispiel der Reissfestigkeit von Fasern R: package

survival

für zensierte Daten.

Zielgrösse muss

Surv

–Objekt sein,

Surv(Y, rep(1,length(Y))) survreg(formula = Surv(strength, rep(1, nrow(dd))) ~

length, data = dd)

Value Std. Error z p

(Intercept) 1.068937 8.53e-03 125.28 0.00e+00

length -0.000343 4.99e-05 -6.87 6.31e-12

Log(scale) -2.833522 7.24e-02 -39.11 0.00e+00

Scale= 0.0588

(12)

survreg(formula = Surv(strength, rep(1, nrow(dd))) ~ length, data = dd)

Value Std. Error z p

(Intercept) 1.068937 8.53e-03 125.28 0.00e+00 length -0.000343 4.99e-05 -6.87 6.31e-12 Log(scale) -2.833522 7.24e-02 -39.11 0.00e+00 Scale= 0.0588

Weibull distribution

Loglik(model)= 31.5 Loglik(intercept only)= 13.4 Chisq= 36.1 on 1 degrees of freedom, p= 1.8e-09 Number of Newton-Raphson Iterations: 6

n= 119

(13)

0 50 100 150 200 250 300 350

0.70.80.91.01.1

length

log(strength)

/

(14)

15.1

n

Verteilung der Schätzung.

var

D β b

E

= σ ² · κ C ⁻¹ , C ⁼ X

i x _i x ^T _i , κ ⁼ R

ψ ² hui f ₁ hu i du

(kein

1 n

⁾

o

Tests, Vertrauensbereiche.

wie üblich aus dieser Verteilung bestimmt.

(15)

15.2 Tobit-Regression

b Beispiel von Tobin:

Zielgrösse: Ausgaben für „haltbare Güter

durable

Eingangsgr: Alter (

age

), Index f. Liquidität (

quant

)

Viele geben (in der abgefragten Periode) nichts für

durable

s aus.

−→

Zielgrösse hat

P hY ^{= 0} i > ⁰

, aber für

Y > ⁰

eine Dichte.

Wie modellieren?

Ebenso:

•

Chemische Konzentrationen: Nachweisgrenze

•

Regen

•

Schäden von Versicherungspolicen

(16)

15.2

c

Modelle:

•

Zweistufig: 1. logist. Regr. für

Y > ⁰

vs.

Y ^{= 0}

,

2. Gew. lin. Regr. für Beob. mit

Y > ⁰

(oder allgemeinere Regr.)

•

„Tobit-Regression"

d

Tobit-Regression.

Latente Variable

Z

mit

Z _i ⁼ x ^T _i β ⁺ E _i , E _i ∼ N D

0 , σ ² E

Beobachtungen

Y _i =

y ^∗

falls

Z _i ≤ y ^∗

Z _i

falls

Z _i > y ^∗

(17)

0 1 2 3 4 5 6 7 8 9 10

−20246

x

Z (o) / Y (x)

y*

(18)

15.2

e

Interpretation von Z .

•

Nachweisgrenze:

Z

= wahrer Wert

•

Regen: „Potential"

•

Ausgaben (bei Wahl-Bedarf): Neigung zum Kauf Vergleich mit 2-stufigem Modell

• P hY > ⁰ i

und

E hY | Y > ⁰ i

hängen zusammen

•

Weniger Parameter

(19)

g Beispiel:

Call:

regr(formula = Tobit(durable) ~ age + I(age^2) + quant, data = tobin)

Terms:

coef stcoef signif R2.x df p.value (Intercept) -88.2971 NA -0.722 NA 1 NA age 4.5248 34.51 1.057 0.992 1 0.038 I(age^2) -0.0505 -36.47 -1.088 0.992 1 0.033 quant -0.0494 -1.28 -0.496 0.060 1 0.331

deviance df p.value Model 5.65 3 0.13

Null 53.33 20 NA

Distribution: gaussian. Shape p. (’scale’): 4.61

AIC: 5.0063.33

(20)

Trick:

age

zentrieren, damit die Koeffzienten sinnvoller werden

quant

weg.

Call:

regr(formula = Tobit(durable) ~ age + I((age - 45)^2), data = tobin)

Terms:

coef stcoef signif R2.x df p.value (Intercept) 5.0340 NA 0.201 NA 1 NA age -0.0887 -0.677 -0.184 0.044 1 0.719 I((age - 45)^2) -0.0554 -4.066 -1.044 0.112 1 0.041

deviance df p.value Model 4.71 2 0.0949

Null 54.27 20 NA

Distribution: gaussian. Shape p. (’scale’): 5.02

AIC: 4.0062.27

(21)

35 40 45 50 55 60

−50510

age

durable

Tobit Kl.Qu.

ohne 0

h

Zensierte Beobachtungen.

Allgemeiner:

•

Überlebenszeiten oder Ausfallzeiten (survival, failure time data)

•

Intervall-zensierte Daten.

(22)

Beispiel Kondensatoren.

Kondensatoren verlieren im Lauf der Zeit ihre Kapazität (Korrosion).

0 500 1000 1500 2000 2500 3000 3500

050100150200250300

service days

capacity 050100150200250300

all outdoor indoor

(23)

Modell:

C ⁽ t ^{) =} c ₀ − m · t ⁿ

log( c ₀ − C ⁽ t ^{)) =} α ⁺ β ^log( t − t ₀ ⁾

Zensiert bei Anfangswert und Ausfall des Geräts ( 0 Kapazität).

(24)

years

capacity

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

0200400600800 0200400600800

all outdoor indoor

(25)

Merkpunkte

Allgemeine lineare Modelle

•

Multiple lineare Regression mit nicht-normalen Zufallsabweichungen bilden eine „harmlose" Verallgemeinerung der multiplen lin. Regr.

Beispiele: Gumbel-Regression, äquivalent zur Weibull-Regression, Regression mit

t

-verteilten Zufallsabweichungen

•

Tobit-Regression: ein Modell für zensierte Zielgrössen, mit latenter Variablen, die unterhalb (oder oberhalb)

eines bestimmten Schwellenwertes nicht mehr beobachtet werden kann.

Gebrauch u.a. für Grössen, die

≥ ⁰

sein müssen und oft 0 werden.

15.1 Allgemeines Lineares Regressions-Modell

15 Allgemeine Modelle und Robuste Regression