15 Allgemeine Modelle und Robuste Regression
15.1 Allgemeines Lineares Regressions-Modell
a
Modell.
Y i ∼ F hµ i , γ i , g hµ i i = η i = x T i β
b Weibull-Verteilung. Ausfalls-, Überlebenszeiten.
f hxi = α
σ ( x/σ ) α − 1 exp h− ( x/σ ) α i
Erwartungswert
σ Γ h 1 /α + 1 i
Keine Exponentialfamilie
−→
kein GLM.σ
ist Skalen-Parameter:c · Y ∼ W h c · σ, αi
α
Form-Parameter1 2
012
α = 0.5
1 2
0.00.51.01.52.0
α = 1
1 2
0.00.51.01.52.0
α =1.3
1 2
0.00.51.01.52.0
α = 2
1 2
0.00.51.01.52.0
α = 4
1 2
0123
α = 10
Länge: 1, 10, 20, 50 mm, Zielgrösse Reisskraft.
20 50 150 Laenge = 300
1.8 2.0 2.2 2.4 2.6 2.8 3.0
Reissfestigkeit
Anzahl
d
Weibull-Regression.
Y i ∼ W hσ i , αi , log hσ i i = x T i β .
e
Gumbel-Regression. log hY i ∼
Gumbelf hxi = τ −1 e z exp h−e z i , z = x − µ τ µ = log hσ i , τ = 1 /α
.Erwartungswert
µ + γτ ≈ µ − 0 . 577 τ
.−4 −3 −2 −1 0 1 2 3
0.000.050.100.150.200.250.300.35
Dichte
Regressionsmodell
Y e i = log Y i ∼ G hµ i , τ i , µ i = x T i β .
f
*
Zensierte Daten. Von einigen Beobachtungen weiss man nur, dass sie grösser sind als ein gegebener Wert, z.B. bei Abschluss der Studie.Weibull-Regression wird oft im Zusammenhang mit zensierten Daten behandelt.
g
Lineares Modell mit nicht-normalen Fehlern.
Form „Zielgrösse = Regressionsfunktion + Zufallsabweichung"
Y i = x T i β + E i , E i /σ ∼ F 1 .
h
Langschwänzige Fehler.
15.1
i
t-Verteilung.
Dichte der t-Veretilung mitν
Freiheitsgraden:f ν hz i = c (1 + z 2 /ν ) −(ν +1)/2
Skaliereen und verschieben
−→
„Lokations-Skalen-Familie", Dichtef µ,σ,ν hxi = c
σ (1 + z 2 /ν ) −(ν +1)/2 ν = ∞
: Normalverteilungν = 1
: Cauchy-VerteilungF 1 = t hµ = 0 , σ = 1 , ν i
,ν = 3 , 5 , 7
.j
Maximum Likelihood.
``
β, σ
= X
i ρ
* Y i − x T I β σ
+
+ n log hσ i
ρ hr i = − log hf 1 hr ii .
Normalverteilung:
f 1 = φ −→ ρ hr i = r 2 / 2
t-Verteilung:
ρ hr i = ν +1 2 log
1 + r 2 /ν
15.1
k
Normalgleichungen. R i = ( Y i − x T I β ) /σ
ableiten nachβ −→ −x i /σ
X
i ψ
* Y i − x T i β b σ
+
x i = 0 , ψ hr i = ρ 0 hr i
Normalverteilung:
ψ hr i = r −→ P
i ( Y i − x T i β ) x i = 0
t-Verteilung:
ψ hr i = (1 + 1 /ν ) r
1+r
2/ν
−5 −4 −3 −2 −1 0 1 2 3 4 5
−2−1012
r
ψ
ν 20 9 5 3
Die LS Methode ist besonders einfach, da
•
die Normalgleichungen nachβ
aufgelöst werden können,•
die zu minimierende GrösseP
r i 2
die Skalaσ
nicht enthält−→
•
der Skalen-Parameterσ
nachβ
geschätzt werden kann.Schätzung für andere Verteilungen braucht iterativen Algorithmus.
(Kein Problem.)
l
Gewichtete Kleinste Quadrate.
X
i w i R i x i = 0 , R i = Y i − x T i β b
σ , w i = ψ hR i i /R i .
m
.
Beispiel der Reissfestigkeit von Fasern R: packagesurvival
für zensierte Daten.Zielgrösse muss
Surv
–Objekt sein,Surv(Y, rep(1,length(Y))) survreg(formula = Surv(strength, rep(1, nrow(dd))) ~
length, data = dd)
Value Std. Error z p
(Intercept) 1.068937 8.53e-03 125.28 0.00e+00
length -0.000343 4.99e-05 -6.87 6.31e-12
Log(scale) -2.833522 7.24e-02 -39.11 0.00e+00
Scale= 0.0588
survreg(formula = Surv(strength, rep(1, nrow(dd))) ~ length, data = dd)
Value Std. Error z p
(Intercept) 1.068937 8.53e-03 125.28 0.00e+00 length -0.000343 4.99e-05 -6.87 6.31e-12 Log(scale) -2.833522 7.24e-02 -39.11 0.00e+00 Scale= 0.0588
Weibull distribution
Loglik(model)= 31.5 Loglik(intercept only)= 13.4 Chisq= 36.1 on 1 degrees of freedom, p= 1.8e-09 Number of Newton-Raphson Iterations: 6
n= 119
0 50 100 150 200 250 300 350
0.70.80.91.01.1
length
log(strength)
/
15.1
n
Verteilung der Schätzung.
var
D β b
E
= σ 2 · κ C −1 , C = X
i x i x T i , κ = R
ψ 2 hui f 1 hu i du
(kein
1 n
)o
Tests, Vertrauensbereiche.
wie üblich aus dieser Verteilung bestimmt.15.2 Tobit-Regression
b Beispiel von Tobin:
Zielgrösse: Ausgaben für „haltbare Güter
durable
Eingangsgr: Alter (age
), Index f. Liquidität (quant
)Viele geben (in der abgefragten Periode) nichts für
durable
s aus.−→
Zielgrösse hatP hY = 0 i > 0
, aber fürY > 0
eine Dichte.Wie modellieren?
Ebenso:
•
Chemische Konzentrationen: Nachweisgrenze•
Regen•
Schäden von Versicherungspolicen15.2
c
Modelle:
•
Zweistufig: 1. logist. Regr. fürY > 0
vs.Y = 0
,2. Gew. lin. Regr. für Beob. mit
Y > 0
(oder allgemeinere Regr.)•
„Tobit-Regression"d
Tobit-Regression.
Latente VariableZ
mitZ i = x T i β + E i , E i ∼ N D
0 , σ 2 E
Beobachtungen
Y i =
y ∗
fallsZ i ≤ y ∗
Z i
fallsZ i > y ∗
0 1 2 3 4 5 6 7 8 9 10
−20246
x
Z (o) / Y (x)
y*
15.2
e
Interpretation von Z .
•
Nachweisgrenze:Z
= wahrer Wert•
Regen: „Potential"•
Ausgaben (bei Wahl-Bedarf): Neigung zum Kauf Vergleich mit 2-stufigem Modell• P hY > 0 i
undE hY | Y > 0 i
hängen zusammen•
Weniger Parameterg Beispiel:
Call:
regr(formula = Tobit(durable) ~ age + I(age^2) + quant, data = tobin)
Terms:
coef stcoef signif R2.x df p.value (Intercept) -88.2971 NA -0.722 NA 1 NA age 4.5248 34.51 1.057 0.992 1 0.038 I(age^2) -0.0505 -36.47 -1.088 0.992 1 0.033 quant -0.0494 -1.28 -0.496 0.060 1 0.331
deviance df p.value Model 5.65 3 0.13
Null 53.33 20 NA
Distribution: gaussian. Shape p. (’scale’): 4.61
AIC: 5.0063.33
Trick:
age
zentrieren, damit die Koeffzienten sinnvoller werdenquant
weg.Call:
regr(formula = Tobit(durable) ~ age + I((age - 45)^2), data = tobin)
Terms:
coef stcoef signif R2.x df p.value (Intercept) 5.0340 NA 0.201 NA 1 NA age -0.0887 -0.677 -0.184 0.044 1 0.719 I((age - 45)^2) -0.0554 -4.066 -1.044 0.112 1 0.041
deviance df p.value Model 4.71 2 0.0949
Null 54.27 20 NA
Distribution: gaussian. Shape p. (’scale’): 5.02
AIC: 4.0062.27
35 40 45 50 55 60
−50510
age
durable
Tobit Kl.Qu.
ohne 0
h
Zensierte Beobachtungen.
Allgemeiner:•
Überlebenszeiten oder Ausfallzeiten (survival, failure time data)•
Intervall-zensierte Daten.Beispiel Kondensatoren.
Kondensatoren verlieren im Lauf der Zeit ihre Kapazität (Korrosion).
0 500 1000 1500 2000 2500 3000 3500
050100150200250300
service days
capacity 050100150200250300
all outdoor indoor
Modell:
C ( t ) = c 0 − m · t n
log( c 0 − C ( t )) = α + β log( t − t 0 )
Zensiert bei Anfangswert und Ausfall des Geräts ( 0 Kapazität).
years
capacity
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
0200400600800 0200400600800
all outdoor indoor
Merkpunkte
Allgemeine lineare Modelle
•
Multiple lineare Regression mit nicht-normalen Zufallsabweichungen bilden eine „harmlose" Verallgemeinerung der multiplen lin. Regr.Beispiele: Gumbel-Regression, äquivalent zur Weibull-Regression, Regression mit
t
-verteilten Zufallsabweichungen•
Tobit-Regression: ein Modell für zensierte Zielgrössen, mit latenter Variablen, die unterhalb (oder oberhalb)eines bestimmten Schwellenwertes nicht mehr beobachtet werden kann.
Gebrauch u.a. für Grössen, die