• Keine Ergebnisse gefunden

15.1 Allgemeines Lineares Regressions-Modell

N/A
N/A
Protected

Academic year: 2021

Aktie "15.1 Allgemeines Lineares Regressions-Modell "

Copied!
25
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

15 Allgemeine Modelle und Robuste Regression

15.1 Allgemeines Lineares Regressions-Modell

a

Modell.

Y i ∼ F hµ i , γ i , g hµ i i = η i = x T i β

b Weibull-Verteilung. Ausfalls-, Überlebenszeiten.

f hxi = α

σ ( x/σ ) α 1 exp h− ( x/σ ) α i

Erwartungswert

σ Γ h 1+ 1 i

Keine Exponentialfamilie

−→

kein GLM.

σ

ist Skalen-Parameter:

c · Y ∼ W h c · σ, αi

α

Form-Parameter

(2)

1 2

012

α = 0.5

1 2

0.00.51.01.52.0

α = 1

1 2

0.00.51.01.52.0

α =1.3

1 2

0.00.51.01.52.0

α = 2

1 2

0.00.51.01.52.0

α = 4

1 2

0123

α = 10

(3)

Länge: 1, 10, 20, 50 mm, Zielgrösse Reisskraft.

20 50 150 Laenge = 300

1.8 2.0 2.2 2.4 2.6 2.8 3.0

Reissfestigkeit

Anzahl

(4)

d

Weibull-Regression.

Y i ∼ W hσ i , αi , logi i = x T i β .

e

Gumbel-Regression. log hY i ∼

Gumbel

f hxi = τ −1 e z exp h−e z i , z = x − µ τ µ = log hσ i , τ = 1

.

Erwartungswert

µ + γτ ≈ µ − 0 . 577 τ

.

−4 −3 −2 −1 0 1 2 3

0.000.050.100.150.200.250.300.35

Dichte

(5)

Regressionsmodell

Y e i = log Y i ∼ G hµ i , τ i , µ i = x T i β .

f

*

Zensierte Daten. Von einigen Beobachtungen weiss man nur, dass sie grösser sind als ein gegebener Wert, z.B. bei Abschluss der Studie.

Weibull-Regression wird oft im Zusammenhang mit zensierten Daten behandelt.

g

Lineares Modell mit nicht-normalen Fehlern.

Form „Zielgrösse = Regressionsfunktion + Zufallsabweichung"

Y i = x T i β + E i , E i /σ ∼ F 1 .

h

Langschwänzige Fehler.

(6)

15.1

i

t-Verteilung.

Dichte der t-Veretilung mit

ν

Freiheitsgraden:

f ν hz i = c (1 + z 2) −(ν +1)/2

Skaliereen und verschieben

−→

„Lokations-Skalen-Familie", Dichte

f µ,σ,ν hxi = c

σ (1 + z 2) −(ν +1)/2 ν =

: Normalverteilung

ν = 1

: Cauchy-Verteilung

F 1 = t hµ = 0 , σ = 1 , ν i

,

ν = 3 , 5 , 7

.

(7)

j

Maximum Likelihood.

``

β, σ

= X

i ρ

* Y i − x T I β σ

+

+ n log hσ i

ρ hr i =log hf 1 hr ii .

Normalverteilung:

f 1 = φ −→ ρ hr i = r 2 / 2

t-Verteilung:

ρ hr i = ν +1 2 log

1 + r 2

(8)

15.1

k

Normalgleichungen. R i = ( Y i − x T I β )

ableiten nach

β −→ −x i

X

i ψ

* Y i − x T i β b σ

+

x i = 0 , ψ hr i = ρ 0 hr i

Normalverteilung:

ψ hr i = r −→ P

i ( Y i − x T i β ) x i = 0

t-Verteilung:

ψ hr i = (1 + 1) r

1+r

2

(9)

−5 −4 −3 −2 −1 0 1 2 3 4 5

−2−1012

r

ψ

ν 20 9 5 3

(10)

Die LS Methode ist besonders einfach, da

die Normalgleichungen nach

β

aufgelöst werden können,

die zu minimierende Grösse

P

r i 2

die Skala

σ

nicht enthält

−→

der Skalen-Parameter

σ

nach

β

geschätzt werden kann.

Schätzung für andere Verteilungen braucht iterativen Algorithmus.

(Kein Problem.)

l

Gewichtete Kleinste Quadrate.

X

i w i R i x i = 0 , R i = Y i − x T i β b

σ , w i = ψ hR i i /R i .

(11)

m

.

Beispiel der Reissfestigkeit von Fasern R: package

survival

für zensierte Daten.

Zielgrösse muss

Surv

–Objekt sein,

Surv(Y, rep(1,length(Y))) survreg(formula = Surv(strength, rep(1, nrow(dd))) ~

length, data = dd)

Value Std. Error z p

(Intercept) 1.068937 8.53e-03 125.28 0.00e+00

length -0.000343 4.99e-05 -6.87 6.31e-12

Log(scale) -2.833522 7.24e-02 -39.11 0.00e+00

Scale= 0.0588

(12)

survreg(formula = Surv(strength, rep(1, nrow(dd))) ~ length, data = dd)

Value Std. Error z p

(Intercept) 1.068937 8.53e-03 125.28 0.00e+00 length -0.000343 4.99e-05 -6.87 6.31e-12 Log(scale) -2.833522 7.24e-02 -39.11 0.00e+00 Scale= 0.0588

Weibull distribution

Loglik(model)= 31.5 Loglik(intercept only)= 13.4 Chisq= 36.1 on 1 degrees of freedom, p= 1.8e-09 Number of Newton-Raphson Iterations: 6

n= 119

(13)

0 50 100 150 200 250 300 350

0.70.80.91.01.1

length

log(strength)

/

(14)

15.1

n

Verteilung der Schätzung.

var

D β b

E

= σ 2 · κ C −1 , C = X

i x i x T i , κ = R

ψ 2 hui f 1 hu i du

(kein

1 n

)

o

Tests, Vertrauensbereiche.

wie üblich aus dieser Verteilung bestimmt.

(15)

15.2 Tobit-Regression

b Beispiel von Tobin:

Zielgrösse: Ausgaben für „haltbare Güter

durable

Eingangsgr: Alter (

age

), Index f. Liquidität (

quant

)

Viele geben (in der abgefragten Periode) nichts für

durable

s aus.

−→

Zielgrösse hat

P hY = 0 i > 0

, aber für

Y > 0

eine Dichte.

Wie modellieren?

Ebenso:

Chemische Konzentrationen: Nachweisgrenze

Regen

Schäden von Versicherungspolicen

(16)

15.2

c

Modelle:

Zweistufig: 1. logist. Regr. für

Y > 0

vs.

Y = 0

,

2. Gew. lin. Regr. für Beob. mit

Y > 0

(oder allgemeinere Regr.)

„Tobit-Regression"

d

Tobit-Regression.

Latente Variable

Z

mit

Z i = x T i β + E i , E i ∼ N D

0 , σ 2 E

Beobachtungen

Y i =

y

falls

Z i ≤ y

Z i

falls

Z i > y

(17)

0 1 2 3 4 5 6 7 8 9 10

−20246

x

Z (o) / Y (x)

y*

(18)

15.2

e

Interpretation von Z .

Nachweisgrenze:

Z

= wahrer Wert

Regen: „Potential"

Ausgaben (bei Wahl-Bedarf): Neigung zum Kauf Vergleich mit 2-stufigem Modell

• P hY > 0 i

und

E hY | Y > 0 i

hängen zusammen

Weniger Parameter

(19)

g Beispiel:

Call:

regr(formula = Tobit(durable) ~ age + I(age^2) + quant, data = tobin)

Terms:

coef stcoef signif R2.x df p.value (Intercept) -88.2971 NA -0.722 NA 1 NA age 4.5248 34.51 1.057 0.992 1 0.038 I(age^2) -0.0505 -36.47 -1.088 0.992 1 0.033 quant -0.0494 -1.28 -0.496 0.060 1 0.331

deviance df p.value Model 5.65 3 0.13

Null 53.33 20 NA

Distribution: gaussian. Shape p. (’scale’): 4.61

AIC: 5.0063.33

(20)

Trick:

age

zentrieren, damit die Koeffzienten sinnvoller werden

quant

weg.

Call:

regr(formula = Tobit(durable) ~ age + I((age - 45)^2), data = tobin)

Terms:

coef stcoef signif R2.x df p.value (Intercept) 5.0340 NA 0.201 NA 1 NA age -0.0887 -0.677 -0.184 0.044 1 0.719 I((age - 45)^2) -0.0554 -4.066 -1.044 0.112 1 0.041

deviance df p.value Model 4.71 2 0.0949

Null 54.27 20 NA

Distribution: gaussian. Shape p. (’scale’): 5.02

AIC: 4.0062.27

(21)

35 40 45 50 55 60

−50510

age

durable

Tobit Kl.Qu.

ohne 0

h

Zensierte Beobachtungen.

Allgemeiner:

Überlebenszeiten oder Ausfallzeiten (survival, failure time data)

Intervall-zensierte Daten.

(22)

Beispiel Kondensatoren.

Kondensatoren verlieren im Lauf der Zeit ihre Kapazität (Korrosion).

0 500 1000 1500 2000 2500 3000 3500

050100150200250300

service days

capacity 050100150200250300

all outdoor indoor

(23)

Modell:

C ( t ) = c 0 − m · t n

log( c 0 − C ( t )) = α + β log( t − t 0 )

Zensiert bei Anfangswert und Ausfall des Geräts ( 0 Kapazität).

(24)

years

capacity

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

0200400600800 0200400600800

all outdoor indoor

(25)

Merkpunkte

Allgemeine lineare Modelle

Multiple lineare Regression mit nicht-normalen Zufallsabweichungen bilden eine „harmlose" Verallgemeinerung der multiplen lin. Regr.

Beispiele: Gumbel-Regression, äquivalent zur Weibull-Regression, Regression mit

t

-verteilten Zufallsabweichungen

Tobit-Regression: ein Modell für zensierte Zielgrössen, mit latenter Variablen, die unterhalb (oder oberhalb)

eines bestimmten Schwellenwertes nicht mehr beobachtet werden kann.

Gebrauch u.a. für Grössen, die

0

sein müssen und oft 0 werden.

Referenzen

ÄHNLICHE DOKUMENTE

Fremdschl¨ussel : Attribute im Schema einer Relation, die Prim¨arschl¨ussel einer anderen Relation sind. Beispiel: KuName und KoNr der Relation Kontoinhaber sind Fremdschl¨ussel

Augsten (Univ. Relationen sind Mengen von Tupeln und nicht geordnet... Salzburg) DB1 – Relationales Modell Sommersemester 2020 22 / 53. Das Relationale

Kwitt (Univ. Relationen sind Mengen von Tupeln und nicht geordnet... Salzburg) DB1 – Relationales Modell Sommersemester 2017 22 / 53. Das Relationale

Fremdschl¨ussel : Attribute im Schema einer Relation, die Prim¨arschl¨ussel einer anderen Relation sind.. Beispiel: KuName und KoNr der Relation Kontoinhaber sind Fremdschl¨ussel

Augsten (Univ. Salzburg) Datenbanken 1 / Relationales Modell Sommersemester 2014 7 / 114 Das Relationale Modell Schema, Relation, und Datenbank.. Das

[r]

In analoger Form kann auch das not- wendige Prinzip der Rückkoppelung von Erfahrungsdaten der Phase »Nut- zung« und vorangehender Phasen in jeweils frühere dargestellt werdenC.

9) Tests der Zwischensubjekteffekte: F-Statistiken für die Zwischensubjekt- Faktoren, deren Wechselwirkungen und die Haupteffekte der Kovariaten (entspricht dem „gesättigten