Regressionsanalyse
Jan Gertheiss LMU München
Sommersemester 2011
Vielen Dank an Christian Heumann für das Überlassen von TEX-Code!
I Ziel: Analyse des Einflusses einer oder mehrerer Variablen X1, . . . ,Xp auf eine Zielvariable Y.
I Bezeichnungen:
X1, . . . ,Xp erklärende Variablen (exogene Variablen, Kovariablen, Regressoren, Prädiktoren)
Y Zielvariable (abhängige Variable, endogene Variable, Regressand, Response)
I Verschiedene Arten von Regressionsmodellen, abhängig vom Typ der Zielvariable Y und der Art des Einflusses vonX1, . . . ,Xp.
I Hier: Y metrisch/stetig.
I Lineare Einfachregression
I Das multiple lineare Regressionsmodell
I Ausblick: Varianzanalyse, nichtlineare und nichtparametrische Regression, generalisierte Regression.
Datensituation wie beim Streudiagramm (Deskriptive Statistik):
(yi,xi),i=1, . . . ,n, Beobachtungen für stetige bzw. metrische MerkmaleY und X.
Beispiel: Mietspiegel
Y Nettomiete bzw. Nettomiete/qm,X Wohnfläche.
Einführung
I Zusammenhang zwischenY undX nicht deterministisch, sondern durch (zufällige) Fehler additiv überlagert.
Y =f(x) +,
wobeif deterministische Funktion,additiver Fehler.
I Lineare Einfachregression: f linear, d.h.
Y =α+βx+.
I Primäres Ziel: Schätze αundβ aus Daten(yi,xi),i=1, . . . ,n.
Unterstelle dabei lineare Beziehung
yi =α+βxi+i,
wobeiα+βxi systematische Komponente,i zufällige Fehler mit E(i) =0.
Weitere Annahmen an die Fehleri:
i i.i.d. mit σ2=Var(i)
Standardmodell der linearen Einfachregression:
Es gilt
Yi =α+βxi+i, i=1, . . . ,n.
Dabei sind:
Y1, . . . ,Yn beobachtbare metrische Zufallsvariablen,
x1, . . . ,xn gegebene deterministische Werte oder Realisierungen einer metrischen ZufallsvariableX.
1, . . . , n unbeobachtbare Zufallsvariablen, die unabhängig und identisch verteilt sind mitE(i)= 0 und Var(i) =σ2. Die Regressionskoeffizientenα, βund die Varianz σ2sind unbekannte Parameter, die aus den Daten(yi,xi),i=1, . . . ,n, zu schätzen sind.
Einführung
Bemerkungen:
I Falls Regressoren nicht deterministisch sondern stochastisch, bedingte Betrachtungsweise, d.h. Modell und Annahmen unter der BedingungXi =xi,i =1, . . . ,n.
I Eigenschaften der Zielvariablen:
E(Yi|xi) =E(α+βxi+i) =α+βxi
Var(Yi |xi) =Var(α+βxi+i) =Var(i) =σ2 Yi |xi,i=1, . . . ,n, unabhängig
I Oft zusätzlich Normalverteilungsannahme:
i ∼N(0, σ2) bzw. Yi|xi∼N(α+βxi, σ2)
Schätzen, Testen und Prognose Ziele:
I Punkt- bzw. Intervallschätzer fürα, β undσ2.
I Testen von Hypothesen überαund v.a.β.
I Prognose von Y für neuen Wertx des RegressorsX. Schätzen:
KQ-(Kleinste-Quadrate-)Methode: Bestimme Schätzerα,ˆ βˆso, dass
n
X
i=1
(Yi−α−βxi)2→min
α,β.
Schätzen, Testen und Prognose
Lösung:
KQ-Schätzer
ˆ
α= ¯Y−βˆ¯x , βˆ=
n
P
i=1
(xi−x)(Y¯ i−Y¯)
n
P
i=1
(xi−x¯)2
=
n
P
i=1
xiYi−n¯xY¯
n
P
i=1
xi2−n¯x2
Schätzer für die Varianzσ2: ˆ
σ2= 1
n−2
n
X
i=1
ˆ 2i = 1
n−2
n
X
i=1
(Yi−( ˆα+ ˆβxi))2
Geschätzte Regressionsgerade (Ausgleichsgerade):
Yˆ = ˆα+ ˆβx Geschätzte Fehler, Residuen:
ˆ
i=Yi−Yˆi =Yi−αˆ−βxˆ i
Schätzen, Testen und Prognose
Streuungszerlegung und Bestimmtheitsmaß Streuungszerlegung (Quadratsummenzerlegung):
n
X
i=1
(Yi−Y¯)2
| {z }
=
n
X
i=1
( ˆYi−Y¯)2
| {z } +
n
X
i=1
(Yi−Yˆi)2
| {z }
SQT = SQE + SQR
SQT: Gesamtabweichungsquadratsumme inY-Richtung SQE: Durch die Regression erklärter Teil vonSQT
SQR: Trotz der Regression unerklärt bleibender Teil vonSQT
Bestimmtheitsmaß:
I Definition:
R2= SQE
SQT =1−SQR SQT
I Berechnung:
R2=
n
P
i=1
( ˆYi−Y¯)2
n
P
i=1
(Yi−Y¯)2
=
n
P
i=1
Yˆi2−nY¯2
n
P
i=1
Yi2−nY¯2
Schätzen, Testen und Prognose
Verteilungseigenschaften der KQ-Schätzer
Verteilung der geschätzten Regressionskoeffizienten unter Normalverteilungsannahme bzgl.i bzw.Yi:
ˆ
α∼N(α, σ2αˆ) mit Var( ˆα) =σα2ˆ=σ2
P
ixi2
nP
i(xi−¯x)2 =σ2
P
ixi2 n(P
ixi2−n¯x2)
βˆ∼N(β, σ2ˆ
β) mit Var( ˆβ) =σ2ˆ
β= P σ2
i(xi−¯x)2 = P σ2
ixi2−n¯x2
Verteilung der standardisierten Schätzfunktionen (unter NV-Annahme):
α−αˆ ˆ
σαˆ ∼t(n−2) mit σˆαˆ= ˆσ
√P
ixi2
√nP
i(xi−¯x)2 = ˆσ
√P
ixi2
√n(P
ixi2−n¯x2) β−βˆ
ˆ σβˆ
∼t(n−2) mit σˆβˆ=√Pˆσ
i(xi−¯x)2 = √P σˆ
ixi2−n¯x2
Aus den Verteilungseigenschaften folgen:
I (1−α)-Konfidenzintervalle für αundβ:
für α:
ˆ
α−σˆαˆt1−α/2(n−2), αˆ+ ˆσαˆt1−α/2(n−2)
für β: h
βˆ−σˆβˆt1−α/2(n−2), βˆ+ ˆσβˆt1−α/2(n−2)i
I TeststatistikenTα0 und Tβ0 zum Testen von Hypothesen bzgl.α und β:
Tα0= αˆ−α0
ˆ σαˆ
und Tβ0= βˆ−β0
ˆ σβˆ
Schätzen, Testen und Prognose
Hypothesen Ablehnbereich
H0:α=α0 vs. H1:α6=α0 |Tα0|>t1−α/2(n−2) H0:β =β0 vs. H1:β6=β0 |Tβ0|>t1−α/2(n−2) H0:α≥α0 vs. H1:α < α0 Tα0 <−t1−α(n−2)
H0:β ≥β0 vs. H1:β < β0 Tβ0<−t1−α(n−2) H0:α≤α0 vs. H1:α > α0 Tα0 >t1−α(n−2)
H0:β ≤β0 vs. H1:β > β0 Tβ0>t1−α(n−2)
I Prognose:
Yˆ0= ˆα+ ˆβx0
mit Konfidenzintervall fürY0:
"
Yˆ0±t1−α/2(n−2) ˆσ s
1+1
n+ (x0−¯x)2 Pxi2−n¯x2
#
Einführung
Ziel: Erweiterung der linearen Einfachregression für mehrere Kovariablen X1, . . . ,Xp
Daten: (yi,xi1, . . . ,xip), i=1, . . . ,n ZielvariableY: metrisch bzw. stetig Kovariablen: metrisch oder kategorial
I Metrische Kovariable x kann auch Transformationx =f(z)einer ursprünglichen erklärenden Variablenz sein, z.B.x=z2,x =log(z), usw.
I Kategorialer Regressor mit k Kategorien 1, . . . ,k durchk−1 Dummy-Variablenx(1), . . . ,x(k−1) kodiert; mitk als
Referenzkategorie.
Dummy-Kodierung x(j)=
1, falls Kategoriej vorliegt, 0, sonst,
wobeij =1, . . . ,k−1.
x(1)=. . .=x(k−1) =0 ⇔ Referenzkategoriek liegt vor.
Einführung
Standardmodell der linearen multiplen Regression Es gilt
Yi =β0+β1xi1+· · ·+βpxip+i, i=1, . . . ,n. Dabei sind
Y1, . . . ,Yn beobachtbare metrische Zufallsvariablen, x1j, . . . ,xnj deterministische Werte der Variablen Xj oder
Realisierungen von ZufallsvariablenXj,
1, . . . , n unbeobachtbare Zufallsvariablen, die unabhängig und identisch verteilt sind mit E(i) =0 undVar(i) =σ2.
Bei Normalverteilungsannahme:
i ∼N(0, σ2) ⇔ Yi |xi1, . . . ,xip∼N(β0+β1xi1+. . .+βpxip, σ2)
Matrixnotation
Y =
Y1
Y2
... Yn
, X =
1 x11 . . . x1p
1 x21 . . . x2p
... ... ... 1 xn1 . . . xnp
, β=
β0
β1
... βp
, =
1
2
... n
Y Beobachtungsvektor der Zielvariablen,X Designmatrix Y =Xβ+, E() =0; Annahme: Rang vonX = p+1
Schätzen, Testen und Prognose
Schätzen, Testen und Prognose
Schätzerβˆ= ( ˆβ0, . . . ,βˆp)0 nach dem KQ-Prinzip
n
X
i=1
(Yi−β0−β1xi1−. . .−βpxip)2= (Y −Xβ)0(Y −Xβ)→min
β
Lösung: KQ-Schätzer
βˆ= (X0X)−1X0Y
Gefittete Werte:
Yˆi= ˆβ0+ ˆβ1xi1+ ˆβ2xi2+. . .+ ˆβpxip
Residuen:
ˆ
i =Yi−Yˆi , i =1, . . . ,n.
Schätzer für die Varianzσ2: ˆ
σ2= 1
n−p−1
n
X
i=1
ˆ
2i = 1
n−p−1
n
X
i=1
(Yi−Yˆi)2
Schätzen, Testen und Prognose
Erwartungstreue:
E( ˆβj) =βj, j=0, . . . ,p; E(ˆσ2) =σ2
Varianz:
σ2j :=Var( ˆβj) =σ2vj; vj j-tes Diagonalelement von (X0X)−1
Geschätzte Varianz:
ˆ
σj2= ˆσ2vj
Verteilung der standardisierten Schätzfunktionen:
βˆj−βj ˆ σj
∼t(n−p−1), j=0, . . . ,p
(1−α)-Konfidenzintervalle für βj:
hβˆj−σˆjt1−α/2(n−p−1), βˆj+ ˆσjt1−α/2(n−p−1)i
Schätzen, Testen und Prognose
Einfache Teststatistiken:
Tj =
βˆj−β0j ˆ σj
, j=0, . . . ,p
Hypothesen und Ablehnbereiche:
Hypothesen Ablehnbereich
H0:βj =β0j vs. H1:βj 6=β0j |Tj|>t1−α2(n−p−1) H0:βj ≥β0j vs. H1:βj < β0j Tj <−t1−α(n−p−1) H0:βj ≤β0j vs. H1:βj > β0j Tj >t1−α(n−p−1)
Overall–F–Test:
I Hypothesen:
H0: β1=. . .=βp=0
H1: βj 6=0 für mindestens einj
I Teststatistik:
F = R2 1−R2
n−p−1
p = SQE SQR
n−p−1 p
I Ablehnungsbereich:
F >F1−α(p,n−p−1)
Schätzen, Testen und Prognose
Prognose:
Yˆ0=x00βˆ0= ˆβ0+ ˆβ1x01+. . .+ ˆβpx0p, mitx0= (1,x01, . . . ,x0p)0 als neuem Kovariablenvektor.
Situation: Alle unabhängigen Variablen sind kategorial, die ZielgrößeY ist metrisch/stetig.
I Einfaktorielle Varianzanalyse: Eine unabhängige Variable (Faktor) mit Stufen i=1, . . . ,I.
Modell:
Yij=µi+ij, i =1, . . . ,I, j =1, . . . ,ni, wobeiij ∼N(0, σ3).
Frage: Unterscheidet sich der Erwartungswert von Y zwischen den Faktorstufen, d.h.
µ1=µ2=. . .=µI ?
I Mehrfaktorielle Varianzanalyse: Betrachte nicht nur einen Faktor sondern mehrere.
Nichtlineare und nichtparametrische Regression
Nichtlineare parametrische Regression
Bisher: Regressionsmodell Y =β0+β1X1+. . .+βpXp+ linear in den Parameternβ0, . . . , βp bzw. inX1, . . . ,Xp.
Nichtlineares Modell:
Y =f(X1, . . . ,Xp;θ) + f nichtlinear, parametrisiert überθ.
Aber: Spezifikation einer parametrischen Regressionsfunktionf(X;θ)a priori oft schwierig.
Nichtparametrische Regression
Nichtparametrische Regression flexibler als parametrische: Keine parametrische funktionale Form postuliert; nur qualitativ-strukturelle Annahmen.
Beispiel: Additives Modell
Y =f1(X1) +f2(X2) +β1Z1+. . .+βpZp+ mitf1,f2, . . .als glatte, unbekannte Funktionen, die aus den Daten
“nichtparametrisch” geschätzt werden.
Generalisierte Regression
Generalisierte Regressionsmodelle
Situation: Y ist nicht mehr normalverteilt, sondern z.B. binär.
I Lineares Modell wie bisher nicht mehr tauglich.
I Spezifiziere (generalisiertes lineares Modell)
E(Y|X1=x1, . . . ,Xp =xp) =h(β0+β1x1+· · ·+βpxp), mit bekannter “Responsefunktion” h.
Weitere Flexibilisierung z.B. durch generalisierte additive Modelle.