Einführung in die Induktive Statistik: Regressionsanalyse

(1)

Regressionsanalyse

Jan Gertheiss LMU München

Sommersemester 2011

Vielen Dank an Christian Heumann für das Überlassen von TEX-Code!

(2)

I Ziel: Analyse des Einflusses einer oder mehrerer Variablen X1, . . . ,Xp auf eine Zielvariable Y.

I Bezeichnungen:

X1, . . . ,Xp erklärende Variablen (exogene Variablen, Kovariablen, Regressoren, Prädiktoren)

Y Zielvariable (abhängige Variable, endogene Variable, Regressand, Response)

I Verschiedene Arten von Regressionsmodellen, abhängig vom Typ der Zielvariable Y und der Art des Einflusses vonX1, . . . ,Xp.

I Hier: Y metrisch/stetig.

(3)

I Lineare Einfachregression

I Das multiple lineare Regressionsmodell

I Ausblick: Varianzanalyse, nichtlineare und nichtparametrische Regression, generalisierte Regression.

(4)

Datensituation wie beim Streudiagramm (Deskriptive Statistik):

(yi,xi),i=1, . . . ,n, Beobachtungen für stetige bzw. metrische MerkmaleY und X.

Beispiel: Mietspiegel

Y Nettomiete bzw. Nettomiete/qm,X Wohnfläche.

(5)

Einführung

I Zusammenhang zwischenY undX nicht deterministisch, sondern durch (zufällige) Fehler additiv überlagert.

Y =f(x) +,

wobeif deterministische Funktion,additiver Fehler.

I Lineare Einfachregression: f linear, d.h.

Y =α+βx+.

I Primäres Ziel: Schätze αundβ aus Daten(yi,xi),i=1, . . . ,n.

Unterstelle dabei lineare Beziehung

yi =α+βxi+i,

wobeiα+βxi systematische Komponente,i zufällige Fehler mit E(i) =0.

Weitere Annahmen an die Fehleri:

_i i.i.d. mit σ²=Var(_i)

(6)

Standardmodell der linearen Einfachregression:

Es gilt

Yi =α+βxi+_i, i=1, . . . ,n.

Dabei sind:

Y1, . . . ,Yn beobachtbare metrische Zufallsvariablen,

x1, . . . ,xn gegebene deterministische Werte oder Realisierungen einer metrischen ZufallsvariableX.

1, . . . , n unbeobachtbare Zufallsvariablen, die unabhängig und identisch verteilt sind mitE(i)= 0 und Var(i) =σ². Die Regressionskoeffizientenα, βund die Varianz σ²sind unbekannte Parameter, die aus den Daten(yi,xi),i=1, . . . ,n, zu schätzen sind.

(7)

Einführung

Bemerkungen:

I Falls Regressoren nicht deterministisch sondern stochastisch, bedingte Betrachtungsweise, d.h. Modell und Annahmen unter der BedingungXi =xi,i =1, . . . ,n.

I Eigenschaften der Zielvariablen:

E(Yi|xi) =E(α+βxi+i) =α+βxi

Var(Yi |xi) =Var(α+βxi+_i) =Var(_i) =σ² Yi |xi,i=1, . . . ,n, unabhängig

I Oft zusätzlich Normalverteilungsannahme:

i ∼N(0, σ²) bzw. Yi|xi∼N(α+βxi, σ²)

(8)

Schätzen, Testen und Prognose Ziele:

I Punkt- bzw. Intervallschätzer fürα, β undσ².

I Testen von Hypothesen überαund v.a.β.

I Prognose von Y für neuen Wertx des RegressorsX. Schätzen:

KQ-(Kleinste-Quadrate-)Methode: Bestimme Schätzerα,ˆ βˆso, dass

n

X

i=1

(Yi−α−βxi)²→min

α,β.

(9)

Schätzen, Testen und Prognose

Lösung:

KQ-Schätzer

ˆ

α= ¯Y−βˆ¯x , βˆ=

n

P

i=1

(xi−x)(Y¯ i−Y¯)

n

P

i=1

(xi−x¯)²

=

n

P

i=1

xiYi−n¯xY¯

n

P

i=1

x_i²−n¯x²

Schätzer für die Varianzσ²: ˆ

σ²= 1

n−2

n

X

i=1

ˆ ²_i = 1

n−2

n

X

i=1

(Yi−( ˆα+ ˆβxi))²

(10)

Geschätzte Regressionsgerade (Ausgleichsgerade):

Yˆ = ˆα+ ˆβx Geschätzte Fehler, Residuen:

ˆ

_i=Yi−Yˆi =Yi−αˆ−βxˆ i

(11)

Streuungszerlegung und Bestimmtheitsmaß Streuungszerlegung (Quadratsummenzerlegung):

n

X

i=1

(Yi−Y¯)²

| {z }

=

n

X

i=1

( ˆYi−Y¯)²

| {z } +

n

X

i=1

(Yi−Yˆi)²

| {z }

SQT = SQE + SQR

SQT: Gesamtabweichungsquadratsumme inY-Richtung SQE: Durch die Regression erklärter Teil vonSQT

SQR: Trotz der Regression unerklärt bleibender Teil vonSQT

(12)

Bestimmtheitsmaß:

I Definition:

R²= SQE

SQT =1−SQR SQT

I Berechnung:

R²=

n

P

i=1

( ˆYi−Y¯)²

n

P

i=1

(Yi−Y¯)²

=

n

P

i=1

Yˆ_i²−nY¯²

n

P

i=1

Y_i²−nY¯²

(13)

Verteilungseigenschaften der KQ-Schätzer

Verteilung der geschätzten Regressionskoeffizienten unter Normalverteilungsannahme bzgl.i bzw.Yi:

ˆ

α∼N(α, σ²_α_ˆ) mit Var( ˆα) =σ_α²_ˆ=σ²

P

ix_i²

nP

i(x_i−¯x)² =σ²

P

ix_i² n(P

ix_i²−n¯x²)

βˆ∼N(β, σ²_ˆ

β) mit Var( ˆβ) =σ²_ˆ

β= P ^σ²

i(x_i−¯x)² = P ^σ²

ix_i²−n¯x²

Verteilung der standardisierten Schätzfunktionen (unter NV-Annahme):

α−αˆ ˆ

σ_α_ˆ ∼t(n−2) mit σˆαˆ= ˆσ

√P

ix_i²

√nP

i(x_i−¯x)² = ˆσ

√P

ix_i²

√n(P

ix_i²−n¯x²) β−βˆ

ˆ σβˆ

∼t(n−2) mit σˆ_β_ˆ=√_P^ˆ^σ

i(x_i−¯x)² = √_P ^σ^ˆ

ix_i²−n¯x²

(14)

Aus den Verteilungseigenschaften folgen:

I (1−α)-Konfidenzintervalle für αundβ:

für α:

ˆ

α−σˆ_α_ˆt1−α/2(n−2), αˆ+ ˆσ_α_ˆt1−α/2(n−2)

für β: h

βˆ−σˆβˆt_1−α/2(n−2), βˆ+ ˆσβˆt_1−α/2(n−2)i

I TeststatistikenTα0 und Tβ0 zum Testen von Hypothesen bzgl.α und β:

Tα0= αˆ−α0

ˆ σαˆ

und Tβ0= βˆ−β0

ˆ σβˆ

(15)

Hypothesen Ablehnbereich

H0:α=α₀ vs. H1:α6=α₀ |T_α₀|>t_1−α/2(n−2) H0:β =β0 vs. H1:β6=β0 |Tβ0|>t_1−α/2(n−2) H0:α≥α0 vs. H1:α < α0 Tα0 <−t1−α(n−2)

H0:β ≥β0 vs. H1:β < β0 Tβ₀<−t_1−α(n−2) H0:α≤α0 vs. H1:α > α0 Tα₀ >t_1−α(n−2)

H0:β ≤β₀ vs. H1:β > β₀ Tβ0>t1−α(n−2)

(16)

I Prognose:

Yˆ0= ˆα+ ˆβx0

mit Konfidenzintervall fürY0:

"

Yˆ0±t_1−α/2(n−2) ˆσ s

1+1

n+ (x0−¯x)² Px_i²−n¯x²

#

(17)

Einführung

Ziel: Erweiterung der linearen Einfachregression für mehrere Kovariablen X1, . . . ,Xp

Daten: (yi,xi1, . . . ,xip), i=1, . . . ,n ZielvariableY: metrisch bzw. stetig Kovariablen: metrisch oder kategorial

I Metrische Kovariable x kann auch Transformationx =f(z)einer ursprünglichen erklärenden Variablenz sein, z.B.x=z²,x =log(z), usw.

I Kategorialer Regressor mit k Kategorien 1, . . . ,k durchk−1 Dummy-Variablenx⁽¹⁾, . . . ,x^(k−1) kodiert; mitk als

Referenzkategorie.

(18)

Dummy-Kodierung x^(j)=

1, falls Kategoriej vorliegt, 0, sonst,

wobeij =1, . . . ,k−1.

x⁽¹⁾=. . .=x^(k−1) =0 ⇔ Referenzkategoriek liegt vor.

(19)

Einführung

Standardmodell der linearen multiplen Regression Es gilt

Yi =β₀+β₁xi1+· · ·+β_pxip+_i, i=1, . . . ,n. Dabei sind

Y1, . . . ,Yn beobachtbare metrische Zufallsvariablen, x1j, . . . ,xnj deterministische Werte der Variablen Xj oder

Realisierungen von ZufallsvariablenXj,

1, . . . , n unbeobachtbare Zufallsvariablen, die unabhängig und identisch verteilt sind mit E(_i) =0 undVar(_i) =σ².

Bei Normalverteilungsannahme:

i ∼N(0, σ²) ⇔ Yi |xi1, . . . ,xip∼N(β0+β1xi1+. . .+βpxip, σ²)

(20)

Matrixnotation

Y =





 Y1

Y2

... Yn





 , X =







1 x11 . . . x1p

1 x21 . . . x2p

... ... ... 1 xn1 . . . xnp





 , β=





 β0

β1

... βp





 , =





 1

2

... n







Y Beobachtungsvektor der Zielvariablen,X Designmatrix Y =Xβ+, E() =0; Annahme: Rang vonX = p+1

(21)

Schätzerβˆ= ( ˆβ₀, . . . ,βˆ_p)⁰ nach dem KQ-Prinzip

n

X

i=1

(Yi−β0−β1xi1−. . .−βpxip)²= (Y −Xβ)⁰(Y −Xβ)→min

β

Lösung: KQ-Schätzer

βˆ= (X⁰X)⁻¹X⁰Y

(22)

Gefittete Werte:

Yˆi= ˆβ₀+ ˆβ₁xi1+ ˆβ₂xi2+. . .+ ˆβ_pxip

Residuen:

ˆ

_i =Yi−Yˆi , i =1, . . . ,n.

Schätzer für die Varianzσ²: ˆ

σ²= 1

n−p−1

n

X

i=1

ˆ

²_i = 1

n−p−1

n

X

i=1

(Yi−Yˆi)²

(23)

Erwartungstreue:

E( ˆβ_j) =β_j, j=0, . . . ,p; E(ˆσ²) =σ²

Varianz:

σ²_j :=Var( ˆβj) =σ²vj; vj j-tes Diagonalelement von (X⁰X)⁻¹

Geschätzte Varianz:

ˆ

σ_j²= ˆσ²vj

(24)

Verteilung der standardisierten Schätzfunktionen:

βˆ_j−β_j ˆ σj

∼t(n−p−1), j=0, . . . ,p

(1−α)-Konfidenzintervalle für βj:

hβˆj−σˆjt_1−α/2(n−p−1), βˆj+ ˆσjt_1−α/2(n−p−1)i

(25)

Einfache Teststatistiken:

Tj =

βˆ_j−β_0j ˆ σj

, j=0, . . . ,p

Hypothesen und Ablehnbereiche:

Hypothesen Ablehnbereich

H0:βj =β0j vs. H1:βj 6=β0j |Tj|>t1−^α₂(n−p−1) H0:β_j ≥β_0j vs. H1:β_j < β_0j Tj <−t1−α(n−p−1) H0:β_j ≤β_0j vs. H1:β_j > β_0j Tj >t1−α(n−p−1)

(26)

Overall–F–Test:

I Hypothesen:

H0: β1=. . .=βp=0

H1: βj 6=0 für mindestens einj

I Teststatistik:

F = R² 1−R²

n−p−1

p = SQE SQR

n−p−1 p

I Ablehnungsbereich:

F >F1−α(p,n−p−1)

(27)

Prognose:

Yˆ0=x₀⁰βˆ0= ˆβ0+ ˆβ1x01+. . .+ ˆβpx0p, mitx0= (1,x01, . . . ,x0p)⁰ als neuem Kovariablenvektor.

(28)

Situation: Alle unabhängigen Variablen sind kategorial, die ZielgrößeY ist metrisch/stetig.

I Einfaktorielle Varianzanalyse: Eine unabhängige Variable (Faktor) mit Stufen i=1, . . . ,I.

Modell:

Yij=µi+ij, i =1, . . . ,I, j =1, . . . ,ni, wobei_ij ∼N(0, σ³).

Frage: Unterscheidet sich der Erwartungswert von Y zwischen den Faktorstufen, d.h.

µ1=µ2=. . .=µI ?

I Mehrfaktorielle Varianzanalyse: Betrachte nicht nur einen Faktor sondern mehrere.

(29)

Nichtlineare und nichtparametrische Regression

Nichtlineare parametrische Regression

Bisher: Regressionsmodell Y =β0+β1X1+. . .+βpXp+ linear in den Parameternβ0, . . . , βp bzw. inX1, . . . ,Xp.

Nichtlineares Modell:

Y =f(X1, . . . ,Xp;θ) + f nichtlinear, parametrisiert überθ.

Aber: Spezifikation einer parametrischen Regressionsfunktionf(X;θ)a priori oft schwierig.

(30)

Nichtparametrische Regression

Nichtparametrische Regression flexibler als parametrische: Keine parametrische funktionale Form postuliert; nur qualitativ-strukturelle Annahmen.

Beispiel: Additives Modell

Y =f1(X1) +f2(X2) +β1Z1+. . .+βpZp+ mitf1,f2, . . .als glatte, unbekannte Funktionen, die aus den Daten

“nichtparametrisch” geschätzt werden.

(31)

Generalisierte Regression

Generalisierte Regressionsmodelle

Situation: Y ist nicht mehr normalverteilt, sondern z.B. binär.

I Lineares Modell wie bisher nicht mehr tauglich.

I Spezifiziere (generalisiertes lineares Modell)

E(Y|X₁=x1, . . . ,Xp =xp) =h(β0+β₁x1+· · ·+β_pxp), mit bekannter “Responsefunktion” h.

Weitere Flexibilisierung z.B. durch generalisierte additive Modelle.