• Keine Ergebnisse gefunden

Einführung in die Induktive Statistik: Regressionsanalyse

N/A
N/A
Protected

Academic year: 2021

Aktie "Einführung in die Induktive Statistik: Regressionsanalyse"

Copied!
31
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Regressionsanalyse

Jan Gertheiss LMU München

Sommersemester 2011

Vielen Dank an Christian Heumann für das Überlassen von TEX-Code!

(2)

I Ziel: Analyse des Einflusses einer oder mehrerer Variablen X1, . . . ,Xp auf eine Zielvariable Y.

I Bezeichnungen:

X1, . . . ,Xp erklärende Variablen (exogene Variablen, Kovariablen, Regressoren, Prädiktoren)

Y Zielvariable (abhängige Variable, endogene Variable, Regressand, Response)

I Verschiedene Arten von Regressionsmodellen, abhängig vom Typ der Zielvariable Y und der Art des Einflusses vonX1, . . . ,Xp.

I Hier: Y metrisch/stetig.

(3)

I Lineare Einfachregression

I Das multiple lineare Regressionsmodell

I Ausblick: Varianzanalyse, nichtlineare und nichtparametrische Regression, generalisierte Regression.

(4)

Datensituation wie beim Streudiagramm (Deskriptive Statistik):

(yi,xi),i=1, . . . ,n, Beobachtungen für stetige bzw. metrische MerkmaleY und X.

Beispiel: Mietspiegel

Y Nettomiete bzw. Nettomiete/qm,X Wohnfläche.

(5)

Einführung

I Zusammenhang zwischenY undX nicht deterministisch, sondern durch (zufällige) Fehler additiv überlagert.

Y =f(x) +,

wobeif deterministische Funktion,additiver Fehler.

I Lineare Einfachregression: f linear, d.h.

Y =α+βx+.

I Primäres Ziel: Schätze αundβ aus Daten(yi,xi),i=1, . . . ,n.

Unterstelle dabei lineare Beziehung

yi =α+βxi+i,

wobeiα+βxi systematische Komponente,i zufällige Fehler mit E(i) =0.

Weitere Annahmen an die Fehleri:

i i.i.d. mit σ2=Var(i)

(6)

Standardmodell der linearen Einfachregression:

Es gilt

Yi =α+βxi+i, i=1, . . . ,n.

Dabei sind:

Y1, . . . ,Yn beobachtbare metrische Zufallsvariablen,

x1, . . . ,xn gegebene deterministische Werte oder Realisierungen einer metrischen ZufallsvariableX.

1, . . . , n unbeobachtbare Zufallsvariablen, die unabhängig und identisch verteilt sind mitE(i)= 0 und Var(i) =σ2. Die Regressionskoeffizientenα, βund die Varianz σ2sind unbekannte Parameter, die aus den Daten(yi,xi),i=1, . . . ,n, zu schätzen sind.

(7)

Einführung

Bemerkungen:

I Falls Regressoren nicht deterministisch sondern stochastisch, bedingte Betrachtungsweise, d.h. Modell und Annahmen unter der BedingungXi =xi,i =1, . . . ,n.

I Eigenschaften der Zielvariablen:

E(Yi|xi) =E(α+βxi+i) =α+βxi

Var(Yi |xi) =Var(α+βxi+i) =Var(i) =σ2 Yi |xi,i=1, . . . ,n, unabhängig

I Oft zusätzlich Normalverteilungsannahme:

i ∼N(0, σ2) bzw. Yi|xi∼N(α+βxi, σ2)

(8)

Schätzen, Testen und Prognose Ziele:

I Punkt- bzw. Intervallschätzer fürα, β undσ2.

I Testen von Hypothesen überαund v.a.β.

I Prognose von Y für neuen Wertx des RegressorsX. Schätzen:

KQ-(Kleinste-Quadrate-)Methode: Bestimme Schätzerα,ˆ βˆso, dass

n

X

i=1

(Yi−α−βxi)2→min

α,β.

(9)

Schätzen, Testen und Prognose

Lösung:

KQ-Schätzer

ˆ

α= ¯Y−βˆ¯x , βˆ=

n

P

i=1

(xi−x)(Y¯ i−Y¯)

n

P

i=1

(xi−x¯)2

=

n

P

i=1

xiYi−n¯xY¯

n

P

i=1

xi2−n¯x2

Schätzer für die Varianzσ2: ˆ

σ2= 1

n−2

n

X

i=1

ˆ 2i = 1

n−2

n

X

i=1

(Yi−( ˆα+ ˆβxi))2

(10)

Geschätzte Regressionsgerade (Ausgleichsgerade):

Yˆ = ˆα+ ˆβx Geschätzte Fehler, Residuen:

ˆ

i=Yi−Yˆi =Yi−αˆ−βxˆ i

(11)

Schätzen, Testen und Prognose

Streuungszerlegung und Bestimmtheitsmaß Streuungszerlegung (Quadratsummenzerlegung):

n

X

i=1

(Yi−Y¯)2

| {z }

=

n

X

i=1

( ˆYi−Y¯)2

| {z } +

n

X

i=1

(Yi−Yˆi)2

| {z }

SQT = SQE + SQR

SQT: Gesamtabweichungsquadratsumme inY-Richtung SQE: Durch die Regression erklärter Teil vonSQT

SQR: Trotz der Regression unerklärt bleibender Teil vonSQT

(12)

Bestimmtheitsmaß:

I Definition:

R2= SQE

SQT =1−SQR SQT

I Berechnung:

R2=

n

P

i=1

( ˆYi−Y¯)2

n

P

i=1

(Yi−Y¯)2

=

n

P

i=1

i2−nY¯2

n

P

i=1

Yi2−nY¯2

(13)

Schätzen, Testen und Prognose

Verteilungseigenschaften der KQ-Schätzer

Verteilung der geschätzten Regressionskoeffizienten unter Normalverteilungsannahme bzgl.i bzw.Yi:

ˆ

α∼N(α, σ2αˆ) mit Var( ˆα) =σα2ˆ2

P

ixi2

nP

i(xi−¯x)22

P

ixi2 n(P

ixi2−n¯x2)

βˆ∼N(β, σ2ˆ

β) mit Var( ˆβ) =σ2ˆ

β= P σ2

i(xi−¯x)2 = P σ2

ixi2−n¯x2

Verteilung der standardisierten Schätzfunktionen (unter NV-Annahme):

α−αˆ ˆ

σαˆ ∼t(n−2) mit σˆαˆ= ˆσ

P

ixi2

nP

i(xi−¯x)2 = ˆσ

P

ixi2

n(P

ixi2−n¯x2) β−βˆ

ˆ σβˆ

∼t(n−2) mit σˆβˆ=√Pˆσ

i(xi−¯x)2 = √P σˆ

ixi2−n¯x2

(14)

Aus den Verteilungseigenschaften folgen:

I (1−α)-Konfidenzintervalle für αundβ:

für α:

ˆ

α−σˆαˆt1−α/2(n−2), αˆ+ ˆσαˆt1−α/2(n−2)

für β: h

βˆ−σˆβˆt1−α/2(n−2), βˆ+ ˆσβˆt1−α/2(n−2)i

I TeststatistikenTα0 und Tβ0 zum Testen von Hypothesen bzgl.α und β:

Tα0= αˆ−α0

ˆ σαˆ

und Tβ0= βˆ−β0

ˆ σβˆ

(15)

Schätzen, Testen und Prognose

Hypothesen Ablehnbereich

H0:α=α0 vs. H1:α6=α0 |Tα0|>t1−α/2(n−2) H0:β =β0 vs. H1:β6=β0 |Tβ0|>t1−α/2(n−2) H0:α≥α0 vs. H1:α < α0 Tα0 <−t1−α(n−2)

H0:β ≥β0 vs. H1:β < β0 Tβ0<−t1−α(n−2) H0:α≤α0 vs. H1:α > α0 Tα0 >t1−α(n−2)

H0:β ≤β0 vs. H1:β > β0 Tβ0>t1−α(n−2)

(16)

I Prognose:

0= ˆα+ ˆβx0

mit Konfidenzintervall fürY0:

"

0±t1−α/2(n−2) ˆσ s

1+1

n+ (x0−¯x)2 Pxi2−n¯x2

#

(17)

Einführung

Ziel: Erweiterung der linearen Einfachregression für mehrere Kovariablen X1, . . . ,Xp

Daten: (yi,xi1, . . . ,xip), i=1, . . . ,n ZielvariableY: metrisch bzw. stetig Kovariablen: metrisch oder kategorial

I Metrische Kovariable x kann auch Transformationx =f(z)einer ursprünglichen erklärenden Variablenz sein, z.B.x=z2,x =log(z), usw.

I Kategorialer Regressor mit k Kategorien 1, . . . ,k durchk−1 Dummy-Variablenx(1), . . . ,x(k−1) kodiert; mitk als

Referenzkategorie.

(18)

Dummy-Kodierung x(j)=

1, falls Kategoriej vorliegt, 0, sonst,

wobeij =1, . . . ,k−1.

x(1)=. . .=x(k−1) =0 ⇔ Referenzkategoriek liegt vor.

(19)

Einführung

Standardmodell der linearen multiplen Regression Es gilt

Yi01xi1+· · ·+βpxip+i, i=1, . . . ,n. Dabei sind

Y1, . . . ,Yn beobachtbare metrische Zufallsvariablen, x1j, . . . ,xnj deterministische Werte der Variablen Xj oder

Realisierungen von ZufallsvariablenXj,

1, . . . , n unbeobachtbare Zufallsvariablen, die unabhängig und identisch verteilt sind mit E(i) =0 undVar(i) =σ2.

Bei Normalverteilungsannahme:

i ∼N(0, σ2) ⇔ Yi |xi1, . . . ,xip∼N(β01xi1+. . .+βpxip, σ2)

(20)

Matrixnotation

Y =

 Y1

Y2

... Yn

 , X =

1 x11 . . . x1p

1 x21 . . . x2p

... ... ... 1 xn1 . . . xnp

 , β=

 β0

β1

... βp

 , =

1

2

... n

Y Beobachtungsvektor der Zielvariablen,X Designmatrix Y =Xβ+, E() =0; Annahme: Rang vonX = p+1

(21)

Schätzen, Testen und Prognose

Schätzen, Testen und Prognose

Schätzerβˆ= ( ˆβ0, . . . ,βˆp)0 nach dem KQ-Prinzip

n

X

i=1

(Yi−β0−β1xi1−. . .−βpxip)2= (Y −Xβ)0(Y −Xβ)→min

β

Lösung: KQ-Schätzer

βˆ= (X0X)−1X0Y

(22)

Gefittete Werte:

i= ˆβ0+ ˆβ1xi1+ ˆβ2xi2+. . .+ ˆβpxip

Residuen:

ˆ

i =Yi−Yˆi , i =1, . . . ,n.

Schätzer für die Varianzσ2: ˆ

σ2= 1

n−p−1

n

X

i=1

ˆ

2i = 1

n−p−1

n

X

i=1

(Yi−Yˆi)2

(23)

Schätzen, Testen und Prognose

Erwartungstreue:

E( ˆβj) =βj, j=0, . . . ,p; E(ˆσ2) =σ2

Varianz:

σ2j :=Var( ˆβj) =σ2vj; vj j-tes Diagonalelement von (X0X)−1

Geschätzte Varianz:

ˆ

σj2= ˆσ2vj

(24)

Verteilung der standardisierten Schätzfunktionen:

βˆj−βj ˆ σj

∼t(n−p−1), j=0, . . . ,p

(1−α)-Konfidenzintervalle für βj:

hβˆj−σˆjt1−α/2(n−p−1), βˆj+ ˆσjt1−α/2(n−p−1)i

(25)

Schätzen, Testen und Prognose

Einfache Teststatistiken:

Tj =

βˆj−β0j ˆ σj

, j=0, . . . ,p

Hypothesen und Ablehnbereiche:

Hypothesen Ablehnbereich

H0j0j vs. H1j 6=β0j |Tj|>t1−α2(n−p−1) H0j ≥β0j vs. H1j < β0j Tj <−t1−α(n−p−1) H0j ≤β0j vs. H1j > β0j Tj >t1−α(n−p−1)

(26)

Overall–F–Test:

I Hypothesen:

H0: β1=. . .=βp=0

H1: βj 6=0 für mindestens einj

I Teststatistik:

F = R2 1−R2

n−p−1

p = SQE SQR

n−p−1 p

I Ablehnungsbereich:

F >F1−α(p,n−p−1)

(27)

Schätzen, Testen und Prognose

Prognose:

0=x00βˆ0= ˆβ0+ ˆβ1x01+. . .+ ˆβpx0p, mitx0= (1,x01, . . . ,x0p)0 als neuem Kovariablenvektor.

(28)

Situation: Alle unabhängigen Variablen sind kategorial, die ZielgrößeY ist metrisch/stetig.

I Einfaktorielle Varianzanalyse: Eine unabhängige Variable (Faktor) mit Stufen i=1, . . . ,I.

Modell:

Yiji+ij, i =1, . . . ,I, j =1, . . . ,ni, wobeiij ∼N(0, σ3).

Frage: Unterscheidet sich der Erwartungswert von Y zwischen den Faktorstufen, d.h.

µ12=. . .=µI ?

I Mehrfaktorielle Varianzanalyse: Betrachte nicht nur einen Faktor sondern mehrere.

(29)

Nichtlineare und nichtparametrische Regression

Nichtlineare parametrische Regression

Bisher: Regressionsmodell Y =β01X1+. . .+βpXp+ linear in den Parameternβ0, . . . , βp bzw. inX1, . . . ,Xp.

Nichtlineares Modell:

Y =f(X1, . . . ,Xp;θ) + f nichtlinear, parametrisiert überθ.

Aber: Spezifikation einer parametrischen Regressionsfunktionf(X;θ)a priori oft schwierig.

(30)

Nichtparametrische Regression

Nichtparametrische Regression flexibler als parametrische: Keine parametrische funktionale Form postuliert; nur qualitativ-strukturelle Annahmen.

Beispiel: Additives Modell

Y =f1(X1) +f2(X2) +β1Z1+. . .+βpZp+ mitf1,f2, . . .als glatte, unbekannte Funktionen, die aus den Daten

“nichtparametrisch” geschätzt werden.

(31)

Generalisierte Regression

Generalisierte Regressionsmodelle

Situation: Y ist nicht mehr normalverteilt, sondern z.B. binär.

I Lineares Modell wie bisher nicht mehr tauglich.

I Spezifiziere (generalisiertes lineares Modell)

E(Y|X1=x1, . . . ,Xp =xp) =h(β01x1+· · ·+βpxp), mit bekannter “Responsefunktion” h.

Weitere Flexibilisierung z.B. durch generalisierte additive Modelle.

Referenzen

ÄHNLICHE DOKUMENTE

” X = Wartezeit in Minuten“ kann dann jeden Wert aus dem Intervall [0; 20] annehmen.. Sehr h¨ aufig findet man aber auch Anwendungen, in denen eine geeignete Dichtefunktion f¨ ur

Bekanntlich kann zwar auch das Studium von Misserfolg und Versagen durch- aus historische Erkenntnis befördern, allein hier wird es zu alldem noch durch eine

Ist die durch den Faktor erklärte Streu- ung deutlich größer als die nicht erklärte Streuung, spricht dies gegen die Hypothese, dass alle Gruppen- mittelwerte gleich sind, und somit

Rentier Rudi versucht sie mit folgendem Vorschlag zu trösten: Man beginne mit einem gleichseitigen Drei- eck mit Seitenlänge a und setze auf die Mitte jeder Seite ein

I Falls nacheinander gezogen wird, hat nach jeder Ziehung eines Elements jedes noch in der Grundgesamtheit vorhandene Element die gleiche Wahrscheinlichkeit als nächstes Element

Es gilt (vergleiche Gütefunktion, später): Je kleiner (größer) das Signifikanzniveau α gewählt wird, desto größer (kleiner) wird die Wahrscheinlichkeit für einen Fehler 2..

I Keine Annahmen über Verteilungstyp notwendig; nur: stetige und symmetrische Verteilungsfunktion... Bilde die zugehörigen betragsmäßigen Differenzen |D

Unter welchen Voraussetzungen an die Räume sind die Graphen stetiger Funktionen abgeschlossen?.