• Keine Ergebnisse gefunden

3 Multiple Regression

N/A
N/A
Protected

Academic year: 2022

Aktie "3 Multiple Regression"

Copied!
101
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

3 Multiple Regression

Wir verallgemeinern auf den Fall mehrerer Regressoren.

Idee: Parameter in multipler Regression messen partiellen Beitrag der einzelnen Ein‡ussfaktoren (Regressoren) unter einer ceteris paribus - Annahme.

Sprachregelung: andere Faktoren konstant gehalten, oder kontrolliert.

Mehrere Ein‡ussfaktoren – was passiert, wenn man einige davon nicht berück- sichtigt?

(2)

3.1 Beispiel

Zurück zur Lohngleichung:

– Es ist plausibel anzunehmen, dass nicht nur Ausbildung, sondern (zumin- dest) auch die Berufserfahrung den Lohnsatz beein‡usst.

– Längere Ausbildung bedeutet kürzere Berufserfahrung:

vielleicht hatten wir deshalb bisher den E¤ekt der Ausbildung unter- schätzt?

wie ändert dies die Überlegung, ob sich zusätzliche Ausbildung lohnt?

(3)

Mit den Wooldridge-Daten als Beispiel:

ln(wagei) = 0 + 1educi + 2experi + ui

ln(wage\ i) = 0;2169 + 0;0979educi + 0; 0104experi

Im einfachen Modell (ohne exper) hatten wir:

b0 = 0;5838; b1 = 0;0827

Zuvor waren mögliche E¤ekte von Erfahrung auf den Lohn im Fehler u versteckt.

Wenn nun Erfahrung einen systematischen E¤ekt auf den Lohn hat, dann haben wir den vorher vergessen – ist das ein Problem? Wenn es ein Problem ist: wofür ist es ein Problem?

(4)

Allgemein: wenn ein Modell k Regressorvariablen hat,

– warum muss man dann eine multiple Regression durchführen (alle k Varia- blen auf der rechten Seite),

– und kann nicht einfach k Einfachregressionen (immer nur eine Variable auf der rechten Seite) durchführen,

– oder gibt es Konstellationen, in denen das doch geht?

Auf diese Frage kommen wir später in diesem Kapitel zurück, nachdem wir das multiple Regressionsmodell genauer untersucht haben.

(5)

3.2 Das multiple lineare Regressionsmodell

Das Modell lautet:

y = 0 + 1x1 + + kxk + u

Wir betrachten jetzt also k erklärende Variablen. 0 ist das Intercept (der Koe¢ zient der Konstanten), i ist der Parameter zur Variable xi.

In der englischsprachigen Literatur heißen die i slope parameters, also Stei- gungsparameter.

Um die Parameter mit OLS zu schätzen (und die gewünschten Eigenschaften der OLS Schätzer zu haben) müssen wir die zuvor gemachten Annahmen ver- allgemeinern.

Wir unterstellen in diesem Kapitel, dass wir eine Stichprobe mit Querschnitts- daten haben (Zeitreihen werden später behandelt).

(6)

Annahmen: multiple Regression

I Die abhängige Variable y hängt in der Form y = 0 + 1x1 + + kxk +u von den unabhängigen Variablen xj, j = 1; :::; k und dem Fehlerterm u ab.

II Wir verfügen über eine Zufallsstichprobe (yi; xi1; : : : ; xik)i=1;:::;n generiert durch das obige Modell.

III Die erklärenden Variablen 1;xj; j = 1; : : : ; k sind nicht linear abhängig (weder in der Stichprobe noch in der Grundgesamtheit).

IV E(ujx1; : : : ; xk) = 0 für alle beliebigen Werte von xj; j = 1; : : : ; k.

(7)

Parameterschätzung

Die Schätzung basiert, unter den gemachten Annahmen, wiederum auf dem OLS - Prinzip, d.h. es gilt nun folgendes Problem zu lösen:

b = b0; b1; : : : ; bk 0

= arg min b0;b1;:::;b

k2R Xn i=1

(yi b0 b1xi1 bkxik)2

Wie im einfachen Regressionsmodell haben wir ein Polynom 2. Grades zu mini- mieren, allerdings jetzt nicht mit 2 sondern k + 1 Parametern.

(8)

Bezeichnen wir die Fehlerquadratsumme auf der rechten Seite als S(b0; b1; :::; bk), dann sind die Bedingungen 1. Ordnung:

@S

@b0 = 2

Xn i=1

(yi b0 b1xi1 bkxik) = 0

@S

@b1 = 2

Xn i=1

xi1 (yi b0 b1xi1 bkxik) = 0 ...

@S

@bk = 2

Xn i=1

xik (yi b0 b1xi1 bkxik) = 0

k+ 1 lineare Gleichungen für k+ 1 Unbekannte. Die Lösung dieser Gleichungen liefert uns b0; b1; : : : ; bk .

(9)

Mit den geschätzten Parametern erhalten wir die ‘…tted values’oder prognos- tizierten (angepassten) Werte

b

yi = b0 + b1xi1 + + bkxik; i = 1; : : : ; n und die Residuen

b

ui = yi ybi; i = 1; : : : ; n

Die Residuen sind nicht mit den unbeobachteten Fehlern zu verwechseln!

Die Orthogonalitätsbeziehung von zuvor können wir also schreiben als:

Xn i=1

xijubi = 0; j = 1; : : : ; k

(10)

Genau wie in der einfachen Regression können wir SST, SSE und SSR de…nieren und damit auch das Bestimmtheitsmaß:

R2 = SSE

SST = 1 SSR SST

Wenn man beliebige weitere Variablen in die Regression aufnimmt, dann bleibt R2 gleich oder wird i.A. größer.

Das bedeutet R2 ist kein sinnvolles Instrument, um verschiedene Regressions- modelle zu vergleichen bzw. zu beurteilen!

(11)

Wir verwenden daher als Alternative das korrigierte oder adjustierte Bestimmt- heitsmaß

R2 = 1 SSR=(n (k + 1))

SST =(n 1) = 1 n 1

n (k + 1)

SSR SST

Der neue Faktor ist immer größer als 1, wächst mit k und wirkt daher wie ein Strafterm für zusätzliche Regressoren.

Mit dem adjustierten Bestimmtheitsmaßkönnen wir nun verschiedene, geschach- telte Modelle miteinander vergleichen.

Grössere Modelle kommen dabei nicht mehr automatisch besser weg, weil das adjustierte R2 eben einen Strafterm hat. R2 ist daher in gewissem Sinn zur Modellwahl geeignet.

(12)

Parameterschätzung in Matrixform

Für spätere Zwecke ist es nützlich, eine kompakte Darstellung in Matrixnotation zu verwenden:

0 BB B@

y1 y2 ...

yn

1 CC CA

| {z } y

=

0 BB B@

1 x11 x1k 1 x21 x2k

... ... ...

1 xn1 xnk

1 CC CA

| {z }

X

0 BB B@

0

...1 k

1 CC CA

| {z }

+

0 BB B@

u1 u2 ...

un

1 CC CA

| {z } u

Kompakt geschrieben haben wir also:

y= X +u und:

S(b) =

Xn i=1

(yi b0 b1xi1 bkxik)2 = (y Xb)0(y Xb) mit b = (b0; b1; : : : ; bk)0:

(13)

Für die gegebene Stichprobe ist S(b) eine Funktion von b 2 R nach R (Summe der quadrierten Abweichungen ist einfach eine Zahl), also S(b) : Rk+1 ! R.

Die Funktion ist ein Polynom zweiten Grades in b und somit di¤erenzierbar, und wir de…nieren den Gradientenvektor:

dS(b) db =

0 BB BB BB

@

@S(b)

@b0

@S(b)

@b1

...

@S(b)

@bk

1 CC CC CC A

2 Rk+1

Wir erhalten:

dS(b)

db = 2X

0y + 2X0Xb

(14)

Exkurs: Herleitung hiervon: wir haben

S(b) = (y Xb)0(y Xb)

= y0y y0Xb b0X0y + b0X0Xb

Rechenregeln für Vektor- und Matrixableitungen: Für a 2 Rk+1 und A 2 R(k+1) (k+1) gilt

d(a0b)

db = a d(b0A0Ab)

db = 2A

0Ab

Angewandt auf unsere Funktion:

d(y0Xb)

db = X

0y d(b0X0Xb)

db = 2X

0Xb

Exkurs Ende.

(15)

Die Bedingungen erster Ordnung an der Stelle des Minimums der Fehlerquadrate (b ersetzt b) kann man schreiben als

X0Xb = X0y

Daraus folgt, wenn X0X invertierbar ist:

b = (X0X) 1X0y

X0X ist invertierbar, wenn alle Variablen linear unabhängig sind (Annahme III).

Die Elemente des Parametervektors b = b0; b1; : : : ; bk 0 sind die geschätzten OLS-Parameter, die wir nun interpretieren müssen.

(16)

Interpretation der Koe¢ zienten im multiplen Regressionsmodell

Es gilt per De…nition für die …tted values:

b

y = b0 + b1x1 + + bkxk

D.h. wenn wir z.B. x2; : : : ;xk als konstant annehmen, dann gilt

b

y = b1 x1

D.h. jedes bi hat eine ceteris paribus Interpretation.

Mit multipler Regression ist ceteris paribus Interpretation möglich, obschon die Daten nicht ceteris paribus erhoben worden sind.

(17)

Andere Sprachregelungen: b1 misst den E¤ekt einer Änderung in x1, – wenn (gedanklich) x2; : : : ;xk ‘konstant gehalten’werden,

– oder wenn für die Ein‡üsse von x2; : : : ;xk ‘kontrolliert’ wird (daher auch der Ausdruck Kontrollvariablen für Regressoren).

Zurück zum Eingangsbeispiel: Wir haben nun das multiple Regressionsmodell ln(wagei) = 0 + 1educi + 2experi + ui

Die OLS Schätzung führt auf

ln(wage\ i) = 0;2169 + 0;0979educi + 0; 0104experi mit R2 = 0;2493 und R2 = 0;2465.

(18)

Die angepassten Werte lassen sich wie im einfachen Regressionsmodell inter- pretieren:

– Es handelt sich um ein Log-Level-Modell.

– Steigt die Anzahl der Ausbildungsjahre c.p. um 1, so steigt der Lohn um 9,7 %.

– Steigt die Anzahl der Jahre Berufserfahrung c.p. um 1, so steigt der Lohn um 1 %.

(19)

0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2

-0.5 0 0.5 1 1.5 2 2.5 3

Fitted values

ln(wage)

(20)

3.3 Eigenschaften der OLS Schätzer

Erwartungstreue

Unter den Annahmen I bis IV sind die OLS Schätzer bj, j = 0;1; : : : ; k un- verzerrt / erwartungstreu, d.h.:

E(bj) = j

Wir wissen b = (X0X) 1X0y und y = X + u. Einsetzen ergibt:

b = (X0X) 1X0(X + u)

= (X0X) 1(X0X + X0u)

= + (X0X) 1X0u

(21)

Wir berechnen als nächstes den Erwartungswert bedingt auf X: E(bjX) = + E (X0X) 1X0ujX

= + (X0X) 1X0E(ujX)

= + (X0X) 1X00 =

D.h. der bedingte E ist gleich - und ist somit auch gleich dem unbedingten E.

Man beachte die Bedeutung von Annahme IV (E(ujX) = 0)!

(22)

Varianz

Um die Varianz der OLS Schätzer zu bestimmen, machen wir im Moment - wie zuvor im einfachen Regressionsmodell - eine zusätzliche Annahme: homos- kedastische Fehler.

Bezüglich der Varianz der Fehlerterme ui wird angenommen:

Annahme V: Var(uijx1; : : : ; xk) = 2

Die Varianz eines jeden Fehlerterms ui ist gleich der Konstanten 2 (für alle möglichen Werte von x1; : : : ;xk), d.h. die Fehler sind homoskedastisch.

Anmerkung: Da wir hier eine Zufallsstichprobe aus Querschnittsdaten betrach- ten, sind überdies zwangsläu…g auch die Fehlerterme untereinander unkorreliert, d.h. es gilt

Cov(ui; ujjx1; : : : ;xk) = 0 für i 6= j

Diese Annahme ist bei Querschnittsdaten automatisch erfüllt, bei Zeitreihenda- ten aber potenziell problematisch (siehe spätere Kapitel).

(23)

Varianz der Steigungsparameter (hier ohne Beweis, siehe die äquivalente Ma- trixberechnung unten): Unter den Annahmen I bis V gilt, bedingt auf die Stich- probenwerte der Variablen x1; : : : ;xk, dass

Var(bj) =

2

SSTj(1 Rj2); für j = 1; : : : ; k, mit der Abkürzung

SSTj =

Xn i=1

(xij xj)2

als die Stichprobenvariation von xj, und R2j bezeichnet das R2 der Regression von xj auf alle anderen x Variablen und die Konstante.

(24)

Wovon hängt die Varianz

Var(bj) =

2

SSTj(1 R2j) der OLS Schätzer ab?

– Varianz der Fehler u, also 2. Größere Fehlervarianz erhöht Varianz der Steigungsparameter: Die Varianz der OLS Schätzer kann also hoch sein, obwohl wir alles richtig gemacht haben, weil 2 einfach großist.

– Variation der Variablen xj in der Stichprobe, also SSTj. Höhere Stichpro- benvariation verringert die Varianz der Steigungsparameter, d.h. erhöht die Schätzpräzision.

– Rj2: Lineare Abhängigkeit von xj von den anderen Variablen (in der Stich- probe). Wenn R2j gross, also nahe bei 1, ist, dann ist die Varianz von bj gross.

– Die Varianz ist am kleinsten, wenn R2j = 0 ist, also wenn die Stichproben- korrelation zwischen xj und den anderen Variablen gleich 0 ist.

(25)

Multikollinearität

Perfekte Multikollinearität liegt vor, wenn die Variablen nicht alle linear unab- hängig sind, d.h. der Rang von X 2 Rn (k+1) ist nicht voll.

Dies impliziert wiederum, dass X0X nicht invertierbar ist. Es gibt in diesem Fall kein eindeutig bestimmtes b.

In der Praxis ist eher unvollständige Multikollinearität ein Problem.

Diese impliziert, wie wir gesehen haben, dass die Varianz der geschätzten Ko- e¢ zienten sehr großwerden kann.

Es gibt keine Faustregeln, was zuviel an Multikollinearität ist.

(26)

Varianz von b: Matrixberechnung

De…nition der bedingten Varianz für den Vektor b:

Var(bjX) = E b E(bjX) b E(bjX) 0 X

Diese Schreibweise …nden Sie häu…g in der Literatur. Wie ist sie zu verstehen?

Und wieso transponieren wir?

b ist keine skalare Zufallsvariable, sondern ein Vektor mit k + 1 Elementen.

Demgemäßhat b eine Varianz-Kovarianz Matrix der Dimensionen (k + 1) (k + 1).

Betrachten wir als Beispiel den zwei-dimensionalen Fall und betrachten wir die unbedingte Varianz, dann haben wir:

Var bb0

1

!

= Var(b0) Cov(b0; b1) Cov(b0; b1) Var(b1)

!

(27)

Dies stimmt genau überein mit:

Var(b) = E b E(b) b E(b) 0

wie man durch ausmultiplizieren und Verwendung der De…nition von Varianz und Kovarianz sehen kann.

Zurück zum Ausgangsproblem. Wir suchen die bedingte Varianz-Kovarianz Ma- trix von b. Hierfür benötigen wir also

b E(bjX) = (X0X) 1X0y

= (X0X) 1X0(X + u)

= (X0X) 1X0u

wobei die erste Gleichung Gebrauch macht von E(bjX) = , was wir ja schon oben gesehen hatten.

(28)

Damit erhalten wir:

Var(bjX) = E b E(bjX) b E(bjX) 0 X

= E (X0X) 1X0u (X0X) 1X0u 0 X

= E h(X0X) 1X0uu0X(X0X) 1 Xi

= (X0X) 1X0E(uu0jX)X(X0X) 1

= (X0X) 1X0 2InX(X0X) 1

= 2(X0X) 1

wobei In die n-dimensionale Einheitsmatrix ist.

Der vorletzte Schritt ist erklärungsbedürftig. Wir haben den Ausdruck E(uu0jX) durch 2In ersetzt. Warum dürfen wir das, und was bedeutet das?

Entscheidend ist, dass der Ausdruck E(uu0jX) genau die Varianz-Kovarianz Matrix des Vektors der Fehlerterme ist. Für den gilt ja per De…nition

Var(ujX) = E h(u E(ujX)) (u E(ujX))0 Xi

(29)

was sich wegen unserer üblichen Annahme IV E(ujX) = 0 vereinfacht zu

Var(ujX) = E uu0jX

Nun hatten wir aber oben angenommen (siehe Annahme V), dass für jedes Ele- ment dieser Varianz-Kovarianz Matrix gilt: Var(uijX) = 2 und alle Kovarian- zen zwischen allen ui und uj sind null. Deshalb folgt für die Varianz-Kovarianz Matrix (erinnern Sie sich: auf deren Hauptdiagonale stehen Varianzen, abseits stehen Kovarianzen):

Var(ujX) = E uu0jX =

0 BB BB

@

2 0 0

0 2 ...

... . . . 0

0 0 2

1 CC CC

A = 2 In wobei In die n-dimensionale Einheitsmatrix ist.

(30)

Fazit aus alledem: wir haben also zwei identische Ausdrücke für Var(bj), näm- lich

Var(bj) =

2

SSTj(1 R2j)

= das (j; j) - Element aus der Matrix 2(X0X) 1

Der erste Ausdruck ist nützlich für die Intuition, der zweite für konkrete Be- rechnungen.

(31)

Schätzung von (und )

Wir müssen noch die Fehlervarianz 2 schätzen. Wie in der einfachen Regres- sion ist ein Problem, dass wir die Fehler ui nicht beobachten, sondern nur (geschätzte) Residuen ubi.

Das impliziert, dass wir wie in der einfachen Regression eine Freiheitsgrad- Korrektur durchführen müssen, um einen unverzerrten Schätzer für 2, unter den Annahmen I bis V, zu erhalten:

b2 = 1

n (k + 1)

Xn i=1

b

u2i = SSR n (k + 1)

Die Residuen werden i.A. kleiner, wenn man mehr Regressoren mit in die Re- gression aufnimmt.

Der Standardfehler der Regression (SER) ist wie schon im einfachen Modell de…niert als

SER =

q

b2 = b

(32)

Standardfehler der Koe¢ zienten

Der Standardfehler der Koe¢ zienten bj ist die Wurzel aus seiner geschätzten Varianz, gegeben durch:

se(bj) =

qVar(d bjjX) = q b

SSTj(1 R2j)

= Quadratwurzel des (j; j) - Elements aus der Matrix b2(X0X) 1

Im Beispiel: Geschätzte Varianz und Standardfehler (Lohndaten). Im Modell ln(wagei) = 0 + 1educi + 2experi + ui

beträgt die geschätzte Varianz b2 = 0;2129, bei 523 Freiheitsgraden.

Die Standardfehler der einzelnen Steigungsparameter betragen

se(b0) = 0;1086 se(b1) = 0;0076 se(b2) = 0;0016

Interpretation: siehe unten.

(33)

Gauß-Markov Theorem

Gauß-Markov Theorem: Unter den Annahmen I bis V sind die OLS Schätzer bj, j = 0;1; : : : ; k die besten linearen unverzerrten Schätzer von 0; 1; : : : ; k.

– Die ‘besten’: d.h. Schätzer mit kleinster Varianz.

– Unverzerrt: E(bj) = j, j = 0; : : : ; k.

– Linear: für xj gegeben – auf xj bedingt – lineare Funktion von yi, i = 1; : : : ; n.

Dieses Theorem begründet die weite Verwendung von OLS: sofern die Annah- men zutre¤en, ist OLS in einem gewissen (oben genau spezi…zierten) Sinn das beste was wir machen können!

(34)

3.4 Stichprobenverteilung der OLS Schätzer

Um die Standardfehler interpretieren zu können, benötigen wir eine Information über deren Wahrscheinlichkeitsverteilung.

Das liefert uns dann die Möglichkeit, Hypothesentests durchzuführen.

Wir erhalten die Verteilung der Standardfehler der Parameterschätzer, wenn wir bezüglich der Fehlerterme folgendes annehmen:

Annahme VI: Die Fehler ui sind unabhängig von den erklärenden Variablen x1;x2; : : : ;xk und unabhängig und identisch normalverteilt mit Mittelwert 0 und Varianz 2:

u N(0; 2In)

(35)

Diese Annahme ist in zweifacher Hinsicht stärker als die bisherigen Annahmen:

– Zum Einen nehmen wir jetzt an, dass die x und die ui unabhängig sind, – zum Anderen postulieren wir jetzt eine spezielle Verteilung, eben die Nor-

malverteilung.

Diese starken Annahmen kaufen uns aber auch viel:

– Erstens sind die OLS Schätzer nun die e¢ zientesten unter allen unverzerrten Schätzern.

– Zweitens erlaubt es uns die Verteilungen der geschätzten Koe¢ zienten und von Teststatistiken zu bestimmen.

(36)

Dichtefunktionen der Normalverteilung mit Mittelwert 0:

-50 -4 -3 -2 -1 0 1 2 3 4 5

0.1 0.2 0.3 0.4 0.5 0.6

σ2 = 1 σ2 = 0.5 σ2 = 2

(37)

Das Modell unter der Normalverteilungsannahme

Verteilung von y

yjx N( 0 + 1x1 + kxk; 2) – Also die bedingte Verteilung von y gegeben x ist normal, – der bedingte Mittelwert ist eine lineare Funktion von x, – und die (bedingte) Varianz ist konstant.

Die N-Annahme ist allerdings nicht immer gut bzw. sinnvoll, z.B. wenn y nur wenige Werte annehmen kann, etc...

(38)

Es gilt, dass die geschätzten Koe¢ zienten bedingt auf die erklärenden Variablen X, eine Linearkombination der normalverteilten Fehler u sind:

b = + (X0X) 1X0u

= + Mu

Es gilt, dass Summen oder allgemeiner Linearkombinationen von normalverteil- ten Zufallsvariablen wieder normalverteilt sind.

Also gilt jetzt

bjX N( ; 2(X0X) 1)

Das heißt durch Annahme VI kennen wir die Verteilung der geschätzten Para- meter und diese ist noch dazu einfach zu handhaben.

(39)

Jeder einzelne geschätzte Koe¢ zient bj ist dann normalverteilt mit

bj N( j;Var(bj));

wobei Var(bj) das (j; j) Element aus 2(X0X) 1 ist (wie wir wissen äquiva- lent gegeben durch 2

SSTj(1 R2j)).

Es folgt unmittelbar, dass die standardisierten Koe¢ zientenschätzer standard- normalverteilt sind:

bj j q

Var(bj) N(0;1)

Was passiert, wenn wir das unbekannte 2 durch die Schätzung

b2 = n (k+1)1 Pni=1 ub2i ersetzen?

(40)

In der Skalierung durch b zu ersetzen bedeutet, dass wir durch den Stan- dardfehler se(bj) dividieren. Die resultierende Größe ist dann nicht mehr stan- dardnormalverteilt, sondern t-verteilt mit n (k + 1) Freiheitsgraden:

bj j

se(bj) tn (k+1)

(Hier kein Beweis. Für Interessierte: z.B. Wooldridge, Appendix E.)

Daraus können wir nun einen Hypothesentest konstruieren.

(41)

Gra…k: t-Verteilung und Standardnormalverteilung.

-40 -3 -2 -1 0 1 2 3 4

0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

Wahrscheinlichkeitsdichte

t-Verteilung mit 10 FG Standardnormalverteilung

(42)

3.5 Multiple Regression: Inferenz

Test einer Hypothese bezüglich eines Parameters

Da wir nun wissen, welche Verteilung die Größe bj j

se(bj) besitzt, können wir daraus einen Hypothesentest konstruieren.

Was ist überhaupt ein statistischer Test?

Wir wollen eine inhaltlich interessante Hypothese bezüglich eines Parameter testen. Nehmen wir an, wir hätten die Theorie, dass der Parameter j gleich dem Wert sein sollte.

Unsere Nullhypothese lautet also:

H0 : j =

(43)

Wir wollen entscheiden, ob die ‘Daten kompatibel’sind mit unserer Nullhypo- these H0.

Was kann bei dieser Entscheidung passieren?

H0 nicht verwerfen H0 verwerfen

H0 richtig gut schlecht

H0 falsch schlecht gut

Aus der obigen Tabelle ist ersichtlich, dass man 2 Arten von Fehlern begehen kann:

– Fehler 1. Art: H0 wird verworfen, obwohl sie richtig ist (oben rechts).

– Fehler 2. Art: H0 wird nicht verworfen, obwohl sie falsch ist (unten links).

(44)

Das Signi…kanzniveau eines Tests ist die Wahrscheinlichkeit eines Fehlers 1. Art (wird oft mit bezeichnet).

Im Zusammenhang damit steht die Macht (auch Güte, power) eines Tests. Die Macht eines Tests ist die Wahrscheinlichkeit die Nullhypothese zu verwerfen wenn sie falsch ist, nämlich 1 Wahrscheinlichkeit eines Fehlers 2. Art (unten rechts).

Wenn wir keinen Fehler 1. Art akzeptieren (mit positiver Wahrscheinlichkeit), dann kann der Test eine Hypothese nie verwerfen. Das ist dann natürlich kein sehr nützlicher Test.

Faustregel: Wir wollen Tests so ‘konstruieren’, dass wir H0 verwerfen, wenn die Teststatistik Werte annimmt, die unter H0 ‘unwahrscheinlich’sind.

Also: wenn der wahre Wert des Parameters ist, wie wahrscheinlich ist dann der Schätzwert bj, den wir aus unserer Stichprobe ermittelt haben?

(45)

Dafür muss man die Verteilung von bj unter der Nullhypothese kennen, und man muss ein Signi…kanzniveau festlegen, d.h. eine unvermeidliche Wahr- scheinlichkeit für den Fehler 1. Art akzeptieren. Gebräuchlich sind 10 %, 5 % oder 1 % (also für z.B. 5 % wäre = 0:05).

Betrachten wir den Fall eines zweiseitigen Tests. Dieser soll folgende Hypothesen untersuchen:

H0 : j = gegen

H1 : j 6=

Die Teststatistik ist gegeben als:

t j= =

bj

se(bj)

Wir lehnen die Nullhypothese ab, wenn bj entweder sehr viel kleiner als oder sehr viel größer als ist.

(46)

Genauer: Ablehnung der Nullhypothese erfolgt, wenn die Wahrscheinlichkeit, die ermittelte Teststatistik t

j= in der Stichprobe zu erhalten, kleiner als das gewählte Signi…kanzniveau ist.

Formal: die Entscheidungsregel ist gegeben durch den kritischen Bereich lehne H0 ab, wenn t

j= > ctn (k+1);1 =2

d.h. wir lehnen die Nullhypothese ab, wenn die Teststatistik betragsmäßig größer als der kritische Wert ctn (k+1);1 =2 ist.

Der kritische Wert ist das (1 =2)-Quantil der t-Verteilung mit n (k + 1) Freiheitsgraden.

(47)

Gra…k: kritischer Bereich für n ! 1

-40 -3 -2 -1 0 1 2 3 4

0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

t-Verteilung für große Stichproben

kritischer Wert: |1,96 | Fläche 0,95

Fläche 0,025 Fläche 0,025

(48)

Beispiel: t-Test (Lohndaten). Das Modell lautet weiterhin

ln(wagei) = 0 + 1educi + 2experi + ui

In diesem Fall ist es sinnvoll zu testen, ob die Nullhypothese H0 : j = 0 abgelehnt werden kann (also der Hypothesenwert = 0).

Die Nullhypothese lautet also: Ausbildung und Berufserfahrung haben keinen Ein‡uss auf den Lohnsatz, ein beobachteter Zusammenhang kann allein durch den Zufall bei der Stichprobenziehung erklärt werden.

Das würde bedeuten, dass die zugehörige unabhängige Variable keinen statis- tisch signi…kanten Ein‡uss auf die Werte der abhängigen Variable hat.

Getestet wird die Nullhypothese gegen die Alternative H1 : j 6= 0.

(49)

Da wir bereits alle notwendigen Größen berechnet haben, können wir die drei Teststatistiken direkt angeben als (gerundet)

t 0=0 = 0;2169 0

0;1086 = 1;9972 t

1=0 = 12;8816 t

2=0 = 6;4375

Das 97,5%-Quantil der (symmetrischen) t-Verteilung mit 526-(2+1) = 523 Freiheitsgraden beträgt 1,9645 (siehe Tabellen in Ihrem Statistik-Lehrbuch, oder eine Funktion Ihrer Ökonometrie-Software).

Alle drei t-Statistiken sind (absolut) größer als das Quantil, sodass in allen drei Tests die Nullhypothese zum Signi…kanzniveau 5% abgelehnt werden kann.

Es kann also –unter den gemachten Annahmen –behauptet werden, dass sowohl educ als auch exper einen statistisch signi…kanten Ein‡uss auf den Lohn haben (der Zusammenhang wirkt also nicht rein zufällig).

(50)

Eine nützliche Faustregel

Für die häu…g getestete Nullhypothese H0 : j = 0 ist die Teststatistik einfach

bj

se(bj)

also der betragsmäßige Quotient aus Parameterschätzer und dessen Standard- fehler.

Für große Stichproben ist der kritische Wert der t-Verteilung für diese Hypothese beim 5%-Signi…kanzniveau

n ! 1; = 0;05 : ctn (k+1);1 =2 = ct

1;0:975 = 1;9645 also etwas weniger als 2.

Als grobe Faustregel kann man sich daher merken: ein Parameter ist auf dem 5%-Signi…kanzniveau statistisch signi…kant von null verschieden, wenn der Pa- rameterschätzer im Betrag mindestens doppelt so großist, wie sein Standard- fehler.

(51)

Kon…denzintervalle

Eine Parameterschätzung bj an sich sagt nichts über die Unsicherheit der Schät- zung der unbekannten Parameter. Daher interessiert die Frage: welches Intervall beinhaltet den wahren, unbekannten Parameter j mit einer gewissen, vorge- gebenen Wahrscheinlichkeit?

Formal also: Sei j ein unbekannter Parameter, dann bezeichnet das Intervall [Vu;Vo], ein Kon…denzintervall zum Niveau 1 , falls gilt

P(Vu j Vo) = 1

Hierbei sind die Intervallgrenzen Vu < Vo Stichprobenfunktionen, die von den Daten abhängen.

(52)

Hier wird die Beziehung zu den oben diskutierten Parametertests deutlich. Wir haben soeben gesehen, dass der Ablehnungsbereich eines t-Tests der Nullhypo- these H0 : j = 0 gegeben ist durch

bj

se(bj) < ct

n (k+1);1 =2 oder

bj

se(bj) > ct

n (k+1);1 =2

Ein symmetrisches zweiseitiges (1 )-%-Kon…denzintervall für den Parameter

j ist daher gegeben durch

bj ct

n (k+1);1 =2 se(bj)

Das Kon…denzintervall kann als Nichtverwerfungsregion (für Hypothesen bzgl.

der Koe¢ zienten) interpretiert werden.

Für jedes im Kon…denzintervall kann die Nullhypothese H0 : j = zum Niveau nicht verworfen werden (gegen die Alternative H1 : j 6= ).

(53)

Wir betrachten erneut das Beispielmodell:

ln(wage\ i) = 0;2169

(0;1086)

+ 0;0979

(0;0076)

educi + 0;0103

(0;0016)

experi

Betrachten wir den Koe¢ zienten von educ. Bei = 0;05 gilt ct523;0;975 = 1;9645. Damit ist das (1 )-Kon…denzintervall bzw. 95%-Kon…denzintervall gegeben durch

beduc ct523;0;975 se(beduc) = [0;0979 1;9645 0;0076 ; 0;0979 + 1;9645 0;0076]

= [0;0830 ; 0;1129]

Interpretation: die Wahrscheinlichkeit, dass das obige Intervall den wahren Pa- rameter überdeckt, beträgt 95%.

(54)

p-Wert

Der p-Wert oder das marginale Signi…kanzniveau einer Teststatistik ist das kleinste Signi…kanzniveau min zu dem die H0 verworfen wird (wenn sie korrekt ist).

Klarerweise hängt der p-Wert auch von der betrachteten Alternativhypothese ab (da die kritische Region von H1 abhängt).

So ist bei einem zweiseitigen t-Test mit H0 : j = 0, H1 : j 6= 0 (also Signi…kanztest) der zweiseitige p-Wert gegeben durch

P(jt

j=0j > jt j)

wenn t den numerischen Wert der t-Statistik bezeichnet.

Je kleiner der p-Wert umso stärker ist die Evidenz gegen H0 (im Vergleich zur betrachteten H1).

(55)

Zusammenhang mit der Testentscheidung des t-Tests: Wenn der p-Wert kleiner als das gewählte Signi…kanzniveau ist, kann H0 bei der Fehlerwahrscheinlich- keit abgelehnt werden.

Fast jede Statistik-Software gibt p-Werte an. Dadurch fällt das länger dauernde Berechnen von und vergleichen mit kritischen Werten weg.

(56)

Einen Großteil der gretl-Ausgabe können wir inzwischen interpretieren. Hier für das Beispielmodell:

(57)

Testen von Hypothesen bezüglich einer Linearkombination von Parametern

Wie können wir z. B. die H0 : 1 + 2 3 = 5 testen?

Allgemeiner können wir diese Art von Hypothese formulieren als:

H0 : r0 r1 rk

| {z }

R

0 BB B@

0

...1 k

1 CC CA

| {z }

= r

Erste Frage: Was ist die (bedingte) Verteilung von Rb r?

bjX N( ; 2(X0X) 1)

RbjX N(R ; 2R(X0X) 1R0)

Rb rjX N(R r; 2R(X0X) 1R0)

(58)

D. h. Rb r ist normalverteilt und wenn H0 zutri¤t – wenn also R = r – mit Mittelwert 0.

Wenn H0 nicht zutri¤t, ist der Erwartungswert ungleich 0.

Zu beachten: R(X0X) 1R0 ist hier ein Skalar, da R in diesem Fall eine ein- zeilige Matrix ist.

Das deutet alles wieder auf einen t-Test hin (einseitig, zweiseitig, ...)

Unter der Nullhypothese H0 : R = r haben wir tR =r = Rb r

q

b2R(X0X) 1R0

tn (k+1)

Überlegen Sie, wie Sie die kritischen Regionen (zum Niveau ) für die Tests mit den Alternativen H1 : R 6= r, H1 : R > r und H1 : R < r konstruieren.

(59)

Testen mehrerer linearer Hypothesen (F-Test)

Oftmals will man mehrere Hypothesen gemeinsam testen, z. B.:

H0 : 0 = 0

1 + 2 2 = 3

4 = 5

Die multiple lineare Hypothese können wir formal wie vorher beschreiben H0 : R = r;

mit R 2 Rq (k+1) und r 2 Rq.

Das heißt q (k + 1) ist die Anzahl der Hypothesen und es ist sinnvoll anzunehmen (warum?), dass der Rang von R gleich q ist (voller Rang).

(60)

Im Fall multipler Hypothesen ist die Alternative H1 : R 6= r.

Da R und r Vektoren sind, ist nicht klar, was > oder < heißen soll.

Außerdem könnte für manche der einzelnen Hypothesen > und für andere <

als Alternative relevant sein.

R r ist selbst ein Vektor: Teststatistik wird zusammenhängen mit Länge dieses Vektors (also der Anzahl der Restriktionen).

Die Teststatistik kann in mehreren äquivalenten Formen angegeben bzw. her- geleitet werden (Beweise siehe Literatur).

(61)

Eine Basis ist die Verteilung der Abweichungen von der Hypothese (Rb r), für die gilt:

(Rb r)0 hR 2(X0X) 1R0i 1 (Rb r) 2q

Idee: wenn die Nullhypothese zutri¤t, werden die Abweichungen (Rb r) (ge- wichtet mit ihrer Varianz) klein sein, so dass ein großer Wert der Teststatistik zur Ablehnung führt.

Für die praktische Durchführung muss wieder 2 durch b2 ersetzt werden.

Das führt dann auf die F-Verteilung. Man kann den F-Test in verschiedenen Formen angeben, was eine intuitivere Darstellung ermöglicht.

(62)

Eine mögliche Darstellungsform ist die folgende F-Statistik F = (Rb r)0 hR(X0X) 1R0i 1 (Rb r)

b2

1 q

= (Rb r)0 hR(X0X) 1R0i 1 (Rb r)

b

u0ub

n (k + 1)

q Fq;n (k+1) die F-verteilt ist mit q und n (k + 1) Freiheitsgraden.

Die F-Statistik misst die gewichtete quadrierte Summe der Abweichungen von der Nullhypothese.

Gewichtet: Wir wollen wissen, ob die Abweichung großist für eine Zufallsvariable – deshalb die Skalierung mit (geschätzter) Varianz.

Die kritische Region (zum Niveau ) ist gegeben durch:

F > cF

q;n (k+1);1

was sich in Tabellen der F-Verteilung in Ökonometrielehrbüchern oder in der entsprechenden Funktion der verwendeten Software nachschlagen lässt.

(63)

Alternative Formulierungen des F-Tests (die äquivalent sind) basieren auf einem geeigneten Vergleich des

– unrestringierten OLS-Schätzers b mit dem – restringierten OLS-Schätzer ~.

Der restringierte OLS-Schätzer ~ ist die Lösung des folgenden Problems:

~ = ~

0; ~

1; : : : ; ~

k 0

= arg min b0;b1;:::;b

k2R XN i=1

(yi b0 b1xi1 bkxik)2 unter der Nebenbedingung: Rb = r, mit b = (b0; b1; : : : ; bk).

Aus der Lösung kann man dann die Residuen u~ des restringierten Modells ge- winnen (im Gegensatz zu den Residuen ub des unrestringierten Modells).

(64)

Die F-Statistik ist damit äquivalent auch darstellbar als F = (b ~)0X0X(b ~)

b

u0ub

n (k + 1) q

= u~0u~ ub0ub b

u0ub

n (k + 1) q

Die erste Darstellung zeigt, dass die Teststatistik misst, wie stark sich die ge- schätzten Parameter ändern, wenn man die Restriktionen R = r auferlegt.

Die zweite Darstellung verwendet als Maß, um wie viel schlechter die Anpassung des Modells ist, wenn die Restriktionen auferlegt werden.

Der Zähler ist die Di¤erenz der restringierten Residuenquadratsumme u~0u~ und der unrestringierten Residuenquadratsumme ub0ub.

Wieso ist der Zähler sicher nicht-negativ?

(65)

Wenn die Hypothese dergestalt ist, dass auch unter H0 die Konstante im Modell enthalten ist (also keine der Hypothesen ist 0 = 0), dann gibt es eine weitere äquivalente Form der F-Statistik.

Bezeichne R2 das Bestimmtheitsmaßder unrestringierten Regression und R~2 das der restringierten Regression. Dann kann man die folgende F-Statistik ver- wenden:

F = R2 R~2 1 R2

n (k + 1) q

Überlegen Sie sich, warum notwendigerweise R2 R~2 gilt.

(66)

Wir können, um eine einzelne Hypothese zu testen, statt des t-Tests natürlich auch den F-Test verwenden (für die Version mit H0 : j = gegen die zweiseitige Alternative H0 : j 6= ).

Die entsprechende F-Statistik stimmt exakt überein mit dem Quadrat der t- Statistik.

Veri…zieren Sie dies, indem Sie die F-Statistik für eine Hypothese mit der t- Statistik vergleichen (was sind in diesem Fall R und r?).

(67)

Im Beispielmodell: Bereits im letzten Kapitel haben wir die Hypothese H0 :

1 = 0 mithilfe eines t-Tests überprüft. Wenn wir stattdessen einen F-Test anwenden möchten, ist

R = h 0 1 0 i und r = h 0 i Rb r = h 0;0979 i

hR(X0X) 1R0i 1 = h 3664;2470 i

b2 = SSR

523 = 0;2129

Damit ist F = 165;0812 > 3;8593 = cF1;523; 0;95 und die Nullhypothese wird zum Niveau 5 % abgelehnt.

p165;0812 = 12;8484 t

1=0. (Die Unterschiede ergeben sich durch Run- dungsfehler!)

(68)

Signi…kanz der Regression

Als Spezialfall betrachten wir die Nullhypothese, dass

H0 : 1 = : : : = k = 0

d. h. dass keine der erklärenden Variablen signi…kant ist ( 0 entspricht wie üblich der Konstanten).

Dies testet die Signi…kanz des Regressionsmodells insgesamt.

Formal können wir diese H0 schreiben als:

R =

2 64

0 1 0

0 ... ... ...

0 0 1

3 75

2 66 64

0

...1 k

3 77 75 =

2 64

0...

0

3 75 ;

mit R 2 Rk (k+1) und r 2 Rk.

(69)

Jede der angegebenen Formulierungen der F-Statistik kann verwendet werden.

Die letzte angegebene ist in diesem Fall jedoch besonders einfach, denn: wir wis- sen, dass das BestimmtheitsmaßR2 in einer Regression nur auf die Konstante gleich 0 ist. Damit vereinfacht sich die R2-Form der F-Teststatistik zu:

F = R2 1 R2

n (k + 1)

k Fk;n (k+1)

Diese Teststatistik wird in vielen Softwarepaketen automatisch mit ausgegeben, und heißt dann dort meistens auch einfach F oder ähnlich (siehe obiger gretl- Output).

(70)

Beispiel für den F-Test

Hier ein Beispiel. Wir verwenden den Datensatz labour2 aus Verbeek: ein Querschnitt mit Beobachtungen über 569 belgische Firmen für 1996. Wir un- tersuchen die Determinanten der Arbeitsnachfrage (wovon hängt die Zahl der Beschäftigten ab?).

Grundhypothese: Arbeitsnachfrage sollte aus dem Verhalten der Unternehmen folgen, die bei Gewinnmaximierung eine Beschäftigung wählen würden, bei dem das Grenzprodukt der Arbeit gleich dem Lohnsatz ist.

Man muss also das Grenzprodukt der Arbeit schätzen. Dafür benötigt man eine Annahme bezüglich der Produktionsfunktion.

Welche Produktionsfunktion soll man unterstellen? Dazu gibt es eine riesige empirische Literatur.

(71)

Sei Qi der Output einer Firma (Wertschöpfung in Mio Euro), Li der Ar- beitseinsatz (Zahl der Beschäftigten) und Ki der Kapitalstock (Anlagevermögen in Mio Euro). Dann unterstellen wir eine (noch recht einfache und doch ziemlich allgemeine) CES-Produktionsfunktion (constant elasticity of substitution)

Qi = z L

1

i + (1 )K

1

i

! 1

wobei z ein konstanter Skalierungsfaktor für das technologische Niveau ist, 2 (0;1), > 0.

Der Parameter > 0ist die Substitutionselastizität. Wie leicht können Arbeit und Kapital gegeneinander substituiert werden?

– ! 0 gar nicht (Leontief, feste Koe¢ zienten)

– ! 1 sehr leicht (Produktionsfunktion wird linear)

– ! 1 ein berühmter Spezialfall, die CES-Produktionsfunktion wird für

! 1 zur Cobb-Douglas-Funktion Qi = zLi Ki1

(72)

Bei Gewinnmaximierung gilt bekanntlich: (Real-)Lohn = Grenzprodukt der Ar- beit, also (mit Wi dem Lohnsatz)

Wi = @Qi

@Li = z1 1= Q

1

i L

1

i

was aufgelöst nach dem Arbeitseinsatz Li die Arbeitsnachfragefunktion des i- ten Unternehmens ergibt:

Li = z 1QiWi

Das ist linear in Logarithmen (mit 0 = ln z 1 ):

lnLi = 0 + ln Qi lnWi

Fügen wir die unvermeidlichen Zufallsfehler ui hinzu, erhalten wir ein schätz- bares Modell:

lnLi = 0 + 1 lnQi + 2 lnWi + ui

worin wir 2 als interpretieren und für 1 einen Wert von eins erwarten.

(73)

Wir können dieses Modell schätzen und verschiedene theoretisch interessieren- den Hypothesen testen. So sagt das Modell voraus, dass 2 negativ sein sollte.

Wir können also testen:

H0 : 2 0 gegen H1 : 2 < 0 Das läuft auf einen t-Test hinaus.

Hier gehen wir einen Schritt weiter: Wir können auch testen, ob die einfachere Cobb-Douglas-Funktion ( ! 1) ausreicht, um die Daten zu beschreiben. Wir würden dann testen:

H0 : 1 = 1 und 2 = 1 Dafür verwenden wir den F-Test.

(74)

Hier die gretl-Ausgabe für die OLS-Schätzung:

Machen Sie sich klar, welche Interpretation der ausgegebene Wert für F(2;566) in dieser Tabelle hat!

(75)

Wenden wir nun den uns interessierenden F-Test auf H0 : 1 = 1 und 2 = 1 an. Die Hypothese in der Form R = r lautet

R =

"

0 1 0 0 0 1

# 2 64

0 1 2

3 75 =

"

1 1

#

= r

Das gretl-Resultat:

Ihr Fazit?

(76)

3.6 Weggelassene Variablen (omitted variable bias)

Wir hatten uns am Anfang dieses Kapitels gefragt: warum braucht man über- haupt multiple Regression? Kann man nicht den Ein‡uss jeder Variablen einzeln mit einfacher Regression ermitteln?

Die Antwort lautet: im Allgemeinen nicht, weil es eine Verzerrung durch ausge- lassene Variablen (omitted variable bias) gibt.

Wir nehmen an, das wahre Modell ist:

yi = 0 + 1xi1 + 2xi2 + ui

Wir schätzen aber nur ein einfaches lineares Regressionsmodell yi = ~0 + ~1xi1 + vi

d.h. wir vergessen oder vernachlässigen die Variable x2. Hier gilt:

vi = 2xi2 + ui

(77)

Was sind die Eigenschaften der Schätzung von ~

1 aus der Gleichung ohne x2?

Man kann zeigen (siehe Lehrbuchliteratur und Übungsaufgaben):

E(~1jx1;x2) = 1 + 2

Pn

i=1(xi1 x1)(xi2 x2)

Pn

i=1(xi1 x1)2

= 1 + 2Cov(d x1;x2) Var(d x1)

= 1 + 2~1

Hierin ist ~1 der OLS Schätzer einer Regression von x2 auf eine Konstante und x1.

Wann ist ~

1 unverzerrt? Falls ~

1 verzerrt ist, in welche Richtung geht die Verzerrung?

(78)

Fazit:

– ausgelassene Variablen führen im Allgemeinen zur Verzerrung des Parame- terschätzers,

– es sei denn die ausgelassene Variable wäre unwichtig ( 2 = 0) oder unkor- reliert mit dem berücksichtigten Regressor.

Im Regelfall muss man Sorge tragen, alle relevanten Variablen auch in die Re- gression aufzunehmen!

Omitted variables sind eines der Hauptprobleme empirischer Arbeit.

(79)

Über‡üssige Regressoren

Was passiert im umgekehrten Fall, wenn wir zu viele Variablen in die Regression hineinnehmen?

Das wahre Modell ist:

y = 0 + 1x1 + + kxk + u

Wir schätzen aber ein Modell der Form:

y = 0 + 1x1 + + kxk + k+1xk+1 + + mxm + u mit zusätzlichen Variablen xk+1; : : : ; xm die nicht notwendig sind.

Es ist zu beachten, dass formal auch das zu große Modell ein wahres Modell ist, mit den wahren Parameterwerten k+1 = = m = 0.

Referenzen

ÄHNLICHE DOKUMENTE

The five main direct drivers of biodiversity loss 9 – changes in land and sea use, overexploitation, climate change, pollution, and invasive alien species –

Proposed Action 3 – Partner with Africa to substantially increase environmentally, socially and financially sustainable investments that are resilient to the

c) Revision of the Council Directive laying down detailed arrangements for the exercise of the right to vote and stand as a candidate in elections to the European Parliament

AI technologies may present new safety risks for users when they are embedded in products and services. For example, as result of a flaw in the object

The Commission aims to respond to the calls by both the European Parliament 17 and the European Council 18 for a more future-oriented regulatory framework

By letter dated 26 November 2001 which was received by the Commission on 27 November 2001, Coats (and its subsidiaries) filed an application under the Commission Notice on

(49) To allow for the inclusion of the reported sustainability information in the European single access point, Member States should ensure that undertakings

Die allgemeine Regel, daß junge Fichten und Tannen ausschließlich bis vorwiegend links drehen, mit zunehmendem Durchmesser aber mehr und mehr nach rechts