• Keine Ergebnisse gefunden

Multiple Regression: Inferenz

Im Dokument 3 Multiple Regression (Seite 42-76)

Test einer Hypothese bezüglich eines Parameters

Da wir nun wissen, welche Verteilung die Größe bj j

se(bj) besitzt, können wir daraus einen Hypothesentest konstruieren.

Was ist überhaupt ein statistischer Test?

Wir wollen eine inhaltlich interessante Hypothese bezüglich eines Parameter testen. Nehmen wir an, wir hätten die Theorie, dass der Parameter j gleich dem Wert sein sollte.

Unsere Nullhypothese lautet also:

H0 : j =

Wir wollen entscheiden, ob die ‘Daten kompatibel’sind mit unserer Nullhypo-these H0.

Was kann bei dieser Entscheidung passieren?

H0 nicht verwerfen H0 verwerfen

H0 richtig gut schlecht

H0 falsch schlecht gut

Aus der obigen Tabelle ist ersichtlich, dass man 2 Arten von Fehlern begehen kann:

– Fehler 1. Art: H0 wird verworfen, obwohl sie richtig ist (oben rechts).

– Fehler 2. Art: H0 wird nicht verworfen, obwohl sie falsch ist (unten links).

Das Signi…kanzniveau eines Tests ist die Wahrscheinlichkeit eines Fehlers 1. Art (wird oft mit bezeichnet).

Im Zusammenhang damit steht die Macht (auch Güte, power) eines Tests. Die Macht eines Tests ist die Wahrscheinlichkeit die Nullhypothese zu verwerfen wenn sie falsch ist, nämlich 1 Wahrscheinlichkeit eines Fehlers 2. Art (unten rechts).

Wenn wir keinen Fehler 1. Art akzeptieren (mit positiver Wahrscheinlichkeit), dann kann der Test eine Hypothese nie verwerfen. Das ist dann natürlich kein sehr nützlicher Test.

Faustregel: Wir wollen Tests so ‘konstruieren’, dass wir H0 verwerfen, wenn die Teststatistik Werte annimmt, die unter H0 ‘unwahrscheinlich’sind.

Also: wenn der wahre Wert des Parameters ist, wie wahrscheinlich ist dann der Schätzwert bj, den wir aus unserer Stichprobe ermittelt haben?

Dafür muss man die Verteilung von bj unter der Nullhypothese kennen, und man muss ein Signi…kanzniveau festlegen, d.h. eine unvermeidliche Wahr-scheinlichkeit für den Fehler 1. Art akzeptieren. Gebräuchlich sind 10 %, 5 % oder 1 % (also für z.B. 5 % wäre = 0:05).

Betrachten wir den Fall eines zweiseitigen Tests. Dieser soll folgende Hypothesen untersuchen:

H0 : j = gegen

H1 : j 6=

Die Teststatistik ist gegeben als:

t j= =

bj

se(bj)

Wir lehnen die Nullhypothese ab, wenn bj entweder sehr viel kleiner als oder sehr viel größer als ist.

Genauer: Ablehnung der Nullhypothese erfolgt, wenn die Wahrscheinlichkeit, die ermittelte Teststatistik t

j= in der Stichprobe zu erhalten, kleiner als das gewählte Signi…kanzniveau ist.

Formal: die Entscheidungsregel ist gegeben durch den kritischen Bereich lehne H0 ab, wenn t

j= > ctn (k+1);1 =2

d.h. wir lehnen die Nullhypothese ab, wenn die Teststatistik betragsmäßig größer als der kritische Wert ctn (k+1);1 =2 ist.

Der kritische Wert ist das (1 =2)-Quantil der t-Verteilung mit n (k + 1) Freiheitsgraden.

Gra…k: kritischer Bereich für n ! 1

-40 -3 -2 -1 0 1 2 3 4

0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

t-Verteilung für große Stichproben

kritischer Wert: |1,96 | Fläche 0,95

Fläche 0,025 Fläche 0,025

Beispiel: t-Test (Lohndaten). Das Modell lautet weiterhin

ln(wagei) = 0 + 1educi + 2experi + ui

In diesem Fall ist es sinnvoll zu testen, ob die Nullhypothese H0 : j = 0 abgelehnt werden kann (also der Hypothesenwert = 0).

Die Nullhypothese lautet also: Ausbildung und Berufserfahrung haben keinen Ein‡uss auf den Lohnsatz, ein beobachteter Zusammenhang kann allein durch den Zufall bei der Stichprobenziehung erklärt werden.

Das würde bedeuten, dass die zugehörige unabhängige Variable keinen statis-tisch signi…kanten Ein‡uss auf die Werte der abhängigen Variable hat.

Getestet wird die Nullhypothese gegen die Alternative H1 : j 6= 0.

Da wir bereits alle notwendigen Größen berechnet haben, können wir die drei Teststatistiken direkt angeben als (gerundet)

t 0=0 = 0;2169 0

0;1086 = 1;9972 t

1=0 = 12;8816 t

2=0 = 6;4375

Das 97,5%-Quantil der (symmetrischen) t-Verteilung mit 526-(2+1) = 523 Freiheitsgraden beträgt 1,9645 (siehe Tabellen in Ihrem Statistik-Lehrbuch, oder eine Funktion Ihrer Ökonometrie-Software).

Alle drei t-Statistiken sind (absolut) größer als das Quantil, sodass in allen drei Tests die Nullhypothese zum Signi…kanzniveau 5% abgelehnt werden kann.

Es kann also –unter den gemachten Annahmen –behauptet werden, dass sowohl educ als auch exper einen statistisch signi…kanten Ein‡uss auf den Lohn haben (der Zusammenhang wirkt also nicht rein zufällig).

Eine nützliche Faustregel

Für die häu…g getestete Nullhypothese H0 : j = 0 ist die Teststatistik einfach

bj

se(bj)

also der betragsmäßige Quotient aus Parameterschätzer und dessen Standard-fehler.

Für große Stichproben ist der kritische Wert der t-Verteilung für diese Hypothese beim 5%-Signi…kanzniveau

n ! 1; = 0;05 : ctn (k+1);1 =2 = ct

1;0:975 = 1;9645 also etwas weniger als 2.

Als grobe Faustregel kann man sich daher merken: ein Parameter ist auf dem 5%-Signi…kanzniveau statistisch signi…kant von null verschieden, wenn der Pa-rameterschätzer im Betrag mindestens doppelt so großist, wie sein Standard-fehler.

Kon…denzintervalle

Eine Parameterschätzung bj an sich sagt nichts über die Unsicherheit der Schät-zung der unbekannten Parameter. Daher interessiert die Frage: welches Intervall beinhaltet den wahren, unbekannten Parameter j mit einer gewissen, vorge-gebenen Wahrscheinlichkeit?

Formal also: Sei j ein unbekannter Parameter, dann bezeichnet das Intervall [Vu;Vo], ein Kon…denzintervall zum Niveau 1 , falls gilt

P(Vu j Vo) = 1

Hierbei sind die Intervallgrenzen Vu < Vo Stichprobenfunktionen, die von den Daten abhängen.

Hier wird die Beziehung zu den oben diskutierten Parametertests deutlich. Wir haben soeben gesehen, dass der Ablehnungsbereich eines t-Tests der Nullhypo-these H0 : j = 0 gegeben ist durch

Ein symmetrisches zweiseitiges (1 )-%-Kon…denzintervall für den Parameter

j ist daher gegeben durch

bj ct

n (k+1);1 =2 se(bj)

Das Kon…denzintervall kann als Nichtverwerfungsregion (für Hypothesen bzgl.

der Koe¢ zienten) interpretiert werden.

Für jedes im Kon…denzintervall kann die Nullhypothese H0 : j = zum Niveau nicht verworfen werden (gegen die Alternative H1 : j 6= ).

Wir betrachten erneut das Beispielmodell:

Betrachten wir den Koe¢ zienten von educ. Bei = 0;05 gilt ct523;0;975 = 1;9645. Damit ist das (1 )-Kon…denzintervall bzw. 95%-Kon…denzintervall gegeben durch

beduc ct523;0;975 se(beduc) = [0;0979 1;9645 0;0076 ; 0;0979 + 1;9645 0;0076]

= [0;0830 ; 0;1129]

Interpretation: die Wahrscheinlichkeit, dass das obige Intervall den wahren Pa-rameter überdeckt, beträgt 95%.

p-Wert

Der p-Wert oder das marginale Signi…kanzniveau einer Teststatistik ist das kleinste Signi…kanzniveau min zu dem die H0 verworfen wird (wenn sie korrekt ist).

Klarerweise hängt der p-Wert auch von der betrachteten Alternativhypothese ab (da die kritische Region von H1 abhängt).

So ist bei einem zweiseitigen t-Test mit H0 : j = 0, H1 : j 6= 0 (also Signi…kanztest) der zweiseitige p-Wert gegeben durch

P(jt

j=0j > jt j)

wenn t den numerischen Wert der t-Statistik bezeichnet.

Je kleiner der p-Wert umso stärker ist die Evidenz gegen H0 (im Vergleich zur betrachteten H1).

Zusammenhang mit der Testentscheidung des t-Tests: Wenn der p-Wert kleiner als das gewählte Signi…kanzniveau ist, kann H0 bei der Fehlerwahrscheinlich-keit abgelehnt werden.

Fast jede Statistik-Software gibt p-Werte an. Dadurch fällt das länger dauernde Berechnen von und vergleichen mit kritischen Werten weg.

Einen Großteil der gretl-Ausgabe können wir inzwischen interpretieren. Hier für das Beispielmodell:

Testen von Hypothesen bezüglich einer Linearkombination von Parametern

Wie können wir z. B. die H0 : 1 + 2 3 = 5 testen?

Allgemeiner können wir diese Art von Hypothese formulieren als:

H0 : r0 r1 rk

Erste Frage: Was ist die (bedingte) Verteilung von Rb r?

bjX N( ; 2(X0X) 1)

RbjX N(R ; 2R(X0X) 1R0)

Rb rjX N(R r; 2R(X0X) 1R0)

D. h. Rb r ist normalverteilt und wenn H0 zutri¤t – wenn also R = r – mit Mittelwert 0.

Wenn H0 nicht zutri¤t, ist der Erwartungswert ungleich 0.

Zu beachten: R(X0X) 1R0 ist hier ein Skalar, da R in diesem Fall eine ein-zeilige Matrix ist.

Das deutet alles wieder auf einen t-Test hin (einseitig, zweiseitig, ...)

Unter der Nullhypothese H0 : R = r haben wir tR =r = Rb r

q

b2R(X0X) 1R0

tn (k+1)

Überlegen Sie, wie Sie die kritischen Regionen (zum Niveau ) für die Tests mit den Alternativen H1 : R 6= r, H1 : R > r und H1 : R < r konstruieren.

Testen mehrerer linearer Hypothesen (F-Test)

Oftmals will man mehrere Hypothesen gemeinsam testen, z. B.:

H0 : 0 = 0

1 + 2 2 = 3

4 = 5

Die multiple lineare Hypothese können wir formal wie vorher beschreiben H0 : R = r;

mit R 2 Rq (k+1) und r 2 Rq.

Das heißt q (k + 1) ist die Anzahl der Hypothesen und es ist sinnvoll anzunehmen (warum?), dass der Rang von R gleich q ist (voller Rang).

Im Fall multipler Hypothesen ist die Alternative H1 : R 6= r.

Da R und r Vektoren sind, ist nicht klar, was > oder < heißen soll.

Außerdem könnte für manche der einzelnen Hypothesen > und für andere <

als Alternative relevant sein.

R r ist selbst ein Vektor: Teststatistik wird zusammenhängen mit Länge dieses Vektors (also der Anzahl der Restriktionen).

Die Teststatistik kann in mehreren äquivalenten Formen angegeben bzw. her-geleitet werden (Beweise siehe Literatur).

Eine Basis ist die Verteilung der Abweichungen von der Hypothese (Rb r), für die gilt:

(Rb r)0 hR 2(X0X) 1R0i 1 (Rb r) 2q

Idee: wenn die Nullhypothese zutri¤t, werden die Abweichungen (Rb r) (ge-wichtet mit ihrer Varianz) klein sein, so dass ein großer Wert der Teststatistik zur Ablehnung führt.

Für die praktische Durchführung muss wieder 2 durch b2 ersetzt werden.

Das führt dann auf die F-Verteilung. Man kann den F-Test in verschiedenen Formen angeben, was eine intuitivere Darstellung ermöglicht.

Eine mögliche Darstellungsform ist die folgende F-Statistik die F-verteilt ist mit q und n (k + 1) Freiheitsgraden.

Die F-Statistik misst die gewichtete quadrierte Summe der Abweichungen von der Nullhypothese.

Gewichtet: Wir wollen wissen, ob die Abweichung großist für eine Zufallsvariable – deshalb die Skalierung mit (geschätzter) Varianz.

Die kritische Region (zum Niveau ) ist gegeben durch:

F > cF

q;n (k+1);1

was sich in Tabellen der F-Verteilung in Ökonometrielehrbüchern oder in der entsprechenden Funktion der verwendeten Software nachschlagen lässt.

Alternative Formulierungen des F-Tests (die äquivalent sind) basieren auf einem geeigneten Vergleich des

– unrestringierten OLS-Schätzers b mit dem – restringierten OLS-Schätzer ~.

Der restringierte OLS-Schätzer ~ ist die Lösung des folgenden Problems:

~ = ~

Aus der Lösung kann man dann die Residuen u~ des restringierten Modells ge-winnen (im Gegensatz zu den Residuen ub des unrestringierten Modells).

Die F-Statistik ist damit äquivalent auch darstellbar als

Die erste Darstellung zeigt, dass die Teststatistik misst, wie stark sich die ge-schätzten Parameter ändern, wenn man die Restriktionen R = r auferlegt.

Die zweite Darstellung verwendet als Maß, um wie viel schlechter die Anpassung des Modells ist, wenn die Restriktionen auferlegt werden.

Der Zähler ist die Di¤erenz der restringierten Residuenquadratsumme u~0u~ und der unrestringierten Residuenquadratsumme ub0ub.

Wieso ist der Zähler sicher nicht-negativ?

Wenn die Hypothese dergestalt ist, dass auch unter H0 die Konstante im Modell enthalten ist (also keine der Hypothesen ist 0 = 0), dann gibt es eine weitere äquivalente Form der F-Statistik.

Bezeichne R2 das Bestimmtheitsmaßder unrestringierten Regression und R~2 das der restringierten Regression. Dann kann man die folgende F-Statistik ver-wenden:

F = R2 R~2 1 R2

n (k + 1) q

Überlegen Sie sich, warum notwendigerweise R2 R~2 gilt.

Wir können, um eine einzelne Hypothese zu testen, statt des t-Tests natürlich auch den F-Test verwenden (für die Version mit H0 : j = gegen die zweiseitige Alternative H0 : j 6= ).

Die entsprechende F-Statistik stimmt exakt überein mit dem Quadrat der t-Statistik.

Veri…zieren Sie dies, indem Sie die F-Statistik für eine Hypothese mit der t-Statistik vergleichen (was sind in diesem Fall R und r?).

Im Beispielmodell: Bereits im letzten Kapitel haben wir die Hypothese H0 :

1 = 0 mithilfe eines t-Tests überprüft. Wenn wir stattdessen einen F-Test anwenden möchten, ist

R = h 0 1 0 i und r = h 0 i Rb r = h 0;0979 i

hR(X0X) 1R0i 1 = h 3664;2470 i

b2 = SSR

523 = 0;2129

Damit ist F = 165;0812 > 3;8593 = cF1;523; 0;95 und die Nullhypothese wird zum Niveau 5 % abgelehnt.

p165;0812 = 12;8484 t

1=0. (Die Unterschiede ergeben sich durch Run-dungsfehler!)

Signi…kanz der Regression

Als Spezialfall betrachten wir die Nullhypothese, dass

H0 : 1 = : : : = k = 0

d. h. dass keine der erklärenden Variablen signi…kant ist ( 0 entspricht wie üblich der Konstanten).

Dies testet die Signi…kanz des Regressionsmodells insgesamt.

Formal können wir diese H0 schreiben als:

R =

Jede der angegebenen Formulierungen der F-Statistik kann verwendet werden.

Die letzte angegebene ist in diesem Fall jedoch besonders einfach, denn: wir wis-sen, dass das BestimmtheitsmaßR2 in einer Regression nur auf die Konstante gleich 0 ist. Damit vereinfacht sich die R2-Form der F-Teststatistik zu:

F = R2 1 R2

n (k + 1)

k Fk;n (k+1)

Diese Teststatistik wird in vielen Softwarepaketen automatisch mit ausgegeben, und heißt dann dort meistens auch einfach F oder ähnlich (siehe obiger gretl-Output).

Beispiel für den F-Test

Hier ein Beispiel. Wir verwenden den Datensatz labour2 aus Verbeek: ein Querschnitt mit Beobachtungen über 569 belgische Firmen für 1996. Wir un-tersuchen die Determinanten der Arbeitsnachfrage (wovon hängt die Zahl der Beschäftigten ab?).

Grundhypothese: Arbeitsnachfrage sollte aus dem Verhalten der Unternehmen folgen, die bei Gewinnmaximierung eine Beschäftigung wählen würden, bei dem das Grenzprodukt der Arbeit gleich dem Lohnsatz ist.

Man muss also das Grenzprodukt der Arbeit schätzen. Dafür benötigt man eine Annahme bezüglich der Produktionsfunktion.

Welche Produktionsfunktion soll man unterstellen? Dazu gibt es eine riesige empirische Literatur.

Sei Qi der Output einer Firma (Wertschöpfung in Mio Euro), Li der Ar-beitseinsatz (Zahl der Beschäftigten) und Ki der Kapitalstock (Anlagevermögen in Mio Euro). Dann unterstellen wir eine (noch recht einfache und doch ziemlich allgemeine) CES-Produktionsfunktion (constant elasticity of substitution)

Qi = z L

wobei z ein konstanter Skalierungsfaktor für das technologische Niveau ist, 2 (0;1), > 0.

Der Parameter > 0ist die Substitutionselastizität. Wie leicht können Arbeit und Kapital gegeneinander substituiert werden?

– ! 0 gar nicht (Leontief, feste Koe¢ zienten)

– ! 1 sehr leicht (Produktionsfunktion wird linear)

– ! 1 ein berühmter Spezialfall, die CES-Produktionsfunktion wird für

! 1 zur Cobb-Douglas-Funktion Qi = zLi Ki1

Bei Gewinnmaximierung gilt bekanntlich: (Real-)Lohn = Grenzprodukt der Ar-beit, also (mit Wi dem Lohnsatz)

Wi = @Qi

was aufgelöst nach dem Arbeitseinsatz Li die Arbeitsnachfragefunktion des i-ten Unternehmens ergibt:

Li = z 1QiWi

Das ist linear in Logarithmen (mit 0 = ln z 1 ):

lnLi = 0 + ln Qi lnWi

Fügen wir die unvermeidlichen Zufallsfehler ui hinzu, erhalten wir ein schätz-bares Modell:

lnLi = 0 + 1 lnQi + 2 lnWi + ui

worin wir 2 als interpretieren und für 1 einen Wert von eins erwarten.

Wir können dieses Modell schätzen und verschiedene theoretisch interessieren-den Hypothesen testen. So sagt das Modell voraus, dass 2 negativ sein sollte.

Wir können also testen:

H0 : 2 0 gegen H1 : 2 < 0 Das läuft auf einen t-Test hinaus.

Hier gehen wir einen Schritt weiter: Wir können auch testen, ob die einfachere Cobb-Douglas-Funktion ( ! 1) ausreicht, um die Daten zu beschreiben. Wir würden dann testen:

H0 : 1 = 1 und 2 = 1 Dafür verwenden wir den F-Test.

Hier die gretl-Ausgabe für die OLS-Schätzung:

Machen Sie sich klar, welche Interpretation der ausgegebene Wert für F(2;566) in dieser Tabelle hat!

Wenden wir nun den uns interessierenden F-Test auf H0 : 1 = 1 und 2 =

Im Dokument 3 Multiple Regression (Seite 42-76)