Statistik II f¨ ur Betriebswirte Vorlesung 8
Dr. Andreas W¨unsche
TU Bergakademie Freiberg Institut f¨ur Stochastik
2. Dezember 2019
7. Regressionsanalyse
7.1. Lineare Regression
I W¨ahrend bei der Korrelationsanalyse eine qualitative Analyse von Zusammenh¨angen zwischen Merkmalen im Vordergrund stand, f¨uhrt man bei derRegressionsanalyse einequantitative Analyse von derartigen Zusammenh¨angen durch.
I Insbesondere sucht man im Rahmen einer Regressionsanalyse, z.B.
auf der Basis von Beobachtungen (x1,y1), . . .(xn,yn), nach einem konkreten funktionalen Zusammenhang, der die Abh¨angigkeit eines Merkmals Y von einer Merkmalsgr¨oße X beschreibt.
(einfache Regression)
I ImBeispiel 6.4 kann man z.B. die Frage stellen, ob einfunktionaler Zusammenhang zwischen den Variablen Jahresumsatz (Y) und der Pr¨adiktorvariablen Verkaufsfl¨ache (X) besteht?
I Gesucht ist also eine Funktionf, die aus der Pr¨adiktorvariablen Verkaufsfl¨ache (X) eine Vorhersage f¨ur die abh¨angige Variable Jahresumsatz (Y) liefert.
Regression
I Daten: (x1,y1),(x2,y2), . . . ,(xn,yn)
I Annahme:Es existiert ein kausaler Zusammenhang der Form y =f(x) zwischen der abh¨angigen Variabley und der Pr¨adiktorvariable x.
Weitere Annahme : Die Funktionf hat eine bestimmte Form.
Beispiele:
I LineareRegression (der Zusammenhang wird also durch eine Gerade beschrieben):y =b0+b1x,
I QuadratischeRegression (der Zusammenhang wird durch eine Parabel beschrieben):y =b0+b1x+b2x2,
I usw.
I Beachte: Der Zusammenhang ist in der Regel nicht exakt zu beobachten. Das Modell (Lineare Regression) lautet:
Y =b0+b1x+ε Dabei bezeichnet εeine zuf¨allige St¨orgr¨oße.
Streudiagramm f¨ ur die Daten aus Beispiel 6.4
Simple Regression - Jahresumsatz vs. Verkaufsfläche Dependent variable: Jahresumsatz (Mio Euro)
Independent variable: Verkaufsfläche (1000 qm) Linear model: Y = a + b*X
Coefficients
Least Squares Standard T
Parameter Estimate Error Statistic P-Value Intercept 0,605675 0,288656 2,09826 0,0623 Slope 5,22209 0,296079 17,6375 0,0000
Dr. Andreas W¨unsche Statistik II f¨ur Betriebswirte Vorlesung 8 Version: 27. November 2019 4
Die Methode der kleinsten Quadrate
I Daten: (x1,y1),(x2,y2), . . . ,(xn,yn)
I Annahme:Es existiert ein linearer Zusammenhang:Y =b0+b1x+ε
I Gesucht ist diejenige Gerade, die den Zusammenhang zwischenY und x am besten beschreibt.
I Bestimme die Gerade so, dass die Summe der quadrierten senk- rechten Abst¨ande zwischen der Gerade und den Daten minimal wird.
I Datum an der Stellexi: yi
I Wert der Geraden an der Stellexi: b0+b1xi I Differenz: yi−(b0+b1xi)
I Minimiere:
QS(b0,b1) =
n
X
i=1
(yi −(b0+b1xi))2 .
Die Regressionsgerade
I Die L¨osung des Extremwertproblems liefert Sch¨atzer f¨ur die Steigung und den Achsenabschnitt der Geraden:
bˆ1 =
n
P
i=1
(xi−x)(yi−y)
n
P
i=1
(xi −x)2
=
n
P
i=1
xiyi −nx y
n
P
i=1
xi2−nx2
= sY
sXrX,Y , bˆ0 =y−bˆ1x und damit die Gleichung der gesch¨atzten Regressionsgeraden
ˆ
y = ˆb0+ ˆb1x.
I Der Wert der gesch¨atzten Regressionsgerade an der Stellexi ist ˆ
yi = ˆb0+ ˆb1xi.
I Die Abweichungen yi −yˆi nennt manResiduen.
I Die Summe der Residuen ist Null,
n
P
i=1
(yi−yˆi) = 0 .
I Die Regressionsgerade verl¨auft durch (x,y), den Schwerpunkt .
Weitere Bezeichnungen und Bemerkungen
I Eine m¨ogliche andere Parametrisierung ist a=b0 und b =b1.
=⇒ Modellgleichung: Y =a+bx+ε.
I Ist eine funktionale Abh¨angigkeit der Gr¨oße Y von der Gr¨oße X gesucht, nennt man
X und Y unter anderem auch:
I Regressor und Regressand,
I Einflussgr¨oße und Wirkungsgr¨oße,
I unabh¨angige Variable und abh¨angige Variable,
I Pr¨adiktorvariable und Zielvariable,
I exogene Variable und endogene Variable.
I Der Name
”Regression“ (
”R¨uckschritt“) geht aufGalton zur¨uck.
Ausgangspunkt war damals eine Untersuchung der Gr¨oße der S¨ohne (Variable Y) im Zusammenhang mit der Gr¨oße der V¨ater (Variable X) von Pearson. Galton schrieb damals:
”Each peculiarity in a man is shared by his kinsmen but on the average in a less degree.“
Beispiel 7.1 Jahresumsatz und Verkaufsfl¨ ache
I Fortsetzung vomBeispiel 6.4: Daten ausBleym¨uller et al, Statistik f¨ur Wirtschaftswissenschaftler, 2004, Kap. 20.
I i Filiale
xi Verkaufsfl¨ache in Tsd. qm yi Jahresumsatz in Mio. e
i 1 2 3 4 5 6
xi 0.31 0.98 1.21 1.29 1.12 1.49 yi 2.93 5.27 6.85 7.01 7.02 8.35
i 7 8 9 10 11 12
xi 0.78 0.94 1.29 0.48 0.24 0.55 yi 4.33 5.77 7.68 3.16 1.52 3.15
I Berechnung der Regressionsgeraden inStatgraphicsunter:
Relate→ One Factor → Simple Regression
(Beziehungen →Ein Faktor→ Einfache Regression).
Regressionsgerade im Beispiel 7.1 (Statgraphics)
Weitere Fragen zur Regression im Beispiel 7.1
I Sch¨atzer: ˆb0 = 0.606,bˆ1= 5.222
I Fragen:
I Wie genau sind diese Sch¨atzungen?
I Besteht ein (signifikanter) Einfluss der Verkaufsfl¨ache auf den Jahresumsatz?
H0 :b1= 0
I Wie gut beschreibt das lineare Regressionsmodell die Situation?
Genauigkeit der Sch¨ atzer f¨ ur die Parameter
I Beachte: Vor der Datenerhebung sind ˆb0 und ˆb1 zuf¨allig.
I Die mathematische Statistik (allgemeines lineares Modell) liefert Sch¨atzer f¨ur die Varianzen von ˆb0 und ˆb1
Sch¨atzer f¨ur die Varianz von ˆb0 : sb20= sRest2 n ·
n
P
i=1
xi2
n
P
i=1
(xi −x)2
Sch¨atzer f¨ur die Varianz von ˆb1: sb21 = sRest2
n · 1
1 n
n
P
i=1
(xi −x)2 Dabei ist
ˆ
σ2 =sRest2 = 1 n−2
n
X
i=1
(yi−yˆi)2 = 1 n−2
n
X
i=1
(yi −(ˆb0+ ˆb1xi))2 der Sch¨atzer f¨ur die Varianz der St¨orgr¨oßen.
I Je gr¨oßer der Stichprobenumfang n, desto genauer sind die Sch¨atzungen!
Streuungszerlegung
I Es gilt dieStreuungszerlegung SST=SSE+SSR mit SST=
n
X
i=1
(yi −y)2, der Totalvariabilit¨at (Totalvarianz);
SSE=
n
X
i=1
(ˆyi−y)2, der
”erkl¨arten“ Variabilit¨at (erkl¨arte Varianz);
SSR=
n
X
i=1
(yi−yˆi)2, der Restvariabilit¨at (Residualvarianz).
I Das Verh¨altnis B = SSE
SST = 1−SSR
SST heißt Bestimmtheitsmaß.
I Es gelten 0≤B ≤1 und B =r2
X,Y mit dem gew¨ohnlichen empirischen Korrelationskoeffizienten rX,Y .
I Je besser das Modell ist, desto kleiner ist die Residualvarianz, bzw. desto gr¨oßer ist das Bestimmtheitsmaß B!
Das stochastische Modell
I Weiterf¨uhrende statistische Aussagen, wie Konfidenzintervalle oder statistische Tests, basieren auf einem geeigneten stochastischen Modell.
I Ublicherweise nimmt man in dieser Situation an, dass¨ Yi =b0+b1xi+εi, i = 1, . . . ,n,
gilt, wobei die Werte xi (zun¨achst) deterministische, einstellbare Werte sind und die zuf¨alligen St¨orgr¨oßen durch unabh¨angige normalverteilte Zufallsgr¨oßenεi (
”zuf¨allige Fehler“) mit Eεi = 0 und Varεi =σ2 (unbekannt, aber konstant) verursacht werden.
I Unter diesen Bedingungen sind ˆb0 bzw. ˆb1 erwartungstreue und konsistente Sch¨atzfunktionen f¨ur die Modellparameter b0 bzw. b1.
I Die Standardabweichung σ der Fehler kann gesch¨atzt werden durch ˆ
σ =sRest =
rSSR n−2.
Konfidenzintervalle zum Niveau 1 − α f¨ ur die Parameter
I Ein Konfidenzintervall f¨ur b0 ist
[ˆb0−sb0tn−2;1−α/2 ; bˆ0+sb0tn−2;1−α/2] .
I Ein Konfidenzintervall f¨ur b1 ist
[ˆb1−sb1tn−2;1−α/2 ; bˆ1+sb1tn−2;1−α/2] .
I Ein Konfidenzintervall f¨ur die Fehlervarianz σ2 ist
"
(n−2)ˆσ2
χ2n−2;1−α/2 ; (n−2)ˆσ2 χ2n−2;α/2
#
=
"
SSR
χ2n−2;1−α/2 ; SSR
χ2n−2;α/2
# .
Konfidenzintervalle im Beispiel 7.1
Mit ˆb0 = 0.605675,sbˆ0 = 0.288656, ˆb1 = 5.22209, sbˆ1= 0.296079 (vgl.
Statgraphics-Ergebnisse auf Folie 17) lauten die Konfidenzintervalle zum Konfidenzniveau 95% f¨ur:
b0: [−0.038 ; 1.2494] und b1 : [4.5618 ; 5.8823]. Mit SSR= 1.66612 ist die Punktsch¨atzung f¨ur σ2, der Varianz der Fehler:
ˆ
σ2 = 1
n−2SSR= 1
101.66612 = 0.166612.
(vgl. Statgraphics-Ergebnisse auf Folie 19)
Damit ist das Konfidenzintervall f¨urσ2 zum Konfidenzniveau 95%:
[0.0814 ; 0.5127].
Tests f¨ ur die Parameter b
0und b
1I Hypothesen: H0 :b0 =b00, HA:b0 6=b00; bzw. H0 :b1 =b10, HA :b1 6=b10.
I Testgr¨oßen: Tb0 = bˆ0−b00
sb0 bzw. Tb1 = bˆ1−b10
sb1
I Die Testgr¨oßen sind unter H0 t−verteilt mitn−2 Freiheitsgraden.
I Kritischer Bereich (Niveau α) : K ={t∈R:|t|>tn−2;1−α/2}.
I Analog k¨onnen einseitige Tests durchgef¨uhrt werden.
t-Tests im Beispiel 7.1 mit Statgraphics
Simple Regression - Jahresumsatz vs. Verkaufsfläche Dependent variable: Jahresumsatz (Mio Euro)
Independent variable: Verkaufsfläche (1000 qm) Linear model: Y = a + b*X
Coefficients
Least Squares Standard T
Parameter Estimate Error Statistic P-Value Intercept 0,605675 0,288656 2,09826 0,0623 Slope 5,22209 0,296079 17,6375 0,0000
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 51,8297 1 51,8297 311,08 0,0000
Residual 1,66612 10 0,166612 Total (Corr.) 53,4959 11
Correlation Coefficient = 0,984304 R-squared = 96,8855 percent
R-squared (adjusted for d.f.) = 96,5741 percent Standard Error of Est. = 0,408182
I Test mit H0:b0= 0 gegen HA:b0 6= 0; bˆ0 = 0.605675 ,
p = 0.0623>0.05 =α ⇒ H0 wird nicht abgelehnt, d.h., man kann nicht darauf schließen, dass der Koeffizient b0 signifikant von 0 verschieden ist.
I Test mit H0:b1= 0 gegen HA:b1 6= 0; bˆ1 = 5.22209 ,
p = 0.0000<0.05 =α ⇒H0 wird abgelehnt, d.h., der Koeffizient b1 ist signifikant von 0 verschieden.
F-Test f¨ ur die Hypothese H
0: b
1= 0
I Es besteht also ein signifikanter Einfluss der Verkaufsfl¨ache auf den Jahresumsatz.
I Die Hypothesen
H0 : b1 = 0 gegen HA:b1 6= 0
k¨onnen auch mit dem F-Test getestet werden. Dieser Test spielt z.B.
im Modell der multiplen parameterlinearen Regression eine eigen- st¨andige Rolle.
I Testgr¨oße:
T =
1 1SSE
1
n−2SSR = MSE
MSR
I FallsH0:b1 = 0 gilt ist T ∼F1,n−2 und damit ist der kritische Bereich:
K ={t : t >F1,n−2;1−α}.
F-Test im Beispiel 7.1 mit Statgraphics
Simple Regression - Jahresumsatz vs. Verkaufsfläche
Dependent variable: Jahresumsatz (Mio Euro) Independent variable: Verkaufsfläche (1000 qm) Linear model: Y = a + b*X
Coefficients
Least Squares Standard T
Parameter Estimate Error Statistic P-Value Intercept 0,605675 0,288656 2,09826 0,0623 Slope 5,22209 0,296079 17,6375 0,0000
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 51,8297 1 51,8297 311,08 0,0000
Residual 1,66612 10 0,166612 Total (Corr.) 53,4959 11
Correlation Coefficient = 0,984304 R-squared = 96,8855 percent
R-squared (adjusted for d.f.) = 96,5741 percent Standard Error of Est. = 0,408182
t=
1
151.8297
1
12−21.66612 = 51.8297
0.166612 = 311.08>4.96 =F1,10;0.95
=⇒ H0 wird abgelehnt. (Gleiches Ergebnis wie beim t-Test.)
I Zusammenhang zum t-Test: Ist t∼tn−2, dann istt2 ∼F1,n−2. Hier: 17.63752 = 311.08.
I Zusammenhang zum Bestimmtheitsmaß B: Istt die Realisierung der Testgr¨oße des F-Tests, dann gilt:
1 n−2t 1 +n−21 t =
1 10311.08
1 +101311.08 = 0.96885 = 51.8297 53.4959 =B.
Konfidenzintervalle f¨ ur die Regressionsgerade
I H¨aufig m¨ochte man jedoch Konfidenzintervalle f¨ur denWert der Regressionsgerade an einer Stelle x (oder f¨ur ein Intervall von x−Werten) bestimmen, d.h. f¨ur EY(x) =b0+b1x.
I Ein solches Konfidenzintervall zum Niveau 1−α kann berechnet werden durch
[ ˆy(x)−d(x) ; ˆy(x) +d(x) ] mit y(x) = ˆˆ b0+ ˆb1x und
d(x) = ˆσ·tn−2,1−α/2
v u u u t 1
n + (x−x)2
n
P
i=1
(xi −x)2 .
I F¨ur unterschiedliche Werte x erh¨alt man unterschiedliche Abst¨ande zwischen der oberen und unteren Grenze. F¨ur alle x−Werte
betrachtet ergibt sich einKonfidenzstreifen(Konfidenzschlauch), der an der Stelle x=x am schmalsten ist.
Konfidenzstreifen im Beispiel (Statgraphics)
Prognoseintervalle f¨ ur Y (x )
I Berechnet man ein zuf¨alliges Intervall, welches mit einer vorgegebenen Wahrscheinlichkeit 1−α eine Realisierung von Y(x) =b0+b1x+ε ¨uberdeckt (Vorhersage f¨ur eine neue Beobachtung an einer Stelle x), erh¨alt man ein sogenanntes Prognoseintervallf¨ur Y(x) zum Niveau 1−α.
I Unter den gemachten Voraussetzungen berechnet man [ ˆy(x)−d(x) ; ˆy(x) +d(x) ] mit y(x) = ˆˆ b0+ ˆb1x und
d(x) = ˆσ·tn−2,1−α/2 v u u u t
1 +1
n + (x−x)2
n
P
i=1
(xi −x)2 .
I Bei Betrachtung beliebiger x−Werte erh¨alt man wieder einen Streifen um die Regressionsgerade, denPrognosestreifen. Er ist breiter als der zugeh¨orige Konfidenzstreifen zum selben Niveau.
Prognosestreifen im Beispiel (Statgraphics)
Konfidenz- und Prognosestreifen im Beispiel (Statgraphics)
Residualanalyse zur ¨ Uberpr¨ ufung des Modells
I Ist der Modellansatz, insbesondere die Normalverteilungsannahme der zuf¨alligen Fehler εi, i = 1, . . . ,n, richtig, dann sind die Residuen ˆεi =Yi−yˆi n¨aherungsweise unabh¨angig und identisch normalverteilt.
I Diese Eigenschaft kann anschaulich grafisch (Residualanalyse)
¨uberpr¨uft oder durch Anwendung statistischer Tests untersucht werden.
I DieResidualanalyse ist ein deskriptives Verfahren zur ¨Uberpr¨ufung der Modellannahmen anε1;. . .;εn. M¨ogliche Teilschritte sind dabei:
I A: Streudiagramm der Daten mit der Regessionsgerade,
I B: Streudiagramm der Residuen gegen die vorhergesagten
Werte ˆyi (oder z.B. auch gegen die Fallnummern derxi−Werte),
I C: Normalverteilungs-Q-Q-Plot der Residuen,
I D: Histogramm der Residuen mit angepasster Normalverteilungsdichte.
Streudiagramm und Regressionsgerade im Beispiel 7.1
Streudiagramm der Residuen im Beispiel 7.1
Unusual Residuals
Predicted Studentized Row X Y Y Residual Residual 1 0,31 2,93 2,22452 0,705478 2,47
Dr. Andreas W¨unsche Statistik II f¨ur Betriebswirte Vorlesung 8 Version: 27. November 2019 27
Normalverteilungs-Q-Q-Plot im Beispiel 7.1 (Statgraphics)
Tests for Normality for RESIDUALS Test Statistic P-Value Shapiro-Wilk W 0,906018 0,18088
Dr. Andreas W¨unsche Statistik II f¨ur Betriebswirte Vorlesung 8 Version: 27. November 2019 28
Histogramm der Residuen im Beispiel 7.1 (Statgraphics)
Dr. Andreas W¨unsche Statistik II f¨ur Betriebswirte Vorlesung 8 Version: 27. November 2019 29
Shapiro-Wilk-Test im Beispiel 7.1 (Statgraphics)
Tests for Normality for RESIDUALS Test Statistic P-Value Shapiro-Wilk W 0,906018 0,18088
Tests for Normality for RESIDUALS
Test Statistic P-Value
Shapiro-Wilk W 0,906018 0,18088