Statistik II f¨ur Betriebswirte Vorlesung 8

(1)

Statistik II f¨ ur Betriebswirte Vorlesung 8

Dr. Andreas W¨unsche

TU Bergakademie Freiberg Institut f¨ur Stochastik

2. Dezember 2019

(2)

7. Regressionsanalyse

7.1. Lineare Regression

I Während bei der Korrelationsanalyse eine qualitative Analyse von Zusammenhängen zwischen Merkmalen im Vordergrund stand, führt man bei derRegressionsanalyse einequantitative Analyse von derartigen Zusammenhängen durch.

I Insbesondere sucht man im Rahmen einer Regressionsanalyse, z.B.

auf der Basis von Beobachtungen (x₁,y₁), . . .(x_n,y_n), nach einem konkreten funktionalen Zusammenhang, der die Abh¨angigkeit eines Merkmals Y von einer Merkmalsgr¨oße X beschreibt.

(einfache Regression)

I ImBeispiel 6.4 kann man z.B. die Frage stellen, ob einfunktionaler Zusammenhang zwischen den Variablen Jahresumsatz (Y) und der Pr¨adiktorvariablen Verkaufsfl¨ache (X) besteht?

I Gesucht ist also eine Funktionf, die aus der Prädiktorvariablen Verkaufsfläche (X) eine Vorhersage für die abhängige Variable Jahresumsatz (Y) liefert.

(3)

Regression

I Daten: (x₁,y₁),(x₂,y₂), . . . ,(x_n,y_n)

I Annahme:Es existiert ein kausaler Zusammenhang der Form y =f(x) zwischen der abh¨angigen Variabley und der Pr¨adiktorvariable x.

Weitere Annahme : Die Funktionf hat eine bestimmte Form.

Beispiele:

I LineareRegression (der Zusammenhang wird also durch eine Gerade beschrieben):y =b₀+b₁x,

I QuadratischeRegression (der Zusammenhang wird durch eine Parabel beschrieben):y =b₀+b₁x+b₂x²,

I usw.

I Beachte: Der Zusammenhang ist in der Regel nicht exakt zu beobachten. Das Modell (Lineare Regression) lautet:

Y =b₀+b₁x+ε Dabei bezeichnet εeine zufällige Störgröße.

(4)

Streudiagramm f¨ ur die Daten aus Beispiel 6.4

Simple Regression - Jahresumsatz vs. Verkaufsfläche Dependent variable: Jahresumsatz (Mio Euro)

Independent variable: Verkaufsfläche (1000 qm) Linear model: Y = a + b*X

Coefficients

Least Squares Standard T

Parameter Estimate Error Statistic P-Value Intercept 0,605675 0,288656 2,09826 0,0623 Slope 5,22209 0,296079 17,6375 0,0000

Dr. Andreas W¨unsche Statistik II f¨ur Betriebswirte Vorlesung 8 Version: 27. November 2019 4

(5)

Die Methode der kleinsten Quadrate

I Daten: (x1,y1),(x2,y2), . . . ,(xn,yn)

I Annahme:Es existiert ein linearer Zusammenhang:Y =b₀+b₁x+ε

I Gesucht ist diejenige Gerade, die den Zusammenhang zwischenY und x am besten beschreibt.

I Bestimme die Gerade so, dass die Summe der quadrierten senk- rechten Abst¨ande zwischen der Gerade und den Daten minimal wird.

I Datum an der Stellexi: yi

I Wert der Geraden an der Stellexi: b0+b1xi I Differenz: yi−(b0+b1xi)

I Minimiere:

QS(b0,b1) =

n

X

i=1

(yi −(b0+b1xi))² .

(6)

Die Regressionsgerade

I Die Lösung des Extremwertproblems liefert Schätzer für die Steigung und den Achsenabschnitt der Geraden:

bˆ₁ =

n

P

i=1

(x_i−x)(y_i−y)

n

P

i=1

(xi −x)²

=

n

P

i=1

x_iy_i −nx y

n

P

i=1

x_i²−nx²

= s_Y

s_Xr_X_,Y , bˆ₀ =y−bˆ₁x und damit die Gleichung der gesch¨atzten Regressionsgeraden

ˆ

y = ˆb₀+ ˆb₁x.

I Der Wert der gesch¨atzten Regressionsgerade an der Stellex_i ist ˆ

y_i = ˆb₀+ ˆb₁x_i.

I Die Abweichungen y_i −yˆ_i nennt manResiduen.

I Die Summe der Residuen ist Null,

n

P

i=1

(yi−yˆi) = 0 .

I Die Regressionsgerade verl¨auft durch (x,y), den Schwerpunkt .

(7)

Weitere Bezeichnungen und Bemerkungen

I Eine m¨ogliche andere Parametrisierung ist a=b0 und b =b1.

=⇒ Modellgleichung: Y =a+bx+ε.

I Ist eine funktionale Abhängigkeit der Größe Y von der Größe X gesucht, nennt man

X und Y unter anderem auch:

I Regressor und Regressand,

I Einflussgr¨oße und Wirkungsgr¨oße,

I unabh¨angige Variable und abh¨angige Variable,

I Pr¨adiktorvariable und Zielvariable,

I exogene Variable und endogene Variable.

I Der Name

”Regression“ (

”R¨uckschritt“) geht aufGalton zur¨uck.

Ausgangspunkt war damals eine Untersuchung der Größe der Söhne (Variable Y) im Zusammenhang mit der Größe der Väter (Variable X) von Pearson. Galton schrieb damals:

”Each peculiarity in a man is shared by his kinsmen but on the average in a less degree.“

(8)

Beispiel 7.1 Jahresumsatz und Verkaufsfl¨ ache

I Fortsetzung vomBeispiel 6.4: Daten ausBleym¨uller et al, Statistik f¨ur Wirtschaftswissenschaftler, 2004, Kap. 20.

I i Filiale

x_i Verkaufsfl¨ache in Tsd. qm y_i Jahresumsatz in Mio. e

i 1 2 3 4 5 6

xi 0.31 0.98 1.21 1.29 1.12 1.49 yi 2.93 5.27 6.85 7.01 7.02 8.35

i 7 8 9 10 11 12

x_i 0.78 0.94 1.29 0.48 0.24 0.55 y_i 4.33 5.77 7.68 3.16 1.52 3.15

I Berechnung der Regressionsgeraden inStatgraphicsunter:

Relate→ One Factor → Simple Regression

(Beziehungen →Ein Faktor→ Einfache Regression).

(9)

Regressionsgerade im Beispiel 7.1 (Statgraphics)

(10)

Weitere Fragen zur Regression im Beispiel 7.1

I Sch¨atzer: ˆb0 = 0.606,bˆ1= 5.222

I Fragen:

I Wie genau sind diese Sch¨atzungen?

I Besteht ein (signifikanter) Einfluss der Verkaufsfl¨ache auf den Jahresumsatz?

H0 :b1= 0

I Wie gut beschreibt das lineare Regressionsmodell die Situation?

(11)

Genauigkeit der Sch¨ atzer f¨ ur die Parameter

I Beachte: Vor der Datenerhebung sind ˆb0 und ˆb1 zuf¨allig.

I Die mathematische Statistik (allgemeines lineares Modell) liefert Sch¨atzer f¨ur die Varianzen von ˆb₀ und ˆb₁

Sch¨atzer f¨ur die Varianz von ˆb0 : s_b²₀= s_Rest² n ·

n

P

i=1

x_i²

n

P

i=1

(x_i −x)²

Sch¨atzer f¨ur die Varianz von ˆb1: s_b²₁ = s_Rest²

n · 1

1 n

n

P

i=1

(xi −x)² Dabei ist

ˆ

σ² =s_Rest² = 1 n−2

n

X

i=1

(yi−yˆi)² = 1 n−2

n

X

i=1

(yi −(ˆb0+ ˆb1xi))² der Schätzer für die Varianz der Störgrößen.

I Je gr¨oßer der Stichprobenumfang n, desto genauer sind die Sch¨atzungen!

(12)

Streuungszerlegung

I Es gilt dieStreuungszerlegung SST=SSE+SSR mit SST=

n

X

i=1

(yi −y)², der Totalvariabilit¨at (Totalvarianz);

SSE=

n

X

i=1

(ˆy_i−y)², der

”erklärten“ Variabilität (erklärte Varianz);

SSR=

n

X

i=1

(yi−yˆi)², der Restvariabilit¨at (Residualvarianz).

I Das Verh¨altnis B = SSE

SST = 1−SSR

SST heißt Bestimmtheitsmaß.

I Es gelten 0≤B ≤1 und B =r²

X,Y mit dem gew¨ohnlichen empirischen Korrelationskoeffizienten r_X_,Y .

I Je besser das Modell ist, desto kleiner ist die Residualvarianz, bzw. desto gr¨oßer ist das Bestimmtheitsmaß B!

(13)

Das stochastische Modell

I Weiterf¨uhrende statistische Aussagen, wie Konfidenzintervalle oder statistische Tests, basieren auf einem geeigneten stochastischen Modell.

I Ublicherweise nimmt man in dieser Situation an, dass¨ Yi =b0+b1xi+εi, i = 1, . . . ,n,

gilt, wobei die Werte xi (zunächst) deterministische, einstellbare Werte sind und die zufälligen Störgrößen durch unabhängige normalverteilte Zufallsgrößenε_i (

”zuf¨allige Fehler“) mit Eε_i = 0 und Varεi =σ² (unbekannt, aber konstant) verursacht werden.

I Unter diesen Bedingungen sind ˆb₀ bzw. ˆb₁ erwartungstreue und konsistente Sch¨atzfunktionen f¨ur die Modellparameter b0 bzw. b1.

I Die Standardabweichung σ der Fehler kann gesch¨atzt werden durch ˆ

σ =s_Rest =

rSSR n−2.

(14)

Konfidenzintervalle zum Niveau 1 − α f¨ ur die Parameter

I Ein Konfidenzintervall f¨ur b0 ist

[ˆb₀−s_b₀t_{n−2;1−α/2} ; bˆ₀+s_b₀t_{n−2;1−α/2}] .

I Ein Konfidenzintervall f¨ur b₁ ist

[ˆb1−sb1tn−2;1−α/2 ; bˆ1+sb1tn−2;1−α/2] .

I Ein Konfidenzintervall f¨ur die Fehlervarianz σ² ist

"

(n−2)ˆσ²

χ²_{n−2;1−α/2} ; (n−2)ˆσ² χ²_n−2;α/2

#

=

"

SSR

χ²_{n−2;1−α/2} ; SSR

χ²_n−2;α/2

# .

(15)

Konfidenzintervalle im Beispiel 7.1

Mit ˆb0 = 0.605675,sbˆ0 = 0.288656, ˆb1 = 5.22209, sbˆ1= 0.296079 (vgl.

Statgraphics-Ergebnisse auf Folie 17) lauten die Konfidenzintervalle zum Konfidenzniveau 95% f¨ur:

b₀: [−0.038 ; 1.2494] und b₁ : [4.5618 ; 5.8823]. Mit SSR= 1.66612 ist die Punktsch¨atzung f¨ur σ², der Varianz der Fehler:

ˆ

σ² = 1

n−2SSR= 1

101.66612 = 0.166612.

(vgl. Statgraphics-Ergebnisse auf Folie 19)

Damit ist das Konfidenzintervall f¨urσ² zum Konfidenzniveau 95%:

[0.0814 ; 0.5127].

(16)

Tests f¨ ur die Parameter b

0

und b

1

I Hypothesen: H0 :b0 =b00, HA:b0 6=b00; bzw. H0 :b1 =b10, H_A :b1 6=b10.

I Testgr¨oßen: T_b₀ = bˆ0−b00

s_b₀ bzw. T_b₁ = bˆ1−b10

s_b₁

I Die Testgr¨oßen sind unter H₀ t−verteilt mitn−2 Freiheitsgraden.

I Kritischer Bereich (Niveau α) : K ={t∈R:|t|>t_{n−2;1−α/2}}.

I Analog k¨onnen einseitige Tests durchgef¨uhrt werden.

(17)

t-Tests im Beispiel 7.1 mit Statgraphics

Simple Regression - Jahresumsatz vs. Verkaufsfläche Dependent variable: Jahresumsatz (Mio Euro)

Independent variable: Verkaufsfläche (1000 qm) Linear model: Y = a + b*X

Coefficients

Analysis of Variance

Source Sum of Squares Df Mean Square F-Ratio P-Value

Model 51,8297 1 51,8297 311,08 0,0000

Residual 1,66612 10 0,166612 Total (Corr.) 53,4959 11

Correlation Coefficient = 0,984304 R-squared = 96,8855 percent

R-squared (adjusted for d.f.) = 96,5741 percent Standard Error of Est. = 0,408182

I Test mit H₀:b₀= 0 gegen H_A:b₀ 6= 0; bˆ₀ = 0.605675 ,

p = 0.0623>0.05 =α ⇒ H0 wird nicht abgelehnt, d.h., man kann nicht darauf schließen, dass der Koeffizient b0 signifikant von 0 verschieden ist.

I Test mit H₀:b₁= 0 gegen H_A:b₁ 6= 0; bˆ₁ = 5.22209 ,

p = 0.0000<0.05 =α ⇒H0 wird abgelehnt, d.h., der Koeffizient b1 ist signifikant von 0 verschieden.

(18)

F-Test f¨ ur die Hypothese H

0

: b

1

= 0

I Es besteht also ein signifikanter Einfluss der Verkaufsfl¨ache auf den Jahresumsatz.

I Die Hypothesen

H0 : b1 = 0 gegen H_A:b1 6= 0

k¨onnen auch mit dem F-Test getestet werden. Dieser Test spielt z.B.

im Modell der multiplen parameterlinearen Regression eine eigen- st¨andige Rolle.

I Testgr¨oße:

T =

1 1SSE

1

n−2SSR = MSE

MSR

I FallsH0:b1 = 0 gilt ist T ∼F1,n−2 und damit ist der kritische Bereich:

K ={t : t >F1,n−2;1−α}.

(19)

F-Test im Beispiel 7.1 mit Statgraphics

Simple Regression - Jahresumsatz vs. Verkaufsfläche

Dependent variable: Jahresumsatz (Mio Euro) Independent variable: Verkaufsfläche (1000 qm) Linear model: Y = a + b*X

Coefficients

Analysis of Variance

Source Sum of Squares Df Mean Square F-Ratio P-Value

Model 51,8297 1 51,8297 311,08 0,0000

Residual 1,66612 10 0,166612 Total (Corr.) 53,4959 11

Correlation Coefficient = 0,984304 R-squared = 96,8855 percent

R-squared (adjusted for d.f.) = 96,5741 percent Standard Error of Est. = 0,408182

t=

1

151.8297

1

12−21.66612 = 51.8297

0.166612 = 311.08>4.96 =F_1,10;0.95

=⇒ H₀ wird abgelehnt. (Gleiches Ergebnis wie beim t-Test.)

I Zusammenhang zum t-Test: Ist t∼tn−2, dann istt² ∼F1,n−2. Hier: 17.6375² = 311.08.

I Zusammenhang zum Bestimmtheitsmaß B: Istt die Realisierung der Testgr¨oße des F-Tests, dann gilt:

1 n−2t 1 +_n−2¹ t =

1 10311.08

1 +₁₀¹311.08 = 0.96885 = 51.8297 53.4959 =B.

(20)

Konfidenzintervalle f¨ ur die Regressionsgerade

I Häufig möchte man jedoch Konfidenzintervalle für denWert der Regressionsgerade an einer Stelle x (oder für ein Intervall von x−Werten) bestimmen, d.h. für EY(x) =b0+b1x.

I Ein solches Konfidenzintervall zum Niveau 1−α kann berechnet werden durch

[ ˆy(x)−d(x) ; ˆy(x) +d(x) ] mit y(x) = ˆˆ b0+ ˆb1x und

d(x) = ˆσ·tn−2,1−α/2

v u u u t 1

n + (x−x)²

n

P

i=1

(x_i −x)² .

I Für unterschiedliche Werte x erhält man unterschiedliche Abstände zwischen der oberen und unteren Grenze. Für alle x−Werte

betrachtet ergibt sich einKonfidenzstreifen(Konfidenzschlauch), der an der Stelle x=x am schmalsten ist.

(21)

Konfidenzstreifen im Beispiel (Statgraphics)

(22)

Prognoseintervalle f¨ ur Y (x )

I Berechnet man ein zufälliges Intervall, welches mit einer vorgegebenen Wahrscheinlichkeit 1−α eine Realisierung von Y(x) =b₀+b₁x+ε überdeckt (Vorhersage für eine neue Beobachtung an einer Stelle x), erhält man ein sogenanntes Prognoseintervallfür Y(x) zum Niveau 1−α.

I Unter den gemachten Voraussetzungen berechnet man [ ˆy(x)−d(x) ; ˆy(x) +d(x) ] mit y(x) = ˆˆ b0+ ˆb1x und

d(x) = ˆσ·t_{n−2,1−α/2} v u u u t

1 +1

n + (x−x)²

n

P

i=1

(x_i −x)² .

I Bei Betrachtung beliebiger x−Werte erh¨alt man wieder einen Streifen um die Regressionsgerade, denPrognosestreifen. Er ist breiter als der zugeh¨orige Konfidenzstreifen zum selben Niveau.

(23)

Prognosestreifen im Beispiel (Statgraphics)

(24)

Konfidenz- und Prognosestreifen im Beispiel (Statgraphics)

(25)

Residualanalyse zur ¨ Uberpr¨ ufung des Modells

I Ist der Modellansatz, insbesondere die Normalverteilungsannahme der zufälligen Fehler ε_i, i = 1, . . . ,n, richtig, dann sind die Residuen ˆε_i =Y_i−yˆ_i näherungsweise unabhängig und identisch normalverteilt.

I Diese Eigenschaft kann anschaulich grafisch (Residualanalyse)

¨uberpr¨uft oder durch Anwendung statistischer Tests untersucht werden.

I DieResidualanalyse ist ein deskriptives Verfahren zur Überprüfung der Modellannahmen anε1;. . .;εn. Mögliche Teilschritte sind dabei:

I A: Streudiagramm der Daten mit der Regessionsgerade,

I B: Streudiagramm der Residuen gegen die vorhergesagten

Werte ˆyi (oder z.B. auch gegen die Fallnummern derxi−Werte),

I C: Normalverteilungs-Q-Q-Plot der Residuen,

I D: Histogramm der Residuen mit angepasster Normalverteilungsdichte.

(26)

Streudiagramm und Regressionsgerade im Beispiel 7.1

(27)

Streudiagramm der Residuen im Beispiel 7.1

Unusual Residuals

Predicted Studentized Row X Y Y Residual Residual 1 0,31 2,93 2,22452 0,705478 2,47

(28)

Normalverteilungs-Q-Q-Plot im Beispiel 7.1 (Statgraphics)

Tests for Normality for RESIDUALS Test Statistic P-Value Shapiro-Wilk W 0,906018 0,18088

(29)

Histogramm der Residuen im Beispiel 7.1 (Statgraphics)

(30)

Shapiro-Wilk-Test im Beispiel 7.1 (Statgraphics)

Tests for Normality for RESIDUALS Test Statistic P-Value Shapiro-Wilk W 0,906018 0,18088

Tests for Normality for RESIDUALS

Test Statistic P-Value

Shapiro-Wilk W 0,906018 0,18088