• Keine Ergebnisse gefunden

Statistik II f¨ur Betriebswirte Vorlesung 8

N/A
N/A
Protected

Academic year: 2021

Aktie "Statistik II f¨ur Betriebswirte Vorlesung 8"

Copied!
30
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Statistik II f¨ ur Betriebswirte Vorlesung 8

Dr. Andreas W¨unsche

TU Bergakademie Freiberg Institut f¨ur Stochastik

2. Dezember 2019

(2)

7. Regressionsanalyse

7.1. Lineare Regression

I W¨ahrend bei der Korrelationsanalyse eine qualitative Analyse von Zusammenh¨angen zwischen Merkmalen im Vordergrund stand, f¨uhrt man bei derRegressionsanalyse einequantitative Analyse von derartigen Zusammenh¨angen durch.

I Insbesondere sucht man im Rahmen einer Regressionsanalyse, z.B.

auf der Basis von Beobachtungen (x1,y1), . . .(xn,yn), nach einem konkreten funktionalen Zusammenhang, der die Abh¨angigkeit eines Merkmals Y von einer Merkmalsgr¨oße X beschreibt.

(einfache Regression)

I ImBeispiel 6.4 kann man z.B. die Frage stellen, ob einfunktionaler Zusammenhang zwischen den Variablen Jahresumsatz (Y) und der Pr¨adiktorvariablen Verkaufsfl¨ache (X) besteht?

I Gesucht ist also eine Funktionf, die aus der Pr¨adiktorvariablen Verkaufsfl¨ache (X) eine Vorhersage f¨ur die abh¨angige Variable Jahresumsatz (Y) liefert.

(3)

Regression

I Daten: (x1,y1),(x2,y2), . . . ,(xn,yn)

I Annahme:Es existiert ein kausaler Zusammenhang der Form y =f(x) zwischen der abh¨angigen Variabley und der Pr¨adiktorvariable x.

Weitere Annahme : Die Funktionf hat eine bestimmte Form.

Beispiele:

I LineareRegression (der Zusammenhang wird also durch eine Gerade beschrieben):y =b0+b1x,

I QuadratischeRegression (der Zusammenhang wird durch eine Parabel beschrieben):y =b0+b1x+b2x2,

I usw.

I Beachte: Der Zusammenhang ist in der Regel nicht exakt zu beobachten. Das Modell (Lineare Regression) lautet:

Y =b0+b1x+ε Dabei bezeichnet εeine zuf¨allige St¨orgr¨oße.

(4)

Streudiagramm f¨ ur die Daten aus Beispiel 6.4

Simple Regression - Jahresumsatz vs. Verkaufsfläche Dependent variable: Jahresumsatz (Mio Euro)

Independent variable: Verkaufsfläche (1000 qm) Linear model: Y = a + b*X

Coefficients

Least Squares Standard T

Parameter Estimate Error Statistic P-Value Intercept 0,605675 0,288656 2,09826 0,0623 Slope 5,22209 0,296079 17,6375 0,0000

Dr. Andreas W¨unsche Statistik II f¨ur Betriebswirte Vorlesung 8 Version: 27. November 2019 4

(5)

Die Methode der kleinsten Quadrate

I Daten: (x1,y1),(x2,y2), . . . ,(xn,yn)

I Annahme:Es existiert ein linearer Zusammenhang:Y =b0+b1x+ε

I Gesucht ist diejenige Gerade, die den Zusammenhang zwischenY und x am besten beschreibt.

I Bestimme die Gerade so, dass die Summe der quadrierten senk- rechten Abst¨ande zwischen der Gerade und den Daten minimal wird.

I Datum an der Stellexi: yi

I Wert der Geraden an der Stellexi: b0+b1xi I Differenz: yi(b0+b1xi)

I Minimiere:

QS(b0,b1) =

n

X

i=1

(yi −(b0+b1xi))2 .

(6)

Die Regressionsgerade

I Die L¨osung des Extremwertproblems liefert Sch¨atzer f¨ur die Steigung und den Achsenabschnitt der Geraden:

1 =

n

P

i=1

(xi−x)(yi−y)

n

P

i=1

(xi −x)2

=

n

P

i=1

xiyi −nx y

n

P

i=1

xi2−nx2

= sY

sXrX,Y , bˆ0 =y−bˆ1x und damit die Gleichung der gesch¨atzten Regressionsgeraden

ˆ

y = ˆb0+ ˆb1x.

I Der Wert der gesch¨atzten Regressionsgerade an der Stellexi ist ˆ

yi = ˆb0+ ˆb1xi.

I Die Abweichungen yi −yˆi nennt manResiduen.

I Die Summe der Residuen ist Null,

n

P

i=1

(yi−yˆi) = 0 .

I Die Regressionsgerade verl¨auft durch (x,y), den Schwerpunkt .

(7)

Weitere Bezeichnungen und Bemerkungen

I Eine m¨ogliche andere Parametrisierung ist a=b0 und b =b1.

=⇒ Modellgleichung: Y =a+bx+ε.

I Ist eine funktionale Abh¨angigkeit der Gr¨oße Y von der Gr¨oße X gesucht, nennt man

X und Y unter anderem auch:

I Regressor und Regressand,

I Einflussgr¨oße und Wirkungsgr¨oße,

I unabh¨angige Variable und abh¨angige Variable,

I Pr¨adiktorvariable und Zielvariable,

I exogene Variable und endogene Variable.

I Der Name

”Regression“ (

”R¨uckschritt“) geht aufGalton zur¨uck.

Ausgangspunkt war damals eine Untersuchung der Gr¨oße der S¨ohne (Variable Y) im Zusammenhang mit der Gr¨oße der V¨ater (Variable X) von Pearson. Galton schrieb damals:

”Each peculiarity in a man is shared by his kinsmen but on the average in a less degree.“

(8)

Beispiel 7.1 Jahresumsatz und Verkaufsfl¨ ache

I Fortsetzung vomBeispiel 6.4: Daten ausBleym¨uller et al, Statistik f¨ur Wirtschaftswissenschaftler, 2004, Kap. 20.

I i Filiale

xi Verkaufsfl¨ache in Tsd. qm yi Jahresumsatz in Mio. e

i 1 2 3 4 5 6

xi 0.31 0.98 1.21 1.29 1.12 1.49 yi 2.93 5.27 6.85 7.01 7.02 8.35

i 7 8 9 10 11 12

xi 0.78 0.94 1.29 0.48 0.24 0.55 yi 4.33 5.77 7.68 3.16 1.52 3.15

I Berechnung der Regressionsgeraden inStatgraphicsunter:

Relate→ One Factor → Simple Regression

(Beziehungen →Ein Faktor→ Einfache Regression).

(9)

Regressionsgerade im Beispiel 7.1 (Statgraphics)

(10)

Weitere Fragen zur Regression im Beispiel 7.1

I Sch¨atzer: ˆb0 = 0.606,bˆ1= 5.222

I Fragen:

I Wie genau sind diese Sch¨atzungen?

I Besteht ein (signifikanter) Einfluss der Verkaufsfl¨ache auf den Jahresumsatz?

H0 :b1= 0

I Wie gut beschreibt das lineare Regressionsmodell die Situation?

(11)

Genauigkeit der Sch¨ atzer f¨ ur die Parameter

I Beachte: Vor der Datenerhebung sind ˆb0 und ˆb1 zuf¨allig.

I Die mathematische Statistik (allgemeines lineares Modell) liefert Sch¨atzer f¨ur die Varianzen von ˆb0 und ˆb1

Sch¨atzer f¨ur die Varianz von ˆb0 : sb20= sRest2 n ·

n

P

i=1

xi2

n

P

i=1

(xi −x)2

Sch¨atzer f¨ur die Varianz von ˆb1: sb21 = sRest2

n · 1

1 n

n

P

i=1

(xi −x)2 Dabei ist

ˆ

σ2 =sRest2 = 1 n−2

n

X

i=1

(yi−yˆi)2 = 1 n−2

n

X

i=1

(yi −(ˆb0+ ˆb1xi))2 der Sch¨atzer f¨ur die Varianz der St¨orgr¨oßen.

I Je gr¨oßer der Stichprobenumfang n, desto genauer sind die Sch¨atzungen!

(12)

Streuungszerlegung

I Es gilt dieStreuungszerlegung SST=SSE+SSR mit SST=

n

X

i=1

(yi −y)2, der Totalvariabilit¨at (Totalvarianz);

SSE=

n

X

i=1

(ˆyi−y)2, der

”erkl¨arten“ Variabilit¨at (erkl¨arte Varianz);

SSR=

n

X

i=1

(yi−yˆi)2, der Restvariabilit¨at (Residualvarianz).

I Das Verh¨altnis B = SSE

SST = 1−SSR

SST heißt Bestimmtheitsmaß.

I Es gelten 0≤B ≤1 und B =r2

X,Y mit dem gew¨ohnlichen empirischen Korrelationskoeffizienten rX,Y .

I Je besser das Modell ist, desto kleiner ist die Residualvarianz, bzw. desto gr¨oßer ist das Bestimmtheitsmaß B!

(13)

Das stochastische Modell

I Weiterf¨uhrende statistische Aussagen, wie Konfidenzintervalle oder statistische Tests, basieren auf einem geeigneten stochastischen Modell.

I Ublicherweise nimmt man in dieser Situation an, dass¨ Yi =b0+b1xii, i = 1, . . . ,n,

gilt, wobei die Werte xi (zun¨achst) deterministische, einstellbare Werte sind und die zuf¨alligen St¨orgr¨oßen durch unabh¨angige normalverteilte Zufallsgr¨oßenεi (

”zuf¨allige Fehler“) mit Eεi = 0 und Varεi2 (unbekannt, aber konstant) verursacht werden.

I Unter diesen Bedingungen sind ˆb0 bzw. ˆb1 erwartungstreue und konsistente Sch¨atzfunktionen f¨ur die Modellparameter b0 bzw. b1.

I Die Standardabweichung σ der Fehler kann gesch¨atzt werden durch ˆ

σ =sRest =

rSSR n−2.

(14)

Konfidenzintervalle zum Niveau 1 − α f¨ ur die Parameter

I Ein Konfidenzintervall f¨ur b0 ist

[ˆb0−sb0tn−2;1−α/2 ; bˆ0+sb0tn−2;1−α/2] .

I Ein Konfidenzintervall f¨ur b1 ist

[ˆb1−sb1tn−2;1−α/2 ; bˆ1+sb1tn−2;1−α/2] .

I Ein Konfidenzintervall f¨ur die Fehlervarianz σ2 ist

"

(n−2)ˆσ2

χ2n−2;1−α/2 ; (n−2)ˆσ2 χ2n−2;α/2

#

=

"

SSR

χ2n−2;1−α/2 ; SSR

χ2n−2;α/2

# .

(15)

Konfidenzintervalle im Beispiel 7.1

Mit ˆb0 = 0.605675,sbˆ0 = 0.288656, ˆb1 = 5.22209, sbˆ1= 0.296079 (vgl.

Statgraphics-Ergebnisse auf Folie 17) lauten die Konfidenzintervalle zum Konfidenzniveau 95% f¨ur:

b0: [−0.038 ; 1.2494] und b1 : [4.5618 ; 5.8823]. Mit SSR= 1.66612 ist die Punktsch¨atzung f¨ur σ2, der Varianz der Fehler:

ˆ

σ2 = 1

n−2SSR= 1

101.66612 = 0.166612.

(vgl. Statgraphics-Ergebnisse auf Folie 19)

Damit ist das Konfidenzintervall f¨urσ2 zum Konfidenzniveau 95%:

[0.0814 ; 0.5127].

(16)

Tests f¨ ur die Parameter b

0

und b

1

I Hypothesen: H0 :b0 =b00, HA:b0 6=b00; bzw. H0 :b1 =b10, HA :b1 6=b10.

I Testgr¨oßen: Tb0 = bˆ0−b00

sb0 bzw. Tb1 = bˆ1−b10

sb1

I Die Testgr¨oßen sind unter H0 t−verteilt mitn−2 Freiheitsgraden.

I Kritischer Bereich (Niveau α) : K ={t∈R:|t|>tn−2;1−α/2}.

I Analog k¨onnen einseitige Tests durchgef¨uhrt werden.

(17)

t-Tests im Beispiel 7.1 mit Statgraphics

Simple Regression - Jahresumsatz vs. Verkaufsfläche Dependent variable: Jahresumsatz (Mio Euro)

Independent variable: Verkaufsfläche (1000 qm) Linear model: Y = a + b*X

Coefficients

Least Squares Standard T

Parameter Estimate Error Statistic P-Value Intercept 0,605675 0,288656 2,09826 0,0623 Slope 5,22209 0,296079 17,6375 0,0000

Analysis of Variance

Source Sum of Squares Df Mean Square F-Ratio P-Value

Model 51,8297 1 51,8297 311,08 0,0000

Residual 1,66612 10 0,166612 Total (Corr.) 53,4959 11

Correlation Coefficient = 0,984304 R-squared = 96,8855 percent

R-squared (adjusted for d.f.) = 96,5741 percent Standard Error of Est. = 0,408182

I Test mit H0:b0= 0 gegen HA:b0 6= 0; bˆ0 = 0.605675 ,

p = 0.0623>0.05 =α ⇒ H0 wird nicht abgelehnt, d.h., man kann nicht darauf schließen, dass der Koeffizient b0 signifikant von 0 verschieden ist.

I Test mit H0:b1= 0 gegen HA:b1 6= 0; bˆ1 = 5.22209 ,

p = 0.0000<0.05 =α ⇒H0 wird abgelehnt, d.h., der Koeffizient b1 ist signifikant von 0 verschieden.

(18)

F-Test f¨ ur die Hypothese H

0

: b

1

= 0

I Es besteht also ein signifikanter Einfluss der Verkaufsfl¨ache auf den Jahresumsatz.

I Die Hypothesen

H0 : b1 = 0 gegen HA:b1 6= 0

k¨onnen auch mit dem F-Test getestet werden. Dieser Test spielt z.B.

im Modell der multiplen parameterlinearen Regression eine eigen- st¨andige Rolle.

I Testgr¨oße:

T =

1 1SSE

1

n−2SSR = MSE

MSR

I FallsH0:b1 = 0 gilt ist T ∼F1,n−2 und damit ist der kritische Bereich:

K ={t : t >F1,n−2;1−α}.

(19)

F-Test im Beispiel 7.1 mit Statgraphics

Simple Regression - Jahresumsatz vs. Verkaufsfläche

Dependent variable: Jahresumsatz (Mio Euro) Independent variable: Verkaufsfläche (1000 qm) Linear model: Y = a + b*X

Coefficients

Least Squares Standard T

Parameter Estimate Error Statistic P-Value Intercept 0,605675 0,288656 2,09826 0,0623 Slope 5,22209 0,296079 17,6375 0,0000

Analysis of Variance

Source Sum of Squares Df Mean Square F-Ratio P-Value

Model 51,8297 1 51,8297 311,08 0,0000

Residual 1,66612 10 0,166612 Total (Corr.) 53,4959 11

Correlation Coefficient = 0,984304 R-squared = 96,8855 percent

R-squared (adjusted for d.f.) = 96,5741 percent Standard Error of Est. = 0,408182

t=

1

151.8297

1

12−21.66612 = 51.8297

0.166612 = 311.08>4.96 =F1,10;0.95

=⇒ H0 wird abgelehnt. (Gleiches Ergebnis wie beim t-Test.)

I Zusammenhang zum t-Test: Ist t∼tn−2, dann istt2 ∼F1,n−2. Hier: 17.63752 = 311.08.

I Zusammenhang zum Bestimmtheitsmaß B: Istt die Realisierung der Testgr¨oße des F-Tests, dann gilt:

1 n−2t 1 +n−21 t =

1 10311.08

1 +101311.08 = 0.96885 = 51.8297 53.4959 =B.

(20)

Konfidenzintervalle f¨ ur die Regressionsgerade

I H¨aufig m¨ochte man jedoch Konfidenzintervalle f¨ur denWert der Regressionsgerade an einer Stelle x (oder f¨ur ein Intervall von x−Werten) bestimmen, d.h. f¨ur EY(x) =b0+b1x.

I Ein solches Konfidenzintervall zum Niveau 1−α kann berechnet werden durch

[ ˆy(x)−d(x) ; ˆy(x) +d(x) ] mit y(x) = ˆˆ b0+ ˆb1x und

d(x) = ˆσ·tn−2,1−α/2

v u u u t 1

n + (x−x)2

n

P

i=1

(xi −x)2 .

I F¨ur unterschiedliche Werte x erh¨alt man unterschiedliche Abst¨ande zwischen der oberen und unteren Grenze. F¨ur alle x−Werte

betrachtet ergibt sich einKonfidenzstreifen(Konfidenzschlauch), der an der Stelle x=x am schmalsten ist.

(21)

Konfidenzstreifen im Beispiel (Statgraphics)

(22)

Prognoseintervalle f¨ ur Y (x )

I Berechnet man ein zuf¨alliges Intervall, welches mit einer vorgegebenen Wahrscheinlichkeit 1−α eine Realisierung von Y(x) =b0+b1x+ε ¨uberdeckt (Vorhersage f¨ur eine neue Beobachtung an einer Stelle x), erh¨alt man ein sogenanntes Prognoseintervallf¨ur Y(x) zum Niveau 1−α.

I Unter den gemachten Voraussetzungen berechnet man [ ˆy(x)−d(x) ; ˆy(x) +d(x) ] mit y(x) = ˆˆ b0+ ˆb1x und

d(x) = ˆσ·tn−2,1−α/2 v u u u t

1 +1

n + (x−x)2

n

P

i=1

(xi −x)2 .

I Bei Betrachtung beliebiger x−Werte erh¨alt man wieder einen Streifen um die Regressionsgerade, denPrognosestreifen. Er ist breiter als der zugeh¨orige Konfidenzstreifen zum selben Niveau.

(23)

Prognosestreifen im Beispiel (Statgraphics)

(24)

Konfidenz- und Prognosestreifen im Beispiel (Statgraphics)

(25)

Residualanalyse zur ¨ Uberpr¨ ufung des Modells

I Ist der Modellansatz, insbesondere die Normalverteilungsannahme der zuf¨alligen Fehler εi, i = 1, . . . ,n, richtig, dann sind die Residuen ˆεi =Yi−yˆi n¨aherungsweise unabh¨angig und identisch normalverteilt.

I Diese Eigenschaft kann anschaulich grafisch (Residualanalyse)

¨uberpr¨uft oder durch Anwendung statistischer Tests untersucht werden.

I DieResidualanalyse ist ein deskriptives Verfahren zur ¨Uberpr¨ufung der Modellannahmen anε1;. . .;εn. M¨ogliche Teilschritte sind dabei:

I A: Streudiagramm der Daten mit der Regessionsgerade,

I B: Streudiagramm der Residuen gegen die vorhergesagten

Werte ˆyi (oder z.B. auch gegen die Fallnummern derxi−Werte),

I C: Normalverteilungs-Q-Q-Plot der Residuen,

I D: Histogramm der Residuen mit angepasster Normalverteilungsdichte.

(26)

Streudiagramm und Regressionsgerade im Beispiel 7.1

(27)

Streudiagramm der Residuen im Beispiel 7.1

Unusual Residuals

Predicted Studentized Row X Y Y Residual Residual 1 0,31 2,93 2,22452 0,705478 2,47

Dr. Andreas W¨unsche Statistik II f¨ur Betriebswirte Vorlesung 8 Version: 27. November 2019 27

(28)

Normalverteilungs-Q-Q-Plot im Beispiel 7.1 (Statgraphics)

Tests for Normality for RESIDUALS Test Statistic P-Value Shapiro-Wilk W 0,906018 0,18088

Dr. Andreas W¨unsche Statistik II f¨ur Betriebswirte Vorlesung 8 Version: 27. November 2019 28

(29)

Histogramm der Residuen im Beispiel 7.1 (Statgraphics)

Dr. Andreas W¨unsche Statistik II f¨ur Betriebswirte Vorlesung 8 Version: 27. November 2019 29

(30)

Shapiro-Wilk-Test im Beispiel 7.1 (Statgraphics)

Tests for Normality for RESIDUALS Test Statistic P-Value Shapiro-Wilk W 0,906018 0,18088

Tests for Normality for RESIDUALS

Test Statistic P-Value

Shapiro-Wilk W 0,906018 0,18088

Referenzen

ÄHNLICHE DOKUMENTE

Prädiktoren: (Konstante), Anspruch, Lohn, Kreativität, Leistungsstreben, Arbeitsbedingungen, Vielfalt, Lernpotential, Hierarchie, Ehrgeiz ca. Prädiktoren: (Konstante), Anspruch,

I Es k¨ onnen H¨ aufigkeitsangaben verarbeitet werden (wie hier bisher im Beispiel 7.6), aber auch die einzelnen dichotomen Merkmalswerte (0 und 1) direkt.. I Im Folgenden

I Ein ideales Pr¨ ufverfahren (bei dem keine Fehlentscheidungen getroffen werden) w¨ are eine fehlerfreie Totalkontrolle (d.h. eine fehlerfreie Kontrolle aller Teile des Postens)..

I Bisher wurden attributive Stichprobenpl¨ ane behandelt, bei denen nur festgestellt wird, ob die ¨ uberpr¨ uften St¨ ucke brauchbar oder unbrauchbar sind. I Trifft man

I Weiterhin gibt es Kontrollkarten mit Ged¨ achtnis, bei denen eine Entscheidung ¨ uber einen Eingriff auch aufgrund der Ergebnisse vergangener Stichproben getroffen wird. I

I Sind zus¨ atzliche Informationen zu einem Zufallsexperiment verf¨ ugbar (oder werden diese hypothetisch angenommen), k¨ onnen sich die Wahrscheinlichkeiten f¨ ur die zuf¨

I Oft sind Ergebnisse von Zufallsversuchen in Form von Zahlen gegeben oder es ist f¨ ur eine mathematische Behandlung g¨ unstig, den elementaren Versuchsausg¨ angen Zahlen

I Die wichtigste Kenngr¨ oße f¨ ur die Variabilit¨ at von Zufallsgr¨ oßen ist die Varianz der Zufallsgr¨ oße, auch Streuung oder Dispersion genannt.. Diese Eigenschaft gilt aber