Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

(1)

Statistik

für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Sommersemester 2016

Prof. Dr. Stefan Etschberger Hochschule Augsburg

04.04.

Hausaufgabe: 21, 22, 24, 27-33

(2)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

88

Graphische Repräsentation von Kontingenztabellen

Beispiel Autounfälle

Verletzung leicht schwer tödlich

angegurtet 264 90 6 360

nicht angegurtet 2 34 4 40

266 124 10 400

Standardized Residuals: <−4−4:−2−2:00:22:4>4

Verletzungen

Sicherheit GurtKein

leicht schwer tödlich

Mosaikplot Autounfälle

(3)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

89

Data.complete

=na.omit

(MyData[,

c

("MatheZufr", "NoteMathe")])

Noten.complete

=

ordered

(

cut

(Data.complete$NoteMathe, breaks=

c

(0,1.5,2.5,3.5,4.1,5.0)),

labels=

c

("sehr gut", "gut", "befriedigend", "ausreichend", "nicht bestanden")) tab

=table

("Note"=Noten.complete, "Zufrieden mit Leistung"=Data.complete$MatheZufr)

require

(vcd)

mosaic

(tab, shade =

TRUE,

gp_args =

list

(interpolate =

function

(x)

pmin

(x/4,

1)),

labeling_args =

list

(rot_labels =

c

(90,0,0,0), just_labels =

c

("left", "left", "right", "right"),

offset_varnames =

c

(left =

5,

top=5.5), offset_labels =

c

(right =

3)),

margins =

c

(right =

1,

bottom =

3,

left=6, top=5))

−5.20

−3.50

−1.70

−0.02 1.70 3.40 5.10 6.80 8.60 10.00 Pearson residuals:

p−value =

< 2.22e−16

Note

nicht bestanden ausreichend befriedigend gut sehr gut

unzufrieden geht so zufrieden sehr zufrieden

„Note in Matheklausur“ gegen „Zufrieden mit Leistung“

(4)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

90

Mosaicplot Geschlecht, Wunschfarbe für Smartphone

tab = table (Farbe, Geschlecht) tab

## Geschlecht

## Farbe Frau Mann

## blau 15 16

## gelb 3 2

## rot 19 5

## schwarz 143 190

## silber 57 25

## weiss 152 43

mosaicplot ( t (tab), shade = TRUE, sort=2:1, main="")

Standardiz ed Residuals:

<−4−4:−2−2:00:22:4>4

Geschlecht F arbe

blaugelbrotschwarzsilberweiss

Frau Mann

(5)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

91 require

(vcd)

Data.complete

=na.omit

(MyData[,

c

("Geschlecht", "Studiengang")])

with

(Data.complete, {

tab

=table

("Studiengang"=Studiengang, "Geschlecht"=Geschlecht)

mosaic

(tab, shade =

TRUE,

gp_args =

list

(interpolate =

function

(x)

pmin

(x/4,

1)),

labeling_args =

list

(rot_labels =

c

(90,0,0,0), just_labels =

c

("left", "left", "right", "right"),

offset_varnames =

c

(left =

5,

top=5.5), offset_labels =

c

(right =

3)),

margins =

c

(right =

1,

bottom =

3,

left=6, top=5))

})

−3.10

−2.50

−1.80

−1.10

−0.40 0.28 0.97 1.70 2.30 3.00 Pearson residuals:

p−value = 1.5247e−08

Studiengang

WI Inf IM ET BW

Frau Mann

„Note in Matheklausur“ gegen „Zufrieden mit Leistung“

Studiengang vs. Geschlecht

(6)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

92

Mosaicplot Geschlecht, Anzahl Schuhe

tab = table (

"Anzahl Schuhe" = cut (AnzSchuhe,

breaks = quantile (

AnzSchuhe, probs = (0:4)/4 ), )

Geschlecht) tab

## Geschlecht

## Anzahl Schuhe Frau Mann

## (2,8] 22 148

## (8,16] 53 108

## (16,30] 195 18

## (30,275] 119 1

mosaicplot ( t (tab), shade = TRUE, main="", las=1)

Standardiz ed Residuals:

<−4−4:−2−2:00:22:4>4

Geschlecht

Anzahl Schuhe

Frau Mann

(2,8]

(8,16]

(16,30]

(30,275]

(7)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

93

Preisindizes

Preismesszahl: Misst Preisveränderung eines einzelnen Gutes:

Preis zum Zeitpunkt j Preis zum Zeitpunkt i dabei: j: Berichtsperiode, i: Basisperiode

Preisindex: Misst Preisveränderung mehrerer Güter (Aggregation von Preismesszahlen durch Gewichtung) Notation:

p ₀ (i) : Preis des i-ten Gutes in Basisperiode 0

p _t (i) : Preis des i-ten Gutes in Berichtsperiode t

q ₀ (i) : Menge des i -ten Gutes in Basisperiode 0

q _t (i) : Menge des i-ten Gutes in Berichtsperiode t

(8)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

94

Preisindizes

Gleichgewichteter Preisindex:

P

0t^G

= 1 n

X

n

i=1

p

t

(i) p

0

(i) =

X

n

i=1

p

t

(i)

p

0

(i) · g(i) mit g(i) = 1 n

Nachteil: Auto und Streichhölzer haben gleiches Gewicht Lösung: Preise mit Mengen gewichten!

Preisindex von Laspeyres:

P

^L_0t

= P

n i=1

p

t

(i)q

0

(i) P

n

i=1

p

0

(i)q

0

(i)

= X

n

i=1

p

t

(i)

p

0

(i) · g

0

(i) mit g

0

(i) = p

0

(i)q

0

(i) P

n

j=1

p

0

(j)q

0

(j)

Preisindex von Paasche:

P

_0t^P

= P

n i=1

p

t

(i)q

t

(i) P

n

i=1

p

0

(i)q

t

(i)

= X

n

i=1

p

t

(i)

p

0

(i) · g

t

(i) mit g

t

(i) = p

0

(i) q

t

(i) P

n

j=1

p

0

(j)q

t

(j)

(9)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

95

Preisindizes: Beispiel

Warenkorb: Kartoffeln und Kaffee

1950 2013

Preis ( € )

Menge pro Woche

Preis ( € )

Menge pro Woche

1 kg Kartoffeln 0,04 3,58 1,10 1,25

100 g Kaffeebohnen 3,00 0,25 0,70 1,31

P ^L _{1950, 2013} = 1,10 · 3,58 + 0,70 · 0,25

0,04 · 3,58 + 3,00 · 0,25 ≈ 4,6048

P ^P _{1950, 2013} = 1,10 · 1,25 + 0,70 · 1,31

0,04 · 1,25 + 3,00 · 1,31 ≈ 0,5759

(10)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

96

Weitere Preisindizes

Idealindex von Fisher:

P ^F _0t = q

P ^L _0t P _0t ^P

Marshall-Edgeworth-Index:

P ^ME _0t = P n i=1

p _t (i)[q ₀ (i) + q _t (i)]

P n i=1

p ₀ (i)[q ₀ (i) + q _t (i)]

Preisindex von Lowe:

P ^LO _0t = P n i=1

p _t (i)q(i) P n

i=1

p ₀ (i)q(i)

wobei q(i) ^ =

Durchschn. Menge von

Gut i über alle (bekannten)

Perioden

(11)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

97

Weitere Preisindizes: Beispiel

Warenkorb: Kartoffeln und Kaffee

1950 2013

Preis ( € )

Menge pro Woche

Preis ( € )

Menge pro Woche

1 kg Kartoffeln 0,04 3,58 1,10 1,25

100 g Kaffeebohnen 3,00 0,25 0,70 1,31

P ^F _1950,2013 ≈ √

4,6048 · 0,5759 = 1,6284

P ^ME _1950,2013 = 1,10 · (3,58 + 1,25) + 0,70 · (0,25 + 1,31)

0,04 · (3,58 + 1,25) + 3,00 · (0,25 + 1,31) = 1,3143

P ^Lo _1950,2013 = 1,10 · 2,5 + 0,70 · 0,75

0,04 · 2,5 + 3,00 · 0,75 = 1,3936

Annahme bei P

^LO

: Durchschn. Mengen bei Kartoffeln bzw. Kaffebohnen von 1950 bis 2013

sind 2,5 bzw. 0,75.

(12)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

98

Ausgangsdaten

Bundesliga 2008/2009 Gegeben: Daten zu den 18 Vereinen der ersten Bundesliga in der Saison 2008/09 Merkmale:

Vereinssetat für Saison (nur direkte Gehälter und Spielergehälter) und Ergebnispunkte in Tabelle am Ende der Saison

Etat Punkte FC Bayern 80 67 VfL Wolfsburg 60 69 SV Werder Bremen 48 45 FC Schalke 04 48 50 VfB Stuttgart 38 64

Hamburger SV 35 61

Bayer 04 Leverkusen 35 49 Bor. Dortmund 32 59 Hertha BSC Berlin 31 63 1. FC Köln 28 39 Bor. Mönchengladbach 27 31 TSG Hoffenheim 26 55 Eintracht Frankfurt 25 33 Hannover 96 24 40 Energie Cottbus 23 30

VfL Bochum 17 32

Karlsruher SC 17 29 Arminia Bielefeld 15 28

(Quelle: Welt)

(13)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

99

Darstellung der Daten in Streuplot

Bundesliga 2008/09

20 40 60 80

30 40 50 60 70

Etat [Mio. Euro]

Punkte

FC Bayern VfL Wolfsburg

SV Werder Bremen FC Schalke 04 VfB Stuttgart

Hamburger SV

Bayer 04 Leverkusen Bor. Dortmund Hertha BSC Berlin

1. FC Köln

Bor. Mönchengladbach TSG Hoffenheim

Eintracht Frankfurt Hannover 96

Energie Cottbus VfL Bochum Karlsruher SC Arminia Bielefeld

(14)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

99

Darstellung der Daten in Streuplot

Bundesliga 2008/09

20 40 60 80

30 40 50 60 70

Etat [Mio. Euro]

Punkte

(15)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

100

Trend als lineares Modell

Kann man die Tabellenpunkte näherungsweise über einfache Funktion in Abhängigkeit des Vereinsetats darstellen?

Allgemein: Darstellung einer Variablen Y als Funktion von X:

y = f(x)

Dabei:

X heißt Regressor bzw. unabhängige Variable Y heißt Regressand bzw. abhängige Variable

Wichtiger (und einfachster) Spezialfall: f beschreibt einen linearen Trend:

y = a + b x

Dabei anhand der Daten zu schätzen: a (Achsenabschnitt) und b (Steigung)

Schätzung von a und b: Lineare Regression

(16)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

101

Fehlerquadratsumme

Pro Datenpunkt gilt mit Regressionsmodell:

y _i = a + bx _i + ϵ _i

Dabei: ϵ _i ist jeweils Fehler (der Grundgesamtheit), mit e _i = y _i − (^ a + ^ bx _i ): Abweichung (Residuen) zwischen gegebenen Daten der Stichprobe und durch Modell geschätzten Werten

Modell gut wenn alle Residuen e _i zusammen möglichst klein Einfache Summe aber nicht möglich, denn e _i positiv oder negativ

Deswegen: Summe der Quadrate von e _i

Prinzip der kleinsten Quadrate: Wähle a und b so, dass

Q(a, b) = X n

i=1

[y _i − (a + bx _i )] ² → min

(17)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

102

Beste Lösung

Beste und eindeutige Lösung:

^ b = X n i=1

(x _i − x)(y ¯ _i − y) ¯ X n

i=1

(x _i − x) ¯ ²

= X n

i=1

x _i y _i − n x ¯ y ¯ X n

i=1

x ² _i − n¯ x ²

^

a = y ¯ − ^ b x ¯

Regressionsgerade:

^

y = ^ a + ^ b x

(18)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

103

Bundesligabeispiel Berechnung eines linearen Modells der Bundesligadaten dabei: Punkte = ^ y und Etat ⁼ ^{^} ^x :

x 33,83

y 46,89

P x ² _i 25209 P x _i y _i 31474

n 18

⇒ ^ b = 31474 − 18 · 33,83 · 46,89 25209 − 18 · 33,83 ²

≈ 0,634

⇒ a ^ = 46,89 − ^ b · 33,83

≈ 25,443

Modell: y ^{^} = 25,443 + 0,634 · x

0 20 40 60 80

20304050607080

Einkommen

Punkte

Prognosewert für Etat = 30 :

^

y(30) = 25,443 + 0,634 · 30

≈ 44,463

(19)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

103

Bundesligabeispiel Berechnung eines linearen Modells der Bundesligadaten dabei: Punkte = ^ y und Etat ⁼ ^{^} ^x :

x 33,83

y 46,89

P x ² _i 25209 P x _i y _i 31474

n 18

⇒ ^ b = 31474 − 18 · 33,83 · 46,89 25209 − 18 · 33,83 ²

≈ 0,634

⇒ a ^ = 46,89 − ^ b · 33,83

≈ 25,443

Modell: y ^{^} = 25,443 + 0,634 · x

0 20 40 60 80

20304050607080

Einkommen

Punkte

Prognosewert für Etat = 30 :

^

y(30) = 25,443 + 0,634 · 30

≈ 44,463

(20)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

104

Varianz und Information

Varianz der Daten in abhängiger Variablen y _i als Repräsentant des Informationsgehalts

Ein Bruchteil davon kann in Modellwerten y ^ _i abgebildet werden

0 20 40 60 80

20 30 40 50 60 70 80

Empirische Varianz (mittlere quadratische Abweichung) für „rot“ bzw. „grün“ ergibt jeweils

1 18

X 18

i=1

(y _i − y) ² ≈ 200,77 bzw. ₁₈ ¹ X 18

i=1

(^ y _i − y) ² ≈ 102,78

(21)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

104

Varianz und Information

Varianz der Daten in abhängiger Variablen y _i als Repräsentant des Informationsgehalts

Ein Bruchteil davon kann in Modellwerten y ^ _i abgebildet werden

points model

20 30 40 50 60 70 80

0 20 40 60 80

20 30 40 50 60 70 80

Empirische Varianz (mittlere quadratische Abweichung) für „rot“ bzw. „grün“

ergibt jeweils

1 18

X 18

i=1

(y _i − y) ² ≈ 200,77 bzw. ₁₈ ¹ X 18

i=1

(^ y _i − y) ² ≈ 102,78

(22)

Statistik Etschberger – SS2016

1. Einführung 2. Deskriptive Statistik

3. W-Theorie 4. Induktive Statistik Quellen Tabellen

105

Determinationskoeffizient

Gütemaß für die Regression: Determinationskoeffizient (Bestimmtheitskoeffizient):

R ² = P n i=1

(^ y _i − y) ¯ ² P n

i=1

(y _i − y) ¯ ²

= P n i=1

^ y ² _i − n y ¯ ² P n

i=1

y ² _i − n y ¯ ²

= r ² ∈ [0 ; 1]

Mögliche Interpretation von R ² :

Durch die Regression erklärter Anteil der Varianz R ² = 0 wird erreicht wenn X , Y unkorreliert

R ² = 1 wird erreicht wenn y ^{^} _i = y _i ∀ i (alle Punkte auf Regressionsgerade)

Im (Bundesliga-)Beispiel:

R ² = P 18 i=1

(^ y _i − y) ²

P 18 i=1

(y _i − y) ²

≈ 102,78

200,77 ≈ 51,19 %

(23)