• Keine Ergebnisse gefunden

Statistik für Betriebswirtschaft und internationales Management

N/A
N/A
Protected

Academic year: 2021

Aktie "Statistik für Betriebswirtschaft und internationales Management"

Copied!
24
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)Statistik für Betriebswirtschaft und internationales Management. Sommersemester 2015. Prof. Dr. Stefan Etschberger Hochschule Augsburg.

(2) Statistik Etschberger – SS2015. Regression: 4 eindimensionale Beispiele. Berühmte Daten aus den 1970er Jahren: 1. Einführung. i. x1i. x2i. x3i. x4i. y1i. y2i. y3i. y4i. 1 2 3 4 5 6 7 8 9 10 11. 10 8 13 9 11 14 6 4 12 7 5. 10 8 13 9 11 14 6 4 12 7 5. 10 8 13 9 11 14 6 4 12 7 5. 8 8 8 8 8 8 8 19 8 8 8. 8,04 6,95 7,58 8,81 8,33 9,96 7,24 4,26 10,84 4,82 5,68. 9,14 8,14 8,74 8,77 9,26 8,10 6,13 3,10 9,13 7,26 4,74. 7,46 6,77 12,74 7,11 7,81 8,84 6,08 5,39 8,15 6,42 5,73. 6,58 5,76 7,71 8,84 8,47 7,04 5,25 12,50 5,56 7,91 6,89. 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression. 3. W-Theorie 4. Induktive Statistik Quellen Tabellen. (Quelle: anscombe ). 101.

(3) Statistik Etschberger – SS2015. Regression: 4 eindimensionale Beispiele. In folgender Tabelle: Jeweils Ergebnisse der linearen Regressionsanalyse. 1. Einführung 2. Deskriptive Statistik Häufigkeiten. dabei: xk unabhängige Variable und yk abhängige Variable. Lage und Streuung. Modell jeweils: yk = ak + bk xk. Zwei Merkmale. Konzentration. Korrelation Preisindizes Lineare Regression. k. ^k a. ^k b. R2k. 1 2 3 4. 3,0001 3,0010 3,0025 3,0017. 0,5001 0,5000 0,4997 0,4999. 0,6665 0,6662 0,6663 0,6667. 3. W-Theorie 4. Induktive Statistik Quellen Tabellen. 102.

(4) Statistik Etschberger – SS2015. 7. 8. 10. 9. 10. Plot der Anscombe-Daten. y2. 6. y1. 8. 1. Einführung 2. Deskriptive Statistik. 6. 5. Häufigkeiten. 4. Lage und Streuung Konzentration. 4. 3. Zwei Merkmale Korrelation. 4. 6. 8. 10. 12. 14. 4. 6. 8. x1. 10. 12. 14. Preisindizes Lineare Regression. x2. 3. W-Theorie. 12. 12. 4. Induktive Statistik Quellen. y4 6. 6. 8. 8. y3. 10. 10. Tabellen. 4. 6. 8. 10 x3. 12. 14. 8. 10. 12. 14. 16. 18. x4 103.

(5) Statistik Etschberger – SS2015. Beispieldaten. meineRegression = lm(AlterM ~ AlterV) meineRegression plot(AlterV, AlterM, xlab="Alter des Vaters", ylab="Alter der Mutter") abline(meineRegression). ## ## ## ## ## ## ##. Call: lm(formula = AlterM ~ AlterV) Coefficients: (Intercept) 16.7247. 1. Einführung. AlterV 0.6447. 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale. 65. Korrelation Preisindizes. 55. 4. Induktive Statistik Quellen. 45. 50. Tabellen. 40. Alter der Mutter. 60. Lineare Regression. 3. W-Theorie. 40. 50. 60. 70. Alter des Vaters 104.

(6) PLU. S Statistik Etschberger – SS2015. Cook’s Distanz. Oft Kritisch: Einzelne Punkte, die Modell stark beeinflussen Idee: Was würde sich ändern, wenn solche Punkte weggelassen würden? Cook-Distanz: Misst den Effekt eines gelöschten Objekts. 1. Einführung 2. Deskriptive Statistik Häufigkeiten Lage und Streuung. Formel für ein lineares Modell mit einem unabh. Merkmal:. Konzentration Zwei Merkmale Korrelation. n P. Di =. Preisindizes. ^ j(ohne i) )2 (^ yj − y. j=1. MSE. Lineare Regression. 3. W-Theorie 4. Induktive Statistik Quellen. Dabei bedeutet:. Tabellen. ^ j : Prognosewert des kompletten Modells für das j-te Objekt y ^ j(ohne i) : Prognosewert des Modells ohne Objekt i für das j-te y. Objekt P MSE = n1 · (^ yi − yi )2 : Normierender Term (Schätzwert für Fehlerstreuung) 105.

(7) PLU. S Statistik Etschberger – SS2015. Ausreißer? Anscombe-Daten: Regressionsmodell Nr. 3. 1. Einführung 2. Deskriptive Statistik Häufigkeiten. 12. Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes. 10. Lineare Regression. 3. W-Theorie. y3. 4. Induktive Statistik Quellen. 6. 8. Tabellen. 4. 6. 8. 10 x3. 12. 14 106.

(8) PLU. S Statistik Etschberger – SS2015. Ausreißer? Anscombe-Daten: Regressionsmodell Nr. 3 Darstellung der Cook-Distanz neben Punkten Faustformel: Werte über 1 sollten genau untersucht werden. 1. Einführung 2. Deskriptive Statistik. 1.39. Häufigkeiten. 12. Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes. 10. Lineare Regression. 3. W-Theorie. y3. 4. Induktive Statistik. 0.3 8. Quellen Tabellen. 0.06 0.03 0.01 0.01 0 0. 6. 0 0.01 0.03. 4. 6. 8. 10 x3. 12. 14 106.

(9) Statistik Etschberger – SS2015. Residualanalyse Oft aufschlussreich: Verteilung der Residuen ei Verbreitet: Graphische Darstellungen der Residuen ^i Z.B.: ei über y. 1. Einführung 3. 12. 3. 2. Deskriptive Statistik Häufigkeiten. Konzentration 1. Zwei Merkmale Korrelation Preisindizes. 0. 8. y3. Residuals. 10. 2. Lage und Streuung. −1. 6. Lineare Regression 9. 4. 6. 8. 10. 12. 14. 6. 5. 6. x3. 7. 8. 9. 10. Fitted values. 3. W-Theorie 4. Induktive Statistik Quellen. Residuals vs Fitted 2. Tabellen. 0 −1. 6. y1. 8. Residuals. 1. 10. 9. 4. −2. 10. 4. 6. 8. 10 x1. 12. 14. 3. 5. 6. 7. 8. Fitted values. 9. 10. 107.

(10) Statistik Etschberger – SS2015. Residualanalyse Wichtige Eigenschaften der Residuenverteilung Möglichst keine systematischen Muster ^i Keine Änderung der Varianz in Abhängigkeit von y (Homoskedastizität). 1. Einführung 2. Deskriptive Statistik Häufigkeiten. Nötig für inferentielle Analysen: Näherungsweise Normalverteilung der Residuen (q-q-plots). Lage und Streuung Konzentration Zwei Merkmale. 20. Korrelation Preisindizes Lineare Regression. 65. 371. 3. W-Theorie. 10. Quellen Tabellen. −10. 0. Residuals. 60 55 50 45. 4. Induktive Statistik. 40. Alter der Mutter. 361. 339. 40. 50. 60. Alter des Vaters. 70. 45. 50. 55. 60. 65. Fitted values 108.

(11) Kausalität versus Korrelation. Statistik Etschberger – SS2015. 1. Einführung. Exkurs: Kausalität vs. Korrelation. 2. Deskriptive Statistik Häufigkeiten Lage und Streuung. Meist wichtig für sinnvolle Regressionsanalysen:. Konzentration Zwei Merkmale Korrelation. Kausale Verbindung zwischen unabhängigem und abhängigem Merkmal Sonst bei Änderung der unabhängigen Variablen keine sinnvollen Prognosen möglich Oft: Latente Variablen im Hintergrund. Preisindizes Lineare Regression. 3. W-Theorie 4. Induktive Statistik Quellen Tabellen. 109.

(12) Statistik: Table of Contents. 1. Statistik: Einführung. 2. Deskriptive Statistik. 3. Wahrscheinlichkeitstheorie. 4. Induktive Statistik. 3. Wahrscheinlichkeitstheorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter.

(13)

(14)

(15) Kombinatorik: Anzahl von Kombinationen bei Auswahl. 2-mal Würfeln, das heißt Auswahl von k = 2 aus n = 6 Zahlen.. (1,1) (2,1) (3,1) (4,1) (5,1) (6,1). (1,2) (2,2) (3,2) (4,2) (5,2) (6,2). (1,3) (2,3) (3,3) (4,3) (5,3) (6,3). (1,4) (2,4) (3,4) (4,4) (5,4) (6,4). (1,5) (2,5) (3,5) (4,5) (5,5) (6,5). (1,6) (2,6) (3,6) (4,6) (5,6) (6,6). Statistik Etschberger – SS2015. 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit. mit WH, mit RF: alle Möglichkeiten,. ohne WH, ohne RF: Hälfte des letzten  6 6! Ergebnisses: 30 2 = 15 = 4!2! = 2. 62 = 36. ohne WH, mit RF: Diagonale entfällt, 6! 36 − 6 = 30 = 6 · 5 = (6 − 2)!. mit WH, ohne RF: Letztes Ergebnis  plus Diagonale, 15 + 6 = 21 = 7 2. Zufallsvariablen und Verteilungen Verteilungsparameter. 4. Induktive Statistik Quellen Tabellen. Auswahl von k aus n Dingen mit Wiederholung mit Reihenfolge ohne Reihenfolge. nk n+k−1 k. !. ohne Wiederholung n! (n − k)! ! n k. 111.

(16) Zufallsvorgänge, Ereignisse und Wahrscheinlichkeiten. Zufallsvorgang: Geschehen mit ungewissem Ausgang, z.B. Münzwurf. Statistik Etschberger – SS2015. 1. Einführung 2. Deskriptive Statistik. Elementarereignis ω: Ein möglicher Ausgang, z.B. „ Kopf “ Elementarereignisse schließen sich gegenseitig aus („ Kopf “ oder „ Zahl “)! Ergebnismenge Ω: Menge aller ω. 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter. 4. Induktive Statistik. Beispiel: Werfen zweier Würfel:  (1,1) (1,2)    (2,1) (2,2) Ω: .. ..   . .   (6,1) (6,2). Quellen. ··· ···.  (1,6)   (2,6). Tabellen. ..  . .    · · · (6,6) ... ⇒ Ω = {(x1 , x2 ) : x1 , x2 ∈ {1, . . . ,6}}. 112.

(17) Statistik Etschberger – SS2015. Ereignisse und Wahrscheinlichkeiten. Ereignis A: Folgeerscheinung eines Elementarereignisses Formal:. 1. Einführung. A⊂Ω. 2. Deskriptive Statistik 3. W-Theorie. Ereignisse schließen sich nicht gegenseitig aus!. Kombinatorik. Beispiel: Werfen zweier Würfel:. Zufallsvariablen und Verteilungen. Zufall und Wahrscheinlichkeit. Verteilungsparameter. Ereignis. verbal. formal. 4. Induktive Statistik Quellen. A B. Augensumme = 4 Erste Zahl = 2. {(1,3), (2,2), (3,1)} {(2,1), (2,2), . . . , (2,6)}. Tabellen. Wahrscheinlichkeit P(A): Chance für das Eintreten von A Laplace-Wahrscheinlichkeit: P(A) =. |A| Anzahl der für A günstigen Fälle = |Ω| Anzahl aller möglichen Fälle 113.

(18) Statistik Etschberger – SS2015. Laplace Wahrscheinlichkeit und Urnenmodell Beispiel: Werfen zweier Würfel: Augensumme = 4 : A = {(1,3), (2,2), (3,1)}. 1. Einführung 2. Deskriptive Statistik. |Ω| = 36, |A| = 3 ⇒ P(A) =. 3 36. =. 1 12. = 0,083. 3. W-Theorie Kombinatorik. Urnenmodell: Ziehe n Objekte aus einer Menge mit N Objekten Anzahl Möglichkeiten:. Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter. 4. Induktive Statistik Quellen. mit Zurücklegen: Nn ohne Zurücklegen: N · (N − 1) · · · (N − (n − 1)) =. Tabellen. N! (N−n)!. Beispiel: Wie groß ist die Wahrscheinlichkeit, aus einem gut gemischten 32-er Kartenblatt bei viermaligem Ziehen vier Asse zu bekommen? a) Ziehen mit Zurücklegen, b) Ziehen ohne Zurücklegen 114.

(19) Statistik Etschberger – SS2015. Rechenregeln für Wahrscheinlichkeiten. Wichtige Rechenregeln:. 1. Einführung 2. Deskriptive Statistik. 1. P(A) 5 1. A. B. 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit. 2. P(∅) = 0. Zufallsvariablen und Verteilungen. 3. A ⊂ B ⇒ P(A) 5 P(B). Verteilungsparameter. 4. Induktive Statistik. B. 4. P(Ā) = 1 − P(A). Quellen. 5. P(A ∪ B) = P(A) + P(B) − P(A ∩ B). Tabellen. A. C. Beispiel: P(„Augenzahl 5 5“) = 1 − P(„Augenzahl = 6“) = 1 −. 1 6. =. 5 6. 115.

(20) Beispiel Gegenereignis. Statistik Etschberger – SS2015. Der Fall Sally Clark Sally Clarks Söhne Christopher und Harry sterben 1996 und 1997 beide kurz nach der Geburt an plötzlichem Kindstod. Kinderarzt: „Wahrscheinlich Mord, da 2 maliger plötzlicher Kindstod sehr unwahrscheinlich!“ (ohne konkrete Hinweise). 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter. 4. Induktive Statistik. Gerichtliche Untersuchung Hauptargument der Anklage gestützt durch Gerichtsgutachter Sir Roy Meadow (renommierter Facharzt für Kinderheilkunde): Wahrscheinlichkeit für plötzlichen Kindstod ist 1:8500, d.h. Wahrscheinlichkeit für 2 maliges Auftreten in einer Familie  2 1 p= ≈ 1 : 72 000 000 8500. Quellen Tabellen. Urteil: Doppelmord; Strafe: 2 mal lebenslang; Inhaftierung von Sally Clark 1999 116.

(21) Statistik Etschberger – SS2015. Beispiel Gegenereignis Der Fall Sally Clark Problem: Es gibt sehr viele Familien mit 2 Kindern. 1. Einführung. Europa: ca. 80 Mio Familien mit Kindern, davon ca. 50% mit mindestens zwei Kindern, also ca. 40 Mio.. 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit. Wahrscheinlichkeit, dass in einer solchen 2 Familie kein zweifacher 1 plötzlicher Kindstod auftritt: 1 − 8500. Annahmen:. Zufallsvariablen und Verteilungen Verteilungsparameter. 4. Induktive Statistik Quellen. Jede dieser Familien hat genau 2 Kinder; in Wirklichkeit: ca. 20% dieser Familien haben mindestens 3 Kinder Zweiter plötzlicher Kindstod unabhängig von erstem (nicht untersucht). Tabellen. Wahrscheinlichkeit, dass in 40 Mio. Familien mindestens ein zweifacher plötzlicher Kindstod auftritt:  1− 1−. 2 40 000 000 1 8500. ≈ 42,5%. 117.

(22) Statistik Etschberger – SS2015. Beispiel Gegenereignis Der Fall Sally Clark Problem: Es gibt sehr viele Familien mit 2 Kindern. 1. Einführung. Europa: ca. 80 Mio Familien mit Kindern, davon ca. 50% mit mindestens zwei Kindern, also ca. 40 Mio.. 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit. Wahrscheinlichkeit, dass in einer solchen 2 Familie kein zweifacher 1 plötzlicher Kindstod auftritt: 1 − 8500. Annahmen:. Zufallsvariablen und Verteilungen Verteilungsparameter. 4. Induktive Statistik Quellen. Jede dieser Familien hat genau 2 Kinder; in Wirklichkeit: ca. 20% dieser Familien haben mindestens 3 Kinder Zweiter plötzlicher Kindstod unabhängig von erstem (nicht untersucht). Tabellen. Wahrscheinlichkeit, dass in 40 Mio. Familien mindestens ein zweifacher plötzlicher Kindstod auftritt:  1− 1−. 2 40 000 000 1 8500. ≈ 42,5%. 2001: Royal Statistical Society interveniert 2003: Sally Clark wird nach Revision freigesprochen 2007 findet man sie tot in ihrer Wohnung auf - gestorben an einer akuten Alkoholvergiftung. Sie habe sich, so ihre Familie, von dem Justizirrtum nie erholt. 117.

(23) Statistik Etschberger – SS2015. Bedingte Wahrscheinlichkeiten. Wahrscheinlichkeit von A hängt von anderem Ereignis B ab. (B kann zeitlich vor A liegen, muss aber nicht!) Beispiel: Wahrscheinlichkeit für Statistiknote hängt von Mathenote ab.. 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit. Formal:. Zufallsvariablen und Verteilungen. P(A | B) =. P(A ∩ B) P(B). Verteilungsparameter. 4. Induktive Statistik Quellen. Im Venndiagramm:. Tabellen. B. A Ω. 118.

(24)

(25)

Referenzen

ÄHNLICHE DOKUMENTE

Gute und schlechte Grafiken Begriff Statistik Grundbegriffe der Datenerhebung R und RStudio?. Induktive Statistik

2 Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression 3

Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression.. Induktive Statistik

Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression.. Induktive Statistik

Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression.. Induktive

Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen

Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik - Offener Stat-/Mathraum am 27.5.. Stefan Etschberger

Ziehen von 10.000 Stichproben (jeweils vom Umfang n) und Berechnung der Stichprobenmittel (Verteilung: zwei überlagerte Gleichverteilungen):..