• Keine Ergebnisse gefunden

Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

N/A
N/A
Protected

Academic year: 2021

Aktie "Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik"

Copied!
21
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)Anmerkung zu den letzten HA: die Aufgaben 27-32 sind auch mit. Statistik. HA 20.4.2016: Aufgaben 34-40. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik. Sommersemester 2016. 04.04.. Prof. Dr. Stefan Etschberger Hochschule Augsburg. R. zu rechnen.

(2) Statistik Etschberger – SS2016. Bundesligabeispiel Berechnung eines linearen Modells der Bundesligadaten. 80. ^ = 25,443 + 0,634 · x Modell: y. 70. dabei: Punkte = ^y und Etat = ^ x:. 1. Einführung. 60. 2. Deskriptive Statistik Häufigkeiten. P. x2i xi yi. 31474. Zwei Merkmale Korrelation Preisindizes Lineare Regression. 3. W-Theorie 4. Induktive Statistik. 18. Quellen 20. n. 25209. 50. 46,89. 40. y P. Konzentration. 30. 33,83. Punkte. Lage und Streuung. x. ^ = 31474 − 18 · 33,83 · 46,89 ⇒b 25209 − 18 · 33,832 ≈ 0,634 ^ · 33,83 ^ = 46,89 − b ⇒a ≈ 25,443. Tabellen 0. 20. 40. 60. 80. Einkommen. Prognosewert für Etat = 30: ^ (30) = 25,443 + 0,634 · 30 y ≈ 44,463 103.

(3) Statistik Etschberger – SS2016. Varianz und Information Varianz der Daten in abhängiger Variablen yi als Repräsentant des Informationsgehalts ^ i abgebildet werden Ein Bruchteil davon kann in Modellwerten y 80. 80. 70. 70. 60. 60. 50. 50. 1. Einführung 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression. 3. W-Theorie 40. 40. 4. Induktive Statistik 30. Quellen. 30. Tabellen. 80. 60. 40. 20. 0. model. 20 points. 20. Empirische Varianz (mittlere quadratische Abweichung) für „rot“ bzw. „grün“ ergibt jeweils 1 18. 18 X i=1. (yi − y)2 ≈ 200,77. bzw.. 1 18. 18 X. (^ yi − y)2 ≈ 102,78. i=1 104.

(4) Statistik Etschberger – SS2016. Determinationskoeffizient Gütemaß für die Regression: Determinationskoeffizient (Bestimmtheitskoeffizient): n P 2. R =. i=1 n P. n P. (^ yi − ȳ)2 = (yi − ȳ)2. i=1. i=1 n P. 1. Einführung. ^ 2i − nȳ2 y 2. = r ∈ [0; 1] y2i − nȳ2. i=1. 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes. 2. Mögliche Interpretation von R : Durch die Regression erklärter Anteil der Varianz R2 = 0 wird erreicht wenn X, Y unkorreliert ^ i = yi ∀ i (alle Punkte auf R2 = 1 wird erreicht wenn y. Regressionsgerade). Lineare Regression. 3. W-Theorie 4. Induktive Statistik Quellen Tabellen. Im (Bundesliga-)Beispiel: 18 P 2. R =. i=1 18 P. (^ yi − y)2 ≈ (yi − y)2. 102,78 ≈ 51,19 % 200,77. i=1 105.

(5) Umfrage: Ich habe Statistik. Regression: 4 eindimensionale Beispiele. A) Zahlen und GrafikEtschberger richtig – SS2016 B) Gerade falsch eingezeichnet, sonst alles richtig C) Fehler in den Zahlen (Grafik konsequent) D) Fehler in Zahlen und Grafik E) alles falsch F) nichts gemacht. Berühmte Daten aus den 1970er Jahren:. 1. Einführung. i. x1i. x2i. x3i. x4i. y1i. y2i. y3i. y4i. 1 2 3 4 5 6 7 8 9 10 11. 10 8 13 9 11 14 6 4 12 7 5. 10 8 13 9 11 14 6 4 12 7 5. 10 8 13 9 11 14 6 4 12 7 5. 8 8 8 8 8 8 8 19 8 8 8. 8,04 6,95 7,58 8,81 8,33 9,96 7,24 4,26 10,84 4,82 5,68. 9,14 8,14 8,74 8,77 9,26 8,10 6,13 3,10 9,13 7,26 4,74. 7,46 6,77 12,74 7,11 7,81 8,84 6,08 5,39 8,15 6,42 5,73. 6,58 5,76 7,71 8,84 8,47 7,04 5,25 12,50 5,56 7,91 6,89. 2. Deskriptive Statistik Häufigkeiten Lage und Streuung. Aufgaben:. Konzentration Zwei Merkmale. - Modellparameter Korrelation (a, b) Preisindizes - R^2 - Streuplot mit Lineare Regression eingezeichneter Gerade 3. W-Theorie 4. Induktive Statistik Quellen Tabellen. (Quelle: Anscombe (1973)). 106.

(6) Statistik Etschberger – SS2016. Regression: 4 eindimensionale Beispiele. In folgender Tabelle: Jeweils Ergebnisse der linearen Regressionsanalyse. 1. Einführung 2. Deskriptive Statistik Häufigkeiten. dabei: xk unabhängige Variable und yk abhängige Variable. Lage und Streuung. Modell jeweils: yk = ak + bk xk. Zwei Merkmale. Konzentration. Korrelation Preisindizes Lineare Regression. k. ^k a. ^k b. R2k. 1 2 3 4. 3,0001 3,0010 3,0025 3,0017. 0,5001 0,5000 0,4997 0,4999. 0,6665 0,6662 0,6663 0,6667. 3. W-Theorie 4. Induktive Statistik Quellen Tabellen. 107.

(7) Statistik Etschberger – SS2016. 7. 8. 10. 9. 10. Plot der Anscombe-Daten. y2. 6. y1. 8. 1. Einführung 2. Deskriptive Statistik. 6. 5. Häufigkeiten. 4. Lage und Streuung Konzentration. 4. 3. Zwei Merkmale Korrelation. 4. 6. 8. 10. 12. 14. 4. 6. 8. x1. 10. 12. 14. Preisindizes Lineare Regression. x2. 3. W-Theorie. 12. 12. 4. Induktive Statistik Quellen. y4 6. 6. 8. 8. y3. 10. 10. Tabellen. 4. 6. 8. 10 x3. 12. 14. 8. 10. 12. 14. 16. 18. x4 108.

(8) Statistik Etschberger – SS2016. Beispieldaten. ## ## ## ## ## ## ##. meineRegression = lm(AlterM ~ AlterV) meineRegression plot(AlterV, AlterM, xlab="Alter des Vaters", ylab="Alter der Mutter") abline(meineRegression). Call: lm(formula = AlterM ~ AlterV) Coefficients: (Intercept) 18.2234. 1. Einführung. AlterV 0.6159. 2. Deskriptive Statistik Häufigkeiten Lage und Streuung. 70. Konzentration Zwei Merkmale Korrelation. Lineare Regression. 60. 3. W-Theorie 4. Induktive Statistik. 55. Quellen. 45. 50. Tabellen. 40. Alter der Mutter. 65. Preisindizes. 40. 50. 60. 70. 80. Alter des Vaters 109.

(9) PLU. S Statistik Etschberger – SS2016. Cook’s Distanz. Oft Kritisch: Einzelne Punkte, die Modell stark beeinflussen Idee: Was würde sich ändern, wenn solche Punkte weggelassen würden? Cook-Distanz: Misst den Effekt eines gelöschten Objekts. 1. Einführung 2. Deskriptive Statistik Häufigkeiten Lage und Streuung. Formel für ein lineares Modell mit einem unabh. Merkmal:. Konzentration Zwei Merkmale Korrelation. n P. Di =. Preisindizes. ^ j(ohne i) )2 (^ yj − y. j=1. MSE. Lineare Regression. 3. W-Theorie 4. Induktive Statistik Quellen. Dabei bedeutet:. Tabellen. ^ j : Prognosewert des kompletten Modells für das j-te Objekt y ^ j(ohne i) : Prognosewert des Modells ohne Objekt i für das j-te y. Objekt P MSE = n1 · (^ yi − yi )2 : Normierender Term (Schätzwert für Fehlerstreuung) 110.

(10) PLU. S Statistik Etschberger – SS2016. Ausreißer? Anscombe-Daten: Regressionsmodell Nr. 3. 1. Einführung 2. Deskriptive Statistik Häufigkeiten. 12. Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes. 10. Lineare Regression. 3. W-Theorie. y3. 4. Induktive Statistik Quellen. 6. 8. Tabellen. 4. 6. 8. 10 x3. 12. 14 111.

(11) PLU. S Statistik Etschberger – SS2016. Ausreißer? Anscombe-Daten: Regressionsmodell Nr. 3 Darstellung der Cook-Distanz neben Punkten Faustformel: Werte über 1 sollten genau untersucht werden. 1. Einführung 2. Deskriptive Statistik. 1.39. Häufigkeiten. 12. Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes. 10. Lineare Regression. 3. W-Theorie. y3. 4. Induktive Statistik. 0.3 8. Quellen Tabellen. 0.06 0.03 0.01 0.01 0 0. 6. 0 0.01 0.03. 4. 6. 8. 10 x3. 12. 14 111.

(12) Residualanalyse. Statistik Etschberger – SS2016. Oft aufschlussreich: Verteilung der Residuen ei Verbreitet: Graphische Darstellungen der Residuen ^i Z.B.: ei über y 1. Einführung 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression. 3. W-Theorie 4. Induktive Statistik Quellen Tabellen. 112.

(13) Statistik Etschberger – SS2016. Residualanalyse Oft aufschlussreich: Verteilung der Residuen ei Verbreitet: Graphische Darstellungen der Residuen ^i Z.B.: ei über y. 1. Einführung 3. 12. 3. 2. Deskriptive Statistik Häufigkeiten. Konzentration 1. Zwei Merkmale Korrelation Preisindizes. 0. 8. y3. Residuals. 10. 2. Lage und Streuung. −1. 6. Lineare Regression 9. 4. 6. 8. 10. 12. 14. 6. 5. 6. x3. 7. 8. 9. 10. Fitted values. 3. W-Theorie 4. Induktive Statistik Quellen. Residuals vs Fitted 2. Tabellen. 0 −1. 6. y1. 8. Residuals. 1. 10. 9. 4. −2. 10. 4. 6. 8. 10 x1. 12. 14. 3. 5. 6. 7. 8. Fitted values. 9. 10. 112.

(14) Statistik Etschberger – SS2016. Residualanalyse Wichtige Eigenschaften der Residuenverteilung Möglichst keine systematischen Muster ^i Keine Änderung der Varianz in Abhängigkeit von y (Homoskedastizität). 1. Einführung 2. Deskriptive Statistik Häufigkeiten. Nötig für inferentielle Analysen: Näherungsweise Normalverteilung der Residuen (q-q-plots). Lage und Streuung Konzentration Zwei Merkmale. 70. 20. Korrelation Preisindizes Lineare Regression. 4. Induktive Statistik Quellen. 0. Tabellen. 45. −10. 50. 55. Residuals. 60. 10. 3. W-Theorie. 40. 339 451. −20. Alter der Mutter. 65. 371. 40. 50. 60. 70. Alter des Vaters. 80. 45. 50. 55. 60. 65. 70. Fitted values 113.

(15) Kausalität versus Korrelation. Statistik Etschberger – SS2016. 1. Einführung. Exkurs: Kausalität vs. Korrelation. 2. Deskriptive Statistik Häufigkeiten Lage und Streuung. Meist wichtig für sinnvolle Regressionsanalysen:. Konzentration Zwei Merkmale Korrelation. Kausale Verbindung zwischen unabhängigem und abhängigem Merkmal Sonst bei Änderung der unabhängigen Variablen keine sinnvollen Prognosen möglich Oft: Latente Variablen im Hintergrund. Preisindizes Lineare Regression. 3. W-Theorie 4. Induktive Statistik Quellen Tabellen. 114.

(16) Statistik: Table of Contents. 1. Statistik: Einführung. 2. Deskriptive Statistik. 3. Wahrscheinlichkeitstheorie. 4. Induktive Statistik. 3. Wahrscheinlichkeitstheorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter.

(17) en, d R. factorial(n).

(18)

(19) Kombinatorik: Anzahl von Kombinationen bei Auswahl. 2-mal Würfeln, das heißt Auswahl von k = 2 aus n = 6 Zahlen.. (1,1) (2,1) (3,1) (4,1) (5,1) (6,1). (1,2) (2,2) (3,2) (4,2) (5,2) (6,2). (1,3) (2,3) (3,3) (4,3) (5,3) (6,3). (1,4) (2,4) (3,4) (4,4) (5,4) (6,4). (1,5) (2,5) (3,5) (4,5) (5,5) (6,5). (1,6) (2,6) (3,6) (4,6) (5,6) (6,6). Statistik Etschberger – SS2016. 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit. mit WH, mit RF: alle Möglichkeiten,. ohne WH, ohne RF: Hälfte des letzten  6 6! Ergebnisses: 30 2 = 15 = 4!2! = 2. 62 = 36. ohne WH, mit RF: Diagonale entfällt, 6! 36 − 6 = 30 = 6 · 5 = (6 − 2)!. mit WH, ohne RF: Letztes Ergebnis  plus Diagonale, 15 + 6 = 21 = 7 2. Zufallsvariablen und Verteilungen Verteilungsparameter. 4. Induktive Statistik Quellen Tabellen. Auswahl von k aus n Dingen mit Wiederholung mit Reihenfolge ohne Reihenfolge. nk n+k−1 k. !. ohne Wiederholung n! (n − k)! ! n k. 116.

(20) Zufallsvorgänge, Ereignisse und Wahrscheinlichkeiten. Zufallsvorgang: Geschehen mit ungewissem Ausgang, z.B. Münzwurf. Statistik Etschberger – SS2016. 1. Einführung 2. Deskriptive Statistik. Elementarereignis ω: Ein möglicher Ausgang, z.B. „ Kopf “ Elementarereignisse schließen sich gegenseitig aus („ Kopf “ oder „ Zahl “)! Ergebnismenge Ω: Menge aller ω. 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter. 4. Induktive Statistik. Beispiel: Werfen zweier Würfel:  (1,1) (1,2)    (2,1) (2,2) Ω: .. ..   . .   (6,1) (6,2). Quellen. ··· ···.  (1,6)   (2,6). Tabellen. ..  . .    · · · (6,6) ... ⇒ Ω = {(x1 , x2 ) : x1 , x2 ∈ {1, . . . ,6}}. 117.

(21) Statistik Etschberger – SS2016. Ereignisse und Wahrscheinlichkeiten. Ereignis A: Folgeerscheinung eines Elementarereignisses Formal:. 1. Einführung. A⊂Ω. 2. Deskriptive Statistik 3. W-Theorie. Ereignisse schließen sich nicht gegenseitig aus!. Kombinatorik. Beispiel: Werfen zweier Würfel:. Zufallsvariablen und Verteilungen. Zufall und Wahrscheinlichkeit. Verteilungsparameter. Ereignis. verbal. formal. 4. Induktive Statistik Quellen. A B. Augensumme = 4 Erste Zahl = 2. {(1,3), (2,2), (3,1)} {(2,1), (2,2), . . . , (2,6)}. Tabellen. Wahrscheinlichkeit P(A): Chance für das Eintreten von A Laplace-Wahrscheinlichkeit: P(A) =. |A| Anzahl der für A günstigen Fälle = |Ω| Anzahl aller möglichen Fälle 118.

(22)

Referenzen

ÄHNLICHE DOKUMENTE

Gute und schlechte Grafiken Begriff Statistik Grundbegriffe der Datenerhebung R und RStudio?. Induktive Statistik

2 Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression 3

Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression.. Induktive Statistik

Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression.. Induktive Statistik

Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen

Statistik für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik - Offener Stat-/Mathraum am 27.5.. Stefan Etschberger

Ziehen von 10.000 Stichproben (jeweils vom Umfang n) und Berechnung der Stichprobenmittel (Verteilung: zwei überlagerte Gleichverteilungen):..

Hypothese soll anhand einer Stichprobe überprüft