Fortgeschrittene Statistik Prüfungsvorbereitungstutorat HS21

(1)

Fortgeschrittene Statistik

Prüfungsvorbereitungstutorat HS21

Angela Odermatt

Studentin Politikwissenschaft und Geschichte der Neuzeit, Hilfsassistentin IPZ

(2)

Die Teilnahme für Mitglieder des Fachvereins ist kostenlos.

Falls ihr noch keine Mitglieder seid, könnt ihr den Betrag von 20.00 Franken bequem per Twint (QR- Code) oder mit den folgenden Daten per E-Banking an den Fachverein überweisen:

CH2909000000800177068, Fachverein

Politikwissenschaft, Affolternstrasse 56, 8050 Zürich.

Der Mitgliederbeitrag ist für ein akademisches Jahr

gültig (Herbstsemester und Frühlingssemester), das

heisst, ihr könnt im nächsten Semester als Mitglieder

kostenlos an den Prüfungsvorbereitungstutoraten

(3)

Hinweise zum Tutorat

Ziel: Grundlagen erklären und zusammenfassen, damit aufbauende Konzepte verstanden werden können -> deckt Vorlesungsinhalt nicht vollständig ab!

Im Anhang der Folien findet ihr Hilfestellungen zur Interpretation von Tabllen

(4)

Prüfung

Wann & Wo:

3.1.2022, 16:15 – 17:45, online

Aufbau der Prüfung:

Teil 1: Fragen zu statistischen Konzepten (24 Punkte) Teil 2: Interpretationsfragen (12 Punkte)

Teil 3: R-Fragen (24 Punkte)

(5)

Ablauf

13:10 – 14:15 Teil 1: Modelle, OLS, Multivariate Regressionen, Modellevaluation 14:15 – 14:20 kurze Pause

14:20 – 15:10 Teil 2: Erweiterungen, Annahmen von OLS 15:10 – 15:20 Pause

15:20 – 15:50 Teil 3: Mehrebenenanalyse, Zeitreihenanalyse, Panelregression, logistische Regression 15:50 – 16:00 Fragen

Anmerkung: R wird direkt in die thematischen Blöcke integriert und ein begleitendes R-Skript ist verfügbar

(6)

Teil 1:

Modelle, OLS, Multivariate Regressionen, Modellevaluation

(7)

Modelle

Modell: Reduzierung der Welt auf das Wesentliche -> Formulierung von allgemeinen

Gesetzmässigkeiten

Parsimonität: Sparsamkeitsregel

-> ein Modell mit weniger Faktoren bei gleichem Erklärungsgehalt wird bevorzugt

Arten von Modellen:

• Realmodell

• Ikonisches Modell

• Verbalmodell

• Formalmodell:

• Mathematisch: deterministisch

• Statistisch: probabilistisch

(8)

Univariate Regressionsmodelle I

Grundidee: Zusammenhang zwischen Variablen untersuchen

Herangehensweise:

• Deskriptiv: ohne Theorie -> keine Verallgemeinerungen

• Hypothesen testen: mit Theorie -> Aussagen über Grundgesamtheit

(9)

Univariate Regressionsmodelle II

𝑦

_!

= 𝛽

_"

+ 𝛽

_#

𝑥

_#

+ 𝜖

_!

• 𝑦_! = Abhängige Variable

• 𝛽_" = Regressionskoeffizient des y-

Achsenabschnitts (wenn x = 0)

• 𝛽_# = Regressionskoeffizient der Steigung

• 𝑥_# = Unabhängige Variable Und:

(10)

Grundannahmen einfache lineare Regressionsmodelle I

– Abhängige Variable (Y mit Werten y_i ): auch Outcome, Regressand, endogene Variable:

kontinuierlich und normalverteilt

– Unabhängige Variable (X mit Werten xi ): auch Prädiktor, Regressor, exogene Variable: keine Voraussetzung Messniveau und keine weiteren Annahmen

– Regressionskoeffizient des Y-Achsenabschnitts (β₀): auch Achsenabschnitt, Intercept, Erwartungswert von y bei x = 0

nicht immer sinnvoll zu Interpretieren (z.B. x = Grösse einer Schulklasse -> x = 0 geht nicht)

(11)

Grundannahmen einfache lineare Regressionsmodelle II

– Regressionskoeffizient der Steigung (β₁): auch Steigungskoeffizient, Slope

Misst die durchshnittliche quantitative Veränderung in y, wenn sich x um eine Einheit erhöht.

D.h. wenn der Anteil von Männern, die im Agrarsektor arbeiten 25% anstelle von 24% beträgt, verändert sich der Anteil von Rekruten mit höherer Bildung als Primarschule um β₁ Prozentpunkte.

unabhängig vom Niveau von x (egal ob bei 10, 50, oder 80%)

(12)

Grundannahmen einfache lineare Regressionsmodelle III

– Fehlerterm (𝜖_i): auch Störterm Resultiert aus

1) Messfehler abhängige Variable (z.B. unreliables Messinstrument, falsche Frageformulierung) 2) Fehlerspezifikation im Modell: omitted variables (z.B. Bildung noch von Religion abhängig) 3) Zufallsmomente im menschlichen Verhalten

=> Die Regressionskoeffizienten sind unbekannt und müssen geschätzt werden!

(13)

OLS - Grundidee

E[y_i |x_i] = β₀ + β₁x_i Normalfall:

Wir haben Daten zur UV und AV.

Ø Wir möchten Koeffizienten herausfinden (also die Regressionsgerade, da die Koeffizienten β₀ und β₁ die mathematischen Eigenschaften der Gerade beschreiben).

Ø Die Koeffizienten sollen die «bestmöglichen» sein.

Was heisst «bestmöglich»? -> siehe Gütekriterien

(14)

OLS - Gütekriterien

= Kriterien für gute Schätzungen

1) Erwartungstreue, wenn: Erwartungswert des Schätzers = wahrer Wert des zu schätzenden Parameters (schreibt man als E[Schätzer] = θ) -> wenn nicht der Fall, dann verzerrt bzw. biased

2) Konsistenz, wenn: je grösser Stichprobe (n), desto näher an wahrem Wert (schreibt man )

3) Effizienz, wenn: je kleiner Varianz der Schätzfunktion, desto näher ist Schätzwert an wahrem Parameter

Ø Wie finden wir nun «bestmögliche» Schätzer?

(15)

OLS – Residuen minimieren

Residuen:

e_i = y_i- ŷ_i bzw.y_i= ŷ_i + e_i

Perfekte Anpassungsgüte: alle e_i = 0 Grundidee:

Summe aller e_i gemeinsam möglichst klein Damit sich nicht gegenseitig aufheben Ø Quadrieren!

SSE = Summe der Residuenquadrate

(16)

OLS - BLUE

Best Linear Unbiased Estimator:

• Zufallsauswahl

• Erwartungswert Fehlerterm ist Null

• Linearität

• Homoskedastizität

• Keine Autokorrelation

• Keine perfekte Multikolleration

• Für Hypothesentests: Fehlerterm normalverteilt

(17)

Regressionen von Hand schätzen (R-Skript)

(18)

OLS – Hypothesen Testen

H_A: Theoretische hergeleitete Hypothese

”Je mehr Leute in einem Kanton im Agrarsektor arbeiten (im KT Waadt 1888), desto tiefer ist das Bildungsniveau.”

H₀: Gegenteilige Hypothese zu H_A

“Wie viele Leute im Agrarsektor arbeiten hängt nicht mit dem Bildungsniveau zusammen.”

Ø Da wir H_A nicht verifizieren können, wollen wir H₀ verwerfen!

𝜶-Wert: Signifikanzniveau -> Wahrscheinlichkeit H₀ zu verwerfen, obwohl sie wahr ist.

Ø Konvention: 0.05 -> 95% Konfidenzintervall liegt zwischen +/- 1.96 * SE(𝛽)

t-Wert: 𝛽/SE

Ø |t| > 1.96 -> auf 0.05 𝛼-Niveau signifikant

p-Wert: Wahrscheinlichkeit, dass – bei gültiger H₀ – die Teststatistik mindestens den mit der Stichprobe berechneten Wert annimmt.

(19)

OLS - Interpretieren

(20)

Multivariate Regressionen - Grundidee (R-Skript)

u: Anteil von Y, der nicht durch X2 erklärt wird

v: Anteil von X1, der nicht durch X2 erklärt wird

Ø u ~ v -> Anteil von Y, der nur durch X1 erklärt wird = 𝛽_#

(21)

Multivariate Regressionen - Variablenwichtigkeit

• Level Importance: Durchschnittlicher Effekt der Variable

• Maximaler Effekt: maximaler Effekt von X auf Y

• Dispersion Importance: Standardisierte Koeffizienten -> vergleichbares Messniveau

• Anteil an R²: Anteil der Varianz von Y, der durch die entsprechende Variable erklärt wird

(22)

Modellevaluation – Determinationskoeffizient R

²

SSE (Sum of Squared Errors of Prediction)

”nicht erklärte Varianz”

SST (Sum of Squares Total) gesamte Varianz

SSR (Sum of Squares to Regression)

erklärte Abweichungsquadratsumme Ø SSR = SST - SSE

(23)

Modellevaluation – Determinationskoeffizient R

²

R² = SSR / SST

Werte zwischen 0 (kein Zusammenhang) und 1 (perfekter Zusammenhang)

-> d.h. wenn R² = 0.3 kann von der

Gesamtstreuung der AV (SST) 30% durch unser Modell erklärt werden (SSR)

(24)

Modellevaluation – Genestete Modelle

Wie finde ich heraus, welche Kombination von UV’s am besten die AV erklärt?

Ø Parsimonität: so wenig UV’s wie nötig Ø Anpassungsgüte:

Verschachtelte Modelle: F-Test (ob zusätzliche UV signifikant ist)

Nicht verschachtelte Modelle: Informationskriterien AIC und BIC (je kleiner desto besser)

(25)

Die Teilnahme für Mitglieder des Fachvereins ist kostenlos.

Falls ihr noch keine Mitglieder seid, könnt ihr den Betrag von 20.00 Franken bequem per Twint (QR- Code) oder mit den folgenden Daten per E-Banking an den Fachverein überweisen:

CH2909000000800177068, Fachverein

Politikwissenschaft, Affolternstrasse 56, 8050 Zürich.

Der Mitgliederbeitrag ist für ein akademisches Jahr

gültig (Herbstsemester und Frühlingssemester), das

(26)

Teil 2:

Erweiterungen, Regressionsdiagnostik

(27)

Nicht lineare Zusammenhänge

Lineare Regressionsmodelle: Müssen linear in

Parametern, aber nicht zwingend linear in Variablen sein!

Ø Polynome: Marginale Effekte (Steigung bei x_i) sind nicht konstant

Ø Logarithmen: Exponentialfunktionen werden linear in Parametern, Rechtsschiefe Variablen werden normalisiert

(28)

Dichotome / Dummy und kategorielle Variablen

Können direkt ins Modell eingefügt werden

Jeweils eine Referenzkategorie mit k-1 Dummyvariablen für kategorielle Prädiktoren (dichotom einfach eine) Koeffizient beschreibt Effekt im Vergleich zur Referenzkategorie, ceteris paribus.

(29)

Interaktionsterme

Moderation: Variablen, die den Zusammenhang UV-AV beeinflussen

Achtung: Variablen, die interagieren sollten auch einzeln ins Modell einfliessen Sind symmetrisch, d.h. sie gehen in beide Richtungen

binär-binär: marginaler Effekt bei x_k = 0 binär-metrisch: marginaler Effekt bei x_k = 0

metrisch-metrisch: marginaler Effekt bei spezifischen Werten der beiden Interaktionsterme

(30)

Erweiterungen

(31)

Regressionsdiagnostik - Multikollinearität

Multikollinearität: lineare Beziehungen zwischen UVs -> hohe Varianz und Standardfehler

Diagnose: Variance Inflation Factor (VIF) Faustregel:

VIF > 10 -> starke Multikollinearität VIF > 5 -> etwas Multikollinearität

(32)

Ausreisser

Ausreisser: Kombination von x und y Werten stimmt nicht mit Datenstruktur überein

Achtung: Extremwerte für nur x oder nur y noch kein Ausreisser

Erkennen:

Intern Studentisierte Residuen: ISR > 3

Extern Studentisierte Residuen: ESR nicht in Standardabweichung

(33)

Hebelwirkung

extreme x Werte -> hohe Hebelwirkung mittlere x Werte -> tiefe Hebelwirkung Erkennen:

Wenn > 2 * durchschnittlicher hat value

Problem: hohe Hebelwirkung = tiefe Residualwerte d.h. «reissen Gerade stark an sich»

(34)

Einfluss

Einfluss = Aussreisser * Hebelwirkung

Erkennen:

Cook’s D: Veränderung des Modells ohne Beobachtung i

DFFITS (difference in fitted values): wie gross ist Einfluss von Beobachtung i Achtung ab > 1 bzw. 2 (grosses n)

(35)

Heteroskedastizität

Heteroskedastizität: Varianz der Fehlerterme nicht konstant über alle x

Ursache: Spezifischer Zusammenhang, Ausreisser, Unterspezifikation, UV sehr schiefe Verteilung

Auswirkung: erwartungstreu und konsistent aber nicht effizient (=nicht BLUE), Hypothesentests verzerrt Diagnose: grafisch oder formell (Residuenplots, Goldfeld-Quandt Test, Breusch-Pagan Test)

Lösungsansätze:

log-Transformation Respezifikation Modell

(36)

Spezifikationsfehler

Endogenität: Fehlerterm korreliert mit UV Überspezifikation:

exogen (UVs korrelieren nicht mit Fehlerterm) Auswirkungen: nicht effizient (grosse Varianz)

Lösung: t-Tests und einzelne F-Tests für Subsets von UVs -> nicht signifikante UVs raus Unterspezifikation:

endogen (UVs korrelieren mit Fehlerterm)

Auswirkungen: nicht erwartungstreue Schätzungen

Lösung: fehlende UV in Modell aufnehmen, Proxy, Instrumentvariable

(37)

Die Teilnahme für Mitglieder des Fachvereins ist kostenlos.

Falls ihr noch keine Mitglieder seid, könnt ihr den Betrag von 20.00 Franken bequem per Twint (QR- Code) oder mit den folgenden Daten per E-Banking an den Fachverein überweisen:

CH2909000000800177068, Fachverein

Politikwissenschaft, Affolternstrasse 56, 8050 Zürich.

Der Mitgliederbeitrag ist für ein akademisches Jahr

gültig (Herbstsemester und Frühlingssemester), das

(38)

Teil 3:

Mehrebenenanalyse, Zeitreihenanalyse, Panelregression, logistische

Regression

(39)

Fixed und Random Effects - Intuition

Beispiel: Wir wollen den Einfluss von Stipendien auf Leistungen von Studierenden untersuchen.

Unsere Levels: Studierende (1) und Universität (2)

Ø Fixed Effects: Wir berechnen die unterschiedlichen Effekte zwischen verschiedenen Unis. (Vorstellung:

Dummies)

Ø Random Effects: Wir sind am Einfluss von Stipendien per se und weniger an den Unterschieden zwischen Unis interessiert. Deshalb ziehen wir eine Zufallsstichprobe der Levels und berechnen die Effekte damit. Wir berücksichtigen damit die Varianz zwischen Unis sowie innerhalb der Unis.

(40)

Autokorrelation

Autokorrelation: Fehlerterme korrelieren miteinander

Folge: erwartungstreu, aber nicht effizient

Erkennen: Durbin-Watson Test (d~±2 -> keine Autokorrelation, d~±4 -> starke Autokorrelation), Unterspezifikation?

Autoregressive Prozesse (der k-ten Ordnung):

Fehlerterm korreliert mit denjenigen der (k-ten) Vorperiode

Stationaritätsannahme: Autokorrelationskoeffizient liegt zwischen plus 1 und minus 1 -> sonst würden Fehlerterme mit der Zeit grösser werden

(41)

Autokorrelation - Zeitreihenanalysen

Dynamische Modelle:

Vorperioden als zusätzliche Modellvariablen Problem: Multikollinearität

Autoregressive Modelle:

Anstelle verzögerte Werte der UV verzögerte Werte der AV nehmen

(42)

Paneldatenanalyse

Kumulierte Querschnitte: basieren auf unterschiedlichen Stichproben -> nur Vergleiche auf Kollektivebene

Paneldaten: gleiche Stichprobe zu mehreren Zeitpunkten

zeitinvariante Variablen (Geburtsort, Bezeichnung Kanton, Herkunft Eltern, etc.) zeitvariante Variablen (Wahlentscheid, Alter, Einkommen, etc.)

Ø Fehlerterm besteht aus einer zeitvarianten und zeitinvarianten Komponente Pooling Panel Model (OLS):

Probleme: Autokorrelation und Endogenität

(43)

Paneldatenanalyse – Probleme lösen

Autokorrelation: wie bei Zeitreihenregression (S.38)

Endogenität:

fixed effects Schätzung: Mittelwert jeder Einheit über Zeit hinweg subtrahiert -> zeitinvarianter Fehlerterm wird «rausgestrichen»

first difference Schätzung: vorhergehender Zeitpunkt abziehen -> zeitinvarianter Fehlerterm wird «rausgestrichen»

(44)

Binäre AV

OLS nicht geeignet (Werte grösser als ±1,

Fehlerterme nicht normalverteilt, Heterskedastizität) Alternative: Kumulierte Verteilungen (Werte

zwischen 1 und 0)

Probit- und Logit-Modelle: andere Annahmen über Fehlerterme, aber fast immer dieselben Resultate Achtung: Odds Ratios, nicht

Regressionskoeffizienten

-> (Odds Ratio – 1) * 100 ist die Veränderung der AV in Prozent

(45)

Fragen?

(46)

Viel Glück!!!

(47)

Regressionstabellen lesen (basierend auf Folien von Laura-Vanessa

Soldner, HS19)

(48)

Informationen ablesen Paper

(49)

Informationen ablesen R

(50)

Koeffizienten lesen

(51)

Koeffizienten lesen quadratische Zusammenhänge

(52)

Koeffizienten lesen quadratische Zusammenhänge

(53)

Koeffizienten lesen logarithmische Zusammenhänge

(54)

Koeffizienten lesen logarithmische Zusammenhänge

(55)

(56)

(57)

Interaktionseffekte

(58)