Fortgeschrittene Statistik
Prüfungsvorbereitungstutorat HS21
Angela Odermatt
Studentin Politikwissenschaft und Geschichte der Neuzeit, Hilfsassistentin IPZ
Die Teilnahme für Mitglieder des Fachvereins ist kostenlos.
Falls ihr noch keine Mitglieder seid, könnt ihr den Betrag von 20.00 Franken bequem per Twint (QR- Code) oder mit den folgenden Daten per E-Banking an den Fachverein überweisen:
CH2909000000800177068, Fachverein
Politikwissenschaft, Affolternstrasse 56, 8050 Zürich.
Der Mitgliederbeitrag ist für ein akademisches Jahr
gültig (Herbstsemester und Frühlingssemester), das
heisst, ihr könnt im nächsten Semester als Mitglieder
kostenlos an den Prüfungsvorbereitungstutoraten
Hinweise zum Tutorat
Ziel: Grundlagen erklären und zusammenfassen, damit aufbauende Konzepte verstanden werden können -> deckt Vorlesungsinhalt nicht vollständig ab!
Im Anhang der Folien findet ihr Hilfestellungen zur Interpretation von Tabllen
Prüfung
Wann & Wo:
3.1.2022, 16:15 – 17:45, online
Aufbau der Prüfung:
Teil 1: Fragen zu statistischen Konzepten (24 Punkte) Teil 2: Interpretationsfragen (12 Punkte)
Teil 3: R-Fragen (24 Punkte)
Ablauf
13:10 – 14:15 Teil 1: Modelle, OLS, Multivariate Regressionen, Modellevaluation 14:15 – 14:20 kurze Pause
14:20 – 15:10 Teil 2: Erweiterungen, Annahmen von OLS 15:10 – 15:20 Pause
15:20 – 15:50 Teil 3: Mehrebenenanalyse, Zeitreihenanalyse, Panelregression, logistische Regression 15:50 – 16:00 Fragen
Anmerkung: R wird direkt in die thematischen Blöcke integriert und ein begleitendes R-Skript ist verfügbar
Teil 1:
Modelle, OLS, Multivariate Regressionen, Modellevaluation
Modelle
Modell: Reduzierung der Welt auf das Wesentliche -> Formulierung von allgemeinen
Gesetzmässigkeiten
Parsimonität: Sparsamkeitsregel
-> ein Modell mit weniger Faktoren bei gleichem Erklärungsgehalt wird bevorzugt
Arten von Modellen:
• Realmodell
• Ikonisches Modell
• Verbalmodell
• Formalmodell:
• Mathematisch: deterministisch
• Statistisch: probabilistisch
Univariate Regressionsmodelle I
Grundidee: Zusammenhang zwischen Variablen untersuchen
Herangehensweise:
• Deskriptiv: ohne Theorie -> keine Verallgemeinerungen
• Hypothesen testen: mit Theorie -> Aussagen über Grundgesamtheit
Univariate Regressionsmodelle II
𝑦
!= 𝛽
"+ 𝛽
#𝑥
#+ 𝜖
!• 𝑦! = Abhängige Variable
• 𝛽" = Regressionskoeffizient des y-
Achsenabschnitts (wenn x = 0)
• 𝛽# = Regressionskoeffizient der Steigung
• 𝑥# = Unabhängige Variable Und:
Grundannahmen einfache lineare Regressionsmodelle I
– Abhängige Variable (Y mit Werten yi ): auch Outcome, Regressand, endogene Variable:
kontinuierlich und normalverteilt
– Unabhängige Variable (X mit Werten xi ): auch Prädiktor, Regressor, exogene Variable: keine Voraussetzung Messniveau und keine weiteren Annahmen
– Regressionskoeffizient des Y-Achsenabschnitts (β0): auch Achsenabschnitt, Intercept, Erwartungswert von y bei x = 0
nicht immer sinnvoll zu Interpretieren (z.B. x = Grösse einer Schulklasse -> x = 0 geht nicht)
Grundannahmen einfache lineare Regressionsmodelle II
– Regressionskoeffizient der Steigung (β1): auch Steigungskoeffizient, Slope
Misst die durchshnittliche quantitative Veränderung in y, wenn sich x um eine Einheit erhöht.
D.h. wenn der Anteil von Männern, die im Agrarsektor arbeiten 25% anstelle von 24% beträgt, verändert sich der Anteil von Rekruten mit höherer Bildung als Primarschule um β1 Prozentpunkte.
unabhängig vom Niveau von x (egal ob bei 10, 50, oder 80%)
Grundannahmen einfache lineare Regressionsmodelle III
– Fehlerterm (𝜖i): auch Störterm Resultiert aus
1) Messfehler abhängige Variable (z.B. unreliables Messinstrument, falsche Frageformulierung) 2) Fehlerspezifikation im Modell: omitted variables (z.B. Bildung noch von Religion abhängig) 3) Zufallsmomente im menschlichen Verhalten
=> Die Regressionskoeffizienten sind unbekannt und müssen geschätzt werden!
OLS - Grundidee
E[yi |xi] = β0 + β1xi Normalfall:
Wir haben Daten zur UV und AV.
Ø Wir möchten Koeffizienten herausfinden (also die Regressionsgerade, da die Koeffizienten β0 und β1 die mathematischen Eigenschaften der Gerade beschreiben).
Ø Die Koeffizienten sollen die «bestmöglichen» sein.
Was heisst «bestmöglich»? -> siehe Gütekriterien
OLS - Gütekriterien
= Kriterien für gute Schätzungen
1) Erwartungstreue, wenn: Erwartungswert des Schätzers = wahrer Wert des zu schätzenden Parameters (schreibt man als E[Schätzer] = θ) -> wenn nicht der Fall, dann verzerrt bzw. biased
2) Konsistenz, wenn: je grösser Stichprobe (n), desto näher an wahrem Wert (schreibt man )
3) Effizienz, wenn: je kleiner Varianz der Schätzfunktion, desto näher ist Schätzwert an wahrem Parameter
Ø Wie finden wir nun «bestmögliche» Schätzer?
OLS – Residuen minimieren
Residuen:
ei = yi- ŷi bzw.yi= ŷi + ei
Perfekte Anpassungsgüte: alle ei = 0 Grundidee:
Summe aller ei gemeinsam möglichst klein Damit sich nicht gegenseitig aufheben Ø Quadrieren!
SSE = Summe der Residuenquadrate
OLS - BLUE
Best Linear Unbiased Estimator:
• Zufallsauswahl
• Erwartungswert Fehlerterm ist Null
• Linearität
• Homoskedastizität
• Keine Autokorrelation
• Keine perfekte Multikolleration
• Für Hypothesentests: Fehlerterm normalverteilt
Regressionen von Hand schätzen (R-Skript)
OLS – Hypothesen Testen
HA: Theoretische hergeleitete Hypothese
”Je mehr Leute in einem Kanton im Agrarsektor arbeiten (im KT Waadt 1888), desto tiefer ist das Bildungsniveau.”
H0: Gegenteilige Hypothese zu HA
“Wie viele Leute im Agrarsektor arbeiten hängt nicht mit dem Bildungsniveau zusammen.”
Ø Da wir HA nicht verifizieren können, wollen wir H0 verwerfen!
𝜶-Wert: Signifikanzniveau -> Wahrscheinlichkeit H0 zu verwerfen, obwohl sie wahr ist.
Ø Konvention: 0.05 -> 95% Konfidenzintervall liegt zwischen +/- 1.96 * SE(𝛽)
t-Wert: 𝛽/SE
Ø |t| > 1.96 -> auf 0.05 𝛼-Niveau signifikant
p-Wert: Wahrscheinlichkeit, dass – bei gültiger H0 – die Teststatistik mindestens den mit der Stichprobe berechneten Wert annimmt.
OLS - Interpretieren
Multivariate Regressionen - Grundidee (R-Skript)
u: Anteil von Y, der nicht durch X2 erklärt wird
v: Anteil von X1, der nicht durch X2 erklärt wird
Ø u ~ v -> Anteil von Y, der nur durch X1 erklärt wird = 𝛽#
Multivariate Regressionen - Variablenwichtigkeit
• Level Importance: Durchschnittlicher Effekt der Variable
• Maximaler Effekt: maximaler Effekt von X auf Y
• Dispersion Importance: Standardisierte Koeffizienten -> vergleichbares Messniveau
• Anteil an R2: Anteil der Varianz von Y, der durch die entsprechende Variable erklärt wird
Modellevaluation – Determinationskoeffizient R
2SSE (Sum of Squared Errors of Prediction)
”nicht erklärte Varianz”
SST (Sum of Squares Total) gesamte Varianz
SSR (Sum of Squares to Regression)
erklärte Abweichungsquadratsumme Ø SSR = SST - SSE
Modellevaluation – Determinationskoeffizient R
2R2 = SSR / SST
Werte zwischen 0 (kein Zusammenhang) und 1 (perfekter Zusammenhang)
-> d.h. wenn R2 = 0.3 kann von der
Gesamtstreuung der AV (SST) 30% durch unser Modell erklärt werden (SSR)
Modellevaluation – Genestete Modelle
Wie finde ich heraus, welche Kombination von UV’s am besten die AV erklärt?
Ø Parsimonität: so wenig UV’s wie nötig Ø Anpassungsgüte:
Verschachtelte Modelle: F-Test (ob zusätzliche UV signifikant ist)
Nicht verschachtelte Modelle: Informationskriterien AIC und BIC (je kleiner desto besser)
Die Teilnahme für Mitglieder des Fachvereins ist kostenlos.
Falls ihr noch keine Mitglieder seid, könnt ihr den Betrag von 20.00 Franken bequem per Twint (QR- Code) oder mit den folgenden Daten per E-Banking an den Fachverein überweisen:
CH2909000000800177068, Fachverein
Politikwissenschaft, Affolternstrasse 56, 8050 Zürich.
Der Mitgliederbeitrag ist für ein akademisches Jahr
gültig (Herbstsemester und Frühlingssemester), das
Teil 2:
Erweiterungen, Regressionsdiagnostik
Nicht lineare Zusammenhänge
Lineare Regressionsmodelle: Müssen linear in
Parametern, aber nicht zwingend linear in Variablen sein!
Ø Polynome: Marginale Effekte (Steigung bei xi) sind nicht konstant
Ø Logarithmen: Exponentialfunktionen werden linear in Parametern, Rechtsschiefe Variablen werden normalisiert
Dichotome / Dummy und kategorielle Variablen
Können direkt ins Modell eingefügt werden
Jeweils eine Referenzkategorie mit k-1 Dummyvariablen für kategorielle Prädiktoren (dichotom einfach eine) Koeffizient beschreibt Effekt im Vergleich zur Referenzkategorie, ceteris paribus.
Interaktionsterme
Moderation: Variablen, die den Zusammenhang UV-AV beeinflussen
Achtung: Variablen, die interagieren sollten auch einzeln ins Modell einfliessen Sind symmetrisch, d.h. sie gehen in beide Richtungen
binär-binär: marginaler Effekt bei xk = 0 binär-metrisch: marginaler Effekt bei xk = 0
metrisch-metrisch: marginaler Effekt bei spezifischen Werten der beiden Interaktionsterme
Erweiterungen
Regressionsdiagnostik - Multikollinearität
Multikollinearität: lineare Beziehungen zwischen UVs -> hohe Varianz und Standardfehler
Diagnose: Variance Inflation Factor (VIF) Faustregel:
VIF > 10 -> starke Multikollinearität VIF > 5 -> etwas Multikollinearität
Ausreisser
Ausreisser: Kombination von x und y Werten stimmt nicht mit Datenstruktur überein
Achtung: Extremwerte für nur x oder nur y noch kein Ausreisser
Erkennen:
Intern Studentisierte Residuen: ISR > 3
Extern Studentisierte Residuen: ESR nicht in Standardabweichung
Hebelwirkung
extreme x Werte -> hohe Hebelwirkung mittlere x Werte -> tiefe Hebelwirkung Erkennen:
Wenn > 2 * durchschnittlicher hat value
Problem: hohe Hebelwirkung = tiefe Residualwerte d.h. «reissen Gerade stark an sich»
Einfluss
Einfluss = Aussreisser * Hebelwirkung
Erkennen:
Cook’s D: Veränderung des Modells ohne Beobachtung i
DFFITS (difference in fitted values): wie gross ist Einfluss von Beobachtung i Achtung ab > 1 bzw. 2 (grosses n)
Heteroskedastizität
Heteroskedastizität: Varianz der Fehlerterme nicht konstant über alle x
Ursache: Spezifischer Zusammenhang, Ausreisser, Unterspezifikation, UV sehr schiefe Verteilung
Auswirkung: erwartungstreu und konsistent aber nicht effizient (=nicht BLUE), Hypothesentests verzerrt Diagnose: grafisch oder formell (Residuenplots, Goldfeld-Quandt Test, Breusch-Pagan Test)
Lösungsansätze:
log-Transformation Respezifikation Modell
Spezifikationsfehler
Endogenität: Fehlerterm korreliert mit UV Überspezifikation:
exogen (UVs korrelieren nicht mit Fehlerterm) Auswirkungen: nicht effizient (grosse Varianz)
Lösung: t-Tests und einzelne F-Tests für Subsets von UVs -> nicht signifikante UVs raus Unterspezifikation:
endogen (UVs korrelieren mit Fehlerterm)
Auswirkungen: nicht erwartungstreue Schätzungen
Lösung: fehlende UV in Modell aufnehmen, Proxy, Instrumentvariable
Die Teilnahme für Mitglieder des Fachvereins ist kostenlos.
Falls ihr noch keine Mitglieder seid, könnt ihr den Betrag von 20.00 Franken bequem per Twint (QR- Code) oder mit den folgenden Daten per E-Banking an den Fachverein überweisen:
CH2909000000800177068, Fachverein
Politikwissenschaft, Affolternstrasse 56, 8050 Zürich.
Der Mitgliederbeitrag ist für ein akademisches Jahr
gültig (Herbstsemester und Frühlingssemester), das
Teil 3:
Mehrebenenanalyse, Zeitreihenanalyse, Panelregression, logistische
Regression
Fixed und Random Effects - Intuition
Beispiel: Wir wollen den Einfluss von Stipendien auf Leistungen von Studierenden untersuchen.
Unsere Levels: Studierende (1) und Universität (2)
Ø Fixed Effects: Wir berechnen die unterschiedlichen Effekte zwischen verschiedenen Unis. (Vorstellung:
Dummies)
Ø Random Effects: Wir sind am Einfluss von Stipendien per se und weniger an den Unterschieden zwischen Unis interessiert. Deshalb ziehen wir eine Zufallsstichprobe der Levels und berechnen die Effekte damit. Wir berücksichtigen damit die Varianz zwischen Unis sowie innerhalb der Unis.
Autokorrelation
Autokorrelation: Fehlerterme korrelieren miteinander
Folge: erwartungstreu, aber nicht effizient
Erkennen: Durbin-Watson Test (d~±2 -> keine Autokorrelation, d~±4 -> starke Autokorrelation), Unterspezifikation?
Autoregressive Prozesse (der k-ten Ordnung):
Fehlerterm korreliert mit denjenigen der (k-ten) Vorperiode
Stationaritätsannahme: Autokorrelationskoeffizient liegt zwischen plus 1 und minus 1 -> sonst würden Fehlerterme mit der Zeit grösser werden
Autokorrelation - Zeitreihenanalysen
Dynamische Modelle:
Vorperioden als zusätzliche Modellvariablen Problem: Multikollinearität
Autoregressive Modelle:
Anstelle verzögerte Werte der UV verzögerte Werte der AV nehmen
Paneldatenanalyse
Kumulierte Querschnitte: basieren auf unterschiedlichen Stichproben -> nur Vergleiche auf Kollektivebene
Paneldaten: gleiche Stichprobe zu mehreren Zeitpunkten
zeitinvariante Variablen (Geburtsort, Bezeichnung Kanton, Herkunft Eltern, etc.) zeitvariante Variablen (Wahlentscheid, Alter, Einkommen, etc.)
Ø Fehlerterm besteht aus einer zeitvarianten und zeitinvarianten Komponente Pooling Panel Model (OLS):
Probleme: Autokorrelation und Endogenität
Paneldatenanalyse – Probleme lösen
Autokorrelation: wie bei Zeitreihenregression (S.38)
Endogenität:
fixed effects Schätzung: Mittelwert jeder Einheit über Zeit hinweg subtrahiert -> zeitinvarianter Fehlerterm wird «rausgestrichen»
first difference Schätzung: vorhergehender Zeitpunkt abziehen -> zeitinvarianter Fehlerterm wird «rausgestrichen»
Binäre AV
OLS nicht geeignet (Werte grösser als ±1,
Fehlerterme nicht normalverteilt, Heterskedastizität) Alternative: Kumulierte Verteilungen (Werte
zwischen 1 und 0)
Probit- und Logit-Modelle: andere Annahmen über Fehlerterme, aber fast immer dieselben Resultate Achtung: Odds Ratios, nicht
Regressionskoeffizienten
-> (Odds Ratio – 1) * 100 ist die Veränderung der AV in Prozent