• Keine Ergebnisse gefunden

Fortgeschrittene Statistik Prüfungsvorbereitungstutorat HS21

N/A
N/A
Protected

Academic year: 2022

Aktie "Fortgeschrittene Statistik Prüfungsvorbereitungstutorat HS21"

Copied!
58
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Fortgeschrittene Statistik

Prüfungsvorbereitungstutorat HS21

Angela Odermatt

Studentin Politikwissenschaft und Geschichte der Neuzeit, Hilfsassistentin IPZ

(2)

Die Teilnahme für Mitglieder des Fachvereins ist kostenlos.

Falls ihr noch keine Mitglieder seid, könnt ihr den Betrag von 20.00 Franken bequem per Twint (QR- Code) oder mit den folgenden Daten per E-Banking an den Fachverein überweisen:

CH2909000000800177068, Fachverein

Politikwissenschaft, Affolternstrasse 56, 8050 Zürich.

Der Mitgliederbeitrag ist für ein akademisches Jahr

gültig (Herbstsemester und Frühlingssemester), das

heisst, ihr könnt im nächsten Semester als Mitglieder

kostenlos an den Prüfungsvorbereitungstutoraten

(3)

Hinweise zum Tutorat

Ziel: Grundlagen erklären und zusammenfassen, damit aufbauende Konzepte verstanden werden können -> deckt Vorlesungsinhalt nicht vollständig ab!

Im Anhang der Folien findet ihr Hilfestellungen zur Interpretation von Tabllen

(4)

Prüfung

Wann & Wo:

3.1.2022, 16:15 – 17:45, online

Aufbau der Prüfung:

Teil 1: Fragen zu statistischen Konzepten (24 Punkte) Teil 2: Interpretationsfragen (12 Punkte)

Teil 3: R-Fragen (24 Punkte)

(5)

Ablauf

13:10 – 14:15 Teil 1: Modelle, OLS, Multivariate Regressionen, Modellevaluation 14:15 – 14:20 kurze Pause

14:20 – 15:10 Teil 2: Erweiterungen, Annahmen von OLS 15:10 – 15:20 Pause

15:20 – 15:50 Teil 3: Mehrebenenanalyse, Zeitreihenanalyse, Panelregression, logistische Regression 15:50 – 16:00 Fragen

Anmerkung: R wird direkt in die thematischen Blöcke integriert und ein begleitendes R-Skript ist verfügbar

(6)

Teil 1:

Modelle, OLS, Multivariate Regressionen, Modellevaluation

(7)

Modelle

Modell: Reduzierung der Welt auf das Wesentliche -> Formulierung von allgemeinen

Gesetzmässigkeiten

Parsimonität: Sparsamkeitsregel

-> ein Modell mit weniger Faktoren bei gleichem Erklärungsgehalt wird bevorzugt

Arten von Modellen:

• Realmodell

• Ikonisches Modell

• Verbalmodell

• Formalmodell:

• Mathematisch: deterministisch

• Statistisch: probabilistisch

(8)

Univariate Regressionsmodelle I

Grundidee: Zusammenhang zwischen Variablen untersuchen

Herangehensweise:

• Deskriptiv: ohne Theorie -> keine Verallgemeinerungen

• Hypothesen testen: mit Theorie -> Aussagen über Grundgesamtheit

(9)

Univariate Regressionsmodelle II

𝑦

!

= 𝛽

"

+ 𝛽

#

𝑥

#

+ 𝜖

!

• 𝑦! = Abhängige Variable

• 𝛽" = Regressionskoeffizient des y-

Achsenabschnitts (wenn x = 0)

• 𝛽# = Regressionskoeffizient der Steigung

• 𝑥# = Unabhängige Variable Und:

(10)

Grundannahmen einfache lineare Regressionsmodelle I

Abhängige Variable (Y mit Werten yi ): auch Outcome, Regressand, endogene Variable:

kontinuierlich und normalverteilt

Unabhängige Variable (X mit Werten xi ): auch Prädiktor, Regressor, exogene Variable: keine Voraussetzung Messniveau und keine weiteren Annahmen

Regressionskoeffizient des Y-Achsenabschnitts (β0): auch Achsenabschnitt, Intercept, Erwartungswert von y bei x = 0

nicht immer sinnvoll zu Interpretieren (z.B. x = Grösse einer Schulklasse -> x = 0 geht nicht)

(11)

Grundannahmen einfache lineare Regressionsmodelle II

Regressionskoeffizient der Steigung (β1): auch Steigungskoeffizient, Slope

Misst die durchshnittliche quantitative Veränderung in y, wenn sich x um eine Einheit erhöht.

D.h. wenn der Anteil von Männern, die im Agrarsektor arbeiten 25% anstelle von 24% beträgt, verändert sich der Anteil von Rekruten mit höherer Bildung als Primarschule um β1 Prozentpunkte.

unabhängig vom Niveau von x (egal ob bei 10, 50, oder 80%)

(12)

Grundannahmen einfache lineare Regressionsmodelle III

Fehlerterm (𝜖i): auch Störterm Resultiert aus

1) Messfehler abhängige Variable (z.B. unreliables Messinstrument, falsche Frageformulierung) 2) Fehlerspezifikation im Modell: omitted variables (z.B. Bildung noch von Religion abhängig) 3) Zufallsmomente im menschlichen Verhalten

=> Die Regressionskoeffizienten sind unbekannt und müssen geschätzt werden!

(13)

OLS - Grundidee

E[yi |xi] = β0 + β1xi Normalfall:

Wir haben Daten zur UV und AV.

Ø Wir möchten Koeffizienten herausfinden (also die Regressionsgerade, da die Koeffizienten β0 und β1 die mathematischen Eigenschaften der Gerade beschreiben).

Ø Die Koeffizienten sollen die «bestmöglichen» sein.

Was heisst «bestmöglich»? -> siehe Gütekriterien

(14)

OLS - Gütekriterien

= Kriterien für gute Schätzungen

1) Erwartungstreue, wenn: Erwartungswert des Schätzers = wahrer Wert des zu schätzenden Parameters (schreibt man als E[Schätzer] = θ) -> wenn nicht der Fall, dann verzerrt bzw. biased

2) Konsistenz, wenn: je grösser Stichprobe (n), desto näher an wahrem Wert (schreibt man )

3) Effizienz, wenn: je kleiner Varianz der Schätzfunktion, desto näher ist Schätzwert an wahrem Parameter

Ø Wie finden wir nun «bestmögliche» Schätzer?

(15)

OLS – Residuen minimieren

Residuen:

ei = yi- ŷi bzw.yi= ŷi + ei

Perfekte Anpassungsgüte: alle ei = 0 Grundidee:

Summe aller ei gemeinsam möglichst klein Damit sich nicht gegenseitig aufheben Ø Quadrieren!

SSE = Summe der Residuenquadrate

(16)

OLS - BLUE

Best Linear Unbiased Estimator:

• Zufallsauswahl

• Erwartungswert Fehlerterm ist Null

• Linearität

• Homoskedastizität

• Keine Autokorrelation

• Keine perfekte Multikolleration

• Für Hypothesentests: Fehlerterm normalverteilt

(17)

Regressionen von Hand schätzen (R-Skript)

(18)

OLS – Hypothesen Testen

HA: Theoretische hergeleitete Hypothese

”Je mehr Leute in einem Kanton im Agrarsektor arbeiten (im KT Waadt 1888), desto tiefer ist das Bildungsniveau.”

H0: Gegenteilige Hypothese zu HA

“Wie viele Leute im Agrarsektor arbeiten hängt nicht mit dem Bildungsniveau zusammen.”

Ø Da wir HA nicht verifizieren können, wollen wir H0 verwerfen!

𝜶-Wert: Signifikanzniveau -> Wahrscheinlichkeit H0 zu verwerfen, obwohl sie wahr ist.

Ø Konvention: 0.05 -> 95% Konfidenzintervall liegt zwischen +/- 1.96 * SE(𝛽)

t-Wert: 𝛽/SE

Ø |t| > 1.96 -> auf 0.05 𝛼-Niveau signifikant

p-Wert: Wahrscheinlichkeit, dass – bei gültiger H0 – die Teststatistik mindestens den mit der Stichprobe berechneten Wert annimmt.

(19)

OLS - Interpretieren

(20)

Multivariate Regressionen - Grundidee (R-Skript)

u: Anteil von Y, der nicht durch X2 erklärt wird

v: Anteil von X1, der nicht durch X2 erklärt wird

Ø u ~ v -> Anteil von Y, der nur durch X1 erklärt wird = 𝛽#

(21)

Multivariate Regressionen - Variablenwichtigkeit

• Level Importance: Durchschnittlicher Effekt der Variable

• Maximaler Effekt: maximaler Effekt von X auf Y

• Dispersion Importance: Standardisierte Koeffizienten -> vergleichbares Messniveau

• Anteil an R2: Anteil der Varianz von Y, der durch die entsprechende Variable erklärt wird

(22)

Modellevaluation – Determinationskoeffizient R

2

SSE (Sum of Squared Errors of Prediction)

”nicht erklärte Varianz”

SST (Sum of Squares Total) gesamte Varianz

SSR (Sum of Squares to Regression)

erklärte Abweichungsquadratsumme Ø SSR = SST - SSE

(23)

Modellevaluation – Determinationskoeffizient R

2

R2 = SSR / SST

Werte zwischen 0 (kein Zusammenhang) und 1 (perfekter Zusammenhang)

-> d.h. wenn R2 = 0.3 kann von der

Gesamtstreuung der AV (SST) 30% durch unser Modell erklärt werden (SSR)

(24)

Modellevaluation – Genestete Modelle

Wie finde ich heraus, welche Kombination von UV’s am besten die AV erklärt?

Ø Parsimonität: so wenig UV’s wie nötig Ø Anpassungsgüte:

Verschachtelte Modelle: F-Test (ob zusätzliche UV signifikant ist)

Nicht verschachtelte Modelle: Informationskriterien AIC und BIC (je kleiner desto besser)

(25)

Die Teilnahme für Mitglieder des Fachvereins ist kostenlos.

Falls ihr noch keine Mitglieder seid, könnt ihr den Betrag von 20.00 Franken bequem per Twint (QR- Code) oder mit den folgenden Daten per E-Banking an den Fachverein überweisen:

CH2909000000800177068, Fachverein

Politikwissenschaft, Affolternstrasse 56, 8050 Zürich.

Der Mitgliederbeitrag ist für ein akademisches Jahr

gültig (Herbstsemester und Frühlingssemester), das

(26)

Teil 2:

Erweiterungen, Regressionsdiagnostik

(27)

Nicht lineare Zusammenhänge

Lineare Regressionsmodelle: Müssen linear in

Parametern, aber nicht zwingend linear in Variablen sein!

Ø Polynome: Marginale Effekte (Steigung bei xi) sind nicht konstant

Ø Logarithmen: Exponentialfunktionen werden linear in Parametern, Rechtsschiefe Variablen werden normalisiert

(28)

Dichotome / Dummy und kategorielle Variablen

Können direkt ins Modell eingefügt werden

Jeweils eine Referenzkategorie mit k-1 Dummyvariablen für kategorielle Prädiktoren (dichotom einfach eine) Koeffizient beschreibt Effekt im Vergleich zur Referenzkategorie, ceteris paribus.

(29)

Interaktionsterme

Moderation: Variablen, die den Zusammenhang UV-AV beeinflussen

Achtung: Variablen, die interagieren sollten auch einzeln ins Modell einfliessen Sind symmetrisch, d.h. sie gehen in beide Richtungen

binär-binär: marginaler Effekt bei xk = 0 binär-metrisch: marginaler Effekt bei xk = 0

metrisch-metrisch: marginaler Effekt bei spezifischen Werten der beiden Interaktionsterme

(30)

Erweiterungen

(31)

Regressionsdiagnostik - Multikollinearität

Multikollinearität: lineare Beziehungen zwischen UVs -> hohe Varianz und Standardfehler

Diagnose: Variance Inflation Factor (VIF) Faustregel:

VIF > 10 -> starke Multikollinearität VIF > 5 -> etwas Multikollinearität

(32)

Ausreisser

Ausreisser: Kombination von x und y Werten stimmt nicht mit Datenstruktur überein

Achtung: Extremwerte für nur x oder nur y noch kein Ausreisser

Erkennen:

Intern Studentisierte Residuen: ISR > 3

Extern Studentisierte Residuen: ESR nicht in Standardabweichung

(33)

Hebelwirkung

extreme x Werte -> hohe Hebelwirkung mittlere x Werte -> tiefe Hebelwirkung Erkennen:

Wenn > 2 * durchschnittlicher hat value

Problem: hohe Hebelwirkung = tiefe Residualwerte d.h. «reissen Gerade stark an sich»

(34)

Einfluss

Einfluss = Aussreisser * Hebelwirkung

Erkennen:

Cook’s D: Veränderung des Modells ohne Beobachtung i

DFFITS (difference in fitted values): wie gross ist Einfluss von Beobachtung i Achtung ab > 1 bzw. 2 (grosses n)

(35)

Heteroskedastizität

Heteroskedastizität: Varianz der Fehlerterme nicht konstant über alle x

Ursache: Spezifischer Zusammenhang, Ausreisser, Unterspezifikation, UV sehr schiefe Verteilung

Auswirkung: erwartungstreu und konsistent aber nicht effizient (=nicht BLUE), Hypothesentests verzerrt Diagnose: grafisch oder formell (Residuenplots, Goldfeld-Quandt Test, Breusch-Pagan Test)

Lösungsansätze:

log-Transformation Respezifikation Modell

(36)

Spezifikationsfehler

Endogenität: Fehlerterm korreliert mit UV Überspezifikation:

exogen (UVs korrelieren nicht mit Fehlerterm) Auswirkungen: nicht effizient (grosse Varianz)

Lösung: t-Tests und einzelne F-Tests für Subsets von UVs -> nicht signifikante UVs raus Unterspezifikation:

endogen (UVs korrelieren mit Fehlerterm)

Auswirkungen: nicht erwartungstreue Schätzungen

Lösung: fehlende UV in Modell aufnehmen, Proxy, Instrumentvariable

(37)

Die Teilnahme für Mitglieder des Fachvereins ist kostenlos.

Falls ihr noch keine Mitglieder seid, könnt ihr den Betrag von 20.00 Franken bequem per Twint (QR- Code) oder mit den folgenden Daten per E-Banking an den Fachverein überweisen:

CH2909000000800177068, Fachverein

Politikwissenschaft, Affolternstrasse 56, 8050 Zürich.

Der Mitgliederbeitrag ist für ein akademisches Jahr

gültig (Herbstsemester und Frühlingssemester), das

(38)

Teil 3:

Mehrebenenanalyse, Zeitreihenanalyse, Panelregression, logistische

Regression

(39)

Fixed und Random Effects - Intuition

Beispiel: Wir wollen den Einfluss von Stipendien auf Leistungen von Studierenden untersuchen.

Unsere Levels: Studierende (1) und Universität (2)

Ø Fixed Effects: Wir berechnen die unterschiedlichen Effekte zwischen verschiedenen Unis. (Vorstellung:

Dummies)

Ø Random Effects: Wir sind am Einfluss von Stipendien per se und weniger an den Unterschieden zwischen Unis interessiert. Deshalb ziehen wir eine Zufallsstichprobe der Levels und berechnen die Effekte damit. Wir berücksichtigen damit die Varianz zwischen Unis sowie innerhalb der Unis.

(40)

Autokorrelation

Autokorrelation: Fehlerterme korrelieren miteinander

Folge: erwartungstreu, aber nicht effizient

Erkennen: Durbin-Watson Test (d~±2 -> keine Autokorrelation, d~±4 -> starke Autokorrelation), Unterspezifikation?

Autoregressive Prozesse (der k-ten Ordnung):

Fehlerterm korreliert mit denjenigen der (k-ten) Vorperiode

Stationaritätsannahme: Autokorrelationskoeffizient liegt zwischen plus 1 und minus 1 -> sonst würden Fehlerterme mit der Zeit grösser werden

(41)

Autokorrelation - Zeitreihenanalysen

Dynamische Modelle:

Vorperioden als zusätzliche Modellvariablen Problem: Multikollinearität

Autoregressive Modelle:

Anstelle verzögerte Werte der UV verzögerte Werte der AV nehmen

(42)

Paneldatenanalyse

Kumulierte Querschnitte: basieren auf unterschiedlichen Stichproben -> nur Vergleiche auf Kollektivebene

Paneldaten: gleiche Stichprobe zu mehreren Zeitpunkten

zeitinvariante Variablen (Geburtsort, Bezeichnung Kanton, Herkunft Eltern, etc.) zeitvariante Variablen (Wahlentscheid, Alter, Einkommen, etc.)

Ø Fehlerterm besteht aus einer zeitvarianten und zeitinvarianten Komponente Pooling Panel Model (OLS):

Probleme: Autokorrelation und Endogenität

(43)

Paneldatenanalyse – Probleme lösen

Autokorrelation: wie bei Zeitreihenregression (S.38)

Endogenität:

fixed effects Schätzung: Mittelwert jeder Einheit über Zeit hinweg subtrahiert -> zeitinvarianter Fehlerterm wird «rausgestrichen»

first difference Schätzung: vorhergehender Zeitpunkt abziehen -> zeitinvarianter Fehlerterm wird «rausgestrichen»

(44)

Binäre AV

OLS nicht geeignet (Werte grösser als ±1,

Fehlerterme nicht normalverteilt, Heterskedastizität) Alternative: Kumulierte Verteilungen (Werte

zwischen 1 und 0)

Probit- und Logit-Modelle: andere Annahmen über Fehlerterme, aber fast immer dieselben Resultate Achtung: Odds Ratios, nicht

Regressionskoeffizienten

-> (Odds Ratio – 1) * 100 ist die Veränderung der AV in Prozent

(45)

Fragen?

(46)

Viel Glück!!!

(47)

Regressionstabellen lesen (basierend auf Folien von Laura-Vanessa

Soldner, HS19)

(48)

Informationen ablesen Paper

(49)

Informationen ablesen R

(50)

Koeffizienten lesen

(51)

Koeffizienten lesen quadratische Zusammenhänge

(52)

Koeffizienten lesen quadratische Zusammenhänge

(53)

Koeffizienten lesen logarithmische Zusammenhänge

(54)

Koeffizienten lesen logarithmische Zusammenhänge

(55)
(56)
(57)

Interaktionseffekte

(58)

Interaktionseffekte

Referenzen

ÄHNLICHE DOKUMENTE

auf solche Teile des Netzes beschränkt werden, die ausschließlich zur Nutzung durch Befugte (wie eine Personalabteilung oder einen Amtsarzt) vorgesehen sind. Der Einsatz

mit vom Jg. Bundesrepublik Jugoslawien); (DBA mit SFR Jugoslawien gilt fort, BGBl.. Abkommen Fundstelle Inkrafttreten Anwendung BGBl. II BStBl I grundsätzlich. mit vom

Zum ei- nen, weil bereits im Rahmen der Stellungnahme zu den Anträgen in einem ersten Teil der vorlie- genden Stellungnahme auf einzelne Sachgebiete Bezug genommen wird, zum

Mehr Informationen rund um den QR-Code (samt Hilfe- stellungen zu den verschiedenen Apps) sowie zum Webcode erhalten Sie, wenn Sie diesen Beitrag online lesen. Petra

Gilt es doch, bereits über Jahre gewachsene Versorgungstrukturen zu berücksichtigen und eine sowohl bedarfsgerechte als auch flächendeckende Versorgung zu erhalten bzw.. Regionale

In der Beilage erhalten Sie die unterzeichnete Leistungsvereinbarung zwischen der GDK und der Stiftung Swisstransplant [Schweizerische Stiftung für Organspende und Transplantation

Unsachgemäßer Umgang mit der Pulsuhr kann zu Beschädigungen führen. - Verwenden Sie die Pulsuhr nicht, wenn sie sichtbare Schäden aufweist. - Stellen Sie keine schweren

Per stabilire il limite superiore della frequenza cardiaca premere il tasto “ST./STP.” (avanti) o il tasto “LAP/RESET” (indietro). Per confermare la scelta premere il