Statistik leicht gemacht

(1)

1

Mathias Jesussek Hannah Volk-Jesussek

Statistik leicht gemacht

Eine verständliche Einführung

1. Auflage

(2)

2

©DATAtab e.U. | Graz | 2021

Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung von DATAtab e.U.

Einbandentwurf: Mathias Jesussek

(3)

3

Einleitung ... 9

1. Deskriptive Statistik und Inferenzstatistik ... 9

1.1 Teilbereiche der Statistik ... 10

1.2 Deskriptive Statistik ... 11

1.3 Inferenzstatistik ... 13

2. Skalenniveaus ... 17

2.1 Nominale Variablen ... 18

2.2 Ordinale Variablen ... 19

2.3 Kategorische Variablen ... 20

2.4 Metrische Variablen ... 20

2.5 Verhältnisskala und Intervallskala ... 21

2.6 Beispiele für die Skalenniveaus ... 22

3. Stichprobe und Grundgesamtheit ... 24

3.1 Was ist der Unterschied zwischen Vollerhebung und Stichprobe? ... 24

3.2 Was wird unter Grundgesamtheit und Stichprobe verstanden? ... 25

3.3 Welche Arten der Stichprobenziehung gibt es? ... 25

3.4 Was ist eine Wahrscheinlichkeitsauswahl? ... 26

3.5 Was ist eine bewusste Auswahl? ... 27

3.6 Was ist eine willkürliche Auswahl? ... 27

3.7 Wie ziehe ich die Stichprobe bei Online-Umfragen? ... 28

3.8 Wie beschreibe ich die Stichprobe in meiner Bachelor- oder Masterarbeit? ... 28

4. Deskriptive Statistik ... 29

4.1 Wie werden Lagemaße berechnet und interpretiert? ... 29

4.2 Modalwert ... 30

4.3 Median... 31

4.4 Wie werden Streuungsmaße berechnet und interpretiert? ... 36

4.5 Häufigkeitstabelle ... 43

4.6 Kreuztabelle ... 48

4.7 Diagramme ... 53

5. Inferenzstatistik ... 62

5.1 Was ist eine Hypothese? ... 62

5.2 Hypothesentest ... 68

5.3 Der p-Wert ... 77

6. Prüfung von Voraussetzungen statistischer Tests ... 84

6.1 Levene-Test zur Prüfung der Varianzhomogenität ... 84

6.2 Levene-Test Beispiel ... 85

(4)

4

6.3 Test auf Normalverteilung (KS-Test) ... 89

7. Statistische Tests zur Prüfung von Unterschieden ... 96

7.1 Einstichproben t-Test ... 96

7.2 t-Test für unabhängige Stichproben ... 104

7.2.1 Wie wird der t-Test für unabhängige Stichproben berechnet? ... 110

7.3 t-Test für abhängige Stichproben ... 118

7.4 Mann-Whitney U Test ... 127

7.5 Wilcoxon-Test ... 133

7.6 Effektstärken ... 138

8. Analyse von Häufigkeiten ... 143

8.1 Binomialtest ... 143

8.2 Chi-Quadrat-Test ... 147

9. Statistische Tests zur Prüfung von Unterschieden bei mehr als 2 Gruppen ... 160

9.1 Varianzanalyse im Allgemeinen... 160

9.2 Einfaktorielle und zweifaktorielle ANOVA im Vergleich ... 162

9.3 Die Einfaktorielle Varianzanalyse ... 162

10. Statistische Verfahren zur Prüfung von Zusammenhängen ... 171

10.1 Korrelation ... 171

10.2 Partialkorrelation... 181

11. Regressionsanalyse ... 184

11.1 Grundlagen der Regression ... 184

11.2 Wann verwende ich eine Regressionsanalyse? ... 185

11.3 Wie berechne ich eine Regression? ... 187

11.4 Lineare Regression ... 187

11.5 Einfache Lineare Regression ... 188

11.6 Multiple Lineare Regression ... 191

11.7 Multivariate Regression vs. Multiple Regression ... 193

11.8 Voraussetzungen der linearen Regression ... 194

11.9 Signifikanztest und Regression ... 197

11.10 Beispiel Lineare Regression ... 198

11.11 Logistische Regression ... 201

12. Faktorenanalyse ... 212

12.1 Fragestellungen der Faktorenanalyse ... 213

12.2 Was bedeutet Faktor? ... 213

12.3 Faktorladung, Eigenwert, Kommunalitäten ... 214

12.4 Scree-Test zur Bestimmung der Faktorenzahl... 216

(5)

5

12.5 Komponenten- und Rotationsmatrix ... 218

13. Clusteranalyse ... 220

13.1 k-Means Clusteranalyse ... 220

13.2 Wie läuft das k-Means Verfahren ab? ... 220

13.3 Bestimmung der optimalen Cluster-Anzahl ... 223

13.4 Die Ellenbogen-Methode („Elbow Method“) ... 223

Literaturhinweise ... 224

(6)

6

Abbildungsverzeichnis

Abbildung 1: Grundgesamtheit und Stichprobe... 10

Abbildung 2: Teilbereiche der Deskriptiven Statistik ... 11

Abbildung 3: Aufgabe der Inferenzstatistik ... 14

Abbildung 4: Methoden der Inferenzstatistik ... 14

Abbildung 5: Beispiel Inferenzstatistik ... 16

Abbildung 6: Skalen- bzw. Messniveaus... 18

Abbildung 7: Stichprobenziehung ... 25

Abbildung 8: Lagemaße ... 29

Abbildung 9: Darstellung des Medians ... 31

Abbildung 10: Median bei gerader und ungerader Anzahl an Werten ... 32

Abbildung 11: Mittelwert und Median im Vergleich ... 34

Abbildung 12: Streuungsmaße im Überblick ... 36

Abbildung 13: Berechnung der Standardabweichung... 37

Abbildung 14: Darstellung der Spannweite ... 39

Abbildung 15: Darstellung des Interquartilsabstands ... 40

Abbildung 16: Beispiel einer Häufigkeitstabelle ... 43

Abbildung 17: Prozent und gültige Prozent im Überblick ... 44

Abbildung 18: Häufigkeit der Automarken ... 47

Abbildung 19: Beispiel einer Kreuztabelle ... 48

Abbildung 20: Erstellung einer Kreuztabelle ... 49

Abbildung 21: Die bekanntesten Diagramme im Überblick ... 53

Abbildung 22: Beispiel eines Balkendiagramms ... 54

Abbildung 23: Geschachteltes Balkendiagramm ... 55

Abbildung 24: Beispiel eines Histogramms ... 56

Abbildung 25: Beispiel eines Histogramms ... 58

Abbildung 26: Beispiel eines Streudiagramms ... 59

Abbildung 27: Zusammenhänge im Streudiagramm ... 59

Abbildung 28: Diagramm erstellen mit DATAtab ... 60

Abbildung 29: Eigenschaften von Hypothesen ... 62

Abbildung 30: Hypothesen im Forschungsprozess ... 63

Abbildung 31: Einseitiges und Zweiseitiges Testen ... 66

Abbildung 32: Logik des statistischen Schließens ... 69

Abbildung 33: Unsicherheit beim Hypothesentest ... 70

Abbildung 34: Fehlerarten bei Hypothesentests ... 73

Abbildung 35: Auswahl des Skalenniveaus mit DATAtab ... 74

Abbildung 36: Die Interpretation des p-Werts ... 78

Abbildung 37: Die t-Verteilung ... 81

Abbildung 38: Die Chi-Quadrat-Verteilung ... 81

Abbildung 39: der Levene-Test auf Varianzhomogenität... 84

Abbildung 40: Grafische Prüfung der Varianzhomogenität ... 87

Abbildung 41: Erklärung des Levene Tests ... 88

Abbildung 42: Verfahren zur Prüfung der Normalverteilung ... 90

Abbildung 43: Tests auf Normalverteilung ... 90

Abbildung 44: Zusammenhang p-Wert und Stichprobengröße ... 91

Abbildung 45: Histogramm mit Normalverteilungskurve ... 93

(7)

7

Abbildung 46: Q-Q-Plot zur Prüfung der Normalverteilung mit DATAtab ... 93

Abbildung 47: Ergebnisse des Tests auf Normalverteilung mit DATAtab ... 94

Abbildung 48: Die 3 Varianten des t-Tests ... 97

Abbildung 49: Ein- und zweiseitiger t-Test ... 98

Abbildung 50: t-Teststatistik ... 100

Abbildung 51: Mittelwertsunterschied ... 106

Abbildung 52: Berechnung des t-Tests für unabhängige Stichproben ... 111

Abbildung 53: Berechnung des t-Wertes ... 112

Abbildung 54: Boxplot zur Darstellung der t-Test Ergebnisse ... 117

Abbildung 55: Formen des t-Tests... 118

Abbildung 56: t-Test für abhängige bzw. gepaarte Stichproben... 119

Abbildung 57: t-Test und Mann-Whitney U Test ... 127

Abbildung 58: Voraussetzungen des U Tests ... 128

Abbildung 59: Rangsummen berechnen ... 129

Abbildung 60: Berechnung des Wilcoxon-Tests ... 135

Abbildung 61: Effektstärken ... 138

Abbildung 62: Unterschied Effektstärke und p-Wert ... 139

Abbildung 63: Effektstärke berechnen mit DATAtab ... 142

Abbildung 64: Beispiel für kategorische Variablen ... 147

Abbildung 65: Einsatz des Chi2-Tests ... 147

Abbildung 66: Vom Fragebogen zur Kreuztabelle ... 148

Abbildung 67: Effektstärken interpretieren ... 154

Abbildung 68: Arten der Varianzanalyse ... 161

Abbildung 69: Varianzaufklärung der ANOVA ... 163

Abbildung 70: Messwiederholung ... 167

Abbildung 71: Darstellung von Zusammenhängen im Streudiagramm ... 179

Abbildung 72: Partialkorrelation ... 181

Abbildung 73: Scheinkorrelation Störche und Geburtenrate ... 182

Abbildung 74: Fragestellung der Regression ... 184

Abbildung 75: Arten der Regression ... 187

Abbildung 76: Einfache und multiple lineare Regression ... 188

Abbildung 77: Streudiagramm zur Darstellung des Zusammenhangs ... 189

Abbildung 78: Darstellung der Regressionsgeraden ... 190

Abbildung 79: Linearität und Nicht-Linearität ... 194

Abbildung 80: Homo- und Heteroskedastizität ... 195

Abbildung 81: Analytische und grafische Prüfung der Normalverteilung ... 196

Abbildung 82: Einflussfaktoren auf eine Krankheit im Regressionsmodell ... 202

Abbildung 83: Grenzen der linearen Regression ... 203

Abbildung 84: Die logistische Funktion ... 204

Abbildung 85: Annäherung an die logistische Funktion ... 204

Abbildung 86: Likelihood-Funktion ... 206

Abbildung 87: Grundlagen der Faktorenanalyse ... 212

Abbildung 88: Grundbegriffe der Faktorenanalyse ... 215

Abbildung 89: Scree-Plot zur Bestimmung der Faktorenzahl... 216

Abbildung 90: Varianzerklärung in der Faktorenanalyse ... 217

Abbildung 91: Kommunalitäten in der Faktorenanalyse ... 217

Abbildung 92: Komponentenmatrix der Faktorenanalyse ... 218

Abbildung 93: Rotierte Komponentenmatrix ... 219

(8)

8

Abbildung 94: Centroids der Cluster ... 221

Abbildung 95: Schritte des k-Means Algorithmus ... 222

Tabellenverzeichnis

Tabelle 1: Levene-Test ... 88

Tabelle 2: Tabelle der t-Werte ... 101

Tabelle 3: Varianzen im Beispiel der ANOVA ... 164

Tabelle 4: Beispiel zweifaktorielle ANOVA ... 168

Tabelle 5: Stärke des Zusammenhangs ... 173

Tabelle 6: Stärke der Korrelationskoeffizienten ... 176

Tabelle 7: Stärke des Zusammenhangs ... 176

Tabelle 8: Ergebnisse der linearen Regression ... 200

Tabelle 9: Faktorenanalyse Beispiele ... 213

Tabelle 10: Korrelationsmatrix als Grundlage der Faktorenanalyse ... 215

(9)

9

Einleitung

Dieses Buch gibt einen Überblick über die zentralen Themengebiete der Statistik. Es werden dabei die wichtigsten Methoden und Kennwerte der deskriptiven Statistik sowie der schließenden Statistik (Inferenzstatistik) beschrieben und anhand von Grafiken veranschaulicht. Zusätzlich bietet das Buch Schritt-für-Schritt Erklärungen für die Datenanalyse mit DATAtab. Ziel dabei ist es, die Hintergründe der statistischen Methoden sowie deren Umsetzung in DATAtab leicht verständlich und anschaulich zu machen.

Wir beginnen dabei mit den Grundlagen der deskriptiven Statistik und Inferenzstatistik, sowie deren Unterschiede und Anwendungsgebiete. Es folgt eine Einführung in zentrale Grundbegriffe der Statistik. Hierbei stehen die Begriffe Variable bzw. Merkmal, Skalen- bzw. Messniveau, Stichprobe, Grundgesamtheit und Vollerhebung im Fokus.

Danach steigen wir in statistische Verfahren zur Prüfung von Unterschieden bei mehr als zwei Gruppen ein und beschäftigen uns insbesondere mit verschiedenen Formen der Varianzanalyse. Darauf aufbauend beschäftigen wir uns mit statistischen Verfahren zur Prüfung von Zusammenhängen und beleuchten das Feld der Korrelationsanalysen sowie der Partialkorrelationen.

Schließlich folgt eine Auseinandersetzung mit dem Thema der Regression und wir besprechen die lineare und logistische Regression anhand von Beispielen.

Den Abschluss bilden strukturentdeckende Verfahren wie die Faktorenanalyse und die k-Means Clusteranalyse.

Wichtig ist es uns in diesem Buch auch immer zu begründen, warum die jeweiligen Begrifflichkeiten oder Methoden bedeutsam sind, an welcher Stelle im Forschungsprozess sie relevant sind und welche Fragen sich damit beantworten lassen. Wir wünschen viel Freude beim Lesen und Lernen!

1. Deskriptive Statistik und Inferenzstatistik

(10)

10

Bei der Deskriptiven Statistik und der Inferenzstatistik handelt es sich um die beiden Hauptbereiche der Statistik. Die Deskriptive Statistik stellt Werkzeuge bereit, um eine Stichprobe zu beschreiben. Ausgehend von der Stichprobe kann nun mit Hilfe der Inferenzstatistik eine Aussage über die Grundgesamtheit getroffen werden.

Abbildung 1: Grundgesamtheit und Stichprobe

1.1 Teilbereiche der Statistik

Ein Hauptanwendungsgebiet der Statistik ist es, eine Aussage über eine Grundgesamtheit zu treffen. Da es in den meisten Fällen aber nicht möglich ist, alle Daten der Grundgesamtheit zu bekommen wird eine Stichprobe gezogen. Diese Stichprobe kann nun mithilfe der Deskriptiven Statistik beschrieben werden, z. B. mit dem Mittelwert und Streuungsparametern wie die Standardabweichung.

Hiermit kann aber noch keine Aussage über die Grundgesamtheit getroffen

werden, das ist Aufgabe der Inferenzstatistik. Die Inferenzstatistik verwendet

eine Stichprobe aus der Grundgesamtheit, um mit Hilfe dieser Stichprobe

Schlussfolgerungen über die Grundgesamtheit zu machen. Ziel der

Inferenzstatistik ist es also, von den bekannten Parametern einer Stichprobe

auf die unbekannten Parameter der Grundgesamtheit zu schließen.

(11)

11

Daher, Inferenzstatistik versucht, im Gegensatz zur deskriptiven Statistik Schlussfolgerungen zu ziehen, die über die unmittelbaren Daten hinausgehen.

Um dieses zu erreichen, werden in der Inferenzstatistik Hypothesentests wie der t-Test oder die Varianzanalyse verwendet.

1.2 Deskriptive Statistik

Ziel der deskriptiven Statistik ist es, einen Überblick über die Verteilung von Datenmengen zu gewinnen. Die deskriptive Statistik wird auch als beschreibende Statistik bezeichnet. Sie hilft dabei Datenmengen zu beschreiben und anschaulich darzustellen.

Unter dem Begriff deskriptive Statistik werden somit statistische Methoden zur Beschreibung von Daten anhand statistischer Kennwerte, Diagramme, Grafiken oder Tabellen zusammengefasst.

Wichtig ist hierbei, dass nur die Eigenschaften der jeweiligen Stichprobe beschrieben und ausgewertet werden. Es werden in der deskriptiven Statistik dabei jedoch keine Schlussfolgerungen über andere Zeitpunkte oder die Grundgesamtheit getroffen. Dies ist die Aufgabe der Inferenzstatistik bzw.

Schließenden Statistik.

Die verschiedenen Teilbereiche der Deskriptiven Statistik lassen sich wie folgt zusammenfassen:

Abbildung 2: Teilbereiche der Deskriptiven Statistik

Je nachdem welche Fragestellung und welches Skalenniveau vorliegen, werden unterschiedliche Kennzahlen, Tabellen und Grafiken für die Auswertung verwendet. Am bekanntesten sind hierbei:

▪

Lagemaße: Mittelwert, Median, Modalwert, Summe

▪

Streuungsmaße: Standardabweichung, Varianz, Spannweite

▪

Häufigkeitstabellen: Absolute, relative und kumulierte Häufigkeiten

(12)

12

▪

Diagramme: Histogramme, Balkendiagramme, Boxplots, Streudiagramme, Matrixplots

Die erste Gruppe der Deskriptiven Statistik stellen Lagemaße wie der Mittelwert oder der Modalwert dar. Sie dienen dazu eine zentrale Tendenz der Datenmenge auszudrücken. Sie beschreiben also, wo sich das Zentrum einer Stichprobe befindet oder wo sich ein großer Teil der Stichprobe befindet.

Die zweite Gruppe stellen Streuungsmaße dar. Sie geben Auskunft darüber wie stark sich die Werte in einer Stichprobe voneinander unterscheiden.

Streuungsmaße können also beschreiben wie stark die Werte einer Variablen vom Mittelwert abweichen: Liegen die Werte eher eng beisammen, sind also ähnlich oder liegen sie weit auseinander und unterscheiden sich somit stark?

Ein klassisches Beispiel hierfür ist die Standardabweichung.

Welche Lagemaße oder Streuungsmaße zur Beschreibung der Daten geeignet sind, hängt vom jeweiligen Skalenniveau oder Messniveau der Variablen ab.

Dabei lassen sich das metrische, ordinale und nominale Skalenniveau unterscheiden.

Ein großer Bereich der deskriptiven Statistik sind dann noch die Diagramme wie das Balkendiagramm, das Kreisdiagramm oder das Histogramm.

So geht's mit DATAtab:

Mit DATAtab kannst du Diagramme direkt in deinem Browser erstellen.

Welche Schritte dafür notwendig sind, zeigen wir dir im untenstehenden Beispiel.

Beispiel: Es wird eine Stichprobe von 10 männlichen Basketball Spielern gezogen, bei denen die Körpergröße in Metern gemessen wird.

Nachdem du die untenstehenden Daten in die Tabelle des Statistik

Rechners kopiert hast, klickst du auf Deskriptive Statistik im Rechner und

wählst die Variable „Körpergröße“ aus.

(13)

13

DATAtab gibt dir nun die folgende Tabelle mit deskriptiven Statistiken zur Körpergröße der Spieler aus. In der Tabelle sind die relevanten

Streuungsmaße und Lagemaße dargestellt.

Daten

Spieler Körpergröße

1 1,62

2 1,72

3 1,55

4 1,7

5 1,78

6 1,65

7 1,64

8 1,64

9 1,66

10 1,74

Statistiken

Körpergröße

Mittelwert 1,67

Median 1,655

Mode 1,64

Summe 16,7

Standardabweichung 0,066

Varianz 0,004

Minimum 1,55

Maximum 1,78

Range 0,23

1.3 Inferenzstatistik

Im Gegensatz zu Deskriptiven Statistik möchte die Inferenzstatistik eine

Aussage über die Grundgesamtheit treffen. Da es aber in den meisten Fällen

(14)

14

nahezu unmöglich ist, die gesamte Population zu befragen wird eine Stichprobe verwendet, also ein kleiner Datensatz, der aus der Grundgesamtheit stammt. Mit dieser Stichprobe soll nun eine Aussage über die Grundgesamtheit getroffen werden. Ein Beispiel für die Inferenzstatistik wäre, wenn aus der Grundgesamtheit von allen österreichischen StaatsbürgerInnen eine Stichprobe von 1.000 BürgerInnen genommen wird.

Abbildung 3: Aufgabe der Inferenzstatistik

Je nachdem welche Aussage über die Grundgesamtheit getroffen werden soll, bzw. welche Fragestellung über die Grundgesamtheit beantwortet werden soll, kommen bei der Inferenzstatistik verschiedene statistische Verfahren bzw. Hypothesentests zum Einsatz. Die bekanntesten Verfahren in der Inferenzstatistik sind die Hypothesentests, mit denen ein Gruppenunterschied geprüft werden kann, wie z. B. der t-Test, Chi-Quadrat Test oder die Varianzanalyse. Dann gibt es noch die Hypothesentests, mit denen ein Zusammenhang von Variablen geprüft werden kann wie die Korrelationsanalyse und die Regression.

Abbildung 4: Methoden der Inferenzstatistik

(15)

118

7.3 t-Test für abhängige Stichproben

Der t-Test für gepaarte Stichproben ist ein statistischer Test, mit dem festgestellt werden kann, ob es einen Unterschied zwischen zwei abhängigen Gruppen gibt.

Der t-Test für abhängige Stichproben, oder auch gepaarter t-Test genannt, überprüft, ob sich die Mittelwerte zweier abhängiger Gruppen signifikant voneinander unterscheiden. Hierbei wird geprüft, ob die Mittelwerte der beiden Gruppen voneinander abweichen.

Abbildung 55: Formen des t-Tests

Wofür brauchst du den gepaarten t-Test?

Du verwendest den gepaarten t-Test immer dann, wenn du dieselbe Gruppe bzw. Stichprobe zu zwei Zeitpunkten befragst. Dich könnte zum Beispiel interessieren, ob ein Reha-Besuch die körperliche Fitness positiv beeinflusst.

Da du nicht alle Personen befragen kannst, die auf eine Reha gehen

verwendest du eine Stichprobe. Mithilfe des gepaarten t-Test kannst du dann

von der Stichprobe auf die Grundgesamtheit schließen.

(16)

119 Abbildung 56: t-Test für abhängige bzw. gepaarte Stichproben

Was sind abhängige bzw. gepaarte Stichproben?

Bei abhängigen Stichproben liegen die Messwerte in Paaren vor. Die Paare ergeben sich durch Messwiederholungen, Parallelisierung oder Matching.

Dies kann etwa bei Längsschnittstudien mit mehreren Messzeitpunkten (Zeitreihenanalysen) oder bei Interventionsstudien mit experimentellen Designs (Vorher-Nachhermessung) der Fall sein.

Ein einfaches Beispiel für abhängige Stichproben wäre etwa, dass bei einer Gruppe von Personen zu zwei Zeitpunkten das Gewicht gemessen wird. Einer Person kann dann eindeutig ein Gewicht zum ersten und zum zweiten Messzeitpunkt zugeordnet werden und es kann jeweils die Differenz der Messwerte berechnet werden.

Beispiele für den t-Test für gepaarte Stichproben

Der t-Test für abhängige Stichproben hat zahlreiche Anwendungsgebiete, hier drei Beispiele.

Medizinisches Beispiel:

In einem Pharmaunternehmen möchtest du prüfen, ob ein neues

Medikament die Gedächtnisleistung erhöht. Hierzu bestimmst du die

(17)

120

Gedächtnisleistung von 40 ProbandInnen vor und nachdem sie das Medikament eingenommen haben.

Technisches Beispiel:

Eine Schraubenfabrik beklagt sehr hohe Stillstands-Zeiten bei ihren 5 Produktionsanlagen. Du möchtest nun herausfinden, ob ein neu eingeführtes Schmiermittel einen Einfluss auf die Stillstands-Zeiten hat. Hierfür vergleichst du die Stillstands-Zeiten der 5 Anlagen jeweils vor und nach der Einführung des neuen Schmiermittels.

Sozialwissenschafliches Beispiel:

Du möchtest herausfinden, ob es zwischen 2010 und 2015 eine Veränderung in Bezug auf das Gesundheitsbewusstsein der deutschen Bevölkerung gibt.

Hierfür könntest du beispielsweise auf Daten des Sozioökonomischen Panels (SOEP) zurückgreifen. Das SOEP ist eine repräsentative Wiederholungsbefragung von Privathaushalten in Deutschland. Es werden dabei stets dieselben Personen in regelmäßigen Abständen zu den gleichen Themen befragt. Um deine Fragestellung zu beantworten, vergleichst du das Gesundheitsbewusstsein der Befragten im Jahr 2010 und 2015.

Fragestellung und Hypothesen für den t-Test für abhängige Stichproben

Damit man einen t-Test für abhängige Stichproben berechnen kann, muss zunächst eine Fragestellung und die Hypothesen definiert werden.

Bei einem t-Test für abhängige Stichproben lautet die Fragestellung allgemein: Besteht ein statistisch signifikanter Unterschied zwischen dem Stichprobenmittelwert zweier abhängiger Gruppen?

Die Fragestellungen für die oberen Beispiele ergibt sich wie folgt:

•