Nonparametrische Testverfahren
• Nonparametrische Verfahren: Einordnung und Überblick
• Tests für nominalskalierte Variablen
• Tests für ordinalskalierte Variablen
Parametrische vs. nonparametrische (verteilungsfreie) Testverfahren
parametrisch nonparametrisch
Annahmen über
Populationsverteilung
Meist
Normalverteilung
Keine über Form (manchmal allerdings Gleichheit von Verteilungen)
Skalenniveau
Mindestens IntervallskalaNominalskala oder Ordinalskala
Nonparametrische Verfahren
Vorteile:
• Nur bescheidene Voraussetzungen (z. B. keine Annahme über Varianzhomogenität oder Normalverteilung der
Populuationswerte)
• Auch bei nominal- oder ordinalskalierten Daten anwendbar
Nachteile
• Teststärke (Power) ist immer geringer als die vergleichbarer parametrischer Tests (bei Vorliegen der Voraussetzungen)
• Exakte Effektgrößen nicht immer berechenbar
• Kaum multivariate Verfahren
Tests für nominalskalierte Daten (Beispiele)
Unabhängigkeitstest: Assoziation zwischen (Unabhängigkeit von) zwei
Variablen (Werte jeweils empirisch ermittelt)
(z. B. Zusammenhang zwischen Studienfach und Geschlecht)
2
–Test (bei Vierfeldertafel, Kontingenztafel)
Anpassungstest
(Goodness of fit): Übereinstimmung (Abweichung) zwischen empirischer und theoretischer (diskreter) Verteilung
(z. B. entsprechen die Anteile von PKWs bestimmter Marken in Chemnitz dem Bundesdurchschnitt?)
2–Test
Entspricht ein empirischer Anteil einem theoretischen Anteil?
(z. B. Ist der Anteil der Sachsen mit einem IQ>105 = 50%)
Binomialtest
Vierfeldertafel mit abhängigen Stichproben
(z. B. hat eine Anti-Rauch-Kampagne den Anteil der Raucher reduziert?)
McNemar-Test (spezielle Form des
2–Tests)
k
i e i
i e i
b
1 ,
, ,
2
χ
2
b,i:
beobachtete Häufigkeit des Ereignisses i
e,i:
erwartete Häufigkeit des Ereignisses iJe größer die Abweichung zwischen erwarteten und beobachteten Häufigkeiten, desto größer
2Relative, nicht absolute Abweichungen sind entscheidend!
Pearson 2 Formel :
Analyse qualitativer (nominalskalierter) Daten: 2
df = k-1
(bei einer Variable)
Berechnung von Effektgrößen bei 2 -Verfahren
ki e i
i e i
b
P P w P
1 ,
, ,
2
P
b,i:
beobachtete Proportion (Anteil) für Ereignis iP
e,i:
erwartete Proportion für Ereignis iKonventionen:
klein: w = .1
mittel: w =. 3
groß: w = .5
Rechenbeispiel:
Anpassungstest (Goodness of fit): Übereinstimmung (Abweichung) zwischen empirischer und theoretischer (diskretisierter) Verteilung
Abt. 1 Abt. 2 Abt. 3 Abt. 4 Abt. 5
Empirisches Ergebnis ( b) 14 25 19 20 22
Theoretische Verteilung ( e) 20 20 20 20 20
Der Phi-Koeffizient (Vierfeldertafel)
(bei Variablen mit zwei möglichen Werten)
Variable I
+ - +
Variable II
-
a b
c d
a b c ad d bc a c b d
Phi
(In den Zellen stehen die jeweiligen
Häufigkeiten)
N w
2Unabhängigkeitstests: allgemeine Vorgehensweise
(die Variablenausprägungen werden in k Zeilenausprägungen und m Spaltenausprägungen aufgeteilt)
k i
m
j e ij
ij e ij
b
1 1 ,
, ,
2
χ
2und
k im
j e ij
ij e ij
b
P P w P
1 1 ,
, ,
2
df = (k-1)(m-1)
Berechnung der bei Unabhängigkeit zu erwartenden Häufigkeiten
Definition von stochastischer Unabhängigkeit:
Formuliert mit relativen Häufigkeiten
(Gesamtanzahl = N, f steht für Häufigkeit):
Damit gilt für die erwartete Häufigkeit:
N f N
B f A
p
A
B A B p A p B
p
N f N f
N f N
f
A Bf
A B A
B
Spaltensumme (oder Zeilensumme) Zeilensumme (oder Spaltensumme)
Frage: Was schätzen Sie, wie viel Zeit werden Sie durchschnittlich zur Vor- und Nachbereitung für eine Sitzung in dieser Veranstaltung verwenden?
„kleine“ Skala
< 5 Min. 5 - 15 Min 16 - 30 Min 30 Min. - 1 h > 1 h
„große“ Skala
< 30 Min 30 Min. - 1 h 1 – 1,5 h 1,5 – 2 h > 2 h
9 von 65: mehr als 1 Stunde
19 von 66: mehr als 1 Stunde Skala
klein groß
+
>1h
-
9 19
56 47
(Rechenbeispiel)
N f N f
N f N
f
A Bf
A B A
B
Berechnung der erwarteten Häufigkeiten
Skala
klein groß
+
>1h
-
9 19
56 47
𝑓𝑘𝑙𝑒𝑖𝑛˄+ = 𝑓𝑘𝑙𝑒𝑖𝑛×𝑓+
𝑁 = (9+56)× 9+19
9+19+56+47 = 65×28
131 =13,89 𝑓𝑔𝑟𝑜ß˄+ = 𝑓𝑔𝑟𝑜ß×𝑓+
𝑁 = (19+47)× 9+19
9+19+56+47 = 66×28
131 =14,11 𝑓𝑘𝑙𝑒𝑖𝑛˄− = 𝑓𝑘𝑙𝑒𝑖𝑛×𝑓+
𝑁 = (9+56)× 56+47
9+19+56+47 = 65×103
131 =51,11 𝑓𝑔𝑟𝑜ß˄− = 𝑓𝑔𝑟𝑜ß×𝑓−
𝑁 = (19+47)× 56+47
9+19+56+47 = 66×103
131 =51,89
Skala
klein groß
+
>1h
-
9 19
56 47
Skala
klein groß
+
>1h
-
13,89 14,11 51,11 51,89
Beobachtet Erwartet
(bei Unabhängigkeit)
34 , 4
46 , 0 47 , 0 69 , 1 72 , 1
89 , 51
89 , 51 47
11 , 51
11 , 51 56
11 , 14
11 , 14 19
89 , 13
89 , 13 9
χ
2 2
2 2
1 1 ,
, ,
2 2
k i
m
j e ij
ij e ij
b
18 , 131 0
34 ,
2
4
w N
(signifikant?)
Berechnung der Effektgröße w (Cohen‘s w)
𝑤 =
𝑖=1 𝑘
𝑗=1
𝑚
𝑃
𝑏,𝑖𝑗− 𝑃
𝑒,𝑖𝑗 2𝑃
𝑒,𝑖𝑗=
9
131 − 13,89 131
2
13,89 131
+
19
131 − 14,11 131
2
14,11 131
+
56
131 − 51,11 131
2
51,11 131
+
47
131 − 51,89 131
2
51,89 131
=0,18
Dichotome Werte -- zweimalige Messung:
McNemar Test (df = 1)
(gab es mehr Wechsel von - nach + als umgekehrt?
Beispiel: “ war das Programm wirksam?“)
o,i:
beobachtete Wechselhäufigkeit i (observed frequency)
e,i:
erwartete Wechselhäufigkeit i (expected frequency = [b + c]/2)2. Messung
+ - +
1. Messung
-
a b
c d
c b
c b
2χ
2lässt sich vereinfachen zu:
(Herleitung z. b. im Bortz) bei b + c < 30 benutzt man
üblicherweise die „Yates-Korrektur“:
c b
c b
0 , 5 χ
2 2
e c
c e c
o b
e
b e b
k o
i e i
i e i
o
, , ,
2
, , ,
2
1 ,
, ,
2
χ
2McNemar-Test: Beispiel (erwartete Klausurnoten)
11 5
3 14
Oktober 03 (1=
<= Note 2.5) 0
1
0 1
April 04
c b
c b
0 , 5 χ
2 2
Okt.03: erwartete Klausurnote
4.0 3.5 3.0 2.5 2.0 1.5
Apr.04: erwartete Klausurnote
4.5 4.0 3.5 3.0 2.5 2.0 1.5 1.0 .5
t-Test für abhängige Stichproben:
tAS(32)=2.69, p=.011
28 , 0
3 5
5 , 0 3 5
5 , χ 0
2 2 2
c b
c b
Die Power in 2-Verfahren
G*Power
Tests für ordinalskalierte Variablen (Beispiele)
(oder für intervallskalierte Variablen, bei denen die Voraussetzungen für die Anwendung parametrischer Tests nicht erfüllt sind)
Beispiel 1: Vorzeichentest
(ältester statistischer Test – Arbuthnott 1710)
Binomialverteilung als Prüfverteilung (Methodenlehre I)
Beispiel 2: U-Test
(Alternative zum t-Test für unabhängige Stichproben)
Beispiel 3: Wilcoxon-Test (Vorzeichenrangtest)
(Alternative zum t-Test für abhängige Stichproben)
Beispiel für Vorzeichentest
Höchster Schulabschluss
Partner Partnerin
Studium Realschule
Gymnasium Realschule Realschule Gymnasium
Studium Gymnasium
Grundschule Hauptschule
Studium Hauptschule
Gymnasium Gymnasium
Gymnasium Studium
Studium Realschule
Realschule Hauptschule
Studium Gymnasium
Vorzeichen
+ + – + – +
= – + + +
(Vorzeichentest, Fortsetzung)
H
0: + = 50%, H
1: + 60%
=5,5%
U-Test: Rechenbeispiel
(Reaktionszeiten—Populationswerte nicht normalverteilt)
5 23 3 22
21 9 6 20 3 5,4,4 19 2 18 3
17 1,3,7
Alkohol Kein Alkohol
Vorgehensweise für Vergleich von Gruppen hinsichtlich ihrer mittleren Ränge Berechnung von U (Rangplatzüberschreitungen) für jeden Wert in Gruppe 1: wie viele Werte in Gruppe 2 haben größeren Rangplatz? Summe der
Rangabweichungen = U-Wert (analog kann U´ für Rangplatzunterschreitungen berechnet werden)
2 und 1 Gruppe für
ngrößen Stichprobe
: und
1 Gruppe für
Rangsumme :
: wobei
U U
2
) 1 (
2 1
1
2 1 '
1 1
1 2
1
n n
T
n n und
n T n n
n U
Alternative Berechnung von U und U´
U-Test…
Signifikanztest:
Vergleich des kleineren Wertes (U oder U´) mit dem
kritischen U-Wert (auf „Testrichtung“ achten!)
Rang 1 2 3 4 5 6 7 8 9 10 11 12 13 KA 171 173 177 183 192 203 219
A 194 194 195 206 223 235
Berechnung von U (ausgehend von A):
für jeden Wert in Gruppe A: wie viele Werte in Gruppe KA haben größeren Rangplatz?
U=2+2+2+1+0+0=7,
Berechnung von U´ (ausgehend von A):
für jeden Wert in Gruppe A: wie viele Werte in Gruppe KA haben kleineren Rangplatz?
U´=5+5+5+6+7+7=35 Ukrit: 7
U ≤ Ukrit signifikanter
Unterschied 7
) 13 12
10 8
7 6 2 (
) 1 6 ( 7 6
6
2
) 1 (
1 1
1 2
1
n n T
n n U
Wilcoxon Test: Rechenbeispiel
Höchster Schulabschluss
Partner Partnerin
Studium (4) Grundschule (0) Gymnasium (3) Realschule (2) Studium (4) Realschule (2) Grundschule (0) Realschule (2) Studium (4) Hauptschule (1) Realschule (2) Studium (4)
Differenz
4 1 2 -2 3 -2
Rangplatz des Betrags der Differenz
6 1 3 3 (-) 5 3 (-)
Summe der Rangplätze:
Positive Differenzen: T+ = 6 +1+ 3+5 = 15 Negative Differenzen: T- = 3+3 = 6
(bei Ranggleichheit wird das jeweilige Wertepaar üblicherweise weggelassen)
Der kleinere der beiden Werte ist die Prüfgröße (hier T- ) und wird mit den tabellierten Werten verglichen:
wenn Tkleiner < Tkrit Testergebnis signifikant
5
Power bei nonparametrischen Testverfahren
Generelles Problem: Effektgröße schwierig zu bestimmen
Pragmatische Abhilfe: Powerbestimmung wie bei
korrespondierendem parametrischem Test (führt meist zu einer
Überschätzung der Power)
Literatur
Sedlmeier & Renkewitz (2018), Kapitel 17 & 18
Weiterführende Literatur:
Bortz, J., Lienert, G. A. & Boehnke, K. (2008). Verteilungsfreie Methoden in der Biostatistik (3. Aufl). Berlin: Springer