Nonparametrische Testverfahren

(1)

Nonparametrische Testverfahren

• Nonparametrische Verfahren: Einordnung und Überblick

• Tests für nominalskalierte Variablen

• Tests für ordinalskalierte Variablen

(2)

Parametrische vs. nonparametrische (verteilungsfreie) Testverfahren

parametrisch nonparametrisch

Annahmen über

Populationsverteilung

Meist

Normalverteilung

Keine über Form (manchmal allerdings Gleichheit von Verteilungen)

Skalenniveau

Mindestens Intervallskala

Nominalskala oder Ordinalskala

(3)

Nonparametrische Verfahren

Vorteile:

• Nur bescheidene Voraussetzungen (z. B. keine Annahme über Varianzhomogenität oder Normalverteilung der

Populuationswerte)

• Auch bei nominal- oder ordinalskalierten Daten anwendbar

Nachteile

• Teststärke (Power) ist immer geringer als die vergleichbarer parametrischer Tests (bei Vorliegen der Voraussetzungen)

• Exakte Effektgrößen nicht immer berechenbar

• Kaum multivariate Verfahren

(4)

Tests für nominalskalierte Daten (Beispiele)

Unabhängigkeitstest: Assoziation zwischen (Unabhängigkeit von) zwei

Variablen (Werte jeweils empirisch ermittelt)

(z. B. Zusammenhang zwischen Studienfach und Geschlecht)

 ²

–Test (bei Vierfeldertafel, Kontingenztafel)

Anpassungstest

(Goodness of fit): Übereinstimmung (Abweichung) zwischen empirischer und theoretischer (diskreter) Verteilung

(z. B. entsprechen die Anteile von PKWs bestimmter Marken in Chemnitz dem Bundesdurchschnitt?)

 

²

–Test

Entspricht ein empirischer Anteil einem theoretischen Anteil?

(z. B. Ist der Anteil der Sachsen mit einem IQ>105 = 50%)

 Binomialtest

Vierfeldertafel mit abhängigen Stichproben

(z. B. hat eine Anti-Rauch-Kampagne den Anteil der Raucher reduziert?)



McNemar-Test (spezielle Form des 

²

–Tests)

(5)

 

 

 

 

 k

i e i

b

1 ,

, ,

2

χ

2



_b,i

:

beobachtete Häufigkeit des Ereignisses i



_e,i

:

erwartete Häufigkeit des Ereignisses i

Je größer die Abweichung zwischen erwarteten und beobachteten Häufigkeiten, desto größer 

²

Relative, nicht absolute Abweichungen sind entscheidend!

Pearson  ² Formel :

Analyse qualitativer (nominalskalierter) Daten:  ²

df = k-1

(bei einer Variable)

(6)

(7)

(8)

Berechnung von Effektgrößen bei  ² -Verfahren

 

 



 k

i e i

b

P P w P

1 ,

, ,

2

P

_b,i

:

beobachtete Proportion (Anteil) für Ereignis i

P

_e,i

:

erwartete Proportion für Ereignis i

Konventionen:

klein: w = .1

mittel: w =. 3

groß: w = .5

(9)

Rechenbeispiel:

Anpassungstest (Goodness of fit): Übereinstimmung (Abweichung) zwischen empirischer und theoretischer (diskretisierter) Verteilung

Abt. 1 Abt. 2 Abt. 3 Abt. 4 Abt. 5

Empirisches Ergebnis ( _b) 14 25 19 20 22

Theoretische Verteilung (  _e) 20 20 20 20 20

(10)

Der Phi-Koeffizient (Vierfeldertafel)

(bei Variablen mit zwei möglichen Werten)

Variable I

+ - +

Variable II

-

a b

c d

 â ^b  ^c âd ^d  ^bc â ^c  ^b ^d 

Phi    

 

 

(In den Zellen stehen die jeweiligen

Häufigkeiten)

N  w

 



²

(11)

Unabhängigkeitstests: allgemeine Vorgehensweise

(die Variablenausprägungen werden in k Zeilenausprägungen und m Spaltenausprägungen aufgeteilt)

 

  

 

 

  k i

m

j e ij

ij e ij

b

1 1 ,

, ,

2

χ

2

und

 

  



  k i

m

j e ij

ij e ij

b

P P w P

1 1 ,

, ,

2

df = (k-1)(m-1)

(12)

Berechnung der bei Unabhängigkeit zu erwartenden Häufigkeiten

Definition von stochastischer Unabhängigkeit:

Formuliert mit relativen Häufigkeiten

(Gesamtanzahl = N, f steht für Häufigkeit):

Damit gilt für die erwartete Häufigkeit:

 

N f N

B f A

p  

^A



^B

 ^A ^B  ^p     ^A ^p ^B

p   

 

N f N f

N f N

f

_A _B

f

^A ^B ^A



^B









Spaltensumme (oder Zeilensumme) Zeilensumme (oder Spaltensumme)

(13)

Frage: Was schätzen Sie, wie viel Zeit werden Sie durchschnittlich zur Vor- und Nachbereitung für eine Sitzung in dieser Veranstaltung verwenden?

„kleine“ Skala

< 5 Min. 5 - 15 Min 16 - 30 Min 30 Min. - 1 h > 1 h

„große“ Skala

< 30 Min 30 Min. - 1 h 1 – 1,5 h 1,5 – 2 h > 2 h

9 von 65: mehr als 1 Stunde

19 von 66: mehr als 1 Stunde Skala

klein groß

+

>1h

-

9 19

56 47

(Rechenbeispiel)

(14)

 

N f N f

N f N

f

_A _B

f

^A ^B ^A



^B









Berechnung der erwarteten Häufigkeiten

Skala

klein groß

+

>1h

-

9 19

56 47

𝑓_{𝑘𝑙𝑒𝑖𝑛˄+} = ^𝑓^{𝑘𝑙𝑒𝑖𝑛}^×𝑓⁺

𝑁 = (9+56)× 9+19

9+19+56+47 = ^65×28

131 =13,89 𝑓_{𝑔𝑟𝑜ß˄+} = ^𝑓^{𝑔𝑟𝑜ß}^×𝑓⁺

𝑁 = (19+47)× 9+19

9+19+56+47 = ^66×28

131 =14,11 𝑓_{𝑘𝑙𝑒𝑖𝑛˄−} = ^𝑓^{𝑘𝑙𝑒𝑖𝑛}^×𝑓⁺

𝑁 = (9+56)× 56+47

9+19+56+47 = ^65×103

131 =51,11 𝑓_{𝑔𝑟𝑜ß˄−} = ^𝑓^{𝑔𝑟𝑜ß}^×𝑓⁻

𝑁 = (19+47)× 56+47

9+19+56+47 = ^66×103

131 =51,89

(15)

Skala

klein groß

+

>1h

-

9 19

56 47

Skala

klein groß

+

>1h

-

13,89 14,11 51,11 51,89

Beobachtet Erwartet

(bei Unabhängigkeit)

 

       

34 , 4

46 , 0 47 , 0 69 , 1 72 , 1

89 , 51

89 , 51 47

11 , 51

11 , 51 56

11 , 14

11 , 14 19

89 , 13

89 , 13 9

χ

2 2

1 1 ,

, ,

2 2







 

 

  

 

 

  k i

m

j e ij

ij e ij

b

18 , 131 0

34 ,

2

4 



 w  N



(signifikant?)

(16)

Berechnung der Effektgröße w (Cohen‘s w)

𝑤 = ෍

𝑖=1 𝑘

෍

𝑗=1

𝑚

𝑃

_{𝑏,𝑖𝑗}

− 𝑃

_{𝑒,𝑖𝑗} ²

𝑃

_{𝑒,𝑖𝑗}

=

9

131 − 13,89 131

2

13,89 131

+

19

131 − 14,11 131

2

14,11 131

+

56

131 − 51,11 131

2

51,11 131

+

47

131 − 51,89 131

2

51,89 131

=0,18

(17)

Dichotome Werte -- zweimalige Messung:

McNemar Test (df = 1)

(gab es mehr Wechsel von - nach + als umgekehrt?

Beispiel: “ war das Programm wirksam?“)



_o,i

:

beobachtete Wechselhäufigkeit i (observed frequency)



_e,i

:

erwartete Wechselhäufigkeit i (expected frequency = [b + c]/2)

2. Messung

+ - +

1. Messung

-

a b

c d

 

c b



 

²

χ

2

lässt sich vereinfachen zu:

(Herleitung z. b. im Bortz) bei b + c < 30 benutzt man

üblicherweise die „Yates-Korrektur“:

 

c b





  0 , 5 χ

2 2

     



 

 



 

 

 

 

 

 e c

c e c

o b

e

b e b

k o

i e i

o

, , ,

2

, , ,

2

1 ,

, ,

2

χ

2

(18)

McNemar-Test: Beispiel (erwartete Klausurnoten)

11 5

3 14

Oktober 03 (1=

<= Note 2.5) 0

1

0 1

April 04

 

c b





  0 , 5 χ

2 2

Okt.03: erwartete Klausurnote

4.0 3.5 3.0 2.5 2.0 1.5

Apr.04: erwartete Klausurnote

4.5 4.0 3.5 3.0 2.5 2.0 1.5 1.0 .5

t-Test für abhängige Stichproben:

t_AS(32)=2.69, p=.011

 

28 , 0

3 5

5 , 0 3 5

5 , χ 0

2 2 2







 





 

c b

(19)

Die Power in 2-Verfahren

G*Power

(20)

(21)

Tests für ordinalskalierte Variablen (Beispiele)

(oder für intervallskalierte Variablen, bei denen die Voraussetzungen für die Anwendung parametrischer Tests nicht erfüllt sind)

Beispiel 1: Vorzeichentest

(ältester statistischer Test – Arbuthnott 1710)

Binomialverteilung als Prüfverteilung (Methodenlehre I)

Beispiel 2: U-Test

(Alternative zum t-Test für unabhängige Stichproben)

Beispiel 3: Wilcoxon-Test (Vorzeichenrangtest)

(Alternative zum t-Test für abhängige Stichproben)

(22)

Beispiel für Vorzeichentest

Höchster Schulabschluss

Partner Partnerin

Studium Realschule

Gymnasium Realschule Realschule Gymnasium

Studium Gymnasium

Grundschule Hauptschule

Studium Hauptschule

Gymnasium Gymnasium

Gymnasium Studium

Studium Realschule

Realschule Hauptschule

Studium Gymnasium

Vorzeichen

+ + – + – +

= – + + +

(23)

(Vorzeichentest, Fortsetzung)

H

₀

: + = 50%, H

₁

: +  60%

=5,5%

(24)

U-Test: Rechenbeispiel

(Reaktionszeiten—Populationswerte nicht normalverteilt)

5 23 3 22

21 9 6 20 3 5,4,4 19 2 18 3

17 1,3,7

Alkohol Kein Alkohol

Vorgehensweise für Vergleich von Gruppen hinsichtlich ihrer mittleren Ränge Berechnung von U (Rangplatzüberschreitungen) für jeden Wert in Gruppe 1: wie viele Werte in Gruppe 2 haben größeren Rangplatz?  Summe der

Rangabweichungen = U-Wert (analog kann U´ für Rangplatzunterschreitungen berechnet werden)

(25)

2 und 1 Gruppe für

ngrößen Stichprobe

: und

1 Gruppe für

Rangsumme :

: wobei

U U

2

) 1 (

2 1

1

2 1 '

1 1

1 2

1

n n

T

n n und

n T n n

n U







 

 





Alternative Berechnung von U und U´

U-Test…

Signifikanztest:

Vergleich des kleineren Wertes (U oder U´) mit dem

kritischen U-Wert (auf „Testrichtung“ achten!)

(26)

Rang 1 2 3 4 5 6 7 8 9 10 11 12 13 KA ¹⁷¹ ¹⁷³ ¹⁷⁷ ¹⁸³ ¹⁹² ²⁰³ ²¹⁹

A ¹⁹⁴ ¹⁹⁴ ¹⁹⁵ ²⁰⁶ ²²³ ²³⁵

Berechnung von U (ausgehend von A):

für jeden Wert in Gruppe A: wie viele Werte in Gruppe KA haben größeren Rangplatz?

U=2+2+2+1+0+0=7,

Berechnung von U´ (ausgehend von A):

für jeden Wert in Gruppe A: wie viele Werte in Gruppe KA haben kleineren Rangplatz?

U´=5+5+5+6+7+7=35 U_krit: 7

U ≤ U_krit  signifikanter

Unterschied 7

) 13 12

10 8

7 6 2 (

) 1 6 ( 7 6

6

2

) 1 (

1 1

1 2

1





 

 





 

 



 n n T

n n U

(27)

(28)

Wilcoxon Test: Rechenbeispiel

Höchster Schulabschluss

Partner Partnerin

Studium (4) Grundschule (0) Gymnasium (3) Realschule (2) Studium (4) Realschule (2) Grundschule (0) Realschule (2) Studium (4) Hauptschule (1) Realschule (2) Studium (4)

Differenz

4 1 2 -2 3 -2

Rangplatz des Betrags der Differenz

6 1 3 3 (-) 5 3 (-)

Summe der Rangplätze:

Positive Differenzen: T₊ = 6 +1+ 3+5 = 15 Negative Differenzen: T_- = 3+3 = 6

(bei Ranggleichheit wird das jeweilige Wertepaar üblicherweise weggelassen)

 Der kleinere der beiden Werte ist die Prüfgröße (hier T_- ) und wird mit den tabellierten Werten verglichen:

wenn T_kleiner < T_krit  Testergebnis signifikant

(29)

5

(30)

Power bei nonparametrischen Testverfahren

Generelles Problem: Effektgröße schwierig zu bestimmen

Pragmatische Abhilfe: Powerbestimmung wie bei

korrespondierendem parametrischem Test (führt meist zu einer

Überschätzung der Power)

(31)

Literatur

Sedlmeier & Renkewitz (2018), Kapitel 17 & 18

Weiterführende Literatur:

Bortz, J., Lienert, G. A. & Boehnke, K. (2008). Verteilungsfreie Methoden in der Biostatistik (3. Aufl). Berlin: Springer

Nonparametrische Testverfahren