Multiple Mittelwertsvergleiche
Globaltest und Multipler Test
& Globalhypothese und Multiple Hypothesen
& Simultane Irrtumswahrscheinlichkeit und Multiples Niveau
Multiple Mittelwertsvergleiche
& Einschrittverfahren (Paarweise Vergleiche)
& Many-One-Vergleiche
& Mehrschrittverfahren (Spannweitentests)
& Kontraste (Vergleich von Mittelwertsgruppen)
m a
2 a(a 1) 2
Globaltest und Multipler Test
Globaltest (Varianzanalyse) Nullhypothese:
H0: µ = µi j ~i,j = 1,2,...,a Alle Mittelwerte sind gleich Faktor A hat keine Wirkung Alternativhypothese:
H1: }i,j µ ig µj
Es existiert mindestens ein Mittelwertsunterschied Faktor A hat eine Wirkung
Multipler Test Nullhypothesen:
H0(ij): µ = µ bzw. i j H0(ij): µ i µ = 0j (1 i < ja) Zwei spezielle Mittelwerte sind gleich
Alternativhypothesen:
H1(ij): µ ig µ bzw. j H1(ij): µ i µ jg0 (igj) Zwei spezielle Mittelwerte sind verschieden Maximale Anzahl der Vergleiche:
z.B. Ertragsvergleich von 5 Sorten: 10 Vergleiche
Simultane Irrtumswahrscheinlichkeit und Multiples Niveau
Globalnullhypothese z.B. H0: µ = µi j ~i,j = 1,2,...,a Einzelnullhypothesen z.B. H0(ij): µ = µi j (1 i < ja)
Individuelle Irrtumswahrscheinlichkeit
Irrtumswahrscheinlichkeit für den Test jeder einzelnen Hypothese Simultane Irrtumswahrscheinlichkeit 1 (1 )m
Irrtumswahrscheinlichkeit für den Test aller Einzelnhypothesen
Globales Niveau
Ein Test hält das globale Niveau , (family error in a weak sense), wenn die Wahrscheinlichkeit, mindestens eine wahre Hypothese abzulehnen, kleiner oder gleich ist, unter der Vor- aussetzung, daß die Globalnullhypothese richtig ist, d.h. alle Einzelnullhypothesen wahr sind.
Multiples Niveau
Ein Test hält das multiple Niveau , (family error in a strong sense), wenn die Wahrscheinlichkeit, mindestens eine wahre Hypothese abzulehnen, kleiner oder gleich ist, unabhängig davon, wieviele und welche der Einzelnullhypothesen wahr sind.
Konservative oder (strenge) Tests halten multiples Niveau.
Antikonservative (liberale) Tests halten kein multiples Niveau.
m a
2 a(a 1) 2
Multiple Mittelwertsvergleiche
Einschrittverfahren (Paarweise Vergleiche) (t-Test)
Fisher LSD-Test (Least Significant Difference) Tukey HSD-Test (Honestly Significant Difference) Bonferroni FSD-Test (Fisher’s Significant Difference) Anzahl der Vergleiche:
Many-One-Vergleiche (Vergleich mit einem Mittelwert) Dunnett-Test (Vergleich mit einer Kontrolle)
Hsu-Test (Vergleich mit dem Besten) Anzahl der Vergleiche: m = a 1
Mehrschrittverfahren (Spannweitentests) Newman-Keuls-Test
Duncan-Test
Kontraste (Vergleich von Mittelwertsgruppen) Scheffé-Test
GD!#sd# 1 ri
1
rj!# MQR# 1 ri
1 rj GD!#sd# 2
r!#
2 MQR r
2
|yi yj| > GD 0ÕV.I.yi yj±GD"
Paarweise Vergleiche (Einschrittverfahren)
Grenzdifferenz GD (Significant Difference SD)
für ri = rj = r
Fraktilen
Test Fraktile ! Niveau
Fisher LSD t globales Niveau
Tukey HSD multiples Niveau
Bonferroni FSD multiples Niveau
na;1/2
qa,na;1/2 /
tna;1’/2 (’ = /m) t: Fraktile der Student- oder t-Verteilung
q: Fraktile der studentisierten Spannweitenverteilung
Test
µ ig µ , falls j bzw.
GD!#sd# 1 ri
1
rK!# MQR# 1 ri
1 rK GD!#sd# 2
r!#
2 MQR r
''ij ri rirK#
rj rjrK
|yi yK| > GD 0ÕV.I.yi yK±GD"
V.I.: µi max µj yi maxyj±!#sd# 2 r
±
1
Many-One-Vergleiche
Dunnett-Test (Comparison with a Control)
für ri = rK = r
! = da1,na;';1: Fraktile der standardisierten Maximum- Modulus-Verteilung mit Korrelation '
µ ig µ , falls K bzw.
Hsu-Test (MCB - Multiple Comparison with the Best)
! = da1,na;0.5;1: Fraktile der studentisierten Maximum-
Modulus-Verteilung mit Korrelation 0.5 x = min (x,0), x+ = max (x,0)
Obere Grenze von V.I. = 0: µ kann nicht der größte seini Untere Grenze von V.I. = 0: µ kann nicht der kleinste seini
yi. y..3.5
Fungizidversuch
Meßwerte yij: Septoria nodorum [Pyknidien/cm ]
2
Faktor A: Fungizidbehandlung 1 ohne (Kontrolle) 2 Fungizid U 3 Fungizid V
Behandlung i
1 2 3
Wiederholung j 3 2.5 2.5 3.4
1 5.2 3.9 2.2
2 5.2 3.4 2.6
4 4.4 2.0 4.4
5 6.2 1.2 3.4
Mittelwert 4.7 2.6 3.2
Modell yij = µ + i + eij = µ + i eij
Hypothesen H0(ij): µ = µi j 1 i < j 3 H1(ij): µ ig µj igj
Anzahl der Hypothesen 3 # 2 / 2 = 3 (Vergleiche)
LSD5%t12;0.975# 2MQR
r 2.18#
2#1.27 5 1.6 HSD5%q3,12;0.95# MQR
r 3.77#
1.27 5 1.9 FSD5%t12;0.992# 2MQR
r 2.80#
2#1.27 5 2.0
|y1 y2||4.7 2.6|2.1
|y1 y3||4.7 3.2|1.5
|y2 y3||2.6 3.2|0.6
Fungizidversuch - Paarweise Vergleiche
Tafel der Varianzanalyse
Variationsursache SQ FG MQ F p
Behandlung 11.70 02 5.85 4.61 0.033
Rest 15.22 12 1.27
total 26.92 14
Grenzdifferenzen
Fisher:
Tukey:
Bonferroni:
Vergleich
> 2.0 (> 1.9 > 1.6) signifikant < 1.6 (< 1.9 < 2.0) nicht signifikant < 1.6 (< 1.9 < 2.0) nicht signifikant
Rpkrit.
qp,n a;1
p
2
#sd# 1 ri
1 rj
qp,n a;1
p
2
# MQR# 1 ri
1 rj
Rpkrit.qp,n a;1
p
2
#sd# 2
r qp,n a;1
p# MQR
r
yaya 1áy1 Raya y1
Ra 1ya 1 y1 Ra 1ya y2
NKp ~p2,3,á,a
Dp1 (1 )p 1 ~p2,3,á,a
Spannweitentests (Mehrschrittverfahren)
Schrittweiser Vergleich der P-Spannweite Rp mit einer kritischen Spannweite Rpkrit.
für ri = rj = r
q: Fraktile der studentisierten Spannweitenverteilung Prozedur
Anordnung der Mittelwerte nach Größe:
1. Schritt: Vergleich der größten Spannweite mit kriti- scher Spannweite Ra .
krit.
Falls Ra > Ra (Signifikanz) 2. Schritt
krit.
Falls keine Signifikanz STOP
2. Schritt: Vergleich von und mit
kritischer Spannweite Ra .
krit.
Falls Ra1 > Ra1krit. (Signifikanz) 3. Schritt Falls keine Signifikanz STOP
usw.
Newman-Keuls-Test:
Duncan-Test:
Newman-Keuls- und Duncan-Test halten kein multiples Niveau
yKontrolle>yV>yU: 4.7 > 3.2 > 2.6
R3NKq3,12;0.95# MQR
r 3.77#
1.27 5 1.9 R3Dq3,12;0.90# MQR
r 3.20#
1.27 5 1.6 R3>R3NK>R3D
R23.2 2.60.6 R24.7 3.21.5 R2NKq2,12;0.95# MQR
r 3.08#
1.27 5 1.55 R2Dq2,12;0.95# MQR
r 3.08#
1.27 5 1.55
R2<R2NKR2D
Fungizidversuch - Spannweitentests
Tafel der Varianzanalyse
Variationsursache SQ FG MQ F p
Behandlung 11.70 02 5.85 4.61 0.033
Rest 15.22 12 1.27
total 26.92 14
Anordnung der Mittelwerte:
1. Schritt:R3 = 4.7 2.6 = 2.1
Signifanter Mittelwertsunterschied bei Newman-Keuls und Duncan, da
2. Schritt: ,
Keine signifanten Mittelwertsunterschiede bei Newman-Keuls oder Duncan, da
M
a i1
ciµi mit M
a i1
ci0
CM
a i1
ciyi.
Ckrit.!#sc (a 1)#Fa 1,n a;1 # MQR#M
a i1
ci2 ri
Vergleich von Mittelwertsgruppen (Kontraste)
Scheffé-Test
Kontrast:
Hypothesen: H0: = 0 gegen H1: g 0
Testgröße:
Kritische Grenze:
Testergebnis: H0 ablehnen, wenn C > Ckrit.
H0: µ11
2(µ2µ3) @ 1µ1 1 2µ2 1
2µ30
Cc1y1.c2y2.c3y3.1#4.7 1
2#2.6 1
2#3.21.8
2#F2,12;0.95# MQR#c12c22c32
5
2#3.89#1.27#10.250.25
5 1.72
Fungizidversuch - Kontrast
Tafel der Varianzanalyse
Variationsursache SQ FG MQ F p
Behandlung 11.70 02 5.85 4.61 0.033
Rest 15.22 12 1.27
total 26.92 14
Nullhypothese
H0: Kontrolle ist gleich Mittel von U und V
(c1 + c2 + c3 = 1 1/2 1/2 = 0) Testgröße
Kritische Grenze
Ckrit. =
=
Testergebnis
C = 1.8 > 1.72 = Ckrit., also H0 ablehnen auf = 5%
Natriumgehalt von Kohl
Natriumgehalt von 7 Kohlarten [mg / 100 g]
MTB > Print 'Rosen'-'Weiss'.
Data Display
Rosen Blumen Broccoli Kohlrabi China Wirsing Weiss 7.9 18.1 13.3 6.2 9.3 8.3 10.6 9.8 14.0 13.6 7.9 2.9 9.1 13.0 6.4 17.4 16.0 10.9 8.6 11.7 17.5 4.4 13.2 10.8 11.9 9.2 4.0 9.5 5.9 18.0 18.6 9.5 9.1 11.2 14.9 9.1 11.9 10.2 14.1 4.5 10.3 9.8
Tafel der Varianzanalyse
MTB > Oneway 'Natrium' 'Kohl' One-way Analysis of Variance
Analysis of Variance for Natrium
Source DF SS MS F P Kohl 6 370.32 61.72 7.76 0.000 Error 35 278.40 7.95
Total 41 648.72
Level N Mean StDev Blumen 6 15.433 2.724 Broccoli 6 13.750 3.166 China 6 7.267 2.819 Kohlrabi 6 10.083 2.839 Rosen 6 7.250 2.050 Weiss 6 12.550 3.190 Wirsing 6 9.100 2.802 Pooled StDev = 2.820
Natriumgehalt von Kohl - Fisher LSD MTB > Oneway 'Natrium' 'Kohl'; SUBC> Fisher 0.05. Fisher's pairwise comparisons Family error rate = 0.415 Individual error rate = 0.0500 Critical value = 2.030 Intervals for (column level mean) - (row level mean) Blumen Broccoli China Kohlrabi Rosen Weiss Broccoli -1.622 4.989 China 4.861 3.178 11.472 9.789 Kohlrabi 2.045 0.361 -6.122 8.655 6.972 0.489 Rosen 4.878 3.195 -3.289 -0.472 11.489 9.805 3.322 6.139 Weiss -0.422 -2.105 -8.589 -5.772 -8.605 6.189 4.505 -1.978 0.839 -1.995 Wirsing 3.028 1.345 -5.139 -2.322 -5.155 0.145 9.639 7.955 1.472 4.289 1.455 6.755
Natriumgehalt von Kohl - Bonferroni FSD
MTB > Oneway 'Natrium' 'Kohl'; # Bonferroni SUBC> Fisher 0.00238. # alpha = 0.05/21 Fisher's pairwise comparisons
Family error rate = 0.0349 Individual error rate = 0.00238 Critical value = 3.276
Intervals for (column level mean) - (row level mean)
Blumen Broccoli China Kohlrabi Rosen Weiss Broccoli -3.651
7.018
China 2.832 1.149 13.501 11.818
Kohlrabi 0.016 -1.668 -8.151 10.684 9.001 2.518
Rosen 2.849 1.166 -5.318 -2.501 13.518 11.834 5.351 8.168
Weiss -2.451 -4.134 -10.618 -7.801 -10.634 8.218 6.534 0.051 2.868 0.034
Wirsing 0.999 -0.684 -7.168 -4.351 -7.184 -1.884 11.668 9.984 3.501 6.318 3.484 8.784
Natriumgehalt von Kohl - Tukey HSD
MTB > Oneway 'Natrium' 'Kohl';
SUBC> Tukey 0.05.
Tukey's pairwise comparisons Family error rate = 0.0500 Individual error rate = 0.00356 Critical value = 4.42
Intervals for (column level mean) - (row level mean)
Blumen Broccoli China Kohlrabi Rosen Weiss Broccoli -3.406
6.773
China 3.077 1.394 13.256 11.573
Kohlrabi 0.261 -1.423 -7.906 10.439 8.756 2.273
Rosen 3.094 1.411 -5.073 -2.256 13.273 11.589 5.106 7.923
Weiss -2.206 -3.889 -10.373 -7.556 -10.389 7.973 6.289 -0.194 2.623 -0.211
Wirsing 1.244 -0.439 -6.923 -4.106 -6.939 -1.639 11.423 9.739 3.256 6.073 3.239 8.539
Natriumgehalt von Kohl - Dunnett
MTB > Oneway 'Natrium' 'Code';
SUBC> Dunnett 0.05 1. # 1 = Rosen
Dunnett's intervals for treatment mean minus control mean Family error rate = 0.0500
Individual error rate = 0.0107 Critical value = 2.70
Control = level (1) of Code # 1 = Rosen
Level Lower Center Upper ---+---+---+--- 2 Blumen 3.792 8.183 12.575 (---*---) 3 Broccoli 2.108 6.500 10.892 (---*---) 4 Kohlrabi -1.558 2.833 7.225 (---*---)
5 China -4.375 0.017 4.408 (---*---) 6 Wirsing -2.542 1.850 6.242 (---*---)
7 Weiss 0.908 5.300 9.692 (---*---)
---+---+---+--- 0.0 5.0 10.0
Natriumgehalt von Kohl - Hsu MCB
MTB > Oneway 'Natrium' 'Kohl';
SUBC> MCB 0.05 -1.
Hsu's MCB (Multiple Comparisons with the Best) Family error rate = 0.0500
Critical value = 2.38
Intervals for level mean minus smallest of other level means
Level Lower Center Upper ---+---+---+--- Blumen 0.000 8.183 12.065 (---*---) Broccoli 0.000 6.500 10.381 (---*---) China -3.865 0.017 3.898 (---*---)
Kohlrabi -1.048 2.833 6.715 (---*---) Rosen -3.898 -0.017 3.865 (---*---)
Weiss 0.000 5.300 9.181 (---*---) Wirsing -2.031 1.850 5.731 (---*---)
---+---+---+--- 0.0 5.0 10.0
Natriumgehalt von Kohl - Bonferroni FSD
MTB > GLM 'Natrium' = Kohl;
SUBC> Pairwise Kohl;
SUBC> Bonferroni.
Kohl = Blumen subtracted from:
Level Difference SE of Adjusted Kohl of Means Difference T-Value P-Value Broccoli -1.683 1.628 -1.034 1.0000 China -8.167 1.628 -5.015 0.0003 Kohlrabi -5.350 1.628 -3.286 0.0487 Rosen -8.183 1.628 -5.026 0.0003 Weiss -2.883 1.628 -1.771 1.0000 Wirsing -6.333 1.628 -3.889 0.0090 Kohl = Broccoli subtracted from:
Level Difference SE of Adjusted Kohl of Means Difference T-Value P-Value China -6.483 1.628 -3.982 0.0069 Kohlrabi -3.667 1.628 -2.252 0.6450 Rosen -6.500 1.628 -3.992 0.0067 Weiss -1.200 1.628 -0.737 1.0000 Wirsing -4.650 1.628 -2.856 0.1507 Kohl = China subtracted from:
Level Difference SE of Adjusted Kohl of Means Difference T-Value P-Value Kohlrabi 2.81667 1.628 1.72980 1.0000 Rosen -0.01667 1.628 -0.01024 1.0000 Weiss 5.28333 1.628 3.24465 0.0544 Wirsing 1.83333 1.628 1.12590 1.0000 Kohl = Kohlrabi subtracted from:
Level Difference SE of Adjusted Kohl of Means Difference T-Value P-Value Rosen -2.833 1.628 -1.740 1.000 Weiss 2.467 1.628 1.515 1.000 Wirsing -0.983 1.628 -0.604 1.000 Kohl = Rosen subtracted from:
Level Difference SE of Adjusted Kohl of Means Difference T-Value P-Value Weiss 5.300 1.628 3.255 0.0529 Wirsing 1.850 1.628 1.136 1.0000 Kohl = Weiss subtracted from:
Level Difference SE of Adjusted Kohl of Means Difference T-Value P-Value Wirsing -3.450 1.628 -2.119 0.8669
Natriumgehalt von Kohl - Tukey HSD
MTB > GLM 'Natrium' = Kohl;
SUBC> Pairwise Kohl;
SUBC> Tukey.
Kohl = Blumen subtracted from:
Level Difference SE of Adjusted Kohl of Means Difference T-Value P-Value Broccoli -1.683 1.628 -1.034 0.9424 China -8.167 1.628 -5.015 0.0003 Kohlrabi -5.350 1.628 -3.286 0.0341 Rosen -8.183 1.628 -5.026 0.0003 Weiss -2.883 1.628 -1.771 0.5755 Wirsing -6.333 1.628 -3.889 0.0071 Kohl = Broccoli subtracted from:
Level Difference SE of Adjusted Kohl of Means Difference T-Value P-Value China -6.483 1.628 -3.982 0.0056 Kohlrabi -3.667 1.628 -2.252 0.2954 Rosen -6.500 1.628 -3.992 0.0054 Weiss -1.200 1.628 -0.737 0.9892 Wirsing -4.650 1.628 -2.856 0.0923 Kohl = China subtracted from:
Level Difference SE of Adjusted Kohl of Means Difference T-Value P-Value Kohlrabi 2.81667 1.628 1.72980 0.6016 Rosen -0.01667 1.628 -0.01024 1.0000 Weiss 5.28333 1.628 3.24465 0.0377 Wirsing 1.83333 1.628 1.12590 0.9157 Kohl = Kohlrabi subtracted from:
Level Difference SE of Adjusted Kohl of Means Difference T-Value P-Value Rosen -2.833 1.628 -1.740 0.5951 Weiss 2.467 1.628 1.515 0.7343 Wirsing -0.983 1.628 -0.604 0.9963 Kohl = Rosen subtracted from:
Level Difference SE of Adjusted Kohl of Means Difference T-Value P-Value Weiss 5.300 1.628 3.255 0.0367 Wirsing 1.850 1.628 1.136 0.9123 Kohl = Weiss subtracted from:
Level Difference SE of Adjusted Kohl of Means Difference T-Value P-Value Wirsing -3.450 1.628 -2.119 0.3645
Natriumgehalt von Kohl - Dunnett
MTB > GLM 'Natrium' = Code;
SUBC> Control Code;
SUBC> Levels 1; # 1 = Rosen SUBC> Dunnett.
Dunnett Simultaneous Tests Response Variable Natrium Comparisons with Control Level
Code = 1 subtracted from: # 1 = Rosen
Level Difference SE of Adjusted Code of Means Difference T-Value P-Value 2 Blumen 8.18333 1.628 5.02563 0.0001 3 Broccoli 6.50000 1.628 3.99184 0.0017 4 Kohlrabi 2.83333 1.628 1.74003 0.3340 5 China 0.01667 1.628 0.01024 1.0000 6 Wirsing 1.85000 1.628 1.13614 0.7319 7 Weiss 5.30000 1.628 3.25489 0.0128
Welchen multiplen Mittelwertsvergleich soll man verwenden?
Paarweiser Vergleich aller Mittelwerte: Tukey-HSD-Test Vergleich mit einer Kontrolle: Dunnett-Test Vergleich mit dem “Besten”: Hsu-MCB-Test Vergleich von Mittelwertsgruppen: Scheffé-Test Alle diese Tests garantieren das multiple Niveau und lassen auch einseitige Entscheidungen zu.
Der beliebte Newman-Keuls-Test und der noch liberalere Duncan-Test sollten nicht verwendet werden, da sie kein multi- ples Niveau halten und keine einseitigen Entscheidungen mög- lich sind.
Muß kein multiples Niveau gehalten werden, so kann der Fisher- LSD-Test herangezogen werden, da er zumindest globales Ni- veau hält und einseitige Entscheidungen zuläßt. Allerdings ist er für statistisch einwandfreie simultane Aussagen nicht geeignet, da der -Fehler nur beschränkt bleibt, wenn die globale Null- hypothese wahr ist und damit alle individuellen Nullhypothesen wahr sind.
Steht in einem Computerprogramm nur der Fisher-LSD-Test zur Verfügung, so kann der Bonferroni-Test als Fisher-LSD-Test mit modifiertem -Niveau durchgeführt werden, um multiples Niveau einzuhalten. Allerdings ist er i.a. zu konservativ, um bei zahlrei- chen paarweisen Vergleichen ausreichend viele Mittelwertsunter- schiede zu erkennen.