Residual Model Diagnostics

(1)

MATHEMATIK UND STATISTIK,INFORMATIONS- UND DOKUMENTATIONSZENTRUM

Biometrische und Ökonometrische Methoden I

!

Lösungen 5

1. MTB > Retrieve 'H:\STUDENT\MINITAB\OLYMPIA.MTW'.

Retrieving worksheet from file: H:\STUDENT\MINITAB\OLYMPIA.MTW Worksheet was saved on 11/21/1996

a) MTB > Name c3 = 'FITS1' c4 = 'RESI1' c5 = 'SRES1' MTB > Regress 'Bestzeit' 1 'Jahr';

SUBC> Fits 'FITS1';

SUBC> Residuals 'RESI1';

SUBC> SResiduals 'SRES1';

SUBC> GHistogram;

SUBC> GNormalplot;

SUBC> GVars 'Jahr';

SUBC> RType 2;

SUBC> Constant.

Regression Analysis

The regression equation is Bestzeit = 856 - 0.323 Jahr

22 cases used 3 cases contain missing values

Predictor Coef StDev T P Constant 855.65 60.88 14.05 0.000 Jahr -0.32288 0.03122 -10.34 0.000 S = 4.371 R-Sq = 84.2% R-Sq(adj) = 83.5%

Analysis of Variance

Source DF SS MS F P Regression 1 2044.1 2044.1 106.97 0.000 Error 20 382.2 19.1

Total 21 2426.3

MINITAB berechnet die Regressionsgleichung Bestzeit = 856 s ! 0.323 s/a @ Jahr

und meldet, daß 22 Werte für die Berechnung benutzt wurden bei 3 fehlenden Werten.

Außerdem wurden die Schätzwerte, Residuen und standardisierten Residuen in den Spalten FITS1, RESI1 und SRES1 gespeichert. Das Modell erscheint auf den ersten Blick recht gut, denn das Bestimmtheitsmaß B = R!Sq beträgt 84.2%, d.h. 84.2% der Gesamtvariation ist durch die Regression erklärt.

(2)

2.0 1.5 1.0 0.5 0.0 -0.5 -1.0 -1.5 -2.0 5

4

3

2

1

0

Standardized Residual

Frequency

Histogram of the Residuals

(response is Bestzeit)

2000 1950

1900 2

1

0

-1

-2

Jahr

Residuals Versus Jahr

2 1

0 -1

-2 2

1

0

-1

-2

Normal Score

Normal Probability Plot of the Residuals

Das Histogramm der standardisierten Residuen offenbart Abweichungen von der Modellvoraus- setzung, daß die Residuen normal- verteilt sein sollen.

Die Residuen sind insgesamt nicht zufällig verteilt. Sie sind in der ersten Hälfte des betrach- teten Zeitraums ab- fallend und in der zweiten Hälfte an- steigend. Auch dies läßt auf eine Verlet- zung der Modell- annahmen schlie- ßen.

Wenn die Residuen einigermaßen nor- malverteilt sind, müßte sich im Nor- mal Plot in etwa eine Gerade erge- ben. Der Sprung in der Umgebung von 0 läßt ebenso wie das Histogramm oben auf eine Ab- weichung von der Normalverteilung schließen.

(3)

8 6 4 2 0 -2 -4 -6 -8 5 4 3 2 1 0

Residual

Frequency

Histogram of Residuals

25 20 15 10 5 0 10

0

-10

Observation Number

Residual

I Chart of Residuals

6

1 5

2 2

2 1

X=0.000 3.0SL=7.434

-3.0SL=-7.434

240 230

220 210

10

0

-10

Fit

Residual

Residuals vs. Fits

2 1 0 -1 -2 10

0

-10

Normal Plot of Residuals

Normal Score

Residual

Residual Model Diagnostics

Die Residuenplots können in MINITAB mit Hilfe eines Makros alle auf einmal dargestellt werden. Dazu wählt man im Menü Stat 6 Regression 6 Residual Plots... und gibt die Spalten an, in denen die Residuals und die Fits stehen.

MTB > %Resplots 'RESI1' 'FITS1'.

Executing from file: C:\MTBWIN\MACROS\Resplots.MAC Macro is running ... please wait

TEST 1. One point more than 3.00 sigmas from center line.

Test Failed at points: 15 24

TEST 2. 9 points in a row on same side of center line.

Test Failed at points: 17 18 19

TEST 5. 2 out of 3 points more than 2 sigmas from center line (on one side of CL).

Test Failed at points: 16 18

TEST 6. 4 out of 5 points more than 1 sigma from center line (on one side of CL).

Test Failed at points: 6 17 18 19

b) MTB > name c6 'nscores'

MTB > Let 'nscores' = NSCOR(RESI1) MTB > Correlation 'RESI1' 'nscores'.

Correlations (Pearson)

Correlation of RESI1 and nscores = 0.988

Die Korrelation 0.988 der standardisierten Residuen mit den normal scores bei n = 22 ist jeweils größer als die kritischen Korrelationen r_krit. = 0.9503 bei n = 20 und r_krit. = 0.9582 bei n = 25 auf " = 5%. Die Hypothese normalverteilter Residuen kann also nicht verwor- fen werden. Dieses Ergebnis weicht eigentlich vom Ergebnis der visuellen Prüfung der Grafiken aus a) ab. Für den Test sind allerdings zu wenig Beobachtungen vorhanden, um eine klare Abweichung von der Normalverteilung statistisch zu sichern.

(4)

P-Value (approx): > 0.1000 R: 0.9880 W-test for Normality N: 22

StDev: 1.02490 Average: 0.0170827

2 1

0 -1

-2 .999

.99 .95 .80 .50 .20 .05 .01 .001

Probability

SRES1

Normal Probability Plot

P-Value: 0.531 A-Squared: 0.309 Anderson-Darling Normality Test N: 22

StDev: 1.02490 Average: 0.0170827

2 1

0 -1

-2 .999

.99 .95 .80 .50 .20 .05 .01 .001

Probability

SRES1

Normal Probability Plot

c) MTB > %NormPlot 'SRES1';

SUBC> SWTest.

Executing from file: C:\MTBWIN\MACROS\NormPlot.MAC Macro is running ... please wait

Der p-Wert ist größer als 10%, so daß die Hypothese der Normalverteilung auf " = 5%

nicht abgelehnt werden kann. Daneben existieren noch der Anderson-Darling-Test, der einen p-Wert von 0.531 ausgibt und der Kolmogorov-Smirnov-Test mit einem p-Wert größer 15%.

(5)

d) Die mittlere Änderung der Bestzeit pro Jahr ist die Steigung der Regressionsgeraden (Regressionskoeffizient b = !0.323 s/a). Damit beträgt die mittlere Abnahme (Steigung₁ negativ) der Bestzeit in 4 Jahren 4 a @ 0.323 s/a = 1.3 s.

Die Schätzwerte können in MINITAB berechnet werden, wenn man die Jahreszahlen in einer Spalte speichert und im Regression-Fenster unter Options... die Spalte in Prediction intervals for new observations: angibt.

MTB > set c6

DATA> -776 2000 2600 DATA> end

MTB > Regress 'Bestzeit' 1 'Jahr';

SUBC> Constant;

SUBC> Predict C6.

[ ... ]

Fit StDev Fit 95.0% CI 95.0% PI

1106.207 85.106 ( 928.637,1283.778) ( 928.403,1284.012) XX 209.897 1.818 ( 206.104, 213.690) ( 200.019, 219.775) 16.170 20.313 ( -26.213, 58.553) ( -27.183, 59.523) XX Die geschätzten Bestzeiten sind: 776 v. Chr. 1106 s = 18 min 26 s

2000 210 s = 3 min 30 s

2600 16 s

Eine Regressionsgerade ist streng genommen nur im Bereich zwischen dem kleinsten und dem größten x-Wert gültig, um die Abhängigkeit zwischen x und y zu beschreiben.

Um Prognosen zu bekommen, wird allerdings häufig über die Grenzen hinaus extra- poliert. Dies ist allerdings nur in einem sehr beschränkten Bereich sinnvoll. Das vorliegen- de lineare Regressionsmodell schätzt die Bestzeit im Jahre 2000 auf ca. 210 s. Dies ist noch ein sinnvoller Wert. Für das Jahr 2600 beträgt die Schätzung 16 s, was natürlich nie erreichbar ist. Im Jahr 776 v. Chr. hätten nach der Schätzung die Athleten über 18 min für die 1500 m gebraucht. MINITAB gibt für diese Werte eine Warnung aus.

e) MTB > Plot 'Bestzeit' 'Jahr';

SUBC> Symbol 'x'.

Bestzeit- x x

- x

240+

- - x

- x

230+ x

- x

- - x

220+ x x

- x x x x - x x x x - x

--+---+---+---+---+--- 1900 1920 1940 1960 1980 Jahr

(6)

6 4 2 0 -2 -4 6 5 4 3 2 1 0

Residual

Frequency

15 10 5 0 10

0

-10

Observation Number

Residual

X =0.000 3.0S L=7.327

-3.0S L=-7.327

245 235 225 215 6 5 4 3 2 1 0 -1 -2 -3 -4

Fit

Residual

Residuals vs. Fits 2

1 0 -1 -2 6 5 4 3 2 1 0 -1 -2 -3 -4

Normal Score

Residual

Residual Model Diagnostics

Die Bestzeiten nahmen bis ca. 1960 linear ab, dann blieben sie ziemlich konstant.

Obwohl das hohe Bestimmtheitsmaß von B = 84.2% eine sehr hohe Güte des Modells suggeriert, ist eine lineare Verbesserung der Laufzeiten nur bis zum Jahr 1960 nach- zuweisen. Plotten Sie deshalb immer die Werte vor einer Regressionsanalyse.

f) Nach Auswahl der Werte benennt man die Spalten und führt die Analysen durch.

MTB > name c7 'Jahr-60' c8 'Bestzeit-60' MTB > Name c9 = 'FITS2' c10 = 'RESI2' MTB > Regress 'Bestzeit-60' 1 'Jahr-60';

SUBC> Fits 'FITS2';

SUBC> Residuals 'RESI2';

SUBC> Constant.

Regression Analysis

The regression equation is

Bestzeit-60 = 1191 - 0.497 Jahr-60

Predictor Coef StDev T P Constant 1190.70 70.34 16.93 0.000 Jahr-60 -0.49696 0.03646 -13.63 0.000 S = 2.562 R-Sq = 94.4% R-Sq(adj) = 93.9%

Total 12 1292.3

Die Regressionsgerade ist nun steiler, d.h. die Verbesserung der Bestzeiten beträgt jetzt etwa eine halbe Sekunde pro Jahr im Gegensatz zu einer Drittel Sekunde pro Jahr im ersten Modell. Auch das Bestimmtheitsmaß ist mit 94.4% höher als im ersten Fall, da die Werte auch enger um die Regressionsgerade streuen.

MTB > %Resplots 'RESI2' 'FITS2'.

Executing from file: C:\MTBWIN\MACROS\Resplots.MAC Macro is running ... please wait

Auch die Residuen entsprechen nun besser den Voraus- setzungen an das Modell.

(7)

20 10

0 15000

10000

5000

0

t

m

20 10

0 4.0

3.5

3.0

t

lg(m)

2. a) MTB > Retrieve 'H:\STUDENT\MINITAB\BAKT.MTW'.

Retrieving worksheet from file: H:\STUDENT\MINITAB\BAKT.MTW Worksheet was saved on 11/27/1996

MTB > name c3 'lg(m)'

MTB > Let 'lg(m)' = LOGT(m) MTB > Plot 'm'*'t' 'lg(m)'*'t';

SUBC> Symbol.

Offensichtlich handelt es sich um einen exponentiellen Zusammenhang. Dies ist auch aus sachlogischen Gründen klar, denn Wachstumsprozesse, bei denen der Zuwachs proportional zur bereits vorhandenen Menge ist, sind immer exponentiell. Verschaffen Sie sich also vor jeder Regressionsanalyse einen graphischen Überblick über die Daten. Um die Unterschiede des linearen Modells zum exponentiellen Modell zu demonstrieren, wird nun eine lineare Regressions- und Residuenanalyse sowohl für die Bakterienmasse als auch für deren Logarithmen durchgeführt.

MTB > Regress 'm' 1 't';

SUBC> Fits 'FITS1';

SUBC> Constant.

Regression Analysis

The regression equation is m = - 1233 + 562 t

Predictor Coef StDev T P Constant -1232.7 595.4 -2.07 0.050 t 562.33 42.53 13.22 0.000 S = 1533 R-Sq = 88.4% R-Sq(adj) = 87.9%

Source DF SS MS F P Regression 1 411072790 411072790 174.84 0.000 Error 23 54076646 2351159

Total 24 465149435

(8)

2.5 2.0 1.5 1.0 0.5 0.0 -0.5 -1.0 8 7 6 5 4 3 2 1 0

Residual

Frequency

25 20 15 10 5 0 3 2 1 0 -1

Observation Number

Residual

1 1

1 5

6

3 33 31 11 1 1 12

11 22

1 1 1

X=0.01904 3.0SL=0.8474

-3.0SL=-0.8093

10000 5000 0 3 2 1 0 -1

Fit

Residual

Residuals vs. Fits

2 1 0 -1 -2 3 2 1 0 -1

Normal Score

Residual

Residuenplot des linearen Modells

2.0 1.5 1.0 0.5 0.0 -0.5 -1.0 -1.5 -2.0 7 6 5 4 3 2 1 0

Residual

Frequency

25 20 15 10 5 0 4 3 2 1 0 -1 -2 -3 -4

Observation Number

Residual

X=-5.5E-04 3.0SL=3.332

-3.0SL=-3.333

4.0 3.5 3.0 2 1 0 -1 -2

Fit

Residual

Residuals vs. Fits

2 1 0 -1 -2 2 1 0 -1 -2

Normal Score

Residual

Residuenplot des exponentiellen Modells

MTB > Name c6 = 'FITS2' c7 = 'SRES2' MTB > Regress 'lg(m)' 1 't';

SUBC> Fits 'FITS2';

SUBC> Constant.

Regression Analysis

The regression equation is lg(m) = 3.00 + 0.0502 t

Predictor Coef StDev T P Constant 2.99775 0.00723 414.43 0.000 t 0.0501830 0.0005167 97.13 0.000 S = 0.01863 R-Sq = 99.8% R-Sq(adj) = 99.7%

Total 24 3.2818

Das lineare Regressionsmodell lautet also m = !1233 g + 562 g/h @ t, das exponentielle Modell lg(m) = 3.00 + 0.052 h @ t bzw. m = 1000 g @ 10^!1 0.052/h @ t. Im linearen Modell täuscht das relativ hohe Bestimmtheitsmaß von 88.4% eine hohe Güte vor. Aufgrund des Plots ist ein solches Modell jedoch unsinnig. Lassen Sie sich also nicht durch hohe Bestimmt- heitsmaße täuschen. Das exponentielle Modell hat ein größeres Bestimmtheitsmaß, welches in diesem Fall auch sinnvoll zu interpretieren ist.

Eine Residuenanalyse für beide Modelle liefert:

MTB > %Resplots 'SRES1' 'FITS1';

SUBC> Title "Residuenplot des linearen Modells".

MTB > %Resplots 'SRES2' 'FITS2';

SUBC> Title "Residuenplot des exponentiellen Modells".

(9)

P-Value (approx): 0.0394 R: 0.9536 W-test for Normality N: 25

StDev: 1.03485 Average: 0.0190383

2 1 0 -1 .999

.99 .95 .80 .50 .20 .05 .01 .001

Probability

SRES1

Shapiro-Wilk-Test des linearen Modells

P-Value (approx): > 0.1000 R: 0.9935 W-test for Normality N: 25

StDev: 1.01837 Average: -0.0005520

2 1 0 -1 -2 .999

.99 .95 .80 .50 .20 .05 .01 .001

Probability

SRES2

Shapiro-Wilk-Test des exponentiellen Modells

Die Modellvoraussetzungen an die Residuen sind für das exponentielle Modell wesentlich besser erfüllt. Die Residuenplots zeigen, daß beim linearen Modell die Voraussetzung der Unabhängigkeit der Fehlervariablen nicht erfüllt ist, da die Residuen nicht zufällig um 0 streuen. Das Histogramm der Residuen im linearen Fall weicht stark von einer Normal- verteilung ab. Auch der Normal Score Plot offenbart Abweichungen von der Normalver- teilung, was durch den Shapiro-Wilk-Test auch bestätigt wird, der für das lineare Modell einen p-Wert von 0.0394 und für das exponentielle Modell >0.1 liefert.

MTB > %NormPlot 'SRES1';

SUBC> SWTest;

SUBC> Title "Shapiro-Wilk-Test des linearen Modells".

MTB > %NormPlot 'SRES2';

SUBC> SWTest;

SUBC> Title "Shapiro-Wilk-Test des exponentiellen Modells".

b) Im linearen Regressionsmodell m = !1233 g + 562 g/h @ t ist der Achsenabschnitt der Regressionsgeraden m = !1233 g bei t = 0. Dies ist schon kein vernünftiger Schätzwert,0

da in den Reaktor am Anfang 1000 g Bakterien gegeben wurden. Die Steigung der Geraden von k = 562 g/h unterstellt einen konstanten Zuwachs von 562 Gramm pro Stunde. Der Zuwachs an Bakterien im exponentiellen Modell wird durch die Wachstums- konstante k = 0.052 h beschrieben, aus der die Verdopplungszeit zu lg 2 / k = 5.8 h^!1 berechnet werden kann. Der Achsenabschnitt der Geraden lg(m) = 3.00 + 0.052 h @ t^!1 von 3.00 ergibt durch Delogarithmieren den realistischen Startwert m = 10 g = 1000 g.₀ ³ c) Aus y = c @ x folgt durch Logarithmieren log y = log c + k @ log x. Man führt also eine^k lineare Regression für die Logarithmen der abhängigen und unabhängigen Variablen durch, wobei c durch Delogarithmieren des Achsenabschnitts und k durch die Steigung der Regressionsgeraden bestimmt wird.

Man kann also durch lineare Regression auch nichtlineare Zusammenhänge analysie- ren, wenn man Variablen entsprechend auf ein lineares Modell transformieren kann.