MATHEMATIK UND STATISTIK,INFORMATIONS- UND DOKUMENTATIONSZENTRUM
Biometrische und Ökonometrische Methoden I
!Lösungen 5
1. MTB > Retrieve 'H:\STUDENT\MINITAB\OLYMPIA.MTW'.
Retrieving worksheet from file: H:\STUDENT\MINITAB\OLYMPIA.MTW Worksheet was saved on 11/21/1996
a) MTB > Name c3 = 'FITS1' c4 = 'RESI1' c5 = 'SRES1' MTB > Regress 'Bestzeit' 1 'Jahr';
SUBC> Fits 'FITS1';
SUBC> Residuals 'RESI1';
SUBC> SResiduals 'SRES1';
SUBC> GHistogram;
SUBC> GNormalplot;
SUBC> GVars 'Jahr';
SUBC> RType 2;
SUBC> Constant.
Regression Analysis
The regression equation is Bestzeit = 856 - 0.323 Jahr
22 cases used 3 cases contain missing values
Predictor Coef StDev T P Constant 855.65 60.88 14.05 0.000 Jahr -0.32288 0.03122 -10.34 0.000 S = 4.371 R-Sq = 84.2% R-Sq(adj) = 83.5%
Analysis of Variance
Source DF SS MS F P Regression 1 2044.1 2044.1 106.97 0.000 Error 20 382.2 19.1
Total 21 2426.3
MINITAB berechnet die Regressionsgleichung Bestzeit = 856 s ! 0.323 s/a @ Jahr
und meldet, daß 22 Werte für die Berechnung benutzt wurden bei 3 fehlenden Werten.
Außerdem wurden die Schätzwerte, Residuen und standardisierten Residuen in den Spalten FITS1, RESI1 und SRES1 gespeichert. Das Modell erscheint auf den ersten Blick recht gut, denn das Bestimmtheitsmaß B = R!Sq beträgt 84.2%, d.h. 84.2% der Gesamtvariation ist durch die Regression erklärt.
2.0 1.5 1.0 0.5 0.0 -0.5 -1.0 -1.5 -2.0 5
4
3
2
1
0
Standardized Residual
Frequency
Histogram of the Residuals
(response is Bestzeit)
2000 1950
1900 2
1
0
-1
-2
Jahr
Standardized Residual
Residuals Versus Jahr
(response is Bestzeit)
2 1
0 -1
-2 2
1
0
-1
-2
Normal Score
Standardized Residual
Normal Probability Plot of the Residuals
(response is Bestzeit)
Das Histogramm der standardisierten Residuen offenbart Abweichungen von der Modellvoraus- setzung, daß die Residuen normal- verteilt sein sollen.
Die Residuen sind insgesamt nicht zufällig verteilt. Sie sind in der ersten Hälfte des betrach- teten Zeitraums ab- fallend und in der zweiten Hälfte an- steigend. Auch dies läßt auf eine Verlet- zung der Modell- annahmen schlie- ßen.
Wenn die Residuen einigermaßen nor- malverteilt sind, müßte sich im Nor- mal Plot in etwa eine Gerade erge- ben. Der Sprung in der Umgebung von 0 läßt ebenso wie das Histogramm oben auf eine Ab- weichung von der Normalverteilung schließen.
8 6 4 2 0 -2 -4 -6 -8 5 4 3 2 1 0
Residual
Frequency
Histogram of Residuals
25 20 15 10 5 0 10
0
-10
Observation Number
Residual
I Chart of Residuals
6
1 5
2 2
2 1
X=0.000 3.0SL=7.434
-3.0SL=-7.434
240 230
220 210
10
0
-10
Fit
Residual
Residuals vs. Fits
2 1 0 -1 -2 10
0
-10
Normal Plot of Residuals
Normal Score
Residual
Residual Model Diagnostics
Die Residuenplots können in MINITAB mit Hilfe eines Makros alle auf einmal dargestellt werden. Dazu wählt man im Menü Stat 6 Regression 6 Residual Plots... und gibt die Spalten an, in denen die Residuals und die Fits stehen.
MTB > %Resplots 'RESI1' 'FITS1'.
Executing from file: C:\MTBWIN\MACROS\Resplots.MAC Macro is running ... please wait
TEST 1. One point more than 3.00 sigmas from center line.
Test Failed at points: 15 24
TEST 2. 9 points in a row on same side of center line.
Test Failed at points: 17 18 19
TEST 5. 2 out of 3 points more than 2 sigmas from center line (on one side of CL).
Test Failed at points: 16 18
TEST 6. 4 out of 5 points more than 1 sigma from center line (on one side of CL).
Test Failed at points: 6 17 18 19
b) MTB > name c6 'nscores'
MTB > Let 'nscores' = NSCOR(RESI1) MTB > Correlation 'RESI1' 'nscores'.
Correlations (Pearson)
Correlation of RESI1 and nscores = 0.988
Die Korrelation 0.988 der standardisierten Residuen mit den normal scores bei n = 22 ist jeweils größer als die kritischen Korrelationen rkrit. = 0.9503 bei n = 20 und rkrit. = 0.9582 bei n = 25 auf " = 5%. Die Hypothese normalverteilter Residuen kann also nicht verwor- fen werden. Dieses Ergebnis weicht eigentlich vom Ergebnis der visuellen Prüfung der Grafiken aus a) ab. Für den Test sind allerdings zu wenig Beobachtungen vorhanden, um eine klare Abweichung von der Normalverteilung statistisch zu sichern.
P-Value (approx): > 0.1000 R: 0.9880 W-test for Normality N: 22
StDev: 1.02490 Average: 0.0170827
2 1
0 -1
-2 .999
.99 .95 .80 .50 .20 .05 .01 .001
Probability
SRES1
Normal Probability Plot
P-Value: 0.531 A-Squared: 0.309 Anderson-Darling Normality Test N: 22
StDev: 1.02490 Average: 0.0170827
2 1
0 -1
-2 .999
.99 .95 .80 .50 .20 .05 .01 .001
Probability
SRES1
Normal Probability Plot
c) MTB > %NormPlot 'SRES1';
SUBC> SWTest.
Executing from file: C:\MTBWIN\MACROS\NormPlot.MAC Macro is running ... please wait
Der p-Wert ist größer als 10%, so daß die Hypothese der Normalverteilung auf " = 5%
nicht abgelehnt werden kann. Daneben existieren noch der Anderson-Darling-Test, der einen p-Wert von 0.531 ausgibt und der Kolmogorov-Smirnov-Test mit einem p-Wert größer 15%.
d) Die mittlere Änderung der Bestzeit pro Jahr ist die Steigung der Regressionsgeraden (Regressionskoeffizient b = !0.323 s/a). Damit beträgt die mittlere Abnahme (Steigung1 negativ) der Bestzeit in 4 Jahren 4 a @ 0.323 s/a = 1.3 s.
Die Schätzwerte können in MINITAB berechnet werden, wenn man die Jahreszahlen in einer Spalte speichert und im Regression-Fenster unter Options... die Spalte in Prediction intervals for new observations: angibt.
MTB > set c6
DATA> -776 2000 2600 DATA> end
MTB > Regress 'Bestzeit' 1 'Jahr';
SUBC> Constant;
SUBC> Predict C6.
[ ... ]
Fit StDev Fit 95.0% CI 95.0% PI
1106.207 85.106 ( 928.637,1283.778) ( 928.403,1284.012) XX 209.897 1.818 ( 206.104, 213.690) ( 200.019, 219.775) 16.170 20.313 ( -26.213, 58.553) ( -27.183, 59.523) XX Die geschätzten Bestzeiten sind: 776 v. Chr. 1106 s = 18 min 26 s
2000 210 s = 3 min 30 s
2600 16 s
Eine Regressionsgerade ist streng genommen nur im Bereich zwischen dem kleinsten und dem größten x-Wert gültig, um die Abhängigkeit zwischen x und y zu beschreiben.
Um Prognosen zu bekommen, wird allerdings häufig über die Grenzen hinaus extra- poliert. Dies ist allerdings nur in einem sehr beschränkten Bereich sinnvoll. Das vorliegen- de lineare Regressionsmodell schätzt die Bestzeit im Jahre 2000 auf ca. 210 s. Dies ist noch ein sinnvoller Wert. Für das Jahr 2600 beträgt die Schätzung 16 s, was natürlich nie erreichbar ist. Im Jahr 776 v. Chr. hätten nach der Schätzung die Athleten über 18 min für die 1500 m gebraucht. MINITAB gibt für diese Werte eine Warnung aus.
e) MTB > Plot 'Bestzeit' 'Jahr';
SUBC> Symbol 'x'.
Bestzeit- x x
- x
- x
240+
- - x
- x
- x
230+ x
- x
- x
- - x
220+ x x
- x x x x - x x x x - x
--+---+---+---+---+--- 1900 1920 1940 1960 1980 Jahr
6 4 2 0 -2 -4 6 5 4 3 2 1 0
Residual
Frequency
Histogram of Residuals
15 10 5 0 10
0
-10
Observation Number
Residual
I Chart of Residuals
X =0.000 3.0S L=7.327
-3.0S L=-7.327
245 235 225 215 6 5 4 3 2 1 0 -1 -2 -3 -4
Fit
Residual
Residuals vs. Fits 2
1 0 -1 -2 6 5 4 3 2 1 0 -1 -2 -3 -4
Normal Plot of Residuals
Normal Score
Residual
Residual Model Diagnostics
Die Bestzeiten nahmen bis ca. 1960 linear ab, dann blieben sie ziemlich konstant.
Obwohl das hohe Bestimmtheitsmaß von B = 84.2% eine sehr hohe Güte des Modells suggeriert, ist eine lineare Verbesserung der Laufzeiten nur bis zum Jahr 1960 nach- zuweisen. Plotten Sie deshalb immer die Werte vor einer Regressionsanalyse.
f) Nach Auswahl der Werte benennt man die Spalten und führt die Analysen durch.
MTB > name c7 'Jahr-60' c8 'Bestzeit-60' MTB > Name c9 = 'FITS2' c10 = 'RESI2' MTB > Regress 'Bestzeit-60' 1 'Jahr-60';
SUBC> Fits 'FITS2';
SUBC> Residuals 'RESI2';
SUBC> Constant.
Regression Analysis
The regression equation is
Bestzeit-60 = 1191 - 0.497 Jahr-60
Predictor Coef StDev T P Constant 1190.70 70.34 16.93 0.000 Jahr-60 -0.49696 0.03646 -13.63 0.000 S = 2.562 R-Sq = 94.4% R-Sq(adj) = 93.9%
Analysis of Variance
Source DF SS MS F P Regression 1 1220.1 1220.1 185.82 0.000 Error 11 72.2 6.6
Total 12 1292.3
Die Regressionsgerade ist nun steiler, d.h. die Verbesserung der Bestzeiten beträgt jetzt etwa eine halbe Sekunde pro Jahr im Gegensatz zu einer Drittel Sekunde pro Jahr im ersten Modell. Auch das Bestimmtheitsmaß ist mit 94.4% höher als im ersten Fall, da die Werte auch enger um die Regressionsgerade streuen.
MTB > %Resplots 'RESI2' 'FITS2'.
Executing from file: C:\MTBWIN\MACROS\Resplots.MAC Macro is running ... please wait
Auch die Residuen entsprechen nun besser den Voraus- setzungen an das Modell.
20 10
0 15000
10000
5000
0
t
m
20 10
0 4.0
3.5
3.0
t
lg(m)
2. a) MTB > Retrieve 'H:\STUDENT\MINITAB\BAKT.MTW'.
Retrieving worksheet from file: H:\STUDENT\MINITAB\BAKT.MTW Worksheet was saved on 11/27/1996
MTB > name c3 'lg(m)'
MTB > Let 'lg(m)' = LOGT(m) MTB > Plot 'm'*'t' 'lg(m)'*'t';
SUBC> Symbol.
Offensichtlich handelt es sich um einen exponentiellen Zusammenhang. Dies ist auch aus sachlogischen Gründen klar, denn Wachstumsprozesse, bei denen der Zuwachs proportional zur bereits vorhandenen Menge ist, sind immer exponentiell. Verschaffen Sie sich also vor jeder Regressionsanalyse einen graphischen Überblick über die Daten. Um die Unterschiede des linearen Modells zum exponentiellen Modell zu demonstrieren, wird nun eine lineare Regressions- und Residuenanalyse sowohl für die Bakterienmasse als auch für deren Logarithmen durchgeführt.
MTB > Regress 'm' 1 't';
SUBC> Fits 'FITS1';
SUBC> SResiduals 'SRES1';
SUBC> Constant.
Regression Analysis
The regression equation is m = - 1233 + 562 t
Predictor Coef StDev T P Constant -1232.7 595.4 -2.07 0.050 t 562.33 42.53 13.22 0.000 S = 1533 R-Sq = 88.4% R-Sq(adj) = 87.9%
Analysis of Variance
Source DF SS MS F P Regression 1 411072790 411072790 174.84 0.000 Error 23 54076646 2351159
Total 24 465149435
2.5 2.0 1.5 1.0 0.5 0.0 -0.5 -1.0 8 7 6 5 4 3 2 1 0
Residual
Frequency
Histogram of Residuals
25 20 15 10 5 0 3 2 1 0 -1
Observation Number
Residual
I Chart of Residuals
1 1
1 5
6
3 33 31 11 1 1 12
11 22
1 1 1
X=0.01904 3.0SL=0.8474
-3.0SL=-0.8093
10000 5000 0 3 2 1 0 -1
Fit
Residual
Residuals vs. Fits
2 1 0 -1 -2 3 2 1 0 -1
Normal Plot of Residuals
Normal Score
Residual
Residuenplot des linearen Modells
2.0 1.5 1.0 0.5 0.0 -0.5 -1.0 -1.5 -2.0 7 6 5 4 3 2 1 0
Residual
Frequency
Histogram of Residuals
25 20 15 10 5 0 4 3 2 1 0 -1 -2 -3 -4
Observation Number
Residual
I Chart of Residuals
X=-5.5E-04 3.0SL=3.332
-3.0SL=-3.333
4.0 3.5 3.0 2 1 0 -1 -2
Fit
Residual
Residuals vs. Fits
2 1 0 -1 -2 2 1 0 -1 -2
Normal Plot of Residuals
Normal Score
Residual
Residuenplot des exponentiellen Modells
MTB > Name c6 = 'FITS2' c7 = 'SRES2' MTB > Regress 'lg(m)' 1 't';
SUBC> Fits 'FITS2';
SUBC> SResiduals 'SRES2';
SUBC> Constant.
Regression Analysis
The regression equation is lg(m) = 3.00 + 0.0502 t
Predictor Coef StDev T P Constant 2.99775 0.00723 414.43 0.000 t 0.0501830 0.0005167 97.13 0.000 S = 0.01863 R-Sq = 99.8% R-Sq(adj) = 99.7%
Analysis of Variance
Source DF SS MS F P Regression 1 3.2738 3.2738 9433.88 0.000 Error 23 0.0080 0.0003
Total 24 3.2818
Das lineare Regressionsmodell lautet also m = !1233 g + 562 g/h @ t, das exponentielle Modell lg(m) = 3.00 + 0.052 h @ t bzw. m = 1000 g @ 10!1 0.052/h @ t. Im linearen Modell täuscht das relativ hohe Bestimmtheitsmaß von 88.4% eine hohe Güte vor. Aufgrund des Plots ist ein solches Modell jedoch unsinnig. Lassen Sie sich also nicht durch hohe Bestimmt- heitsmaße täuschen. Das exponentielle Modell hat ein größeres Bestimmtheitsmaß, welches in diesem Fall auch sinnvoll zu interpretieren ist.
Eine Residuenanalyse für beide Modelle liefert:
MTB > %Resplots 'SRES1' 'FITS1';
SUBC> Title "Residuenplot des linearen Modells".
MTB > %Resplots 'SRES2' 'FITS2';
SUBC> Title "Residuenplot des exponentiellen Modells".
P-Value (approx): 0.0394 R: 0.9536 W-test for Normality N: 25
StDev: 1.03485 Average: 0.0190383
2 1 0 -1 .999
.99 .95 .80 .50 .20 .05 .01 .001
Probability
SRES1
Shapiro-Wilk-Test des linearen Modells
P-Value (approx): > 0.1000 R: 0.9935 W-test for Normality N: 25
StDev: 1.01837 Average: -0.0005520
2 1 0 -1 -2 .999
.99 .95 .80 .50 .20 .05 .01 .001
Probability
SRES2
Shapiro-Wilk-Test des exponentiellen Modells
Die Modellvoraussetzungen an die Residuen sind für das exponentielle Modell wesentlich besser erfüllt. Die Residuenplots zeigen, daß beim linearen Modell die Voraussetzung der Unabhängigkeit der Fehlervariablen nicht erfüllt ist, da die Residuen nicht zufällig um 0 streuen. Das Histogramm der Residuen im linearen Fall weicht stark von einer Normal- verteilung ab. Auch der Normal Score Plot offenbart Abweichungen von der Normalver- teilung, was durch den Shapiro-Wilk-Test auch bestätigt wird, der für das lineare Modell einen p-Wert von 0.0394 und für das exponentielle Modell >0.1 liefert.
MTB > %NormPlot 'SRES1';
SUBC> SWTest;
SUBC> Title "Shapiro-Wilk-Test des linearen Modells".
MTB > %NormPlot 'SRES2';
SUBC> SWTest;
SUBC> Title "Shapiro-Wilk-Test des exponentiellen Modells".
b) Im linearen Regressionsmodell m = !1233 g + 562 g/h @ t ist der Achsenabschnitt der Regressionsgeraden m = !1233 g bei t = 0. Dies ist schon kein vernünftiger Schätzwert,0
da in den Reaktor am Anfang 1000 g Bakterien gegeben wurden. Die Steigung der Geraden von k = 562 g/h unterstellt einen konstanten Zuwachs von 562 Gramm pro Stunde. Der Zuwachs an Bakterien im exponentiellen Modell wird durch die Wachstums- konstante k = 0.052 h beschrieben, aus der die Verdopplungszeit zu lg 2 / k = 5.8 h!1 berechnet werden kann. Der Achsenabschnitt der Geraden lg(m) = 3.00 + 0.052 h @ t!1 von 3.00 ergibt durch Delogarithmieren den realistischen Startwert m = 10 g = 1000 g.0 3 c) Aus y = c @ x folgt durch Logarithmieren log y = log c + k @ log x. Man führt also einek lineare Regression für die Logarithmen der abhängigen und unabhängigen Variablen durch, wobei c durch Delogarithmieren des Achsenabschnitts und k durch die Steigung der Regressionsgeraden bestimmt wird.
Man kann also durch lineare Regression auch nichtlineare Zusammenhänge analysie- ren, wenn man Variablen entsprechend auf ein lineares Modell transformieren kann.