Klausur zu Biometrische und Ökonometrische Methoden und Ökologische Statistik

(1)

DB

ML

Saat

Dueng

PflSch

Masch

sonst

T

ECHNISCHE

U

NIVERSITÄT

M

ÜNCHEN

- W

EIHENSTEPHAN SS 98 MATHEMATIK UND STATISTIK,INFORMATIONS- UND DOKUMENTATIONSZENTRUM

Klausur zu Biometrische und Ökonometrische Methoden und Ökologische Statistik

29.7.98, 15 - 16 , HS 14¹⁵ ⁴⁵

Name: Vorname:

Fachr. / Sem.: Matrikelnr.:

1. Im Jahr 1997 wurden bei 80 landwirtschaftlichen Betrieben folgende betriebswirtschaftlichen Kenngrößen in DM/ha für die Produktion von Winterweizen bestimmt:

DB Deckungsbeitrag inkl. Ausgleichszahlung ML Marktleistung (Weizenertrag @ Weizenpreis) Saat Saatgutkosten

Dueng Düngerkosten

PflSch Pflanzenschutzkosten Masch Maschinenkosten

sonst sonstige variable Kosten (Versicherung, Trocknung, etc.)

Der Deckungsbeitrag pro Hektar Winterweizen berechnet sich als Differenz aus Markt- leistung und variablen Kosten plus einer Ausgleichszahlung AZ, also:

DB = ML + AZ - Saat - Dueng - PflSch - Masch - sonst Der Matrixplot

rechts zeigt den Zusammenhang zwischen den Variablen gra- phisch.

(2)

Eine multiple Regressionsanalyse mit dem Deckungsbeitrag als abhängiger Variablen und den anderen Kenngrößen als unabhängigen Variablen liefert folgenden MINITAB-Output:

MTB > Regress 'DB' 6 'ML' 'Saat' 'Dueng' 'PflSch' 'Masch' 'sonst' Regression Analysis

The regression equation is

DB = 586 + 1.00 ML - 1.00 Saat - 1.00 Dueng - 1.00 PflSch - 1.00 Masch - 1.00 sonst

Predictor Coef StDev T P Constant 586.000 0.000 ? ? ML 1.00000 0.00000 ? ? Saat -1.00000 0.00000 ? ? Dueng -1.00000 0.00000 ? ? PflSch -1.00000 0.00000 ? ? Masch -1.00000 0.00000 ? ? sonst -1.00000 0.00000 ? ? S = ? R-Sq = ? R-Sq(adj) = ?

a) Wie hoch war die Ausgleichszahlung im Jahr 1997? (0.5)

b) Warum sind die Regressionskoeffizienten b ! b alle betragsmäßig gleich 1?₁ ₆ (0.5)

c) Wie groß sind die t- und p-Werte im Output? (1)

d) Wie groß ist S, R-Sq und R-Sq(Adj) im Output? Geben Sie die Werte aller 80 Residuen

an. (1)

(3)

Es wird eine schrittweise Regression mit dem Deckungsbeitrag als abhängiger Variablen und den anderen Kenngrößen als unabhängigen Variablen durchgeführt.

e) Der folgende MINITAB-Output zeigt die Korrelationsmatrix der Variablen.

MTB > Correlate 'DB' 'ML' 'Saat' 'Dueng' 'PflSch' 'Masch' 'sonst' Correlations (Pearson)

DB ML Saat Dueng PflSch Masch ML 0.930

Saat -0.120 -0.026

Dueng 0.691 0.850 0.031

PflSch 0.457 0.582 -0.063 0.570

Masch -0.355 -0.068 0.014 0.010 -0.076

sonst -0.133 -0.038 -0.136 -0.006 0.018 -0.030 Welche Variable wird im ersten Schritt in die Regressionsgleichung aufgenommen

(Begründung)? (0.5)

f) Beschreiben Sie kurz das weitere Vorgehen und das Abbruchkriterium bei der schritt-

weisen Regression. (1)

(4)

g) Der folgende MINITAB-Output zeigt das Ergebnis der schrittweisen Regression.

MTB > Stepwise 'DB' 'ML' 'Saat' 'Dueng' 'PflSch' 'Masch' 'sonst';

SUBC> Fenter 4.0;

SUBC> FRemove 4.0.

Stepwise Regression

F-to-Enter: 4.00 F-to-Remove: 4.00 Response is DB on 6 predictors, with N = 80

Step 1 2 3 4 5 6 Constant -115.7 303.6 269.9 358.9 475.3 586.0 ML 0.80022 0.78316 0.99437 0.98342 0.96680 1.00000 T-Value 22.28 35.61 31.72 39.03 53.57 * Masch -1.03012 -0.96177 -0.97559 -0.97746 -1.00000 T-Value -11.49 -14.27 -18.04 -25.38 * Dueng -1.28538 -1.23971 -1.15364 -1.00000 T-Value -7.91 -9.49 -12.33 * sonst -0.90190 -1.02333 -1.00000 T-Value -6.57 -10.36 * Saat -0.93128 -1.00000 T-Value -8.60 * PflSch -1.00000 T-Value * S 41.6 25.4 18.9 15.2 10.8 0.0 R-Sq 86.4 95.0 97.3 98.3 99.1 100.0 Warum wird im zweiten Schritt die Variable Maschinenkosten in die Regression aufgenommen und nicht etwa die Düngung oder der Pflanzenschutz? (1)

h) Mit welchen Variablen würden Sie den Deckungsbeitrag schätzen, wenn Ihnen ein erklärter Varianzanteil von 95% genügt (Begründung)? (0.5)

(5)

2. Im südlichen Afrika wächst der Marulabaum (Sclerocarya birrea ssp. caffra aus der Fami- lie Anacardiaceae), aus dessen Früchten ein Likör (Amarula) hergestellt wird. Die Pflanze wird züchterisch bearbeitet, um die Frucht- fleischdicke zu vergrößern. An jeweils 8 Früchten von 5 verschiedenen Bäumen soll getestet werden, ob die Bäume Früchte mit unterschiedlicher Fruchtfleischdicke (FFD) tragen. Das Ergebnis einer einfaktoriellen Varianzanalyse mit multiplem Mittelwertsver- gleich nach Tukey auf " = 5% zeigt der folgende MINITAB-Output.

MTB > Oneway 'FFD_mm' 'Baum' 'Resid' 'Fits';

SUBC> Tukey 5.

One-Way Analysis of Variance

Analysis of Variance for FFD_mm

Source DF SS MS F P Baum __ 61.162 ______ _____ _____

Error __ 34.937 ______

Total __ ______

Level N Mean StDev 1 8 4.5000 1.1019 2 8 7.1250 1.2748 3 8 7.6250 0.8345 4 8 5.0625 0.7289 5 8 5.1875 0.9613 Pooled StDev = 0.9991

Tukey's pairwise comparisons Family error rate = 0.0500 Individual error rate = 0.00683 Critical value = 4.07

Intervals for (column level mean) - (row level mean) 1 2 3 4 2 -4.0627

-1.1873

3 -4.5627 -1.9377 -1.6873 0.9377

4 -2.0002 0.6248 1.1248 0.8752 3.5002 4.0002

5 -2.1252 0.4998 0.9998 -1.5627 0.7502 3.3752 3.8752 1.3127

(6)

a) Welche Versuchsanlage liegt vor? Formulieren Sie das varianzanalytische Modell sowie

die Null- und Alternativhypothese. (1)

b) Ergänzen Sie die fehlenden Werte in der Tafel der Varianzanalyse des MINITAB-Outputs und interpretieren Sie das Ergebnis des globalen F-Tests. (1)

c) Welche mittlere Fruchtfleischdicke haben Früchte von Baum 4? (0.5)

d) Welche Mittelwerte unterscheiden sich beim Tukey-Test auf " = 5% signifikant? (0.5)

e) Wie groß ist die Grenzdifferenz GD beim Tukey-Test?_5% (1)

(7)

P-Value (approx): > 0.1000 R: 0.9900 W-test for Normality N: 40

StDev: 0.946485 Average: 0

2 1

0 -1

-2 .999

.99 .95 .80 .50 .20 .05 .01 .001

Probability

Residuen

Shapiro-Wilk-Test der Residuen f) Das Diagramm

rechts zeigt das Ergebnis des S h a p i r o - W i l k - Tests der Resi- duen.

Was testet der Shapiro-Wilk-Test und wie ist er hier zu interpretieren? (1)

g) Der folgende MINITAB-Output zeigt das Ergebnis des Runs-Test der Residuen.

MTB > Runs 0 'Resid'.

Runs Test

Resid

K = 0.0000

The observed number of runs = 25 The expected number of runs = 20.9500 19 Observations above K 21 below

The test is significant at 0.1936 Cannot reject at alpha = 0.05

Was testet der Runs-Test und wie ist er hier zu interpretieren? (1)

(8)

3. Mit einer Diskriminanzanalyse wurden 4 Kohlarten (Blumenkohl, Broccoli, Rosenkohl, Weißkohl) anhand ihres Proteinaminosäuremusters (Gehalt an Arginin, Leucin, Lysin, Methionin, Phenylalanin und Valin in g/kg Gesamtprotein) klassifiziert. Der folgende MINITAB-Output zeigt das Ergebnis.

MTB > Discriminant 'Kohlart' 'Arg' 'Leu' 'Lys' 'Met' 'Phe' 'Val'.

Discriminant Analysis

Linear Method for Response: Kohlart Predictors: Arg Leu Lys Met Phe Val Group Broccoli Rosenkohl Blumenkohl Weisskohl Count 25 30 25 20 Summary of Classification

Put into ....True Group....

Group Broccoli Rosenkohl Blumenkohl Weisskohl Broccoli 21 4 1 1 Rosenkohl 1 22 0 1 Blumenkohl 1 0 24 0 Weisskohl 2 4 0 18 Total N 25 30 25 20 N Correct 21 22 24 18 Proportion 0.840 0.733 ????? 0.900 N = 100 N Correct = 85 Proportion Correct = ?????

Squared Distance Between Groups

Broccoli Rosenkohl Blumenkohl Weisskohl Broccoli 0.0000 5.6799 11.0032 11.6242 Rosenkohl 5.6799 0.0000 10.9832 10.6372 Blumenkohl 11.0032 10.9832 0.0000 34.4158 Weisskohl 11.6242 10.6372 34.4158 0.0000 Summary of Misclassified Observations

Observation True Pred Group Squared Probability Group Group Distance

2 ** Rosenkohl Broccoli Broccoli 3.390 0.401 Rosenkohl 3.709 0.342 Blumenkohl 4.285 0.256 Weisskohl 15.619 0.001 6 ** Rosenkohl Broccoli Broccoli 2.687 0.557 Rosenkohl 3.253 0.420 Blumenkohl 9.783 0.016 Weisskohl 11.402 0.007 .

. .

96 ** Blumenkohl Broccoli Broccoli 6.034 ?????

Rosenkohl 8.841 0.183

(9)

a) Wieviele Objekte wurden insgesamt klassifiziert und wie verteilen sie sich in Wirklichkeit-

auf die einzelnen Kohlarten? (0.5)

b) Wieviele Objekte von Rosenkohl wurden als Weißkohl klassifiziert? (0.5)

c) Welcher Anteil von Blumenkohl wurde richtig klassifiziert und welcher Anteil an allen Kohlarten wurde insgesamt richtig klassifiziert? (0.5)

d) Welchen quadratischen Abstand haben die Centroide der Gruppen Blumenkohl und

Weißkohl? (0.5)

e) Warum wurde Objekt 2, das in Wirklichkeit Rosenkohl ist, durch den Algorithmus als

Broccoli klassifiziert? (1)

f) Wie groß ist laut Klassifikation die Wahrscheinlichkeit, daß Objekt 96 Broccoli ist? (1)

(10)

Dez Nov Okt Sep Aug Jul Jun Mai Apr Mär Feb Jan Dez Nov Okt Sep Aug Jul Jun Mai Apr Mär Feb Jan 25

20

15

10

5

0

Monat

Temperatur [°C]

1982 1983

4. Zur Risikoabschätzung von Umweltchemikalien wurden an der TU München-Weihenste- phan künstliche aquati- sche Ökosysteme an- gelegt. Den Tempera- turverlauf an der Ober- fläche in den Jahren 1982 und 1983 zeigt die gestrichelte Linie in der rechten Graphik.

Die durchgezogene Linie ist eine durch nichtlineare Regression angepaßte Sinuskurve.

Die Sinuskurve wird durch den allgemeinen Ansatz T = T_A @ sin(OMEGA @ (mon ! MON_0)) + T_V

beschrieben, wobei T (Temperatur in °C) und mon (Monat, Jan82 = 1, Feb82 = 2 usw.) die Meßwerte und T_A (Amplitude), OMEGA (Kreisfrequenz), MON_0 (Horizontalverschiebung) sowie T_V (Vertikalverschiebung) die zu schätzenden Parameter sind. Das Ergebnis der nichtlinearen Regression zeigt der folgende SPSS-Output.

Non-linear Regression

Nonlinear Regression Summary Statistics Dependent Variable T Source DF Sum of Squares Mean Square

Regression 4 4567 1142 Residual 20 142 7 Uncorrected Total 24 4709

(Corrected Total) 23 1783

R squared = 1 - Residual SS / Corrected SS = ,92 Asymptotic 95 % Asymptotic Confidence Interval Parameter Estimate Std. Error Lower Upper

T_A 11,60 ,77 10,00 ?????

OMEGA ,54 ,01 ,52 ,56 MON_0 4,57 ,21 4,13 5,01 T_V 11,33 ,58 10,12 12,54

(11)

a) Geben Sie die Schätzfunktion mit ihren Parametern an. (0.5)

b) Wie beurteilen Sie die Güte des Regressionsmodells? (0.5)

c) Wie groß ist die obere Grenze des asymptotischen 95%-Vertrauensintervalls für die

Amplitude T_A? (0.5)

Für das Gauss-Verfahren der nichtlinearen Regression benötigt man die partiellen Ableitun- gen der Modellfunktion nach den zu schätzenden Parametern.

d) Bestimmen Sie die beiden partiellen Ableitungen der Modellfunktion nach den Parametern

T_A und T_V. (0.5)

e) Bestimmen Sie die beiden partiellen Ableitungen der Modellfunktion nach den Parametern

OMEGA und MON_0. (+2)

(12)

20 18 16 14 12 10 8 6 4 2 0 6 5 4 3 2 1 0

Punkte (Agrarwissenschaften)

Anzahl

20 18 16 14 12 10 8 6 4 2 0 6 5 4 3 2 1 0

Punkte (Gartenbau)

Anzahl

5. Die folgenden beiden Histogramme zeigen die Häufigkeitsverteilung der Klausurergebnisse in Biometrie und Ökonometrie vom Sommersemester 1997 getrennt nach den Fachrichtun- gen Agrarwissenschaften und Gartenbau.

Um zu überprüfen, ob sich die Klausurergebnisse der beiden Fachrichtungen signifikant unterscheiden, wurde der Wilcoxon-Mann-Whitney-Test durchgeführt. Das Ergebnis zeigt folgender MINITAB-Output.

MTB > Mann-Whitney 'Agrar' 'Garten';

SUBC> Alternative 0.

Mann-Whitney Test

Agrar N = 18 Median = 13.250 Garten N = 34 Median = 12.250 W = 488.5

The test is significant at 0.8321 (adjusted for ties)

Interpretieren Sie den Output. (2)