• Keine Ergebnisse gefunden

L¨ osung 12

N/A
N/A
Protected

Academic year: 2021

Aktie "L¨ osung 12"

Copied!
4
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

D-CHAB, D-BIOL Fr¨uhlingssemester 2012

Grundlagen der Mathematik II Prof. K¨unsch

Lineare Algebra und Statistik

L¨ osung 12

1) In der unten stehenden Tabelle sind die Weltrekordetider M¨anner ¨uber 13 verschiedene Laufdistan- zendi aufgelistet, Stand 1974. An diese Daten wird das folgende Regressionsmodell mit Hilfe von R angepasst; das Ergebnis befindet sich ebenfalls unten:

ti=α+βdi+Ei, Ei∼ N(0, σ2).

Distanz (di in m) 100 200 400 800 1000 1500 2000 Zeit (ti ins) 9.9 19.8 43.8 103.7 136.0 213.1 296.2 Distanz (di in m) 3000 5000 10000 20000 25000 30000

Zeit (ti ins) 457.6 793.0 1650.8 3464.4 4495.6 5490.4

> dist <- c(100,200,400,800,1000,1500,2000,3000,5000,10000,20000,25000,30000)

> zeit <- c(9.9,19.8,43.8,103.7,136.0,213.1,296.2,457.6,793.0,1650.8,3464.4,

+ 4495.6,5490.4)

> reg <- lm(zeit~dist)

> summary(reg) Call:

lm(formula = zeit ~ dist) Residuals:

Min 1Q Median 3Q Max

-106.95 -24.90 15.77 33.71 102.08 Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) -62.59296 21.81098 -2.87 0.0152 * dist 0.18170 0.00173 105.05 <2e-16 ***

---

Signif. codes: 0 *** 0.001 *** 0.01 *** 0.05 *** 0.1 *** 1 Residual standard error: 62.68 on 11 degrees of freedom Multiple R-squared: 0.999, Adjusted R-squared: 0.9989 F-statistic: 1.103e+04 on 1 and 11 DF, p-value: < 2.2e-16 Beantworte die folgenden Fragen:

(a) Gibt es einen signifikanten, nichttrivial linearen Zusammenhang zwischen d und t, d.h. ist β signifikant von 0 verschieden?

√ Ja Nein

Gem¨aß dem Signifikanzcode ***zu dem Koeffizienten der Variabled=distkann die Nullhypothese, dassβ= 0 gilt, sogar zu einem Fehlerniveau≤0.1% verworfen werden. Insbesondere zum Fehlerniveau 5%, also istβsignifikant von 0 verschieden.

(b) Welches der folgenden Intervalle ist das 95%-Vertrauensintervall f¨urβ ? [0.1800,0.1834]

√ [0.1779,0.1855]

[0.1765,0.1869]

[0.1800,0.1852]

(2)

Am Output lesen wir ab, dass wir 11 Freiheitsgrade haben, eine gesch¨atzte Steigungβb= 0.18170 und eine gesch¨atzte Standardabweichung se(β) = 0.00173. Aus der Tabelle 2.2 des Skriptes und der Formelb auf Seite 38 lesen wir ab:q11(0.975) = 2.20 und das 95%-Vertrauensintervall istβb±q11(0.975)·se(β)b ≈ [0.1779,0.1855].

(c) Wie gross ist das Residuumr5der f¨unften Beobachtung (d5= 1000) ?

√ 16.9 62.6 119.1 181.7

Die f¨unfte Beobachtung ergab die Zeitt5= 136.0 f¨ur die Distanzd5 = 1000. Das Residuum ist definiert als Abweichung der Beobachtung vom Modellwert, alsor5 = 136.0−(−62.59296 + 0.18170·1000) = 136−119.1≈16.9.

(d) D¨urfen wir die berechnete Regressionsgerade benutzen, um zu schließen, dass 1974 der Weltre- kord ¨uber 100km= 100000mungef¨ahr bei 18000sgelegen w¨are?

Ja

√ Nein

Nein, denn lineare Modelle werden in erster Linie herangezogen, um im jeweiligem G¨ultigkeitsbereich, d.h. dem Intervall zwischen der kleinsten und gr¨oßten Realisierung der erkl¨arenden Variable, zu in- terpolieren, nicht aber, um dar¨uber hinaus zu extrapolieren. Will man dies trotzdem tun, muss man gute theoretische Gr¨unde daf¨ur haben, dass das Modell auch im gr¨osseren Bereich eine gute N¨aherung darstellt.

(e) Das Modell passt sehr gut, weil das Bestimmtheitsmass mit 99.9% fast gleich dem maximalen Wert von 100% ist.

Richtig

√ Falsch

R2 nahe bei 1 heisst einfach, dassP

(yi−ˆyi)2 viel kleiner alsP

(yi−y)¯2 ist, und hier istP

(yi−y)¯2 sehr gross! Trotzdem sind die Werteyi−yˆi gr¨osser als das bei einem brauchbaren Modell der Fall ist, vor allem f¨ur kleineyi.

(f) Die folgende Darstellung der Residuen gegen die angepassten Werte zeigt einen nichtlinearen Zusammenhang.

0 1000 2000 3000 4000 5000

−100−50050100

angepasste Werte

Residuen

√ Richtig Falsch

(3)

(g) Als alternative Modelle werden vorgeschlagen:

ti=α+βdi+γd2i +Ei (1)

logti=α+βlogdi+Ei (2)

Bei welchem Modell ist die Vorhersage der ben¨otigten Zeit genauer je k¨urzer die Distanz?

(1)

√ (2)

Im Modell (2) wachsen die Fehler proportional mit der Zeit (exponentiere beide Seiten der Gleichung).

Dies ist sinvoll, denn es ist davon auszugehen, dass ein Modell die Zeit auf kurze Distanzen genauer angeben kann als auf sehr weite Distanzen. (Ausserdem l¨auft die Kurve von Modell (2) durch den Ursprung (d, t) = (0,0), was ebenfalls sinnvoll ist.)

2) In einer Studie wurde untersucht, mit welchen Variablen man den Anteil K¨orperfett (in Prozent) bei M¨annern gut voraussagen kann. Unten sehen Sie den Output f¨ur 2 lineare Regressionsmodelle, einmal mit dem Gewicht (in Pfund) als einziger erkl¨arender Variable, einmal mit den beiden erkl¨a- renden Variablen Gewicht und H¨uftumfang (in inches). Gewisse Angaben im Output wurden durch Fragezeichen ersetzt.

1. Modell. Call:

lm(formula = Koerperfett ~ Gewicht, data = fat) Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) -8.32823 2.77640 -3.000 0.00298 **

Gewicht 0.15426 0.01545 9.983 < 2e-16 ***

---

Signif. codes: 0 *** 0.001 *** 0.01 *** 0.05 *** 0.1 *** 1 Residual standard error: 7.019 on 248 degrees of freedom Multiple R-squared: 0.2867,Adjusted R-squared: 0.2838 F-statistic: 99.66 on 1 and 248 DF, p-value: < 2.2e-16

--- 2. Modell. Call:

lm(formula = Koerperfett ~ Gewicht + Hueftumf, data = fat) Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) -45.18704 2.60914 -17.319 < 2e-16 ***

Gewicht -0.08753 0.01598 ?? ??

Hueftumf 2.19476 0.11449 19.170 < 2e-16 ***

---

Signif. codes: 0 *** 0.001 *** 0.01 *** 0.05 *** 0.1 *** 1 Residual standard error: 4.459 on 247 degrees of freedom Multiple R-squared: 0.7133,Adjusted R-squared: 0.711 F-statistic: 307.2 on 2 and 247 DF, p-value: < 2.2e-16

(a) Wieviele M¨anner nahmen an der Studie teil?

247 248 249

√ 250

Im ersten Modell hat man 248 Freiheitsgrade bei 2 gesch¨atzten Parametern, also hat man 250 Indivi- duuen in der untersuchten Population.

(4)

(b) Welchen Anteil K¨orperfett sagt das erste Modell bei einem Mann mit 200 Pfund K¨orpergewicht voraus ?

√ 22.5%

30.8%

einen anderen Wert

Der vom Modell vorhergesagte Wert ist etwa (−8.33 + 0.154·200)%≈22.5%.

(c) Der gesch¨atzte Koeffizient f¨ur die erkl¨arende Variable Gewicht hat je nach verwendetem Modell ein unterschiedliches Vorzeichen. Wie ist das m¨oglich?

Das unterschiedliche Vorzeichen tritt auf wegen der statistischen Ungenauigkeit der Sch¨at- zungen.

√ Die Koeffizienten in den beiden Modellen haben eine unterschiedliche Bedeutung.

Im ersten Modell beschreibt der Koeffizient beim Gewicht den erwarteten Einfluss des Gewichts auf das K¨orperfett bei nicht weiter ber¨ucksichtigtem (d.h. i.W. f¨ur die entsprechende Gewichtsklasse gemittel- tem) H¨uftumfang, im zweiten Modell beschreibt der entsprechende Koeffizient den erwarteten Einfluss des Gewichts auf das K¨orperfett bei konstantem (aber a priori nicht n¨aher spezifiziertem) H¨uftumfang;

die beiden Koeffizienten haben also eine unterschiedliche Bedeutung, daher ist das wechselnde Vorzei- chen kein Widerspruch.

Alternativ kann man auch so argumentieren: die Gr¨ossen Gewicht und H¨uftumfang scheinen nicht un- abh¨angig zu sein; was im ersten Modell an K¨orperfettzunahme ausschliesslich durch das Gewicht erkl¨art werden musste, kann im zweiten auf Gewicht und H¨uftumfang

”verteilt“ werden – dabei stellt es sich heraus, dass steigender H¨uftumfang sogar so sehr zur Erkl¨arung der K¨orperfettzunahme beitr¨agt, dass die Gewichtszunahme im zweiten Modell sogar einen negativen Effekt hat.

Das negative Vorzeichen im zweiten Modell interpretiert man so: wenn zwei M¨anner den gleichen H¨uft- umfang, aber verschiedenes Gewicht haben, dann erwartet man beim schwereren Mann einen kleineren Anteil K¨orperfett.

(d) Das zweite Modell ist vorzuziehen weil dort das BestimmungsmassR2deutlich gr¨osser ist.

√ Richtig Falsch

Richtig, mit der zus¨atzlichen Variablen H¨uftumfang l¨asst sich die Variabilit¨at besser erkl¨aren.

3) Ein bestimmtes Messger¨at f¨ur Ammonium-Konzentrationen ergibtN(µ, σ2)-verteilte Messerte, wobei µdie tats¨achliche Konzentration bezeichnet undσ= 10µgl [NH+4] die Genauigkeit.

(a) Angenommen man misst eine L¨osung mit tats¨achlicher Konzentration von 200µgl , wie gross ist die Wahrscheinlichkeit, dass das Ger¨at einen Wert gr¨osser oder gleich 207µgl anzeigt ?

4.2%

14.2%

√ 24.2%

Es ist 1−Φ(207−20010 )≈24.2%.

(b) Das arithmetische Mittel von 16 unabh¨angigen Messungen einer L¨osung mit Konzentration 200µgl ist

√ N(200,(104)2)-verteilt.

N(200,(1016)2)-verteilt.

N(200,104)-verteilt.

Siehe Formel 2.4 auf Seite 21 im Skript.

(c) Wenn das arithmetische Mittel von 16 unabh¨angigen Messungen den Wert 207µgl ergibt, dann lautet das 95%-Vertrauensintervall f¨ur die unbekannte wahre Konzentration

√ 207±1.96·2.5µgl 207±1.96·10µgl 207±2.13·2.5µgl

Gem¨ass der Aufgabenstellung ist die Standardabweichung bekannt (aus einer langen Reihe von Eich- experimenten). Daher gibt es keine Unsicherheit, die von der Sch¨atzung vonσentsteht, und man kann die Quantile der Normalverteilung benutzen.

Referenzen

ÄHNLICHE DOKUMENTE

Denn der gute Arzt bildet nur dann ein Gegenbeispiel gegen Nikias’ Defintion, wenn er unter das Definiens f¨ allt (weiß, was man f¨ urchten muß), nicht aber unter das Definiendum

Diesen Einwand kann man aber wie folgt zur¨ uckweisen: Wenn die Philosophen nicht nur wegen der Erkenntnis philosophieren, sondern auch wegen des Nutzens N, dann kann man nicht

Nach Aristoteles ist es aber auch m¨ oglich, statt desjenigen Stoffes, der zuerst bestand, den zeitlich sp¨ atesten als Urstoff zu bezeichnen (das ist allerdings nicht vertr¨

Dabei will er nicht ¨ Uberzeugung f¨ ur ¨ Uberzeugung untersuchen, sondern etwas ¨ okonomischer vorgehen: Da Descartes der Meinung ist, daß ¨ Uberzeugungen oft durch andere

Erl¨ auterungen zum Alltagsbewußtsein: Undeutliche Einsicht in Natur der Seele, der K¨ orper als Ausgedehntes ohne notwendige Bewegung (5

Wenn er zeigen kann, daß er nicht systema- tisch get¨ auscht wird, dann entf¨ allt der entscheidende Zweifelsgrund am mathematischen, allgemeinen Strukturwissen, das Descartes in

Zu diesen Ideen geh¨ ort etwa die Idee des Schließens (eine Idee, die aus der Reflexion stammt) und die Idee einer bestimmten Gestalt (das ist eine Idee, die aus der Sensation

Im Unterschied zum ersten Teil bewegt sich S jetzt auf einer Kurve die stets senkrecht zum Tangentenvektor der ersten Kurve steht... Da sich Verfolger und Verfolgte quasi aufeinander