• Keine Ergebnisse gefunden

Generalisierte Lineare Modelle

N/A
N/A
Protected

Academic year: 2021

Aktie "Generalisierte Lineare Modelle"

Copied!
90
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Herwig FRIEDL

Institut f¨ ur Statistik Technische Universit¨ at Graz

September 2013

(2)

Inhaltsverzeichnis

1 Transformation auf Normalverteilung 1

1.1 Box-Cox Transformationsfamilie . . . 1

1.2 Maximum-Likelihood Sch¨atzung . . . 2

1.3 Beispiel . . . 4

2 Die Exponentialfamilie 9 2.1 Maximum Likelihood Sch¨atzung . . . 12

2.2 Mitglieder der Exponentialfamilie . . . 12

2.3 Die Quasi-Likelihood Funktion . . . 15

2.3.1 Quasi-Dichten . . . 18

3 Das Generalisierte Lineare Modell 19 3.1 Maximum-Likelihood-Sch¨atzungen . . . 20

3.2 Asymptotische Eigenschaften des Sch¨atzers . . . 23

3.3 Pearson Statistik . . . 23

3.4 Eigenschaften von Score und Quasi-Score . . . 24

3.5 Deviance und Quasi-Deviance . . . 25

3.6 Parametertests . . . 27

3.7 Beispiel: Konstante Varianz . . . 27

3.8 Beispiel: Gamma-Varianz . . . 28

4 Logistische Regression 37 4.1 Toleranzverteilungen – Linkfunktionen . . . 38

4.1.1 Beispiel (Venables & Ripley, Seite 218) . . . 39

4.2 Interpretation der Parameter . . . 43

4.2.1 Beispiel (Agresti, Seite 87) . . . 44

4.3 Logit-Modelle . . . 46

4.3.1 Beispiel . . . 46 i

(3)

4.4 Komplexe Logistische Modelle . . . 49

4.4.1 Beispiel . . . 49

5 Loglineare Modelle 51 5.1 Poisson Loglineare Modelle f¨ur Anzahlen . . . 51

5.1.1 Beispiel . . . 51

5.2 Loglineare und Multinomiale Response Modelle . . . 57

5.2.1 Die Multinomialverteilung . . . 57

5.2.2 Vergleich von Poisson-Erwartungen . . . 59

5.2.3 Multinomiale Responsemodelle . . . 60

5.2.4 Beispiel . . . 61

5.3 Zweidimensionale Kontingenztafeln . . . 64

5.3.1 Unabh¨angigkeitsmodell . . . 64

5.3.2 Saturiertes (volles) Modell . . . 65

5.3.3 Interpretation der Parameter . . . 67

5.3.4 Beispiel . . . 69

6 Modelle mit zuf¨alligen Effekten 71 6.1 Zuf¨allige Pr¨adiktoren . . . 71

6.2 EM Sch¨atzer . . . 72

6.2.1 Beispiel: Endliche diskrete Mischungen . . . 74

6.3 Uberdispersionsmodelle . . . .¨ 77

6.3.1 Normalverteilte zuf¨allige Effekte . . . 77

6.3.2 Zuf¨allige Effekte aus unbekannter Verteilung . . . 79

6.3.3 Pr¨adiktionen bei NPML Sch¨atzung . . . 80

6.3.4 Beispiel: Matched Pairs . . . 81

(4)

Kapitel 1

Transformation auf Normalverteilung

Die statistische Analyse von Daten basiert h¨aufig auf der Annahme, dass diese normal- verteilt sind und konstante Varianz widerspiegeln. Falls die Daten diese Annahme nicht unterst¨utzen, besteht die M¨oglichkeit der Verwendung einer Transformation, um dadurch eine bessere Approximation zu einer konstanten Varianz zu erzielen. Dann k¨onnten auch klassische Methoden wie die Varianzanalyse oder die Lineare Regression auf solche Daten angewendet werden.

1.1 Box-Cox Transformationsfamilie

Die Verwendbarkeit der Normalverteilung wird erweitert, indem diese in eine gr¨oßere Familie von Verteilungsfunktionen eingebettet wird, der Box-Cox Transformationsfamilie (Box und Cox, 1964). Deren allgemeine Form kann f¨ur eine positive Response y > 0 repr¨asentiert werden durch

y(λ) =



yλ1

λ , fallsλ̸= 0, logy, fallsλ= 0,

(1.1)

wobeiλ den Parameter der Transformation bezeichnet. Spezialf¨alle in dieser Familie sind y(−1) = 11/y undy(1) =y−1. Dar¨uberhinaus strebt f¨urλ→0,y(λ)→logy, so dass y(λ) eine stetige Funktion in λ ist.

F¨ur Daten (yi, xi), i = 1, . . . , n, nehmen wir nun an, dass es einen Wert von λ gibt, f¨ur den yi(λ) einer Normalverteilung mit identischer Varianz gen¨ugt, d.h.

yi(λ)ind N(µi(λ), σ2(λ)).

Unter dieser Annahme kann man auf die Dichtefunktion der originalen Dateny schließen.

1

(5)

Diese ist gerade

f(y, λ, µ(λ), σ(λ)) = 1

√2πσ2(λ)exp (

(y(λ)−µ(λ))22(λ)

) d dyy(λ)

. (1.2)

Die Verwendung der Transformation (1.1) ergibt

f(y, λ, µ(λ), σ(λ)) =











√ 1

2πσ2(λ)exp (

((yλ1)/λ−µ(λ))2

2(λ)

)

yλ1, fallsλ̸= 0,

√ 1

2πσ2(λ)exp (

(logy−µ(λ))22(λ)

)

y1, fallsλ= 0.

(1.3)

In Regressions Analysen verwendet man h¨aufig ein simples lineares Modell yi(λ)ind N(xi β(λ), σ2(λ)),

wobeiβ(λ) = (β1(λ), . . . , βp(λ))den1 Vektor der unbekannten Parameter bezeichnet.

F¨ur λ ̸= 0 definiert man den reparameterisierten Vektor β = (β1, . . . , βp) bez¨uglich yλ, mit Intercept β1 = 1 +λβ1(λ) und Effekten βj =λβj(λ), j = 2, . . . , p, sowie σ =|λ|σ(λ).

Damit kann die Dichte (1.3) umgeschrieben werden zu f(y, λ, β, σ) = 1

2πσ2 exp (

(yλ−xβ)22

)

|λ|yλ1.

F¨urλ = 0 verwendeβj =βj(λ),j = 1, . . . , p, und σ=σ(λ) als Parameter bez¨uglich eines linearen Modells f¨ur logy. Dann kann man (1.2) schreiben als

f(y,0, β, σ) = 1

2πσ2 exp (

(logy−xβ)22

) y1.

1.2 Maximum-Likelihood Sch¨ atzung

Die Log-Likelihood Funktion der n Beobachtungen (yi, xi) basierend auf die untransfor- mierte Dichte (1.2) ist (auf der originalen Datenskala)

l(λ, µ(λ), σ(λ)) =

n 2log

(

2πσ2(λ)

) 1 2σ2(λ)

n i=1

(

yi(λ)−µi(λ) )2

+

n i=1

log d

dyiyi(λ)

. (1.4) Mit der Box-Cox Transformation (1.1) ist die Summe der Logarithmen der Jacobi Terme

n i=1

log d

dyiyi(λ) =

{

1)∑

ilogyi, fallsλ ̸= 0,

ilogyi, fallsλ = 0.

(6)

1.2. MAXIMUM-LIKELIHOOD SCH ¨ATZUNG 3 Bez¨uglich der Parameter (β, σ) erh¨alt man

l(λ, β, σ) =

{n2 log (2πσ2) 12

i

(yλi −xi β)2

+nlog|λ|+ (λ1)∑

ilogyi, falls λ̸= 0,

n2 log (2πσ2) 12

i

(logyi −xi β)2

ilogyi falls λ= 0. (1.5) F¨ur einen festen Wert vonλl¨osen die Maximum-Likelihood Sch¨atzer ˆβλ und ˆσλ basierend auf (1.5) die Sch¨atzgleichungen

∂l(λ, β, σ)

∂β =

{ 1 σ2

ixi(yλi −xi β) = 0, falls λ̸= 0,

1 σ2

ixi(logyi−xi β) = 0, falls λ= 0,

∂l(λ, β, σ)

∂σ =

{nσ +σ13

i(yiλ−xi β)2 = 0, falls λ̸= 0,

nσ +σ13

i(logyi−xi β)2 = 0, falls λ= 0, und sind deshalb gleich

βˆλ = {

(XX)1Xyλ, falls λ̸= 0, (XX)1Xlogy, falls λ= 0, ˆ

σλ2 = 1

nSSEλ( ˆβλ) = {1

n

i(yλi −xi βˆλ)2, falls λ̸= 0,

1 n

i(logyi−xi βˆλ)2, falls λ= 0,

wobeiyλ(resp. logy) elementeweise gerechnet sind und SSEλ( ˆβλ) die Fehlerquadratsumme von yλ (resp. logy) an der Stelle ˆβλ f¨ur ein festes λ bezeichnet. Bemerke, dass wegen der obigen Reparameterisierung die Fehlerquadratsumme SSEλ( ˆβλ) in λ = 0 unstetig ist.

Substituiert man beide Sch¨atzer in der Log-Likelihood Funktion (1.5) und l¨asst darin alle konstanten Terme weg, so erh¨alt man die Profile (Log-) Likelihood Funktion

pl(λ) =l(λ,βˆλˆλ) =

{n2 log SSEλ( ˆβλ) +nlog|λ|+ (λ1)∑

ilogyi, falls λ̸= 0,

n2 log SSE0( ˆβ0)

ilogyi, falls λ= 0.(1.6) F¨ur λ = 1 resultiert z.B. pl(1) = (n/2) log SSE1( ˆβ1) = nlog(∑n

i=1(yi−xi βˆ1)2 )1/2

. Obwohl SSEλ(·) in λ = 0 unstetig ist, ist die Profile Likelihood Funktion pl(λ) stetig.

Wegen

pl(λ) = −n 2 log

n i=1

(yiλ−xi βˆλ)2

λ2 + (λ1)

n i=1

logyi

= −n 2 log

n i=1

((yiλ1)/λ−xi β(λ))ˆ 2+ (λ1)

n i=1

logyi ist limλ0pl(λ) =pl(0).

(7)

Wegen{2(pl(ˆλ)−pl(λ0))∼χ21}beinhaltet ein approximatives Konfidenzintervall f¨ur den Parameter λ all jene Werte von λ0, f¨ur die pl(λ0) innerhalb von 12χ21α;1 Einheiten vom Funktionsmaximum entfernt ist (χ20.95;1= 3.8415,χ20.99;1 = 6.6349).

Ein wichtiger Aspekt dieser Variablentransformation ist, dass auf der transformierten Skala das Modell die Variation bez¨uglich des Erwartungswertes der (auf Normalverteilung) transformierten Variablen repr¨asentiert, w¨ahrend auf der Originalskala das Modell die Variation bez¨uglich des Medians der originalen Variablen darstellt. Dies sieht man am einfachsten f¨ur die Log-Transformation (λ= 0). Seien logyi ∼N(xi β, σ2), dann gilt

median(logyi) = xi β, E(logyi) = xi β, var(logyi) = σ2.

Die originalen Beobachtungen yi unterliegen selbst einer Lognormalverteilung mit median(yi) = exp(xi β),

E(yi) = exp(xi β+σ2/2), var(yi) = (

exp(σ2)1)

exp(2xi β+σ2).

Dies bedeutet, dass das additive Modell f¨ur den Erwartungswert (und daher auch f¨ur den Median) der logyi ein multiplikatives Modell f¨ur die Mediane und Erwartungswerte deryi ist. F¨ur die Erwartungswerte von yi wurde der Intercept Term um σ2/2 verschoben und die Varianzen sind nicht mehr konstant.

F¨ur eine Transformation y(λ) = yλ mit λ̸= 0, also f¨uryiλ ∼Ni, σ2), folgt median(yi) = µ1/λi ,

E(yi) µ1/λi (

1 +σ2(1−λ)/(2λ2µ2i)) , var(yi) µ2/λi σ2/(λ2µ2i).

Wiederum ist die offensichtliche Unstetigkeit zwischenλ= 0 undλ̸= 0 in der Verwendung von yλ anstelle von (yλ1)/λ begr¨undet.

1.3 Beispiel

n = 31 Black Cherry Trees; verwendbares Holzvolumen V in feet3 (1 foot = 30.48 cm), Baumh¨ohe H in feet, DurchmesserD in inches (1 inch = 2.54 cm) auf einer H¨ohe von 4.5 feet ¨uber dem Boden. Das Modell sollte das verwendbare Holzvolumen V aus den leicht zu messenden Gr¨oßen H und D vorhersagen.

> %in%

> attach(trees); plot(H, V); plot(D, V) # Kr¨ummung (falsche Skala?)

> mod <- lm(V ~ D + H)

(8)

1.3. BEISPIEL 5

8 10 12 14 16 18 20

D

204060

V

65 70 75 80 85

H

204060

V

0 5 10 15 20 25 30

Index

0.050.100.150.20

leverages

8 10 12 14 16 18 20

D

-505

r

Abbildung 1.1: Oben: Volumen gegen Durchmesser (links) und Volumen gegen H¨ohe (rechts). Unten: Diagonalelemente der Hatmatrix (links) und Residuen gegen Durchmesser (rechts) unter dem linearen Modell f¨ur V.

Coefficients:

(Intercept) H D

-57.98766 0.3392512 4.708161

Degrees of freedom: 31 total; 28 residual Residual standard error: 3.881832

> plot(lm.influence(mod)$hat, ylab = "leverages") # 2 Hebelpunkte

> abline(2*mod$rank/length(V), 0); abline(v = c(20, 31))

> plot(residuals(mod), D); abline(0, 0) # Senke in der Mitte

> library(MASS, help=T)

> boxcox(V ~ D + H, lambda = seq(0.0, 0.6, len=18)) # max = -76.08

Das Maximum der Profile Likelihood Funktion tritt in der N¨ahe von λ = 0.3 auf. Das approximative 95% Konfidenzintervall ist sehr klein, etwa (0.12,0.49), und beinhaltet weder die Null noch die Eins. Es liegt in der Natur einer Volumenmessung, dass sich diese kubischbez¨uglich den linearen Gr¨oßen H¨ohe und Durchmesser verh¨alt. Daher erscheint es auch sinnvoll, die Kubikwurzel des Volumens als Response zu verwenden.

> plot(D, V**(1/3)) # Kr¨ummung beseitigt

(9)

0.0 0.1 0.2 0.3 0.4 0.5 0.6 lambda

-80-79-78-77-76

log-Likelihood

95%

8 10 12 14 16 18 20

D

2.53.03.54.0

V^(1/3)

20 40 60 80

mu^3

204060

V

20 40 60 80

mu^3 * (1 + (3 * s2)/mu^2)

20406080

mu^3

Abbildung 1.2: Oben: Profile Likelihood Sch¨atzung vonλbei der Box-Cox Transformation (links) und Durchmesser gegen dieyi1/3 (rechts). Unten: Gefittete Mediane gegen originale Beobachtungen V (links) und gefittete Mediane gegen gefittete Means (rechts).

> mod1 <- lm(V**(1/3) ~ H + D) Coefficients:

(Intercept) H D

-0.08538814 0.01447169 0.1515163

Degrees of freedom: 31 total; 28 residual Residual standard error: 0.08282697

Die gefitteten Mediane von V unter diesem obigen Modell f¨urµ1/3 = E(y1/3) (mit festem λ = 1/3) sind ˆµ31/3, und die gefitteten Erwartungswerte sind etwa ˆµ31/3(1 + 3ˆσ21/3ˆ21/3).

Diese k¨onnen mit den Beobachtungen y verglichen werden.

> mu <- fitted(mod1)

> s2 <- deviance(mod1)/mod1$df.residual

> plot(mu**3, V) # Median Modell

> plot(mu**3*(1+3*s2/mu**2), mu**3) # Median/Mean

Andere technische ¨Uberlegungen ergeben alternative Modelle. Die unerw¨unschte Kr¨um- mung in der Abbildung 1.1 kann auch durch logarithmische Transformation aller Variablen

(10)

1.3. BEISPIEL 7

2.2 2.4 2.6 2.8 3.0

log(D)

2.53.03.54.0

log(V)

-0.2 -0.1 0.0 0.1 0.2

lambda

-80-79-78-77-76-75

log-Likelihood

95%

Abbildung 1.3: Links: logV linear abh¨angig von logD. Rechts: Profile Likelihood Funktion f¨ur V modelliert durch logH+ logD.

entfernt werden. Dies legt eine Regression von auf log(D) und log(H) nahe. Soll man jetzt jedoch auf der log(V) Achse modellieren?

> plot(log(D), log(V)); lm(log(V) ~ log(D) + log(H)) Coefficients:

(Intercept) log(D) log(H) -6.631617 1.98265 1.117123

Degrees of freedom: 31 total; 28 residual Residual standard error: 0.08138607

> boxcox(V ~ log(H) + log(D), lambda = seq(-0.25, 0.25, len = 10))

Die Profile Likelihood Sch¨atzung bei der Box-Box Transformation liefert ein Maximum bei 0.07 und ein 95% Konfidenzintervall von (0.24,0.11), welches zwar die Null (lo- garithmische Transformation), aber nicht mehr die Kubikwurzeltransformation λ = 1/3 oder die Identit¨atλ= 1 beinhaltet.

Beide Modelle liefern ann¨ahernd dieselben Maxima der Profile Likelihood Funktionen.

Welches der beiden ist nun dasbessere? Wir k¨onnen sie durch einen Likelihood Quotienten Test miteinander vergleichen. Dazu werden die Modelle eingebettet in die Familie

V N1+β2H+β3D, σ2) V = (VλV 1)/λV

H = (HλH 1)/λH

D = (DλD1)/λD

Wir vergleichen nun die maximale Likelihood bez¨uglich λV = 1/3, λH = λD = 1 mit der maximalen Likelihood des Modells λV = λH = λD = 0. Alle ¨ubrigen Parameter sind hierbei nuisance Parameter und die Likelihood Funktion wird ¨uber diese in beiden Modellen maximiert.

> boxcox(V ~ H + D, lambda = 1/3, plotit=FALSE)

(11)

$x: 0.3333333 $y: -76.12156

> boxcox(V ~ log(H) + log(D), lambda = 0, plotit=FALSE)

$x: 0 $y: -75.33877

Die doppelte Differenz der beiden Maxima betr¨agt nur 2(76.122 + 75.339) = 1.566, was nicht signifikant verglichen mitχ23ist. Daher k¨onnen wir auch nicht ¨uberzeugend eines der beiden Modelle w¨ahlen.

Bemerke aber, dass der Koeffizient f¨ur logH nahe bei Eins (1.117) liegt und der zu logD fast Zwei (1.983) ist. Nimmt man an, dass man einen Baum durch einen Zylinder oder Kegel beschreiben kann, so w¨are sein Volumen πd2h/4 (Zylinder) oder πd2h/12 (Kegel).

In beiden F¨allen h¨atte man ein Modell der Form

logV =c+ logH+ 2 logD

mit c= log(π/4) (Zylinder) oder c= log(π/12) (Kegel). Jedoch beziehen sich die obigen Uberlegungen auf Messungen auf der gleichen Skala. Wir konvertieren daher zuerst¨ Dvon inches auf feet, d.h. wir betrachten D/12. Als Intercept resultiert 1.705.

> lm(log(V) ~ log(D/12) + log(H)) Coefficients:

(Intercept) log(D/12) log(H) -1.704917 1.98265 1.117123

Degrees of freedom: 31 total; 28 residual Residual standard error: 0.08138607

Nun fixiert man die beiden Koeffizienten und betrachtet das Modell logV =β1+ logH+ 2 log(D/12)

Hierbei bezeichnet man 1×[logH+2 log(D/12)] alsoffset(ein Term mit festem Parameter Eins) und es muss nur noch β1 gesch¨atzt werden.

> mod3 <- lm(log(V) ~ 1 + offset(2*log(D/12) + log(H)))

> summary(mod3) Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) -1.19935 0.01421 -84.42 <2e-16 ***

Residual standard error: 0.0791 on 30 degrees of freedom

> log(pi/4) [1] -0.2415645

> log(pi/12) [1] -1.340177

Das Holzvolumen eines Baums kann daher eher durch ein Kegelvolumen als durch das eines Zylinders beschrieben werden, hat jedoch ein etwas gr¨oßeres Volumen als ein Kegel.

(12)

Kapitel 2

Die Exponentialfamilie

Beim Linearen Modell (LM) wird angenommen, dass die abh¨angigen Variablen (Respon- ses) yi stochastisch unabh¨angige, normalverteilte Gr¨oßen sind mit Erwartungen µi =xi β und konstanter Varianz σ2. In manchen Situationen ist die Annahme einer Normalver- teilung sicherlich sehr k¨unstlich und nur schwer zu vertreten. Man denke hierbei nur an Modelle f¨ur absolute H¨aufigkeiten oder relative Anteile. Weiters gibt es datengenerieren- de Mechanismen, die f¨ur gr¨oßere Erwartungswerte auch gr¨oßere Variabilit¨at induzieren.

Hierzu z¨ahlen beispielsweise Modelle f¨ur konstante Variationskoeffizienten. Da bei einem LM alle Erwartungswerte auf einer Ebene imp-dimensionalen Raum liegen, ist ein solches LM f¨ur nicht-negative oder speziell f¨ur bin¨are Responses sicherlich unpassend.

Wir wollen nun wegen all dieser Schwachstellen die Klasse der Generalisierten Linea- ren Modelle (GLM) betrachten, die gerade bez¨uglich der oben angef¨uhrten Restriktionen flexible Verallgemeinerungen anbieten. So wird beim klassischen GLM statt der Normal- verteilung eine Verteilung aus der einparametrigen Exponentialfamilie angenommen und dadurch die Varianz als Funktion des Erwartungswertes modelliert (V ar(yi) = Vi)).

Dar¨uberhinaus wird der Erwartungswert nicht ausschließlich direkt linear modelliert, son- dern der lineare Pr¨adiktor ηi =xi β entspricht einer bekannten Funktiong(µi), der Link- funktion.

Bevor nun die Exponentialfamilie eingef¨uhrt wird, soll an die wesentlichsten Eigenschaften von Score-Funktionen und Informations-Matrizen bei der Maximum-Likelihood Sch¨atzung erinnert werden. Dazu bezeichnef(y, θ) die Wahrscheinlichkeitsfunktion oder Dichtefunk- tion von y mit unbekannten Parametern θ.

Satz 2.1 F¨ur die Ableitung der Log-Likelihood Funktion, d.h. f¨ur die Score-Funktion gilt:

E

(logf(y, θ)

∂θ )

= 0, (2.1)

E

(logf(y, θ)

∂θ

)2

= E

(

−∂2logf(y, θ)

∂θ2

)

. (2.2)

9

(13)

Mit

logf(y, θ)

∂θ = 1

f(y, θ)

∂f(y, θ)

∂θ und

R

f(y, θ)dy= 1 folgt (2.1), denn

E

(logf(y, θ)

∂θ

)

= E

(∂f(y, θ)

∂θ

1 f(y, θ)

)

=

R

∂f(y, θ)

∂θ dy=

∂θ

R

f(y, θ)dy= 0. Weiters ergibt sich (2.2) mittels Kettenregel

E (

−∂2logf(y, θ)

∂θ2

)

= E (

−∂2f(y, θ)

∂θ2

1

f(y, θ) +∂f(y, θ)

∂θ

∂f(y, θ)

∂θ

1 f(y, θ)2

)

=

R

2f(y, θ)

∂θ2 dy+

R

logf(y, θ)

∂θ

logf(y, θ)

∂θ f(y, θ)dy

= E

(logf(y, θ)

∂θ

)2

.

Diese Likelihood-Eigenschaften gelten nat¨urlich gerade auch f¨ur die Exponentialfamilie, die jetzt definiert wird.

Definition 2.1 Eine Zufallsvariable y sei aus einer Verteilung mit Dichte- oder Wahr- scheinlichkeitsfunktion

f(y, θ) = exp

(yθ−b(θ)

a(ϕ) +c(y, ϕ) )

f¨ur spezielle bekannte Funktionen a(·), b(·) und c(·) mita(ϕ)>0. Kann ϕ als feste Gr¨oße betrachtet werden, so bezeichnet man f(y, θ) als einparametrige Exponentialfamilie mit kanonischem Parameter θ.

Mit (2.1) resultiert bei der Exponentialfamilie E

(logf(y, θ)

∂θ

)

= 1

a(ϕ)E(

y−b(θ))

= 0 also E(y) = b(θ) , und mit (2.2) folgt

E

(2logf(y, θ)

∂θ2

) + E

(logf(y, θ)

∂θ

)2

= 1

a(ϕ)b′′(θ) + 1

a2(ϕ)var(y) = 0.

Diese zwei Identit¨aten ergeben unmittelbar die beiden ersten Momente (Kumulanten) der Exponentialfamilie

E(y) = b(θ) var(y) = a(ϕ)b′′(θ).

(14)

11 Kumulanten h¨oherer Ordnung bestimmt man einfacher mit der Kumulantenerzeugenden Funktion K(t) = logM(t), wobei M(t) die Momentenerzeugende bezeichnet. Die k-te Kumulante κk ist nun gegeben durch K(k)(t)|t=0 und steht mit dem k-ten Moment in einer einfachen Beziehung, denn

κ1(y) = E(y) κ2(y) = E(y−µ)2 κ3(y) = E(y−µ)3

κ4(y) = E(y−µ)43var2(y). F¨ur die Exponentialfamilie gilt

1 =

R

exp

(yθ−b(θ)

a(ϕ) +c(y, ϕ) )

dy = exp (

−b(θ) a(ϕ)

) ∫

R

exp ( y

a(ϕ) θ+c(y, ϕ) )

dy , woraus

exp (b(θ)

a(ϕ) )

=

R

exp ( y

a(ϕ) θ+c(y, ϕ) )

dy folgt. Die Momentenerzeugende ist daher gegeben durch

M(t) = E(ety) = exp (

−b(θ) a(ϕ)

) ∫

R

exp ( y

a(ϕ) (

θ+a(ϕ)t )

+c(y, ϕ) )

dy

= exp (

−b(θ) a(ϕ)

) exp

b (

θ+a(ϕ)t )

a(ϕ)

= exp

b (

θ+a(ϕ)t

)−b(θ) a(ϕ)

,

und als Kumulantenerzeugende Funktion resultiert

K(t) = logM(t) = b

(

θ+a(ϕ)t

)−b(θ)

a(ϕ) .

Die k-te Kumulante von y, κk(y), ist somit κk(y) = K(k)(t)|t=0 = a(ϕ)k1b(k)

(

θ+a(ϕ)t)

t=0

=a(ϕ)k1b(k)(θ). (2.3) Sei E(y) = b(θ) = µ und var(y) = a(ϕ)b′′(θ) = a(ϕ)V(µ). Die Varianz von y ist also ein Produkt zweier Funktionen:

V(µ) h¨angt ausschließlich vom Erwartungswertµab unda(ϕ) ist vonµunabh¨angig.V(µ) nennt man Varianzfunktion, w¨ahrend ϕ als Dispersionsparameter bezeichnet wird.

Die Funktion b(θ) wirdKumulantenfunktion genannt.

(15)

2.1 Maximum Likelihood Sch¨ atzung

Liegt einen-elementige Zufallsstichprobe y1, . . . , yn aus der Exponentialfamilie vor, so ist der Maximum Likelihood Sch¨atzer von µdie L¨osung der Score-Funktion

n i=1

logf(yi, θ)

∂µ =

n i=1

logf(yi, θ)

∂θ

∂θ

∂µ =

n i=1

yi−b(θ) a(ϕ)

∂θ

∂µ. Mit b(θ) =µ und wegen

∂µ

∂θ = ∂b(θ)

∂θ =b′′(θ) =V(µ) vereinfacht sich die obige Score-Funktion zu

n i=1

logf(yi, θ)

∂µ =

n i=1

yi −µ a(ϕ)V(µ) =

n i=1

yi−µ

var(y). (2.4)

Diese recht simple Form resultiert bei der Exponentialfamilie nur bez¨uglich der Ableitung nachµ. Sie entspricht der Ableitung der Fehlerquadratsumme beim Linearen Modell mit var(yi) = σ2.

Generell k¨onnten wir annehmen, dass beobachtungsspezifischeai(·) vorliegen, es aber nur einen globalen Dispersionsparameter ϕ gibt. Falls speziell ai(ϕ) = ai ·ϕ mit bekannten Gewichten ai, h¨angt der Maximum Likelihood Sch¨atzer ˆµ nicht mehr von ϕ ab.

2.2 Mitglieder der Exponentialfamilie

Wir werden nun einige wichtige Mitglieder dieser Verteilungsfamilie kennen lernen. Dabei wird eine Parametrisierung verwendet, die den Erwartungswert immer durchµbezeichnet.

Die Varianzen sind dadurch oft proportional zu Potenzen von µ.

Die Normalverteilungy∼N(µ, σ2):

f(y, µ, σ2) = 1

2πσ2 exp (

(y−µ)22

)

= exp

(yµ−µ2/2 σ2 y2

2 1

2log(2πσ2) )

, y R. Setzen wir nunθ =µund ϕ =σ2, so f¨uhrt dies zur Exponentialfamilie mit

a(ϕ) =ϕ , b(θ) = θ2/2, c(y, ϕ) =−y2 1

2log(2πϕ), und mittels (2.3) zu

E(y) = b(θ) =θ =µ

var(y) = a(ϕ)b′′(θ) = ϕ·1 =σ2 κk(y) = 0 f¨urk >2.

(16)

2.2. MITGLIEDER DER EXPONENTIALFAMILIE 13

Die Poissonverteilungy ∼P(µ):

f(y, µ) = µy

y!eµ = exp (ylogµ−µ−logy!) , y= 0,1,2, . . . . Mit θ= logµund festem ϕ = 1 f¨uhrt dies zur Exponentialfamilie mit

a(ϕ) = ϕ , b(θ) = exp(θ), c(y, ϕ) =−logy!, und mittels (2.3) zu den Kumulanten

E(y) = b(θ) = exp(θ) = µ var(y) = a(ϕ)b′′(θ) = exp(θ) =µ

κk(y) = exp(θ) =µ f¨urk > 2.

Die Gammaverteilungy ∼G(a, λ):

f(y, a, λ) = exp(−λy)λaya1 1

Γ(a), a, λ, y >0.

Damit gilt E(y) = a/λ und V ar(y) = a/λ2. Die Reparametrisierung µ= ν/λ mit ν =a liefert E(y) = µund V ar(y) = µ2. Die entsprechende Dichtefunktion lautet damit

f(y, µ, ν) = exp (

−ν µy

) (ν µ

)ν

yν1 1 Γ(ν)

= exp (

−ν

µy+νlogν−νlogµ+ (ν1) logy−log Γ(ν) )

= exp

y (1µ)

+ logµ1

1/ν +νlogν+ (ν1) logy−log Γ(ν)

, µ, ν, y >0.

Mit θ=1/µ und ϕ= 1/ν f¨uhrt dies zur Exponentialfamilie mit a(ϕ) =ϕ , b(θ) = log(−θ), c(y, ϕ) = 1

ϕlog 1 ϕ +

(1 ϕ 1

)

logy−log Γ (1

ϕ )

und mittels (2.3) zu den Kumulanten

E(y) = b(θ) =1 θ =µ var(y) = a(ϕ)b′′(θ) = ϕ1

θ2 = 1 νµ2 κk(y) = (k1)!ν

(µ ν

)k

f¨urk > 2.

(17)

Die Invers-Gaussverteilung y∼IG(µ, σ2):

f(y, µ, σ2) = 1

√2πσ2y3 exp (

1 2σ2y

(y−µ µ

)2)

= exp (

−y22yµ+µ222 1

2log(

2πσ2y3))

= exp

y

(12) + 1µ

σ2 1

2y 1 2log(

2πσ2y3)

, y >0.

Mit θ=12, (µ= (2θ)1/2) und ϕ=σ2 ergibt dies eine Exponentialfamilie mit a(ϕ) = ϕ, b(θ) = (2θ)1/2, c(y, ϕ) = 1

2 ( 1

ϕy + log(

2πϕy3)) und mittels (2.3) zu den Kumulanten

E(y) = b(θ) = (2θ)1/2 =µ,

var(y) = a(ϕ)b′′(θ) =ϕ(−2θ)3/2 =σ2µ3, κ3(y) = 3σ4µ5, κ4(y) = 15σ6µ7.

Die standardisierte Binomialverteilung my∼B(m, π):

f(y, m, π) = P(Y =y) = P(mY =my) = (m

my )

πmy(1−π)mmy

= exp (

log (m

my )

+mylogπ+m(1−y) log(1−π) )

= exp

(ylog1ππ log11π

1/m + log

(m my

))

, y= 0, 1 m, 2

m, . . . ,1.

Mit θ= log1−ππ , (π=eθ/(1 +eθ)) und ϕ= 1/m ist dies eine Exponentialfamilie mit a(ϕ) = ϕ, b(θ) = log 1

1−π = log(1 + exp(θ)), c(y, ϕ) = log (1

ϕ y ϕ

) , und mittels (2.3) zu den Kumulanten

E(y) = b(θ) = exp(θ)

1 + exp(θ) =π , var(y) = a(ϕ)b′′(θ) =ϕ exp(θ)

(1 + exp(θ))2 = 1

mπ(1−π), κ3(y) = 1

m2(12π)π(1−π), κ4(y) = 1

m3(16π(1−π))π(1−π). Das m-fache von y ist eine binomialverteilte Gr¨oße, y selbst ein relativer Anteil.

(18)

2.3. DIE QUASI-LIKELIHOOD FUNKTION 15

2.3 Die Quasi-Likelihood Funktion

Betrachtet man die Score-Funktion (2.4) zur Exponentialfamilie, so erkennt man, dass der Maximum-Likelihood Sch¨atzer ˆµ nur von der zugrundeliegenden Varianzannahme abh¨angt. In diesem Abschnitt wird nun untersucht, welche Eigenschaften ein Sch¨atzer f¨ur µaufweist, falls die Score-Funktion auch f¨ur Varianzannahmen verwendet wird, die keinen Mitgliedern aus der Exponentialfamilie geh¨oren. Generell spricht man dann von einer Quasi-Score-Funktion. Ohne Verlust der Allgemeinheit wollen wir dazu annehmen, dass die Dispersion gegeben ist durcha(ϕ) =ϕ.

Definition 2.2 F¨ur eine Zufallsvariable y mit E(y) = µ und var(y) = ϕV(µ) (mit a(ϕ) = ϕ) und bekannter Varianzfunktion V(·) ist die Quasi-Likelihood-Funktion q(y, µ) (eigentlich Log-Quasi-Likelihood-Funktion) definiert ¨uber die Beziehung

∂q(y, µ)

∂µ = y−µ

ϕV(µ), (2.5)

oder ¨aquivalent dazu durch q(y, µ) =

µ y−t

ϕV(t)dt+Funktion in y (und ϕ). (2.6) Die Ableitung ∂q/∂µ wird als Quasi-Score-Funktion bezeichnet. Verglichen mit (2.1) und (2.2) hat sie folgende Eigenschaften mit der Score-Funktion gemeinsam

E

(∂q(y, µ)

∂µ )

= 0, (2.7)

var

(∂q(y, µ)

∂µ )

= var(y)

ϕ2V2(µ) = 1

ϕV(µ) =E

(2q(y, µ)

∂µ2 )

. (2.8)

Satz 2.2 Wedderburn (1974): F¨ur eine Beobachtung y mit E(y) = µ und var(y) = ϕV(µ) hat die Log-Likelihood Funktion l(y, µ) = logf(y, µ) die Eigenschaft

∂l(y, µ)

∂µ = y−µ ϕV(µ),

dann und nur dann, wenn die Dichte bzw. Wahrscheinlichkeitsfunktion von yin der Form exp

(yθ−b(θ)

ϕ +c(y, ϕ) )

geschrieben werden kann, wobei θ eine Funktion von µ und ϕ unabh¨angig von µist.

(19)

: Integration bez¨uglich µ liefert l(y, µ) =

∂l(y, µ)

∂µ =

y−µ ϕV(µ)

= y

ϕ

∫ 1 V(µ)

| {z }

θ

1 ϕ

µ V(µ)

| {z }

b(θ)

= yθ−b(θ)

ϕ +c(y, ϕ).

: Mit (2.3) folgt f¨ur die Kumulanten der einparametrigen Exponentialfamilie (a(ϕ) =ϕ) E(Y) =µ=b(θ) und var(Y) = ϕV(µ) =ϕb′′(θ). Es gilt daher

= db(θ)

=b′′(θ) = V(µ).

Da aber l(y, µ) = (yθ−b(θ))/ϕ+c(y, ϕ) und θ eine Funktion von µ ist, folgt

∂l(y, µ)

∂µ = y

ϕ

−b(θ) ϕ

= y−µ ϕV(µ).

Mit dieser Konstruktionsidee wird f¨ur einige Varianzfunktionen der assoziierte Parameter θ hergeleitet, sowie die Quasi-Likelihood-Funktionen bestimmt.

V(µ) = 1, ϕ =σ2, y, µ∈R, (d.h. y∼N(µ, σ2)):

θ =

=µ, q(y, µ) =

µ y−t

σ2 dt+ Funktion in y =(y−µ)22 .

V(µ) = µ, 0< µ, 0≤y, (d.h.y ∼P(µ)):

θ =

∫ 1

µdµ= logµ, q(y, µ) =

µ

y−t

t dt=ylogµ−µ.

V(µ) = µ2, 0< µ, 0≤y, (d.h.y ∼G(µ,1)):

θ =

∫ 1

µ2=1 µ, q(y, µ) =

µ

y−t

t2 dt= y

µ−logµ.

(20)

2.3. DIE QUASI-LIKELIHOOD FUNKTION 17

V(µ) = µ3, 0< µ, 0≤y, (d.h.y ∼IG(µ,1)):

θ =

∫ 1

µ3= 1 2µ2, q(y, µ) =

µ y−t

t2 dt = y2 + 1

µ.

V(µ) = µk, 0< µ, 0≤y, k 3:

θ =

∫ 1

µk= 1 (k1)µk−1, q(y, µ) =

µ y−t

tk dt= 1 µk

( µ2

k−2 k−1

) .

V(µ) = µ(1−µ), 0 < µ <1, 0≤y≤1, (d.h.mY ∼B(m, µ)):

θ =

∫ 1

µ(1−µ)dµ= log µ 1−µ, q(y, µ) =

µ y−t

t(1−t)dt=ylog µ

1−µ + log(1−µ).

V(µ) = µ2(1−µ)2, 0< µ <1, 0≤y≤1:

θ =

∫ 1

µ2(1−µ)2= 2 log µ

1−µ− 1

µ+ 1 1−µ, q(y, µ) =

µ

y−t

t2(1−t)2dt= (2y1) log µ 1−µ− y

µ 1−y 1−µ.

V(µ) = µ+µ2/k, 0< µ, 0≤y, 0< k, (d.h. y∼N egB(k, µ)):

θ =

∫ 1

µ+µ2/kdµ= log µ k+µ, q(y, µ) =

µ

y−t

t+t2/kdt=ylog µ

k+µ+klog 1 k+µ.

W¨ahrend die ersten vier (Normal-, Poisson-, Gamma- und Inverse Gaußverteilung) und das sechste Beispiel (standardisierte Binomialverteilung) zu bereits bekannten Mitgliedern der Exponentialfamilie f¨uhren, stellen das f¨unfte sowie das siebente (speziell f¨ur Model- le f¨ur Prozents¨atze) und achte Beispiel (Negativ-Binomialverteilung) neue (nicht in der Exponentialfamilie inkludierte) Varianzfunktionen dar. H¨angt die Varianzfunktion von ei- nem k ab, so muss diese Gr¨oße beim Quasi-Likelihood-Ansatz als fest betrachtet werden.

Es besteht (noch) keine M¨oglichkeit,k simultan mit µzu sch¨atzen.

(21)

2.3.1 Quasi-Dichten

Nat¨urlich ist durch die Spezifikation einer Erwartungswert/Varianz-Beziehung auch ei- ne Dichtefunktion spezifizierbar. Aus der (Log)-Quasi-Likelihood Funktion folgt mit der Normalisierungsfunktion

ω(µ) =

R

exp(q(y, µ))dy alsQuasi-Dichte (siehe dazu Nelder & Lee (1992))

fq(y, µ) = exp(q(y, µ))

ω(µ) . (2.9)

ω(µ) ist ungleich 1, wenn die Varianz ϕV(µ) zu keiner Verteilung mit Dichte oder Wahr- scheinlichkeitsfunktion aus der Exponentialfamilie geh¨ort. Andererseits ist ω(µ) = 1, ∀µ, falls zur Varianz eine Exponentialfamilie existiert.

Zur Quasi-Dichte (2.9) korrespondiert nun die Log-Likelihood Funktion lq(y, µ) = log(fq(y, µ)) =q(y, µ)−log(ω(µ))

und

∂lq(y, µ)

∂µ = ∂q(y, µ)

∂µ −∂log(ω(µ))

∂µ .

Dieser Score unterscheidet sich vom Quasi-Score genau um

log(ω(µ))

∂µ = 1

ω(µ)

∂ω(µ)

∂µ = 1 ω(µ)

exp(q(y, µ))

∂µ dy

= 1

ω(µ)

∂q(y, µ)

∂µ exp(q(y, µ))dy=

y−µ ϕV(µ)

exp(q(y, µ)) ω(µ) dy

=

y−µ

ϕV(µ)fq(y, µ)dy= Eq

(y−µ ϕV(µ)

)

= µq−µ ϕV(µ). Hierbei bezeichnet

µq=

yfq(y, µ)dy

den Quasi-Mean vony. Falls µq−µverglichen mity−µsehr klein ist, bedeutet dies, dass der Maximum-Quasi-Likelihood Sch¨atzer sehr nahe dem Maximum-Likelihood Sch¨atzer bez¨uglich der Quasi-Verteilung ist.

(22)

Kapitel 3

Das Generalisierte Lineare Modell

Unter Annahme der Existenz von E(yi) und var(yi) wird in der Klasse der Generalisierten Linearen Modelle (GLM) eine Parametrisierung der Form

stochastische Komponente: yi ind Exponentialfamilie(θi), E(yi) =µi =µ(θi) systematische Komponente: ηi =xi β

Linkfunktion: g(µi) =ηi

betrachtet, wobei der Zufallsvektor y = (y1, . . . , yn) aus unabh¨angigen Komponenten yi aufgebaut ist mit E(yi) = µi und var(yi) = ϕiVi). Die Dispersionsparameter ϕi sind gerade die Gr¨oßen ai(ϕ) von zuvor. Es bezeichnet im weiteren xi = (xi1, . . . , xip) den Vektor von bekannten erkl¨arenden Variablen, zusammengefasst zu einer Designma- trix X = (x1, . . . , xn), β = (β1, . . . , βp) den Vektor mit den unbekannten Parametern, η= (η1, . . . , ηn) den Vektor mit den Linearen Pr¨adiktoren undg(·) eine bekannte Link- funktion.

Die wesentlichen Unterschiede zum herk¨ommlichen Linearen Modell sind:

Es besteht keine allgemeine Additivit¨at bez¨uglich nicht-beobachtbarer Fehlerterme ϵi wie beim Linearen Modell,

Eine Abh¨angigkeit der Varianzstruktur auch vom Erwartungswert ist m¨oglich,

Eine Funktion des Erwartungswertes wird linear modelliert. Dies ist keinesfalls zu verwechseln mit einer einfachen Transformation der Responsevariablen.

Unser Hauptinteresse liegt nun in der Konstruktion eines Sch¨atzers f¨ur den Parametervek- tor β, sowie an einem Maß f¨ur die G¨ute der Modellanpassung. Beides ist f¨ur Maximum- Likelihood-Sch¨atzer besonders einfach und stellt nur eine Verallgemeinerung der Resultate f¨ur Lineare Modelle dar.

19

(23)

3.1 Maximum-Likelihood-Sch¨ atzungen

Falls y1, . . . , yn unabh¨angige Responses sind und die yi aus derselben Exponentialfami- lie stammen mit Parameter (θi, ϕi), wobei der Vektor θ = (θ1, . . . , θn) die unbekannten Parameter beschreibt welche gesch¨atzt werden sollen, und ϕ = (ϕ1, . . . , ϕn) aus (vor- erst) bekannten (nuisance) Komponenten besteht, so ist die Log-Likelihood Funktion der Stichprobe gegeben durch

l(y, θ) =

n i=1

(yiθi−b(θi)

ϕi +c(yi, ϕi) )

.

Unter der recht allgemeinen Annahme µ=µ(β) folgt aus (2.4) die Score-Gleichung

∂l(y, θ(β))

∂βj =

n i=1

yi−µi ϕiVi)

∂µi

∂βj = 0, j = 1, . . . , p.

Mit der Definition des linearen Pr¨adiktors gilt beim GLM

∂µ

∂β = ∂µ

∂η

∂η

∂β = ∂µ

∂g(µ)x= x g(µ) und deshalb

∂l(y, θ(β))

∂βj =

n i=1

yi−µi ϕiVi)

xij

gi) = 0, j = 1, . . . , p. (3.1) Den speziellen Link g(µ) = θ nennt man die kanonische Linkfunktion. Hierbei wird der Parameter θ direkt durch den linearen Pr¨adiktor η modelliert. In diesem Fall ist g(·) die Inverse von b(·) und wegen µ=b(θ) folgt

g(µ) = ∂g(µ)

∂µ = ∂θ

∂µ = 1

b′′(θ) = 1 V(µ).

Die Score-Gleichung (3.1) vereinfacht sich f¨ur eine kanonische Linkfunktion zu

∂l(y, θ(β))

∂βj =

n i=1

yi−µi

ϕi xij = 0, j = 1, . . . , p. (3.2) F¨urϕi =ϕ(identische Dispersion) gilt hier bei Modellen mit einem Intercept (xi1 = 1, ∀i)

n i=1

yi =

n i=1

µi.

Der Maximum-Likelihood-Sch¨atzer ˆβ ist also f¨ur den allgemeinen Fall als L¨osung des Gleichungssystems (3.1) oder im kanonischen Fall durch (3.2) definiert. Beide Systeme

(24)

3.1. MAXIMUM-LIKELIHOOD-SCH ¨ATZUNGEN 21 k¨onnen nur iterativ gel¨ost werden. Einzige Ausnahme bildet das lineare Modell, in dem µ linear in β ist. F¨ur alle anderen Situationen ist µ=g1(xβ).

Die Newton-Raphson Methode liefert die Iterationsvorschrift β(t+1) =β(t)+

(

−∂2l(y, θ(β))

∂β∂β )1

∂l(y, θ(β))

∂β , t= 0,1, . . . , (3.3) wobei beide Ableitungen der rechten Seite von (3.3) an der Stelleβ(t) betrachtet werden.

In Matrixnotation folgt f¨ur den Scorevektor

∂l(y, θ(β))

∂β =XDW(y−µ), mit D=diag(di) und W =diag(wi), wobei

di = gi),

1/wi = ϕiVi)(gi))2.

Als negative Hessematrix der Log-Likelihood Funktion resultiert somit

−∂2l(y, θ(β))

∂β∂β = −X

(∂DW

∂η (y−µ)−DW ∂µ

∂η )

X

= X (

W ∂DW

∂η (y−µ) )

X, wegen ∂µ/∂η=D1. Weiters ist

∂diwi

∂ηi = −ϕiVi)∂µ∂ηi

igi) +ϕiVi)g′′i)∂µ∂ηi

i

iVi)gi))2

= −Vi)gi) +Vi)g′′i)

ϕiV2i)g3i) . (3.4) Fasst man die Elemente

wi =wi−∂diwi

∂ηi (yi−µi)

zusammen zur Diagonalmatrix W, f¨ur die E(W) = W gilt, so resultiert als Newton- Raphson Vorschrift

β(t+1) =β(t)+ (XWX)1XDW(y−µ), t= 0,1, . . . . (3.5) Mit sogenannten Pseudobeobachtungen (adjusted dependent variates)

z =+W∗−1DW(y−µ) (3.6)

Abbildung

Abbildung 1.1: Oben: Volumen gegen Durchmesser (links) und Volumen gegen H¨ ohe (rechts)
Abbildung 1.2: Oben: Profile Likelihood Sch¨ atzung von λ bei der Box-Cox Transformation (links) und Durchmesser gegen die y i 1/3 (rechts)
Abbildung 1.3: Links: log V linear abh¨ angig von log D. Rechts: Profile Likelihood Funktion f¨ ur V modelliert durch log H + log D.
Abbildung 3.1: Oben: Histogramm der Residuen r aus dem linearen Modell f¨ ur die counts (links) und deren QQ-Plot (rechts)
+7

Referenzen

ÄHNLICHE DOKUMENTE

F¨ur eine Situation k¨onnen jedoch zwei oder mehr un- terschiedliche Ereignisvariablen definiert werden, so dass Ereignisse in unterschiedlichen Kombinationen eintreten

Wendet man den R-Befehl anova auf ein einzelnes Modell an, werden die Variablen in der Reihenfolge, in der sie angegeben wurden, nach und nach hinzugef¨ ugt und die p-Werte

Grunde fur  Uberdispersion: Uberdispersion kann verursacht werden durch Variation unter den Erfolgswahrscheinlichkeiten oder durch Korrelation unter den

Alle 14 Tage wurden an denselben sieben Stellen die Konzentrationen erhoben, sowie auch die zum Messzeitpunkt vorherrschende Temperatur und Luftfeuchtigkeit.. Das dabei

Die Daten selbst stehen auf unserer WebPage zum download bereit und beinhalten Informationen ¨uber die Reiseklasse (Class) mit den vier Stufen First, Second, Third und Crew, das

Im Beispiel ¨ uber das verwendbare Holzvolumen von Black Cherry B¨aumen aus Kapitel 1 wurde die Responsevariable V einer Box-Cox Transformation unterzogen. F¨ ur beide Mo- delle

1-dimensionaler Fall: Unendliche Ketten

– Gegeben ein zur Hypothese passendes Modell, sagt eine signifikante Teststatistik dass es unwahrscheinlich w¨ are, dass das Modell so gut zu den Daten passen w¨ urde, wenn