• Keine Ergebnisse gefunden

Kapitel 6 Modelle mit zuf¨alligen Effekten

N/A
N/A
Protected

Academic year: 2021

Aktie "Kapitel 6 Modelle mit zuf¨alligen Effekten"

Copied!
4
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Kapitel 6

Modelle mit zuf¨ alligen Effekten

6.1 Zuf¨ allige Pr¨ adiktoren

Bis jetzt basierten die betrachteten GLMs auf lineare Pr¨adiktoren der Form ηi =g(µi) = xtiβ .

Die erkl¨arenden Gr¨oßen sind hierbei zum Vektor x zusammengefasst und β stellt den unbekannten Parametervektor dar, der gesch¨atzt werden muss. Wir werden jetzt eine Klasse von Modellen diskutieren, die im linearen Pr¨adiktor zus¨atzlich noch einen zuf¨alligen Effekt verwendet. Dies hat in den folgenden beiden Situationen eine sehr klare Motivation.

Falls beispielsweise einige relevante erkl¨arende Variablen ui = (ui1, . . . , uip)t gar nicht beobachtet sind, kann durch Hinzunahme eines zuf¨alligen (skalarwertigen) Effektes zi = utiγ auf die ansonsten resultierende ¨Uberdispersion (Datenvariabilit¨at ist gr¨oßer als die Modellvariabilit¨at) eingegangen werden. Diese ¨Uberlegung f¨uhrt zu Pr¨adiktoren der Form

ηi =g(µi) =xtiβ+zi.

Andererseits k¨onnten n unabh¨angige Gruppen von Beobachtungen yi = (yi1, . . . , yini)t vorliegen, wof¨ur innerhalb jeder Gruppe Abh¨angigkeit unter denyij besteht. Nimmt man einen zuf¨alligen Effekt f¨ur s¨amtliche Responses einer Gruppe in deren Pr¨adiktor auf, d.h.

ηij =g(µij) =xtijβ+zi,

so wird dadurch die Korrelation in den Daten (marginal) ber¨ucksichtigt. Da sich alleyijauf denselben Effektzibeziehen, gewinnt man automatisch ein Modell f¨ur deren Abh¨angigkeit.

Die nichtbeobachtbarenzi seien unabh¨angige und identisch verteilte Zufallsvariablen. Im Gegensatz zu fr¨uher verwenden wir jetzt zuf¨allige Pr¨adiktoren, welche den konditionalen Erwartungswertµi =E(yi|zi) (bzw.µij =E(yij|zi)) modellieren. Weiters sei die konditio- nale Verteilung der Response, gegeben diese zuf¨alligen Effekte, aus der Exponentialfamilie.

F¨ur die Berechnung des Maximum-Likelihood Sch¨atzers soll jedoch die marginale Dichte maximiert werden. Da dies nur selten analytisch durchgef¨uhrt werden kann, wird oft als Alternative die EM-Sch¨atzung verwendet.

71

(2)

72 KAPITEL 6. MODELLE MIT ZUF ¨ALLIGEN EFFEKTEN

6.2 EM Sch¨ atzer

F¨ur den von Dempster, Laird & Rubin (1977) entwickelten EM-Algorithmus wird ange- nommen, dass die Daten aus einem beobachtbaren Teil yund einem nicht beobachtbaren Teil z zusammengesetzt sind. Die gemeinsame Dichte einer vollst¨andigen Beobachtung (y, z) sei f(y, z|θ), wobei alle unbekannten Parameter im System zum Vektor θ Θ zu- sammengefasst sind (hierbei bezeichnet Θ den Parameterraum). Somit gilt allgemein f¨ur die marginale Dichte f(y|θ) der Response y

ℓ(θ|y) = logf(y|θ) = log

f(y, z|θ)dz . (6.1)

Um den Sch¨atzer ˆθ zu bestimmen, wird die marginale Log-Likelihood Funktion ℓ(θ|y) maximiert. Dabei st¨oßt man aber in der Praxis h¨aufig auf Probleme mit dem Integral (6.1).

Mit der bedingten Dichte von z|y, gegeben durch f(z|y, θ) = f(y, z|θ)

f(y|θ) ,

l¨asst sich (6.1) schreiben alsℓ(θ|y) = logf(y|θ) = logf(y, z|θ)−logf(z|y, θ). Der Sch¨atzer θˆsoll ℓ(θ|y) maximieren. Es gilt auch

logf(y, z|θ) = logf(z|y, θ) +ℓ(θ|y).

Da z nicht beobachtet ist, ersetzen wir diese fehlende Information durch ihren konditio- nalen Erwartungswert, gegeben all das was beobachtet vorliegt. F¨ur dessen Berechnung verwenden wir einen beliebigen zul¨assigen Parameterwertθ0 Θ, d.h. bez¨uglichf(z|y, θ0).

Der konditionale Erwartungswert von ℓ(θ|y), gegeben die beobachteten Daten y, ist aber wiederum ℓ(θ|y), also gilt

E (

logf(y, z|θ)y, θ0 )

= E (

logf(z|y, θ)y, θ0 )

+ E (

ℓ(θ|y)y, θ0 )

logf(y, z|θ)f(z|y, θ0)dz =

logf(z|y, θ)f(z|y, θ0)dz+

ℓ(θ|y)f(z|y, θ0)dz Q(θ|θ0) = H(θ|θ0) +ℓ(θ|y). (6.2) Die Maximierung von ℓ(θ|y) inθ ist daher ¨aquivalent mit der Maximierung der Differenz Q(θ|θ0)−H(θ|θ0). Bemerke, dass (6.2) f¨ur beliebige Parameterwerteθ Θ h¨alt, also auch f¨ur θ=θ0 wof¨ur wir

Q(θ00) = H(θ00) +ℓ(θ0|y)

erhalten. Somit resultiert als Differenz zu (6.2) f¨ur die marginale Log-Likelihood Funktion ℓ(θ|y)−ℓ(θ0|y) =Q(θ|θ0)−Q(θ00)[

H(θ|θ0)−H(θ00) ]

. (6.3)

(3)

6.2. EM SCH ¨ATZER 73 Allgemein liefert die Jensen Ungleichung f¨ur eine konkave Funktion, wie g(x) = log(x), die Absch¨atzung E(g(X))≤g(E(X)). Damit folgt f¨ur beliebiges θ Θ

H(θ|θ0)−H(θ00) =

log f(z|y, θ)

f(z|y, θ0)f(z|y, θ0)dz

= E (

log f(z|y, θ) f(z|y, θ0)

y, θ0 )

log E

(f(z|y, θ) f(z|y, θ0)

y, θ0 )

= log

f(z|y, θ)

f(z|y, θ0)f(z|y, θ0)dz

= log

f(z|y, θ)dz = log 1 = 0, also

H(θ|θ0)−H(θ00)0. (6.4) Dies hat wiederum zur Folge, dass wir (6.3) schreiben k¨onnen als

ℓ(θ|y)−ℓ(θ0|y)≥Q(θ|θ0)−Q(θ00).

Sei θ jener Wert von θ, der f¨ur ein gegebenes (festes) θ0 die FunktionQ(θ|θ0) maximiert.

Somit gilt

Q(θ0)−Q(θ|θ0)0 und daher auch Q(θ0)−Q(θ00)0.

Dies zeigt aber, dass durch die Maximierung von Q(θ|θ0) die Log-Likelihood nach diesem (EM-) Schritt zumindest nicht verkleinert wird, denn das letzte Ergebnis impliziert

ℓ(θ|y)−ℓ(θ0|y)≥0.

Stationarit¨at: Weiters resultiert durch Differenzieren von (6.2) die Identit¨at

∂θQ(θ|θ0) =

∂θH(θ|θ0) +

∂θℓ(θ|y).

Nun gilt aber wegen (6.4) geradeH(θ|θ0)≤H(θ00) f¨ur alle θ. Unter dieser Extremalbe- dingung folgt, dass

∂θH(θ|θ0)|θ=θ0 = 0

h¨alt was bedeutet, dass die Funktion H(θ|θ0) station¨ar ist in θ = θ0. Ist somit Q(θ|θ0) station¨ar in θ=θ0, dann ist dies dort auch ℓ(θ|y).

Der EM-Algorithmus ist zweistufig. Im E-Schritt wird der bedingte Erwartungswert Q(θ|θ0) f¨ur gegebenes θ0 berechnet. Danach wird im M-Schritt diese Funktion Q(θ|θ0) bez¨uglich θ maximiert. Sei das Ergebnis dieser Maximierungθ, so wird damit wiederum

(4)

74 KAPITEL 6. MODELLE MIT ZUF ¨ALLIGEN EFFEKTEN ein E-Schritt mit aktualisierten θ0 =θ durchgef¨uhrt. Diese Iteration wiederholt man bis zur Konvergenz im marginalen Likelihood Sch¨atzer ˆθ.

Self-consistencydes EM-Algorithmus: Falls der MLE ˆθein globales Maximum vonℓ(θ|y) darstellt, so muss dieser auch

Q(ˆθ|θ)ˆ ≥Q(θ|θ)ˆ

gen¨ugen. Ansonsten w¨urde es ja einen Parameterwert θ geben mit der Eigenschaft Q(ˆθ|θ)ˆ < Q(θ|θ)ˆ

was wiederum

ℓ(θ|y)> ℓ(ˆθ|y)

impliziert und somit einen Widerspruch darstellt zur Annahme, dass ˆθ das globale Maxi- mum von ℓ(θ|y) ist.

Anstelle des Integrals in (6.1) muss also beim EM-Algorithmus das IntegralQ(θ|θ0) in (6.2) berechnet und maximiert werden. Wie das folgende Beispiel zeigt, ist diese Berechnung in einigen Anwendungen m¨oglich.

Referenzen

ÄHNLICHE DOKUMENTE

Damit die Ladungsträger nicht von ihrer Richtung abgelenkt werden (sie können ja nicht aus dem Leiter heraus), stellt sich (durch eine minimale Verschiebung der Ladungen)

Der \ Operator sowie die Matlab eigene Funktion inv d¨ urfen nicht verwendet werden.. • Testen Sie ihre Funktion an zuf¨

Weiterverarbeitung einer Zufallsvariablen ist die Anzahl der Erfolge beim n-fachen p-M ¨unzwurf:.. Vom Ziehen mit Zur ¨ucklegen zum p

Wenn die Investitionen nicht vertraglich festgelegt werden können und auch keine langfristigen Verträge möglich sind, werden die Investitionsanreize verzerrt, so daß ex

Es muss folglich eine Messreihe f¨ ur diverse Temperaturen durch- gef¨ uhrt werden und aus der Analyse der von eben dieser abh¨ angigen Breite der Lorentzkurve durch Extrapolation

Die Dopplerverschiebung, die durch die Bewegung zu Stande kommt, bewirkt, dass der Absorber eine leicht ver¨ anderte Energie des Photons ’sieht’, und dieses Photon somit bei

Man kann auch am Oszilloskop beobachten (Ausgang der Hauptverst¨ arker, getriggert ¨ uber das Signal selbst), dass bei zu großer Verst¨ arkung das Analogsignal abgeschnitten wird.

Die Photonen werden mit einem Photomultiplier nachgewiesen, alternativ wird das gestreute Licht ¨ uber einen Spiegel in ein CCD-Spektrometer umgelenkt.. In Abbildung 1 ist