Schätzung von Parametern

(1)

Schätzung von

Parametern

(2)

Schätzung von Parametern

Quantitative Wissenschaft: Messung von Parametern

Gemessene Werte weichen durch (statistische und systematische) Messfehler vom wahren Wert des Parameters ab.

➔ Beobachtungen (Daten) sind Stichproben aus einer Verteilung, die durch den Parameter festgelegt ist.

Schätzung: Prozedur zur Bestimmung eines Parameterwertes (und seines Fehlers) aus zufallsverteilten Daten

● Beispiele:

 Messung der mittleren Lebensdauer  eines atomaren Zustands aus N Messungen von Zerfallszeiten t_i.

● Messung einer Ereignisrate  aus N Messungen von Ereignishäufigkeiten.

(3)

Beispiel

Schätzung der mittleren Größe von StudentInnen

Daten: Größen von N (repräsentativ ausgewählten) StudentInnen 1) Alle Größen addieren und durch N teilen

2) Nur die ersten 10 mitteln, den Rest verwerfen 3) Alle Größen addieren und durch N-1 teilen 4) Alle Daten ignorieren und 1.8 m nehmen

5) Alle Größen multiplizieren und N-te Wurzel ziehen 6) Die am häufigsten auftretenden Größen mitteln

7) Kleinste und größte Größe addieren und durch 2 teilen 8) Nur jede zweite Größe nehmen und mitteln

➢ Alle Methoden sind Schätzer

➢ Aber welche Methoden sind sinnvoll? Welche ist die beste?

➔ Hängt von der Verteilung ab!

(4)

Eigenschaften von Schätzern

Bezeichnung des Schätzers für einen Parameter a: â Wahrer Wert: a₀

➢ Konsistenz: lim_{N → ∞} â = a₀

➢ Erwartungstreue: E[â] = a₀

➢ Effizienz: Varianz von â möglichst klein

➢ Robustheit: â unbeeinflusst von falschen Daten oder Annahmen

➔ Eigenschaften eines Schätzers hängen von der Verteilung ab.

(5)

Beispiel:

Schätzung von Mittelwert und Varianz

Mittelwert:

➔  = 1/N ∑_{i = 1..N} x_i

● Konsistent und erwartungstreu

● Effizienz und Robustheit hängt von der Verteilung ab Varianz, Mittelwert bekannt: V = 1/N ∑_{i = 1..N} (x_i - )²

➔ Konsistent und erwartungstreu

Varianz, Mittelwert unbekannt: V = 1/N ∑_{i = 1..N} (x_i - )²

➔ Verzerrt!

➔ Bessel-Korrektur: V = 1/(N-1) ∑_{i = 1..N} (x_i - )²

^

^ ^

(6)

Zentraler Grenzwertsatz

Wenn man die Summe S aus N unabhängigen Zufallsvariablen mit beliebiger Wahrscheinlichkeitsdichte mit Mittelwert _i und Varianz V_i bildet, dann gilt:

➔ E[S] = ∑_{i = 1..N} _i

➔ E[V(S)] = ∑_{i = 1..N} V_i

➔ Die Wahrscheinlichkeitsdichte von S ist eine Normalverteilung für N → ∞

(7)

Robuste Schätzer des Mittelwerts

Symmetrische Verteilung: Getrimmter Mittelwert

● Verwerfe N_excl kleinste und größte Messwerte

● Bilde Mittelwert der verbleibenden N-2N_excl Messwerte

➔ Nachteil: Nur Anteil

2r = 1 – 2N_excl/N der Daten wird verwendet

Asymmetrische Verteilung:

Transformation auf symmetrische Verteilung;

wahrscheinlichster Wert

Asymptotische Effizienz

(8)

Likelihood-Funktion

Wahrscheinlichkeitsdichte für einen Messwert x abhängig von Parameter(n) a:

➔ f(x|a)

Wahrscheinlichkeitsdichte für n unabhängige Messwerte x₁, ..., x_N:

➔ L(a) := f(x₁|a) f(x₂|a) … f(x_N|a) = ∏_{i = 1...N} f(x_i|a)

L(a) ist die Likelihood-Funktion

➢ L(a) ist keine Wahrscheinlichkeitsdichte in a!

(i.A. ∫L(a) da ≠ 1)

➢ Wahrscheinlichkeitsdichte in x muss normiert sein!

➔ ∫L(x₁,..., x_N|a) dx₁...dx_N = 1 für alle a

(9)

Cramér-Rao-Grenze

Minimale Grenze für die Varianz eines unverzerrten Schätzers:

➔ V_{m i n}(â) = -1 / E[d² ln L / da²]

Fall Verzerrung b:

➔ V(â) ≥ (1 + db/da) V_{m i n}(â)

● Beispiel: Normalverteilung

(10)

Maximum-Likelihood-Methode

Schätzer von a ist der Wert, der L(a) maximiert:

● Bedingung für Maximum: dL(a) / da = 0

● Für numerische Berechnungen besser: ln L(a) (Log-Likelihood-Funktion)

✔ Logarithmus monoton → gleiches Maximum

● Historische Gründe: negative Log-Likelihood-Funktion:

➔ F(a) = - ln L(a) = - ∑_{i = 1..N} ln f(x_i,a)

➢ Maximum-Likelihood-Schätzung → Minimierung von F(a), oft rechenaufwendig

L(â) = max

(11)

Fehler des ML-Schätzers

Taylorentwicklung von F(a) am Minimum â (dF(a)/da = 0):

➔ F(a) = F(â)

+ ½ [d²F(a) / da²]_â (a – â)² + …

Falls höhere Terme vernachlässigbar (F(a) parabelförmig):

➔ L(a) = exp(-F(a))

= const exp(-½ [d²F(a) / da²]_â (a - â)²)

➢ Normalverteilung mit  = â und ² = 1 / [d²F(a) / da²]_â

(12)

Fehler bei nicht parabelförmigem F(a)

Für F(a) parabelförmig: F(â ± ) = F(â) + ½ Allgemein anwendbar: F(â ± n_±) = F(â) + ½ n²

➔ Kann zu asymmetrischen Fehlern führen

(13)

Mehrere Parameter

Wahrscheinlichkeitsdichte:

● f(x|a) = f(x|a₁, ..., a_m)

Bedingung für Minimum von F(a):

➔ dF(a) / da_j = 0 für alle j

Inverse Kovarianzmatrix:

➔ V^-1_{i, j} = [d²F(a) / da_ida_j]_â

➔ V^-1 = [d²F(a) / da²]_â

F(a) = F(â + ½) definiert (m-1)-dimensionale Kontur (Vorsicht: keine 68%-Konfidenzregion)

(14)

Profile-Likelihood

Oft nur wenige Parameter interessant:

● t = (a₁, …, a_k)

Andere Parameter sind Störparameter (nuisance parameters):

● r = (a_k+1, …, a_m)

➔ f(x|t,r) → F(t,r)

Frage: Fehler von t für alle möglichen Werte von r?

Antwort:

● Minimierung bzgl. r: F_{p r o f}(t) = F(t,r(t))

● 1-Fehler auf t bestimmt durch F_{p r o f}(t) = ½

^

(15)

Beispiel

Mittelwert von Gaußverteilten Messwerten mit unterschiedlicher Auflösung:

➔ f(x_i|) = 1 / ((2)^½ _i) exp[ -(x_i – )² / 2_i²]

(16)

Eigenschaften der ML-Methode

 Schätzer ist invariant unter Parameter-Transformationen (Wahrscheinlichkeitsdichte von x unabhängig von

Parametrisierung)

➔ ĝ(a) = g(â)

 Konsistent (normalerweise, aber nicht immer)

 Nicht immer erwartungstreu, Bias verschwindet für N → ∞ (Transformationsinvarianz unvereinbar mit Erwartungstreue)

 Effizient (für N → ∞)

 I.A. nicht robust

➔ Wahrscheinlichkeitsdichte f(x|a) muss genau bekannt sein

 Kein Maß für Fit-Qualität

(17)

Erweiterte ML-Methode

Likelihood L(a) = ∏_{i = 1...N} f(x_i|a) korrekt für feste Anzahl N von Ereignissen

➢ Oft ist N selbst zufällig

➔ Berücksichtigt durch zusätzlichen Term für Poisson-verteilte Anzahl von beobachteten Ereignissen bei Erwartungswert :

L(a) = ∏_{i = 1...N} f(x_i|a) · exp(-) ^N / N!

➔ F(a,) = - ∑_{i = 1..N} ln g(x_i,a) + 

mit g(x_i| a) =  f(x_i| a), normiert auf 

(18)

ML und Bayes' Theorem

L(a) ist keine Wahrscheinlichkeitsdichte für a

(sondern eine Wahrscheinlichkeitsdichte für x: L(a) = f(x|a))

Aber mit Hilfe des Bayes'schen Theorems kann man daraus eine Wahrscheinlichkeitsdichte für a konstruieren:

➔ f(a|x) = [L(a) · f_{P r i o r}(a)] / f_{P r i o r}(x)

= [L(a) · f_{P r i o r}(a)] / Normierung

Für gleichverteilten Prior:

➔ f(a|x) = L(a) / Normierung Einfluß auf Schätzer:

➔ â_{B a y e s} = â + _â² 1/f_{P r i o r} df_{P r i o r}/da

(19)

Beispiel

Münzwurf

Anzahl Kopf (n) für N Würfe

folgt Binomial- Verteilung:

f(n|p,N) = (^N_n) pⁿ (1-p)^{N – n}

Zu bestimmender Parameter:

Wahrscheinlichkeit für Kopf: p

(20)

Beispiel

Einfluß des Priors

● Gestrichelt:

p ≈ 0.5

➔ Faire Münze

● Gepunktet:

p ≈ 0 oder 1

➔ Gezinkte Münze

➢ Prioreinfluß sinkt mit steigender Anzahl von Meßwerten

(21)

Barlow:

Statictics

(22)

Toy-Monte-Carlo-Studien

Pseudoexperimente, Ensembletests:

● Benötigt: Annahme von Wahrscheinlichkeitsdichte

● Wähle wahre Parameter a₀

● Erzeuge N zufallsverteilte Datenpunkte, die der

Wahrscheinlichkeitsdichte für die wahren Parameter folgen

● Wende den Schätzer auf diese Datenpunkte an

● Wiederhole Simulation und Schätzung mehrmals

● Vergleiche Verteilung des Schätzers mit dem wahren Wert

➔ z.B. Pull-Verteilung (â – a₀) / _â sollte Mittelwert 0 und Breite 1 für

unverzerrten Schätzer (von a und _a) haben

● Wiederhole Test für andere wahre Werte (Bias kann vom wahren Wert abhängen!)

➢ Auch anwendbar für systematische Studien (PDF Simulation ≠ PDF Schätzer)

(23)

Beispiel ML-Fit: Materie-Antimaterie- Asymmetrie bei B

_s

-Mesonen

● Daten: Messung von rekonstruierter Masse, Zerfallszeit, Zerfallszeitfehler, 3 Zerfallswinkeln

● 6-dim PDF mit 31 Parametern, davon 8 mit physikalischer Bedeutung

+ Auflösungsverschmierung, Verteilung von Masse und Zerfallszeitfehler, Untergrund

➢ Hauptsächlich interessant:

Asymmetrie-Parameter  und Zerfallsratendifferenz 

(24)

Beispiel ML-Fit: Materie-Antimaterie- Asymmetrie bei B

_s

-Mesonen

Fit-Resultate für Pseudoexperimente:

➔ Bias, abhängig vom wahren Wert!

Input:

∆ = 0.096

_s = 0 Example result Input:

∆ = 0.192

_s = 1.5 Example result

(25)

ML → Methode der kleinsten Quadrate

Messung: N Datenpaare (x_i, y_i) mit exakt bekannten x_i und Gauß- verteilten y_i mit Fehler _i.

Modell: Funktion y = f(x,a) mit zu bestimmenden Parametern a = (a₁, ..., a_m)

➔ Wahrscheinlichkeitsdichte für y_i:

p(y_i|a) = 1 / ((2)^½ _i) exp[ -(y_i – f(x_i,a))² / 2_i²]

➔ Negative Log-Likelihood-Funktion:

F(a) = - ∑_{i = 1..N} ln p(y_i|a) = const + ∑_{i = 1..N} (y_i – f(x_i,a))² / 2_i²

➔ Bedingung für Minimum:

S = ∑_{i = 1..N} (y_i – f(x_i,a))² / _i² → min

➢ Methode der kleinsten Quadrate:

Summe der Quadrate der Residuen muss minimal sein

(26)

Fehler des Schätzers

Für Gauß-verteilte Daten:

➔ S = 2 F

➢ S(â ± n) = n²

F S

1 0.5 1

2 2 4

3 4.5 9

(27)



²

-Verteilung

Methode der kleinsten Quadrate kann auch bei nicht Gauß- verteilten Daten angewendet werden

Verteilung des Parameterschätzers ist immer Gaußisch für N → ∞ Falls Daten Gauß-verteilt, folgt S_{m i n} einer ²-Verteilung mit N-m

Freiheitsgraden (number of degrees of freedom, n.d.f.)

➔ P(²,n) =

[2^{- n / 2} / (n/2)] ^{n – 2} exp(-²/2)

➔ Mittelwert: n

➔ Varianz: 2n

➢ Wahrscheinlichkeit einen Wert

S_{m i n} oder größer zu erhalten:

p = 1 - ∫ ^{S m i n} P(S,n) dS

(28)

Kleinste Quadrate bei korrelierten Daten

Verallgemeinerung:

S = y^T V^-1 y → min mit

 Residuuen y_i = y_i – f(x_i|a)

 Kovarianzmatrix V

(29)

Fehler in x und y

Datenpunkte (x_i, y_i) haben Fehler (_{x, i}, _{y, i})

➔ Minimierung des quadratischen Abweichung zwischen Datenpunkten und Funktion:

∑ d_i² / _{d, i}² → min

➢ Entspricht (für df/dx ≈ konst.) Minimierung der y-Abweichung mit zusätzlichem Fehler durch x-Unsicherheit

∑ y_i² / (_{y, i}² + (df/dx)² _{x, i}²) → min

d

(30)

Binnend ML-Fit

Häufige Aufgabe: Anpassung einer Funktion an ein Histogram Problem bei ²-Fit: Gauß-Verteilung schlechte Näherung für Poisson-Verteilung bei kleiner Anzahl an Ereignissen

➢ Binned ML-Fit:

● Wahrscheinlichkeitsdichte für Ereigniszahl pro Bin durch Poisson-Verteilung gegeben:

➔ L(a) = ∏_{i = 1...N} Poisson(N_i, f(x_i|a))

Oft Minimierung von F(a) = -2 ln L(a) implementiert, so dass 1

Änderung von F = 1 entspricht, wie bei ²-Fit.

(31)

Vergleich ML – kleinste Quadrate

Maximum-Likelihood kleinste Quadrate

Voraussetzung PDF exakt bekannt Mittelwert und Varianz bekannt

Basis Höhe der PDF Abweichung von der

PDF

Effizienz Maximal Maximal unter linearen

Schätzern

Komplexität Oft sehr aufwendig Exakt lösbar im linearen Fall

Robustheit Nein (PDF muss exakt

sein) Nein (Ausreißer)

Fit-Qualität Nein ² bei Gauß'schen

Fehlern

Spezialfall Identisch bei Gauß'schen Fehlern