Schätzung von
Parametern
Schätzung von Parametern
Quantitative Wissenschaft: Messung von Parametern
Gemessene Werte weichen durch (statistische und systematische) Messfehler vom wahren Wert des Parameters ab.
➔ Beobachtungen (Daten) sind Stichproben aus einer Verteilung, die durch den Parameter festgelegt ist.
Schätzung: Prozedur zur Bestimmung eines Parameterwertes (und seines Fehlers) aus zufallsverteilten Daten
● Beispiele:
Messung der mittleren Lebensdauer eines atomaren Zustands aus N Messungen von Zerfallszeiten ti.
● Messung einer Ereignisrate aus N Messungen von Ereignishäufigkeiten.
Beispiel
Schätzung der mittleren Größe von StudentInnen
Daten: Größen von N (repräsentativ ausgewählten) StudentInnen 1) Alle Größen addieren und durch N teilen
2) Nur die ersten 10 mitteln, den Rest verwerfen 3) Alle Größen addieren und durch N-1 teilen 4) Alle Daten ignorieren und 1.8 m nehmen
5) Alle Größen multiplizieren und N-te Wurzel ziehen 6) Die am häufigsten auftretenden Größen mitteln
7) Kleinste und größte Größe addieren und durch 2 teilen 8) Nur jede zweite Größe nehmen und mitteln
➢ Alle Methoden sind Schätzer
➢ Aber welche Methoden sind sinnvoll? Welche ist die beste?
➔ Hängt von der Verteilung ab!
Eigenschaften von Schätzern
Bezeichnung des Schätzers für einen Parameter a: â Wahrer Wert: a0
➢ Konsistenz: limN → ∞ â = a0
➢ Erwartungstreue: E[â] = a0
➢ Effizienz: Varianz von â möglichst klein
➢ Robustheit: â unbeeinflusst von falschen Daten oder Annahmen
➔ Eigenschaften eines Schätzers hängen von der Verteilung ab.
Beispiel:
Schätzung von Mittelwert und Varianz
Mittelwert:
➔ = 1/N ∑i = 1..N xi
● Konsistent und erwartungstreu
● Effizienz und Robustheit hängt von der Verteilung ab Varianz, Mittelwert bekannt: V = 1/N ∑i = 1..N (xi - )2
➔ Konsistent und erwartungstreu
Varianz, Mittelwert unbekannt: V = 1/N ∑i = 1..N (xi - )2
➔ Verzerrt!
➔ Bessel-Korrektur: V = 1/(N-1) ∑i = 1..N (xi - )2
^
^
^ ^
^ ^
Zentraler Grenzwertsatz
Wenn man die Summe S aus N unabhängigen Zufallsvariablen mit beliebiger Wahrscheinlichkeitsdichte mit Mittelwert i und Varianz Vi bildet, dann gilt:
➔ E[S] = ∑i = 1..N i
➔ E[V(S)] = ∑i = 1..N Vi
➔ Die Wahrscheinlichkeitsdichte von S ist eine Normalverteilung für N → ∞
Robuste Schätzer des Mittelwerts
Symmetrische Verteilung: Getrimmter Mittelwert
● Verwerfe Nexcl kleinste und größte Messwerte
● Bilde Mittelwert der verbleibenden N-2Nexcl Messwerte
➔ Nachteil: Nur Anteil
2r = 1 – 2Nexcl/N der Daten wird verwendet
Asymmetrische Verteilung:
Transformation auf symmetrische Verteilung;
wahrscheinlichster Wert
Asymptotische Effizienz
Likelihood-Funktion
Wahrscheinlichkeitsdichte für einen Messwert x abhängig von Parameter(n) a:
➔ f(x|a)
Wahrscheinlichkeitsdichte für n unabhängige Messwerte x1, ..., xN:
➔ L(a) := f(x1 |a) f(x2 |a) … f(xN |a) = ∏i = 1...N f(xi |a)
L(a) ist die Likelihood-Funktion
➢ L(a) ist keine Wahrscheinlichkeitsdichte in a!
(i.A. ∫L(a) da ≠ 1)
➢ Wahrscheinlichkeitsdichte in x muss normiert sein!
➔ ∫L(x1 ,..., xN |a) dx1...dxN = 1 für alle a
Cramér-Rao-Grenze
Minimale Grenze für die Varianz eines unverzerrten Schätzers:
➔ Vm i n(â) = -1 / E[d2 ln L / da2]
Fall Verzerrung b:
➔ V(â) ≥ (1 + db/da) Vm i n(â)
● Beispiel: Normalverteilung
Maximum-Likelihood-Methode
Schätzer von a ist der Wert, der L(a) maximiert:
● Bedingung für Maximum: dL(a) / da = 0
● Für numerische Berechnungen besser: ln L(a) (Log-Likelihood-Funktion)
✔ Logarithmus monoton → gleiches Maximum
● Historische Gründe: negative Log-Likelihood-Funktion:
➔ F(a) = - ln L(a) = - ∑i = 1..N ln f(xi ,a)
➢ Maximum-Likelihood-Schätzung → Minimierung von F(a), oft rechenaufwendig
L(â) = max
Fehler des ML-Schätzers
Taylorentwicklung von F(a) am Minimum â (dF(a)/da = 0):
➔ F(a) = F(â)
+ ½ [d2F(a) / da2]â (a – â)2 + …
Falls höhere Terme vernachlässigbar (F(a) parabelförmig):
➔ L(a) = exp(-F(a))
= const exp(-½ [d2F(a) / da2]â (a - â)2)
➢ Normalverteilung mit = â und 2 = 1 / [d2F(a) / da2]â
Fehler bei nicht parabelförmigem F(a)
Für F(a) parabelförmig: F(â ± ) = F(â) + ½ Allgemein anwendbar: F(â ± n±) = F(â) + ½ n2
➔ Kann zu asymmetrischen Fehlern führen
Mehrere Parameter
Wahrscheinlichkeitsdichte:
● f(x|a) = f(x|a1, ..., am)
Bedingung für Minimum von F(a):
➔ dF(a) / daj = 0 für alle j
Inverse Kovarianzmatrix:
➔ V-1 i, j = [d2F(a) / dai daj ]â
➔ V-1 = [d2F(a) / da2]â
F(a) = F(â + ½) definiert (m-1)-dimensionale Kontur (Vorsicht: keine 68%-Konfidenzregion)
Profile-Likelihood
Oft nur wenige Parameter interessant:
● t = (a1, …, ak)
Andere Parameter sind Störparameter (nuisance parameters):
● r = (ak+1, …, am)
➔ f(x|t,r) → F(t,r)
Frage: Fehler von t für alle möglichen Werte von r?
Antwort:
● Minimierung bzgl. r: Fp r o f (t) = F(t,r(t))
● 1-Fehler auf t bestimmt durch Fp r o f (t) = ½
^
Beispiel
Mittelwert von Gaußverteilten Messwerten mit unterschiedlicher Auflösung:
➔ f(xi |) = 1 / ((2)½ i) exp[ -(xi – )2 / 2i2 ]
Eigenschaften der ML-Methode
Schätzer ist invariant unter Parameter-Transformationen (Wahrscheinlichkeitsdichte von x unabhängig von
Parametrisierung)
➔ ĝ(a) = g(â)
Konsistent (normalerweise, aber nicht immer)
Nicht immer erwartungstreu, Bias verschwindet für N → ∞ (Transformationsinvarianz unvereinbar mit Erwartungstreue)
Effizient (für N → ∞)
I.A. nicht robust
➔ Wahrscheinlichkeitsdichte f(x|a) muss genau bekannt sein
Kein Maß für Fit-Qualität
Erweiterte ML-Methode
Likelihood L(a) = ∏i = 1...N f(xi |a) korrekt für feste Anzahl N von Ereignissen
➢ Oft ist N selbst zufällig
➔ Berücksichtigt durch zusätzlichen Term für Poisson-verteilte Anzahl von beobachteten Ereignissen bei Erwartungswert :
L(a) = ∏i = 1...N f(xi |a) · exp(-) N / N!
➔ F(a,) = - ∑i = 1..N ln g(xi ,a) +
mit g(xi | a) = f(xi | a), normiert auf
ML und Bayes' Theorem
L(a) ist keine Wahrscheinlichkeitsdichte für a
(sondern eine Wahrscheinlichkeitsdichte für x: L(a) = f(x|a))
Aber mit Hilfe des Bayes'schen Theorems kann man daraus eine Wahrscheinlichkeitsdichte für a konstruieren:
➔ f(a|x) = [L(a) · fP r i o r (a)] / fP r i o r (x)
= [L(a) · fP r i o r (a)] / Normierung
Für gleichverteilten Prior:
➔ f(a|x) = L(a) / Normierung Einfluß auf Schätzer:
➔ âB a y e s = â + â2 1/fP r i o r dfP r i o r /da
Beispiel
Münzwurf
Anzahl Kopf (n) für N Würfe
folgt Binomial- Verteilung:
f(n|p,N) = (Nn) pn (1-p)N – n
Zu bestimmender Parameter:
Wahrscheinlichkeit für Kopf: p
Beispiel
Einfluß des Priors
● Gestrichelt:
p ≈ 0.5
➔ Faire Münze
● Gepunktet:
p ≈ 0 oder 1
➔ Gezinkte Münze
➢ Prioreinfluß sinkt mit steigender Anzahl von Meßwerten
Barlow:
Statictics
Toy-Monte-Carlo-Studien
Pseudoexperimente, Ensembletests:
● Benötigt: Annahme von Wahrscheinlichkeitsdichte
● Wähle wahre Parameter a0
● Erzeuge N zufallsverteilte Datenpunkte, die der
Wahrscheinlichkeitsdichte für die wahren Parameter folgen
● Wende den Schätzer auf diese Datenpunkte an
● Wiederhole Simulation und Schätzung mehrmals
● Vergleiche Verteilung des Schätzers mit dem wahren Wert
➔ z.B. Pull-Verteilung (â – a0) / â sollte Mittelwert 0 und Breite 1 für
unverzerrten Schätzer (von a und a) haben
● Wiederhole Test für andere wahre Werte (Bias kann vom wahren Wert abhängen!)
➢ Auch anwendbar für systematische Studien (PDF Simulation ≠ PDF Schätzer)
Beispiel ML-Fit: Materie-Antimaterie- Asymmetrie bei B
s-Mesonen
● Daten: Messung von rekonstruierter Masse, Zerfallszeit, Zerfallszeitfehler, 3 Zerfallswinkeln
● 6-dim PDF mit 31 Parametern, davon 8 mit physikalischer Bedeutung
+ Auflösungsverschmierung, Verteilung von Masse und Zerfallszeitfehler, Untergrund
➢ Hauptsächlich interessant:
Asymmetrie-Parameter und Zerfallsratendifferenz
Beispiel ML-Fit: Materie-Antimaterie- Asymmetrie bei B
s-Mesonen
Fit-Resultate für Pseudoexperimente:
➔ Bias, abhängig vom wahren Wert!
Input:
∆ = 0.096
s = 0 Example result Input:
∆ = 0.192
s = 1.5 Example result
ML → Methode der kleinsten Quadrate
Messung: N Datenpaare (xi , yi ) mit exakt bekannten xi und Gauß- verteilten yi mit Fehler i .
Modell: Funktion y = f(x,a) mit zu bestimmenden Parametern a = (a1 , ..., am )
➔ Wahrscheinlichkeitsdichte für yi :
p(yi |a) = 1 / ((2)½ i) exp[ -(yi – f(xi ,a))2 / 2i2 ]
➔ Negative Log-Likelihood-Funktion:
F(a) = - ∑i = 1..N ln p(yi |a) = const + ∑i = 1..N (yi – f(xi ,a))2 / 2i2
➔ Bedingung für Minimum:
S = ∑i = 1..N (yi – f(xi ,a))2 / i2 → min
➢ Methode der kleinsten Quadrate:
Summe der Quadrate der Residuen muss minimal sein
Fehler des Schätzers
Für Gauß-verteilte Daten:
➔ S = 2 F
➢ S(â ± n) = n2
F S
1 0.5 1
2 2 4
3 4.5 9
2-Verteilung
Methode der kleinsten Quadrate kann auch bei nicht Gauß- verteilten Daten angewendet werden
Verteilung des Parameterschätzers ist immer Gaußisch für N → ∞ Falls Daten Gauß-verteilt, folgt Sm i n einer 2-Verteilung mit N-m
Freiheitsgraden (number of degrees of freedom, n.d.f.)
➔ P(2,n) =
[2- n / 2 / (n/2)] n – 2 exp(-2/2)
➔ Mittelwert: n
➔ Varianz: 2n
➢ Wahrscheinlichkeit einen Wert
Sm i n oder größer zu erhalten:
p = 1 - ∫ S m i n P(S,n) dS
Kleinste Quadrate bei korrelierten Daten
Verallgemeinerung:
S = yT V-1 y → min mit
Residuuen yi = yi – f(xi |a)
Kovarianzmatrix V
Fehler in x und y
Datenpunkte (xi , yi ) haben Fehler (x, i , y, i )
➔ Minimierung des quadratischen Abweichung zwischen Datenpunkten und Funktion:
∑ di2 / d, i2 → min
➢ Entspricht (für df/dx ≈ konst.) Minimierung der y-Abweichung mit zusätzlichem Fehler durch x-Unsicherheit
∑ yi2 / (y, i2 + (df/dx) 2 x, i2) → min
d
Binnend ML-Fit
Häufige Aufgabe: Anpassung einer Funktion an ein Histogram Problem bei 2-Fit: Gauß-Verteilung schlechte Näherung für Poisson-Verteilung bei kleiner Anzahl an Ereignissen
➢ Binned ML-Fit:
● Wahrscheinlichkeitsdichte für Ereigniszahl pro Bin durch Poisson-Verteilung gegeben:
➔ L(a) = ∏i = 1...N Poisson(Ni , f(xi |a))
Oft Minimierung von F(a) = -2 ln L(a) implementiert, so dass 1
Änderung von F = 1 entspricht, wie bei 2-Fit.
Vergleich ML – kleinste Quadrate
Maximum-Likelihood kleinste Quadrate
Voraussetzung PDF exakt bekannt Mittelwert und Varianz bekannt
Basis Höhe der PDF Abweichung von der
Effizienz Maximal Maximal unter linearen
Schätzern
Komplexität Oft sehr aufwendig Exakt lösbar im linearen Fall
Robustheit Nein (PDF muss exakt
sein) Nein (Ausreißer)
Fit-Qualität Nein 2 bei Gauß'schen
Fehlern
Spezialfall Identisch bei Gauß'schen Fehlern