• Keine Ergebnisse gefunden

Schätzung von Parametern

N/A
N/A
Protected

Academic year: 2022

Aktie "Schätzung von Parametern"

Copied!
31
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Schätzung von

Parametern

(2)

Schätzung von Parametern

Quantitative Wissenschaft: Messung von Parametern

Gemessene Werte weichen durch (statistische und systematische) Messfehler vom wahren Wert des Parameters ab.

Beobachtungen (Daten) sind Stichproben aus einer Verteilung, die durch den Parameter festgelegt ist.

Schätzung: Prozedur zur Bestimmung eines Parameterwertes (und seines Fehlers) aus zufallsverteilten Daten

Beispiele:

Messung der mittleren Lebensdauer  eines atomaren Zustands aus N Messungen von Zerfallszeiten ti.

Messung einer Ereignisrate  aus N Messungen von Ereignishäufigkeiten.

(3)

Beispiel

Schätzung der mittleren Größe von StudentInnen

Daten: Größen von N (repräsentativ ausgewählten) StudentInnen 1) Alle Größen addieren und durch N teilen

2) Nur die ersten 10 mitteln, den Rest verwerfen 3) Alle Größen addieren und durch N-1 teilen 4) Alle Daten ignorieren und 1.8 m nehmen

5) Alle Größen multiplizieren und N-te Wurzel ziehen 6) Die am häufigsten auftretenden Größen mitteln

7) Kleinste und größte Größe addieren und durch 2 teilen 8) Nur jede zweite Größe nehmen und mitteln

Alle Methoden sind Schätzer

Aber welche Methoden sind sinnvoll? Welche ist die beste?

Hängt von der Verteilung ab!

(4)

Eigenschaften von Schätzern

Bezeichnung des Schätzers für einen Parameter a: â Wahrer Wert: a0

Konsistenz: limN → ∞ â = a0

Erwartungstreue: E[â] = a0

Effizienz: Varianz von â möglichst klein

Robustheit: â unbeeinflusst von falschen Daten oder Annahmen

Eigenschaften eines Schätzers hängen von der Verteilung ab.

(5)

Beispiel:

Schätzung von Mittelwert und Varianz

Mittelwert:

 = 1/N ∑i = 1..N xi

Konsistent und erwartungstreu

Effizienz und Robustheit hängt von der Verteilung ab Varianz, Mittelwert bekannt: V = 1/N ∑i = 1..N (xi - )2

Konsistent und erwartungstreu

Varianz, Mittelwert unbekannt: V = 1/N ∑i = 1..N (xi - )2

Verzerrt!

Bessel-Korrektur: V = 1/(N-1) ∑i = 1..N (xi - )2

^

^

^ ^

^ ^

(6)

Zentraler Grenzwertsatz

Wenn man die Summe S aus N unabhängigen Zufallsvariablen mit beliebiger Wahrscheinlichkeitsdichte mit Mittelwert i und Varianz Vi bildet, dann gilt:

E[S] = ∑i = 1..Ni

E[V(S)] = ∑i = 1..N Vi

Die Wahrscheinlichkeitsdichte von S ist eine Normalverteilung für N → ∞

(7)

Robuste Schätzer des Mittelwerts

Symmetrische Verteilung: Getrimmter Mittelwert

Verwerfe Nexcl kleinste und größte Messwerte

Bilde Mittelwert der verbleibenden N-2Nexcl Messwerte

Nachteil: Nur Anteil

2r = 1 – 2Nexcl/N der Daten wird verwendet

Asymmetrische Verteilung:

Transformation auf symmetrische Verteilung;

wahrscheinlichster Wert

Asymptotische Effizienz

(8)

Likelihood-Funktion

Wahrscheinlichkeitsdichte für einen Messwert x abhängig von Parameter(n) a:

f(x|a)

Wahrscheinlichkeitsdichte für n unabhängige Messwerte x1, ..., xN:

L(a) := f(x1 |a) f(x2 |a) … f(xN |a) = ∏i = 1...N f(xi |a)

L(a) ist die Likelihood-Funktion

L(a) ist keine Wahrscheinlichkeitsdichte in a!

(i.A. ∫L(a) da ≠ 1)

Wahrscheinlichkeitsdichte in x muss normiert sein!

∫L(x1 ,..., xN |a) dx1...dxN = 1 für alle a

(9)

Cramér-Rao-Grenze

Minimale Grenze für die Varianz eines unverzerrten Schätzers:

Vm i n(â) = -1 / E[d2 ln L / da2]

Fall Verzerrung b:

V(â) ≥ (1 + db/da) Vm i n(â)

Beispiel: Normalverteilung

(10)

Maximum-Likelihood-Methode

Schätzer von a ist der Wert, der L(a) maximiert:

Bedingung für Maximum: dL(a) / da = 0

Für numerische Berechnungen besser: ln L(a) (Log-Likelihood-Funktion)

Logarithmus monoton → gleiches Maximum

Historische Gründe: negative Log-Likelihood-Funktion:

F(a) = - ln L(a) = - ∑i = 1..N ln f(xi ,a)

Maximum-Likelihood-Schätzung → Minimierung von F(a), oft rechenaufwendig

L(â) = max

(11)

Fehler des ML-Schätzers

Taylorentwicklung von F(a) am Minimum â (dF(a)/da = 0):

F(a) = F(â)

+ ½ [d2F(a) / da2]â (a – â)2 + …

Falls höhere Terme vernachlässigbar (F(a) parabelförmig):

L(a) = exp(-F(a))

= const exp(-½ [d2F(a) / da2]â (a - â)2)

Normalverteilung mit  = â und 2 = 1 / [d2F(a) / da2]â

(12)

Fehler bei nicht parabelförmigem F(a)

Für F(a) parabelförmig: F(â ± ) = F(â) + ½ Allgemein anwendbar: F(â ± n±) = F(â) + ½ n2

Kann zu asymmetrischen Fehlern führen

(13)

Mehrere Parameter

Wahrscheinlichkeitsdichte:

f(x|a) = f(x|a1, ..., am)

Bedingung für Minimum von F(a):

dF(a) / daj = 0 für alle j

Inverse Kovarianzmatrix:

V-1 i, j = [d2F(a) / dai daj ]â

V-1 = [d2F(a) / da2]â

F(a) = F(â + ½) definiert (m-1)-dimensionale Kontur (Vorsicht: keine 68%-Konfidenzregion)

(14)

Profile-Likelihood

Oft nur wenige Parameter interessant:

t = (a1, …, ak)

Andere Parameter sind Störparameter (nuisance parameters):

r = (ak+1, …, am)

f(x|t,r) → F(t,r)

Frage: Fehler von t für alle möglichen Werte von r?

Antwort:

Minimierung bzgl. r: Fp r o f (t) = F(t,r(t))

1-Fehler auf t bestimmt durch Fp r o f (t) = ½

^

(15)

Beispiel

Mittelwert von Gaußverteilten Messwerten mit unterschiedlicher Auflösung:

f(xi |) = 1 / ((2)½i) exp[ -(xi – )2 / 2i2 ]

(16)

Eigenschaften der ML-Methode

Schätzer ist invariant unter Parameter-Transformationen (Wahrscheinlichkeitsdichte von x unabhängig von

Parametrisierung)

ĝ(a) = g(â)

Konsistent (normalerweise, aber nicht immer)

Nicht immer erwartungstreu, Bias verschwindet für N → ∞ (Transformationsinvarianz unvereinbar mit Erwartungstreue)

Effizient (für N → ∞)

I.A. nicht robust

Wahrscheinlichkeitsdichte f(x|a) muss genau bekannt sein

Kein Maß für Fit-Qualität

(17)

Erweiterte ML-Methode

Likelihood L(a) = ∏i = 1...N f(xi |a) korrekt für feste Anzahl N von Ereignissen

Oft ist N selbst zufällig

Berücksichtigt durch zusätzlichen Term für Poisson-verteilte Anzahl von beobachteten Ereignissen bei Erwartungswert :

L(a) = ∏i = 1...N f(xi |a) · exp(-) N / N!

F(a,) = - ∑i = 1..N ln g(xi ,a) + 

mit g(xi | a) =  f(xi | a), normiert auf 

(18)

ML und Bayes' Theorem

L(a) ist keine Wahrscheinlichkeitsdichte für a

(sondern eine Wahrscheinlichkeitsdichte für x: L(a) = f(x|a))

Aber mit Hilfe des Bayes'schen Theorems kann man daraus eine Wahrscheinlichkeitsdichte für a konstruieren:

f(a|x) = [L(a) · fP r i o r (a)] / fP r i o r (x)

= [L(a) · fP r i o r (a)] / Normierung

Für gleichverteilten Prior:

f(a|x) = L(a) / Normierung Einfluß auf Schätzer:

âB a y e s = â + â2 1/fP r i o r dfP r i o r /da

(19)

Beispiel

Münzwurf

Anzahl Kopf (n) für N Würfe

folgt Binomial- Verteilung:

f(n|p,N) = (Nn) pn (1-p)N – n

Zu bestimmender Parameter:

Wahrscheinlichkeit für Kopf: p

(20)

Beispiel

Einfluß des Priors

Gestrichelt:

p ≈ 0.5

Faire Münze

Gepunktet:

p ≈ 0 oder 1

Gezinkte Münze

Prioreinfluß sinkt mit steigender Anzahl von Meßwerten

(21)

Barlow:

Statictics

(22)

Toy-Monte-Carlo-Studien

Pseudoexperimente, Ensembletests:

Benötigt: Annahme von Wahrscheinlichkeitsdichte

Wähle wahre Parameter a0

Erzeuge N zufallsverteilte Datenpunkte, die der

Wahrscheinlichkeitsdichte für die wahren Parameter folgen

Wende den Schätzer auf diese Datenpunkte an

Wiederhole Simulation und Schätzung mehrmals

Vergleiche Verteilung des Schätzers mit dem wahren Wert

z.B. Pull-Verteilung (â – a0) / â sollte Mittelwert 0 und Breite 1 für

unverzerrten Schätzer (von a und a) haben

Wiederhole Test für andere wahre Werte (Bias kann vom wahren Wert abhängen!)

Auch anwendbar für systematische Studien (PDF Simulation ≠ PDF Schätzer)

(23)

Beispiel ML-Fit: Materie-Antimaterie- Asymmetrie bei B

s

-Mesonen

Daten: Messung von rekonstruierter Masse, Zerfallszeit, Zerfallszeitfehler, 3 Zerfallswinkeln

6-dim PDF mit 31 Parametern, davon 8 mit physikalischer Bedeutung

+ Auflösungsverschmierung, Verteilung von Masse und Zerfallszeitfehler, Untergrund

Hauptsächlich interessant:

Asymmetrie-Parameter  und Zerfallsratendifferenz 

(24)

Beispiel ML-Fit: Materie-Antimaterie- Asymmetrie bei B

s

-Mesonen

Fit-Resultate für Pseudoexperimente:

Bias, abhängig vom wahren Wert!

Input:

∆ = 0.096

s = 0 Example result Input:

∆ = 0.192

s = 1.5 Example result

(25)

ML → Methode der kleinsten Quadrate

Messung: N Datenpaare (xi , yi ) mit exakt bekannten xi und Gauß- verteilten yi mit Fehler i .

Modell: Funktion y = f(x,a) mit zu bestimmenden Parametern a = (a1 , ..., am )

Wahrscheinlichkeitsdichte für yi :

p(yi |a) = 1 / ((2)½i) exp[ -(yi – f(xi ,a))2 / 2i2 ]

Negative Log-Likelihood-Funktion:

F(a) = - ∑i = 1..N ln p(yi |a) = const + ∑i = 1..N (yi – f(xi ,a))2 / 2i2

Bedingung für Minimum:

S = ∑i = 1..N (yi – f(xi ,a))2 / i2 → min

Methode der kleinsten Quadrate:

Summe der Quadrate der Residuen muss minimal sein

(26)

Fehler des Schätzers

Für Gauß-verteilte Daten:

S = 2 F

S(â ± n) = n2

F S

1 0.5 1

2 2 4

3 4.5 9

(27)

2

-Verteilung

Methode der kleinsten Quadrate kann auch bei nicht Gauß- verteilten Daten angewendet werden

Verteilung des Parameterschätzers ist immer Gaußisch für N → ∞ Falls Daten Gauß-verteilt, folgt Sm i n einer 2-Verteilung mit N-m

Freiheitsgraden (number of degrees of freedom, n.d.f.)

P(2,n) =

[2- n / 2 / (n/2)] n – 2 exp(-2/2)

Mittelwert: n

Varianz: 2n

Wahrscheinlichkeit einen Wert

Sm i n oder größer zu erhalten:

p = 1 - ∫ S m i n P(S,n) dS

(28)

Kleinste Quadrate bei korrelierten Daten

Verallgemeinerung:

S = yT V-1 y → min mit

Residuuen yi = yi – f(xi |a)

Kovarianzmatrix V

(29)

Fehler in x und y

Datenpunkte (xi , yi ) haben Fehler (x, i , y, i )

Minimierung des quadratischen Abweichung zwischen Datenpunkten und Funktion:

∑ di2 / d, i2 → min

Entspricht (für df/dx ≈ konst.) Minimierung der y-Abweichung mit zusätzlichem Fehler durch x-Unsicherheit

∑ yi2 / (y, i2 + (df/dx) 2x, i2) → min

d

(30)

Binnend ML-Fit

Häufige Aufgabe: Anpassung einer Funktion an ein Histogram Problem bei 2-Fit: Gauß-Verteilung schlechte Näherung für Poisson-Verteilung bei kleiner Anzahl an Ereignissen

Binned ML-Fit:

Wahrscheinlichkeitsdichte für Ereigniszahl pro Bin durch Poisson-Verteilung gegeben:

L(a) = ∏i = 1...N Poisson(Ni , f(xi |a))

Oft Minimierung von F(a) = -2 ln L(a) implementiert, so dass 1

Änderung von F = 1 entspricht, wie bei 2-Fit.

(31)

Vergleich ML – kleinste Quadrate

Maximum-Likelihood kleinste Quadrate

Voraussetzung PDF exakt bekannt Mittelwert und Varianz bekannt

Basis Höhe der PDF Abweichung von der

PDF

Effizienz Maximal Maximal unter linearen

Schätzern

Komplexität Oft sehr aufwendig Exakt lösbar im linearen Fall

Robustheit Nein (PDF muss exakt

sein) Nein (Ausreißer)

Fit-Qualität Nein 2 bei Gauß'schen

Fehlern

Spezialfall Identisch bei Gauß'schen Fehlern

Referenzen

ÄHNLICHE DOKUMENTE

aufgefiihrten Bedingungsgleichungen findet man,

Klasse © Auer Verlag – AAP Lehrerfachverlage GmbH, Donauwörth?. Aufgabe: Welche Schlange

Bei größerem Übungsbedarf kann eine quantitative Differenzierung durch Zuteilung mehrerer ge- staffelter Kopiervorlagen erfolgen.. Alle Aufgaben sind so gewählt, dass sie

In this case the proportion of the golden section can be constructed in a square lattice, using circles going through lattice points.?. This gives

In der Abbildung 3b sind vier solche Stapel in einem Quadrat der Seitenlänge

Es ist der Leserin oder dem Leser überlassen, wie ob sie oder er die Figur der Abbil- dung 5 als Folge von Rhomben mit dem Spitzenwinkel 72° oder als eine Ecke eines 5d-

In der ersten Spirale (Abb. 2) haben wir zuinnerst ein rotes Feld, anschließend drei grü- ne Felder, dann fünf rote Felder, dann sieben grüne Felder, dann neun rote Felder und

where Bücher.ISBN = Buch_Stichwort.ISBN select Bücher.ISBN, Titel, Stichwort (richtig) from Bücher, Buch_Stichwort. where Bücher.ISBN