Testen von Hypothesen

(1)

Testen von

Hypothesen

(2)

Fällen von Entscheidungen

Statistische Auswertung von Daten bisher (Parameterschätzung, Konfidenzregionen):

➢ Bestimmung von Parametern und deren Fehler bei einer gegebenen Wahrscheinlichkeitsverteilung

Häufig soll aus Daten eine weitere Information gewonnen werden:

➢ Fällen einer Entscheidung, z.B.:

● Ist das nachgewiesene Teilchen ein Pion oder ein Kaon?

● Ist die gemessene Zerfallszeitverteilung einer radioaktiven Substanz eine Exponentialverteilung?

● Existiert das Higgs-Boson oder nicht?

➔ Formulierung in Form von Hypothesen H_i

(Wahrscheinlichkeitsdichten für die Daten: f(x|H_i))

(3)

Hypothesen

Arten von Hypothesen:

● Einfach = unabhängig von Parametern

● Zusammengesetzt = parameterabhängig: f(x|H,a) Bezeichnung von Hypothesen:

● Zu testende Hypothese: Null-Hypothese H₀

● Alle anderen Hypothesen: Alternativhypothese(n): H₁, H₂, … Reduktion der Dimensionalität durch Teststatistik

 x → t, f(x|H) → g(t|H)

➔ Definition von Entscheidungskriterien anhand der Teststatistik

(4)

Wahl zwischen zwei Hypothesen

Konfidenzlevel von H₀ für t > t_c: Signifikanz 

➔ Verwerfen der richtigen Hypothese: Fehler erster Art

Konfidenzlevel von H₁ für t < t_c: , Mächtigkeit (power) 1 – 

➔ Akzeptieren der falschen Hypothese: Fehler zweiter Art

➢ Geeignete Wahl der Teststatistik für möglichst signifikanten und mächtigen Test → Klassifizierung

(5)

Klassifizierungsmethoden

Fisher-Diskriminante

● Lineare Transformation, t = const definiert Hyperebenen

➔ Optimal bei Gaußverteilungen Neuronale Netze

➔ Optimal bei hinreichender Anzahl Knoten Likelihood-Ratio

● r = f(x|H₀) / f(x|H₁) > r_c

➢ Neyman-Pearson-Lemma

➔ Optimal (für einfache Hypothesen)

(6)

Test einer Hypothese

➢ Sind Daten statistisch verträglich mit Hypothese H₀?

Statistische Methoden können eine Hypothese nicht (direkt) beweisen, sondern höchstens widerlegen!

➔ Beweis über Ausschluss von Alternativhypothesen

● Wahl der gewünschten Signifikanz 

● Bestimmung einer Konfidenzregion (nicht eindeutig, z.B. ein-/zweiseitig)

➢ Verwerfen der Hypothese, falls Daten außerhalb der Konfidenzregion

Oft statt vorheriger Wahl von  → Angabe von p-Wert

➔ Wahrscheinlichkeit statistische Fluktuation wie in den

beobachteten Daten oder „größer“ zu erhalten unter Annahme von H₀(→ „beobachtete Signifikanz“)

(7)

Beispiel: Orbital angeregte B

_s

-Mesonen

➢ Hat man ein, oder zwei,

oder mehr Signale, oder sind alles

nur statistische Fluktuationen?

(8)

Gefahr von Verzerrungen

Beispiel:

● 20 Physiker führen (unabhängig voneinander) jeweils eine Messung durch

● Einer sieht eine Abweichung von der Erwartung um 2

(Ausschluss der Null-Hypothese mit 5% Signifikanz)

● Der eine publiziert sein Ergebnis, die anderen nicht

➔ Bias der veröffentlichten Ergebnisse!

Publikation sollte nicht vom Ausgang des Tests abhängen

➢ Auch „negative“ Resultate publizieren

(9)

Binomial-Verteilung

Anzahl

Kopf Wahrschein- lichkeit p

15 0.003%

14 0.05%

13 0.3%

12 1.4%

11 4.2%

10 9.2%

Beispiel:

➢ 15 Münzwürfe

➢ Daten: n = Anzahl Kopf

1. Vermutung: Münze gezinkt

● Null-Hypothese: p = ½

● Gewählte Signifikanz: 10%

2. Vermutung: Kopf wahrscheinlicher als Zahl

● Null-Hypothese: p ≤ ½

● Gewählte Signifikanz: 10%

(10)

Poisson-Verteilung

Häufige Frage: Signifikanz eines Signals Beispiel:

● Daten: n = 5, Untergrund-Erwartung _b = 0.5

➔ p(n >= 5 | _b = 0.5) = 1.7 x 10^{- 4}

➢ Problem: Unsicherheit der Untergrund-Erwartung z.B. für _b = 0.8: p = 1.4 x 10^{- 3}

➔ Angabe eines Bereichs von p-Werten Falls n groß → Gauß'sche Näherung

 f(n|H₀) = Gauß( = _b,  = √(_b + _b²))

● Für _b = 0: Signifikanzniveau S / √B, S = n - _b, B = _b

(11)

Signale in Verteilungen

Beispiel:

➔ Poisson- Verteilung:

p = 5.0 x 10^-4

➢ Nur richtig,

falls schon vor der Messung

dort ein Signal vermutet wird und die Bins ausgewählt wurden Signifikanz der Abweichung geringer, falls

 Sie irgendwo in der Verteilung auftreten kann

 Man mehrere Verteilungen anschaut

 Die Selektionskriterien (bewusst oder unbewusst) gewählt wurden, so dass ein Peak entsteht

Bilde Analyse:

Mehr Ereignisse in beiden mittleren Bins als erwartet:

n = 11, _b = 3.2

(12)

Pearson's 

²

-Test

t = ∑_{i = 1..N} (y_i – f(x_i))² / _i²

folgt ²-Verteilung für N Freiheitsgrade (ndf), falls y_i Gauß-verteilt

● Ndf = N – m, falls m Parameter aus den Daten bestimmt

➢ Histogramm-Binning:

N klein → Empfindlichkeit, Gauß-sche Näherung N groß → Auflösung von Strukturen

Beispiel von voriger Seite mit _i = √y_i:

² = 29.8, ndf = 20 → p = 7.3%

Toys: p = 11%

(13)

Run-Test

Beispiel: ² = 12 für 12 Bins → ²-Test ok

✗ Aber Daten offensichtlich nicht linear Struktur der Abweichungen:

AAABBBBBBAAA für A = above, B = below

➔ Nur 3 Runs

Mögliche Anzahl Anordnungen für N_A A- und N_B B-Werte:

 C(N_A, N_B) = N! / (N_A! N_B!), N = N_A + N_B Wahrscheinlichkeit für r Runs:

 r gerade: p(r) = 2 C(N_A – 1, r/2 – 1) C(N_B – 1, r/2 – 1) / C(N, N_A)

 r ungerade: p(r) = [C(N_A – 1, (r-3)/2) C(N_B – 1, (r-1)/2) + C(N_A – 1, (r-1)/2) C(N_B – 1, (r-3)/2)] / C(N, N_A)

➔ E[r] = 1 + 2N_AN_B / N, E[V(r)] = 2N_AN_B(2N_AN_B – N) / [N²(N-1)]

(14)

Kolmogorov-Smirnov-Test

● Daten der Größe nach sortieren

● Kumulierte Verteilung, normiert mit 1/N, auftragen Y(x) = (Anzahl Werte < x) / N

● Vergleich mit kumulierter Wahrscheinlichkeitsverteilung F(x) = ∫_–∞^x f(x') dx'

➔ Testgröße definiert durch maximale Abweichung:

t = √N max|Y(x) – F(X)|

 Z.B. p = 1% für t = 1.63, p = 10% für t = 1.22

● Gilt nur, wenn f(x) nicht an die Daten angepasst wurde (kein Analogon zu ndf beim ²-Test)

(15)

Vergleich von Mittelwerten und Varianzen

Test auf gleichen Mittelwerten zweier Datensätze bei unbekannter Varianz

● Schätzung der Varianz aus den Daten: s² = 1/[N(N-1)] ∑_{i = 1..N} (x_i - )²

● Testgröße: t = (₁ – ₂) / √(s₁² + s₂²)

➔ folgt Studentscher t-Verteilung

Test auf gleiche Varianz zweier Datensätze

● Testgröße: F = V₁ / V₂

➔ Folgt F-Verteilung

 Für große Anzahlen ist Z = ½ log F Gauß-verteilt mit Mittelwert ½ (1/f₂ – 1/f₁) und Varianz ½ (1/f₂ + 1/f₁) für f = N – 1 und f = N – 1

^

^ ^

(16)

Likelihood-Ratio als Testgröße

Häufiger Fall:

Test auf bestimmte Werte von Parametern eines allgemeinen Modells

➔ Testgröße: T = f(x|a₁(H₀), ..., a_m(H₀), â_m+1, ...â_n) / f(x|â') Satz von Wilks:

➢ Wird eine Grundgesamtheit durch eine Wahrscheinlichkeits- dichte f(x|a) beschrieben (die vernünftigen Anforderungen an ihre Stetigkeit genügt), und werden m der n Parameter

festgelegt, so folgt

-2 ln T

einer ²-Verteilung mit m Freiheitsgraden für (sehr) große N

(17)

Beispiel: Orbital angeregte B

_s

-Mesonen

● Allgemeines Modell:

Untergrund und zwei Signale

➢ Null-Hypothese (pro Signal):

Signalanzahl = 0

➔ Zwei Parameter weniger (Anzahl und Mittelwert)

● Erstes Signal:

 T = 48 → p = 3x10^-10, 6.3

● Zweites Signal:

● T = 74 → p = 10^-14, 7.7

(18)

Beispiel: Orbital angeregte B

_s

-Mesonen

Überprüfung der Signifikanzbestimmung mit Toy-MC

➔ Signifikanz > 5

● Genaue Bestimmung des p-Wertes limitiert durch Anzahl Pseudoexperimente

(19)

Beispiel: Orbital angeregte B

_s

-Mesonen

Theorie sagt weiteres Signal bei ~0.022 GeV vorher

➢ Likelihood-Ratio-Test (ohne/mit drittem Signal): 3.7

➔ Evidenz für weiteres Signal?

(20)

Beispiel: Orbital angeregte B

_s

-Mesonen

Weiterer Test mit alternativem Untergrund-Modell

➢ Signifikanz nur noch 2.7

➔ Mehr Daten erforderlich, um Evidenz des Signals zu etablieren (falls es existiert)

(21)

Beispiel: B

_s

-Materie-Antimaterie-Asymmetrie

2008:

p = 7%

2010:

p = 44%

(22)

Empfehlungen

➢ Legen Sie den Test und die gewünschte Signifikanz fest, bevor Sie die Messung durchführen

➢ Vermeiden Sie Verzerrungen → Blinde Analyse

➢ Prüfen Sie die Robustheit des Resultats (Binning, Selektion, Fit-Modell)

➢ Überprüfen Sie die Signifikanzbestimmung, falls angebracht, durch Pseudoexperimente

➢ Visualisieren Sie die Daten und achten Sie auf Abweichungen, die nicht vom Test erfasst werden

➢ Publizieren Sie Ihr Resultat, auch wenn kein signifikanter Effekt beobachtet wird