• Keine Ergebnisse gefunden

Testen von Hypothesen

N/A
N/A
Protected

Academic year: 2022

Aktie "Testen von Hypothesen"

Copied!
22
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Testen von

Hypothesen

(2)

Fällen von Entscheidungen

Statistische Auswertung von Daten bisher (Parameterschätzung, Konfidenzregionen):

Bestimmung von Parametern und deren Fehler bei einer gegebenen Wahrscheinlichkeitsverteilung

Häufig soll aus Daten eine weitere Information gewonnen werden:

Fällen einer Entscheidung, z.B.:

Ist das nachgewiesene Teilchen ein Pion oder ein Kaon?

Ist die gemessene Zerfallszeitverteilung einer radioaktiven Substanz eine Exponentialverteilung?

Existiert das Higgs-Boson oder nicht?

Formulierung in Form von Hypothesen Hi

(Wahrscheinlichkeitsdichten für die Daten: f(x|Hi ))

(3)

Hypothesen

Arten von Hypothesen:

Einfach = unabhängig von Parametern

Zusammengesetzt = parameterabhängig: f(x|H,a) Bezeichnung von Hypothesen:

Zu testende Hypothese: Null-Hypothese H0

Alle anderen Hypothesen: Alternativhypothese(n): H1, H2, … Reduktion der Dimensionalität durch Teststatistik

x → t, f(x|H) → g(t|H)

Definition von Entscheidungskriterien anhand der Teststatistik

(4)

Wahl zwischen zwei Hypothesen

Konfidenzlevel von H0 für t > tc : Signifikanz 

Verwerfen der richtigen Hypothese: Fehler erster Art

Konfidenzlevel von H1 für t < tc : , Mächtigkeit (power) 1 – 

Akzeptieren der falschen Hypothese: Fehler zweiter Art

Geeignete Wahl der Teststatistik für möglichst signifikanten und mächtigen Test → Klassifizierung

(5)

Klassifizierungsmethoden

Fisher-Diskriminante

Lineare Transformation, t = const definiert Hyperebenen

Optimal bei Gaußverteilungen Neuronale Netze

Optimal bei hinreichender Anzahl Knoten Likelihood-Ratio

r = f(x|H0) / f(x|H1) > rc

Neyman-Pearson-Lemma

Optimal (für einfache Hypothesen)

(6)

Test einer Hypothese

Sind Daten statistisch verträglich mit Hypothese H0 ?

Statistische Methoden können eine Hypothese nicht (direkt) beweisen, sondern höchstens widerlegen!

Beweis über Ausschluss von Alternativhypothesen

Wahl der gewünschten Signifikanz 

Bestimmung einer Konfidenzregion (nicht eindeutig, z.B. ein-/zweiseitig)

Verwerfen der Hypothese, falls Daten außerhalb der Konfidenzregion

Oft statt vorheriger Wahl von  → Angabe von p-Wert

Wahrscheinlichkeit statistische Fluktuation wie in den

beobachteten Daten oder „größer“ zu erhalten unter Annahme von H0 (→ „beobachtete Signifikanz“)

(7)

Beispiel: Orbital angeregte B

s

-Mesonen

Hat man ein, oder zwei,

oder mehr Signale, oder sind alles

nur statistische Fluktuationen?

(8)

Gefahr von Verzerrungen

Beispiel:

20 Physiker führen (unabhängig voneinander) jeweils eine Messung durch

Einer sieht eine Abweichung von der Erwartung um 2

(Ausschluss der Null-Hypothese mit 5% Signifikanz)

Der eine publiziert sein Ergebnis, die anderen nicht

Bias der veröffentlichten Ergebnisse!

Publikation sollte nicht vom Ausgang des Tests abhängen

Auch „negative“ Resultate publizieren

(9)

Binomial-Verteilung

Anzahl

Kopf Wahrschein- lichkeit p

15 0.003%

14 0.05%

13 0.3%

12 1.4%

11 4.2%

10 9.2%

Beispiel:

15 Münzwürfe

Daten: n = Anzahl Kopf

1. Vermutung: Münze gezinkt

Null-Hypothese: p = ½

Gewählte Signifikanz: 10%

2. Vermutung: Kopf wahrscheinlicher als Zahl

Null-Hypothese: p ≤ ½

Gewählte Signifikanz: 10%

(10)

Poisson-Verteilung

Häufige Frage: Signifikanz eines Signals Beispiel:

Daten: n = 5, Untergrund-Erwartung b = 0.5

p(n >= 5 | b = 0.5) = 1.7 x 10- 4

Problem: Unsicherheit der Untergrund-Erwartung z.B. für b = 0.8: p = 1.4 x 10- 3

Angabe eines Bereichs von p-Werten Falls n groß → Gauß'sche Näherung

f(n|H0) = Gauß( = b ,  = √(b + b2 ))

Für b = 0: Signifikanzniveau S / √B, S = n - b, B = b

(11)

Signale in Verteilungen

Beispiel:

Poisson- Verteilung:

p = 5.0 x 10-4

Nur richtig,

falls schon vor der Messung

dort ein Signal vermutet wird und die Bins ausgewählt wurden Signifikanz der Abweichung geringer, falls

Sie irgendwo in der Verteilung auftreten kann

Man mehrere Verteilungen anschaut

Die Selektionskriterien (bewusst oder unbewusst) gewählt wurden, so dass ein Peak entsteht

Bilde Analyse:

Mehr Ereignisse in beiden mittleren Bins als erwartet:

n = 11, b = 3.2

(12)

Pearson's 

2

-Test

t = ∑i = 1..N (yi – f(xi ))2 / i2

folgt 2-Verteilung für N Freiheitsgrade (ndf), falls yi Gauß-verteilt

Ndf = N – m, falls m Parameter aus den Daten bestimmt

Histogramm-Binning:

N klein → Empfindlichkeit, Gauß-sche Näherung N groß → Auflösung von Strukturen

Beispiel von voriger Seite mit i = √yi :

2 = 29.8, ndf = 20 → p = 7.3%

Toys: p = 11%

(13)

Run-Test

Beispiel: 2 = 12 für 12 Bins → 2-Test ok

Aber Daten offensichtlich nicht linear Struktur der Abweichungen:

AAABBBBBBAAA für A = above, B = below

Nur 3 Runs

Mögliche Anzahl Anordnungen für NA A- und NB B-Werte:

C(NA, NB) = N! / (NA! NB!), N = NA + NB Wahrscheinlichkeit für r Runs:

r gerade: p(r) = 2 C(NA – 1, r/2 – 1) C(NB – 1, r/2 – 1) / C(N, NA)

r ungerade: p(r) = [C(NA – 1, (r-3)/2) C(NB – 1, (r-1)/2) + C(NA – 1, (r-1)/2) C(NB – 1, (r-3)/2)] / C(N, NA)

E[r] = 1 + 2NANB / N, E[V(r)] = 2NANB(2NANB – N) / [N2(N-1)]

(14)

Kolmogorov-Smirnov-Test

Daten der Größe nach sortieren

Kumulierte Verteilung, normiert mit 1/N, auftragen Y(x) = (Anzahl Werte < x) / N

Vergleich mit kumulierter Wahrscheinlichkeitsverteilung F(x) = ∫–∞x f(x') dx'

Testgröße definiert durch maximale Abweichung:

t = √N max|Y(x) – F(X)|

Z.B. p = 1% für t = 1.63, p = 10% für t = 1.22

Gilt nur, wenn f(x) nicht an die Daten angepasst wurde (kein Analogon zu ndf beim 2-Test)

(15)

Vergleich von Mittelwerten und Varianzen

Test auf gleichen Mittelwerten zweier Datensätze bei unbekannter Varianz

Schätzung der Varianz aus den Daten: s2 = 1/[N(N-1)] ∑i = 1..N (xi - )2

Testgröße: t = (1 – 2) / √(s12 + s22)

folgt Studentscher t-Verteilung

Test auf gleiche Varianz zweier Datensätze

Testgröße: F = V1 / V2

Folgt F-Verteilung

Für große Anzahlen ist Z = ½ log F Gauß-verteilt mit Mittelwert ½ (1/f2 – 1/f1) und Varianz ½ (1/f2 + 1/f1) für f = N – 1 und f = N – 1

^

^ ^

^ ^

(16)

Likelihood-Ratio als Testgröße

Häufiger Fall:

Test auf bestimmte Werte von Parametern eines allgemeinen Modells

Testgröße: T = f(x|a1(H0), ..., am(H0), âm+1, ...ân) / f(x|â') Satz von Wilks:

Wird eine Grundgesamtheit durch eine Wahrscheinlichkeits- dichte f(x|a) beschrieben (die vernünftigen Anforderungen an ihre Stetigkeit genügt), und werden m der n Parameter

festgelegt, so folgt

-2 ln T

einer 2-Verteilung mit m Freiheitsgraden für (sehr) große N

(17)

Beispiel: Orbital angeregte B

s

-Mesonen

Allgemeines Modell:

Untergrund und zwei Signale

Null-Hypothese (pro Signal):

Signalanzahl = 0

Zwei Parameter weniger (Anzahl und Mittelwert)

Erstes Signal:

T = 48 → p = 3x10-10, 6.3

Zweites Signal:

T = 74 → p = 10-14, 7.7

(18)

Beispiel: Orbital angeregte B

s

-Mesonen

Überprüfung der Signifikanzbestimmung mit Toy-MC

Signifikanz > 5

Genaue Bestimmung des p-Wertes limitiert durch Anzahl Pseudoexperimente

(19)

Beispiel: Orbital angeregte B

s

-Mesonen

Theorie sagt weiteres Signal bei ~0.022 GeV vorher

Likelihood-Ratio-Test (ohne/mit drittem Signal): 3.7

Evidenz für weiteres Signal?

(20)

Beispiel: Orbital angeregte B

s

-Mesonen

Weiterer Test mit alternativem Untergrund-Modell

Signifikanz nur noch 2.7

Mehr Daten erforderlich, um Evidenz des Signals zu etablieren (falls es existiert)

(21)

Beispiel: B

s

-Materie-Antimaterie-Asymmetrie

2008:

p = 7%

2010:

p = 44%

(22)

Empfehlungen

Legen Sie den Test und die gewünschte Signifikanz fest, bevor Sie die Messung durchführen

Vermeiden Sie Verzerrungen → Blinde Analyse

Prüfen Sie die Robustheit des Resultats (Binning, Selektion, Fit-Modell)

Überprüfen Sie die Signifikanzbestimmung, falls angebracht, durch Pseudoexperimente

Visualisieren Sie die Daten und achten Sie auf Abweichungen, die nicht vom Test erfasst werden

Publizieren Sie Ihr Resultat, auch wenn kein signifikanter Effekt beobachtet wird

Referenzen

ÄHNLICHE DOKUMENTE

a) Beantwortet ein Schüler 10 oder mehr Fragen richtig, dann wird der Lehrer die Note 6 erteilen, weil er findet, der Schüler habe etwas gewusst und die Fragen nicht durch blosses

Ein Glücksrad zeige die Zahlen 1, 2,. 20, wobei die eingezeichneten Sektoren alle gleich gross erscheinen. Wir stellen fest, dass in 100 Drehungen nur zwei Mal die 20 erschienen ist

b) Das ist ein zweiseitiger Test, also muss der einseitige Verwerfungsbereich unter 2.5% zu

In einer Gewinnshow behauptet ein Kandidat, anhand des unterschiedlichen Abnut- zungsgrads der Spielkarten aus einem Romm´e-Blatt (110 Karten, davon 6 Joker) mit 50 %

Eine im Bundestag vertretene politische Partei m¨ ochte einige Wochen vor der anstehenden Bundestagswahl mit einem statistischen Test untersuchen, ob der eigene W¨ ahleranteil zur

Auch in Schulbüchern (und leider immer wieder auch in Zentralabitur-Aufgaben) wird oft nicht klar, warum die Nullhypothese H 0 abgelehnt werden soll, um die gegenteilige Vermutung H 1

Denn wenn jedem Bewegungszustand des Leibes oder auch nur des Nervensystems ein Erlebnis der Seele entsprechen soll, so versteht es sich von selbst, daß der weitaus größte

~önnc. Vor diesem Hintergrund ist das Ernest Callenbachs l975 erschienenem R.omau Et-otopttl vorangesccllrc Motto, ein Zimt aus Commone:rs 7/Jr Closing Circle,