• Keine Ergebnisse gefunden

Computer¨ubungzurVorlesungModerneMethodenderDatenanalyseExercise6:HypothesisTestingandClassification Institutf”urexperimentelleKernphysik Fakult¨atf¨urPhysik

N/A
N/A
Protected

Academic year: 2022

Aktie "Computer¨ubungzurVorlesungModerneMethodenderDatenanalyseExercise6:HypothesisTestingandClassification Institutf”urexperimentelleKernphysik Fakult¨atf¨urPhysik"

Copied!
3
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Fakult¨ at f¨ ur Physik

Institut f ”ur experimentelle Kernphysik

Prof. Dr. G. Quast, Prof. Dr. M. Feindt, Dr. A. Zupanc

“Ubungsgruppen: G. Sieber, B. Kronenbitter, A. Heller Ausgabe: 14.06.2012 Bearbeitung bis 28.06.2012

Computer¨ ubung zur Vorlesung Moderne Methoden der Datenanalyse Exercise 6: Hypothesis Testing and Classification

“Is this a new discovery or just a statistical fluctuation?” Statistics offers some methods to give a quantitative answer.

But these methods should not be used blindly. In particular one should know exactly what the obtained numbers mean and what they don’t mean.

• Exercise 6.1:

The following table shows the number of winners in a horse race for different track numbers:

track 1 2 3 4 5 6 7 8

#winners 29 19 18 25 17 10 15 11

Test the hypothesis that the track number has no influence on the chance to win with a χ2 test. Define a confidence level, e.g. of 95 % or 99 %,before you do the test.

• Exercise 6.2:

Ein Detektor an einem e+e Beschleuniger misst die Flugzeit t, die Teilchen vom Wechsel- wirkungspunkt bis an den ¨außeren Rand der Spurdetektoren brauchen. Diese Messung wird f¨ur die Unterscheidung von Pionen (π) und Kaonen (K) genutzt. Die Unsicherheit auf die Flugzeitmessung enspricht in etwa einer Gauß’schen Verteilung. F¨ur Kaonen sei die Flugzeit typischerweise 3,5 ns und die Unsicherheit etwa 300 ps, f¨ur Pionen sei die Flugzeit etwa 3,0 ns und die Unsicherheit 200 ps. [Extrafrage: Warum brauchen die Kaonen l¨anger?]

Simuliere eine große Zahl von Flugzeitmessungen f¨ur Pionen und Kaonen zu gleichen Teilen und plotte die Verteilung. Man kann die Messungen als zu Pionen oder Kaonen geh¨orend klassifizieren, indem man auf die Flugzeit bei tc schneidet. Da man meist daran interessiert ist Kaonen anzureichern, definieren wir die Kaonen als Signal und die Pionen als Untergrund.

Plotte nun die Signifikanz α, die Trennungskraft (power; wie in der Vorlesung definiert) β, sowie die Signaleffizienz ǫ, die Signalreinheit p und den Anteil aller falsch klassifizierten Messungen als Funktion des Schnittwertes tc.

Plotte auch die Reinheit gegen die Effizienz.

In der Realit¨at produzieren Teilchenkollisionen etwas 5 mal mehr Pionen pro Ereignis als Kaonen.

Simuliere erneut mit den ver¨anderten Bedingungen und plotte die gleichen Gr¨oßen wie zuvor.

(2)

2

• Exercise 6.3:

Um die Teilchenidentifikation weiter zu verbessern, wird auch noch eine Messung der depo- nierten Energie pro Wegstrecke im Spurdetektor hinzugef¨ugt (dE/dx). Obwohl die Einzel- messungen in den Zellen der Driftkammer eher Landauverteilungen gleich kommen, bekommt man, wenn man die 20% gr¨oßten Messungen wegwirft und den Mittelwert der restlichen Zellen nimmt, f¨ur dasdE/dxder gesamten Spur n¨aherungsweise wieder eine Gauß’sche Ver- teilung.

( Extrafrage: Warum muss man ¨uberhaupt Zellen ignorieren, sollte der zentrale Grenzwert- satz nicht sicherstellen, dass die Summe ¨uber die vielen Beitr¨age einzelner Zellen immer einer Gauß’schen Verteilung folgt? )

F¨ur einen gegebenen Impuls einer Spur, seidE/dxin der Spurkammer im Mittel f¨ur Pionen 1,3 MeV/m und f¨ur Kaonen 1,6 MeV/m. Die Unsicherheit auf die Messung betrage jeweils 0.1 MeV/m.

Jeder Spur kann nun ein Messpaar (t, dE/dx) zugeordnet werden.

Simuliere nun wiederum Messungen von Kaonenspuren und Pionspuren. Um eine klarere Interpretation zu erhalten, w¨ahle erneut eine gleiche Zahl von Pion und Kaonspuren.

Wende nun die Fisher-Diskriminantenmethode an um Pionen und Kaonen zu separieren.

Plotte den Wert der Fisher-Diskriminanten w f¨ur Kaonen und Pionen und w¨ahle einen Schnittwert.

Erzeuge einen zwei-dimensionalen Scatterplot der gemessenen Verteilungen und plotte Kaon und Pionereignisse in verschiedenen Farben, zusammen mit einer Linie, die dem Schnitt auf die Fisher-Diskriminante entspricht.

• Exercise 6.4:

Ein anderer, ¨ahnlich aufgebauter Detektor steht an einem Hadronbeschleuniger. Dort werden auch eine erheblich gr¨ossere Zahl von Baryonen produziert, die h¨aufig zu Protonen zerfallen.

Die Flugzeitmessung der Protonen hat einen Mittelwert von 4 ns und eine Unsicherheit von 300 ps, die dE/dxMessung hat einen Mittelwert von 1,8 MeV/m mit dergleichen Unsicher- heit wie die anderen Messungen.

Simuliere auch dieses Szenario. Am besten Du speicherst die Simulation in einem NTuple mit einer Flagge f¨ur die Natur des Ereignisses. Du kannst ein root File mit dem Kommando TFile* file = TFile::Open( ’data.root’, ’RECREATE’);

erzeugen. Mit

Ntuple* ntuple = new TNtuple(’ntuple’, ’kaons and non-kaons’, ’t:dEdx:Flagge’);

ein NTupe darin anlegen. Und es mit

ntuple → Fill(gRandom → Gaus(...), gRandom → Gaus(...), int );

f¨ullen. Schließlich mit ntuple → Write();

in die Datei schreiben.

Trainiere ein neuronales Netzwerk, um Kaonen anzureichern. Nutze die ROOT Klasse TMultiLayerPerceptron, die in ROOT verf¨ugbar ist, nachdem man die richtige Bibliothek geladen hat:

gSystem->Load(‘‘libMLP.so’’)

Plotte den Netzwerkoutput f¨ur Kaonen, und Pionen und Protonen zusammen. Erzeuge einen zwei-dimensionalen Scatterplot und f¨uge einen Contourplot f¨ur das neuronale Netzwerk hin-

(3)

3 zu. Dies ist m¨oglich, indem man die TF2 Klasse f¨ur den Netzwerkoutput nutzt.

Warum ist eine Fisher-Diskriminante in diesem Fall ungeeignet f¨ur die Klassifikation?

Fisher discriminant method:

Given is a set of events ~x(1) and ~x(2) of class 1 and class 2, respectively. The covariance matrix of class j is estimated by

Vkm(j) = 1 N

X

N

(x(j)m −x¯(j)m)(x(j)k −x¯(j)k )

with ¯~x being the mean value and N the number of events. Then the Fisher discriminant value for a measurement ~x is defined as:

t =

n

X

i=1

fixi− 1 2

n

X

i=1

fi(¯x(1)i + ¯x(2)i ) with

fi =X

k

(V−1)ik(¯x(1)k −x¯(2)k ) and Vmk = 1 2

Vmk(1)+Vmk(2) Heren is the dimension of the measurement vector.

Referenzen

ÄHNLICHE DOKUMENTE

The other files needed for this exercise are provided there as well: A root file containing the training data where it is known whether the customer paid, a root file containing

Take the variables which you used for the cut based approach in the last exercise and calculate the ratio of the probability density functions for good and bad customers P good

One way how to check, that the network is not overtrained is to split the training sample into N subsamples, training a Neural Network N times with N − 1 subsamples and applying

Zeigen Sie, dass das Vollst¨andigkeitsaxiom f¨ ur Q

Haben wir eine Menge von n + 1 Planeten mit der Erde als Element dieser Menge, so greifen wir zwei verschiedene Teilmengen von jeweils n Planeten her- aus, welche beide die

(c) Zeigen Sie, dass die Vereinigungen abz¨ahlbar vieler abgeschlossener Mengen im Allgemei- nen nicht abgeschlossen ist und dass der Durchschnitt abz¨ahlbar vieler offener Mengen

Fachbereich Mathematik Prof.. Steffen

Beweisen Sie den Nachsatz erst, wenn Sie mit dem Rest des Blattes schon fertig sind, denn er wird f¨ ur das weitere nicht gebraucht und ist nur der Vollst¨andigkeit halber