ComputerübungzurVorlesungModerneMethodenderDatenanalyseExercise6:HypothesisTestingandClassification Institutf”urexperimentelleKernphysik FakultätfürPhysik

(1)

Fakult¨ at f¨ ur Physik

Institut f ”ur experimentelle Kernphysik

Prof. Dr. G. Quast, Prof. Dr. M. Feindt, Dr. A. Zupanc

“Ubungsgruppen: G. Sieber, B. Kronenbitter, A. Heller Ausgabe: 14.06.2012 Bearbeitung bis 28.06.2012

Computer¨ ubung zur Vorlesung Moderne Methoden der Datenanalyse Exercise 6: Hypothesis Testing and Classification

“Is this a new discovery or just a statistical fluctuation?” Statistics offers some methods to give a quantitative answer.

But these methods should not be used blindly. In particular one should know exactly what the obtained numbers mean and what they don’t mean.

• Exercise 6.1:

The following table shows the number of winners in a horse race for different track numbers:

track 1 2 3 4 5 6 7 8

#winners 29 19 18 25 17 10 15 11

Test the hypothesis that the track number has no influence on the chance to win with a χ² test. Define a confidence level, e.g. of 95 % or 99 %,before you do the test.

• Exercise 6.2:

Ein Detektor an einem e⁺e⁻ Beschleuniger misst die Flugzeit t, die Teilchen vom Wechsel- wirkungspunkt bis an den äußeren Rand der Spurdetektoren brauchen. Diese Messung wird für die Unterscheidung von Pionen (π) und Kaonen (K) genutzt. Die Unsicherheit auf die Flugzeitmessung enspricht in etwa einer Gauß’schen Verteilung. Für Kaonen sei die Flugzeit typischerweise 3,5 ns und die Unsicherheit etwa 300 ps, für Pionen sei die Flugzeit etwa 3,0 ns und die Unsicherheit 200 ps. [Extrafrage: Warum brauchen die Kaonen länger?]

Simuliere eine große Zahl von Flugzeitmessungen f¨ur Pionen und Kaonen zu gleichen Teilen und plotte die Verteilung. Man kann die Messungen als zu Pionen oder Kaonen geh¨orend klassifizieren, indem man auf die Flugzeit bei tc schneidet. Da man meist daran interessiert ist Kaonen anzureichern, definieren wir die Kaonen als Signal und die Pionen als Untergrund.

Plotte nun die Signifikanz α, die Trennungskraft (power; wie in der Vorlesung definiert) β, sowie die Signaleffizienz ǫ, die Signalreinheit p und den Anteil aller falsch klassifizierten Messungen als Funktion des Schnittwertes tc.

Plotte auch die Reinheit gegen die Effizienz.

In der Realit¨at produzieren Teilchenkollisionen etwas 5 mal mehr Pionen pro Ereignis als Kaonen.

Simuliere erneut mit den ver¨anderten Bedingungen und plotte die gleichen Gr¨oßen wie zuvor.

(2)

2

• Exercise 6.3:

Um die Teilchenidentifikation weiter zu verbessern, wird auch noch eine Messung der depo- nierten Energie pro Wegstrecke im Spurdetektor hinzugefügt (dE/dx). Obwohl die Einzel- messungen in den Zellen der Driftkammer eher Landauverteilungen gleich kommen, bekommt man, wenn man die 20% größten Messungen wegwirft und den Mittelwert der restlichen Zellen nimmt, für dasdE/dxder gesamten Spur näherungsweise wieder eine Gauß’sche Ver- teilung.

( Extrafrage: Warum muss man überhaupt Zellen ignorieren, sollte der zentrale Grenzwert- satz nicht sicherstellen, dass die Summe über die vielen Beiträge einzelner Zellen immer einer Gauß’schen Verteilung folgt? )

Für einen gegebenen Impuls einer Spur, seidE/dxin der Spurkammer im Mittel für Pionen 1,3 MeV/m und für Kaonen 1,6 MeV/m. Die Unsicherheit auf die Messung betrage jeweils 0.1 MeV/m.

Jeder Spur kann nun ein Messpaar (t, dE/dx) zugeordnet werden.

Simuliere nun wiederum Messungen von Kaonenspuren und Pionspuren. Um eine klarere Interpretation zu erhalten, w¨ahle erneut eine gleiche Zahl von Pion und Kaonspuren.

Wende nun die Fisher-Diskriminantenmethode an um Pionen und Kaonen zu separieren.

Plotte den Wert der Fisher-Diskriminanten w f¨ur Kaonen und Pionen und w¨ahle einen Schnittwert.

Erzeuge einen zwei-dimensionalen Scatterplot der gemessenen Verteilungen und plotte Kaon und Pionereignisse in verschiedenen Farben, zusammen mit einer Linie, die dem Schnitt auf die Fisher-Diskriminante entspricht.

• Exercise 6.4:

Ein anderer, ähnlich aufgebauter Detektor steht an einem Hadronbeschleuniger. Dort werden auch eine erheblich grössere Zahl von Baryonen produziert, die häufig zu Protonen zerfallen.

Die Flugzeitmessung der Protonen hat einen Mittelwert von 4 ns und eine Unsicherheit von 300 ps, die dE/dxMessung hat einen Mittelwert von 1,8 MeV/m mit dergleichen Unsicher- heit wie die anderen Messungen.

Simuliere auch dieses Szenario. Am besten Du speicherst die Simulation in einem NTuple mit einer Flagge f¨ur die Natur des Ereignisses. Du kannst ein root File mit dem Kommando TFile* file = TFile::Open( ’data.root’, ’RECREATE’);

erzeugen. Mit

Ntuple* ntuple = new TNtuple(’ntuple’, ’kaons and non-kaons’, ’t:dEdx:Flagge’);

ein NTupe darin anlegen. Und es mit

ntuple → Fill(gRandom → Gaus(...), gRandom → Gaus(...), int );

f¨ullen. Schließlich mit ntuple → Write();

in die Datei schreiben.

Trainiere ein neuronales Netzwerk, um Kaonen anzureichern. Nutze die ROOT Klasse TMultiLayerPerceptron, die in ROOT verf¨ugbar ist, nachdem man die richtige Bibliothek geladen hat:

gSystem->Load(‘‘libMLP.so’’)

Plotte den Netzwerkoutput für Kaonen, und Pionen und Protonen zusammen. Erzeuge einen zwei-dimensionalen Scatterplot und füge einen Contourplot für das neuronale Netzwerk hin-

(3)

3 zu. Dies ist m¨oglich, indem man die TF2 Klasse f¨ur den Netzwerkoutput nutzt.

Warum ist eine Fisher-Diskriminante in diesem Fall ungeeignet f¨ur die Klassifikation?

Fisher discriminant method:

Given is a set of events ~x⁽¹⁾ and ~x⁽²⁾ of class 1 and class 2, respectively. The covariance matrix of class j is estimated by

V_km^(j) = 1 N

X

N

(x^(j)_m −x¯^(j)_m)(x^(j)_k −x¯^(j)_k )

with ¯~x being the mean value and N the number of events. Then the Fisher discriminant value for a measurement ~x is defined as:

t =

n

X

i=1

fixi− 1 2

n

X

i=1

fi(¯x⁽¹⁾_i + ¯x⁽²⁾_i ) with

fi =X

k

(V⁻¹)ik(¯x⁽¹⁾_k −x¯⁽²⁾_k ) and Vmk = 1 2

V_mk⁽¹⁾+V_mk⁽²⁾ Heren is the dimension of the measurement vector.