Moderne Methoden der Datenanalyse WS 2010/11

(1)

1

Moderne Methoden der Datenanalyse WS 2010/11

Übungen Moderne Methoden der Datenanalyse WS 2010/11

Dr. Anze Zupanc

Tutoren: Bastian Kronenbitter, Markus Röhrken Donnerstags, 15.30 FE/6

http://www-ekp.physik.uni-karlsruhe.de/~zupanc/WS1011/

(2)

Ziele f(t|x) Beispiele Prinzip Funktion Konkurrenz Forschung Spiel

Idee NeuroBayes Hintergrund Historie Anwendung Beispiel Projekt l Projekt ll Ablauf A B

Start Idee NeuroBayes Summary A

Belle-Experiment am japanische Forschungszentrum KEK:

Sehr erfolgreiches Experiment, >400 Physiker aus aller Welt.

>400 Veröffentlichungen.

Beschleuniger hält Weltrekord an Luminosität.

Ca. 1 Milliarde Ereignisse mit 2 B-Mesonen über 10 Jahre vermessen

Prof. Dr. M. Feindt Stibo Systems NEXT Keynote München 7.10.2010

Daten jetzt mit neuer Software (NeuroBayes) reanalysiert (1042 Zerfallsketten mit 71 neuronalen Netzwerken, Entspricht mehreren 100 Doktorarbeiten)

Effizienzsteigerung um +130% bei gleichem Untergrundlevel (entspricht ca. weiteren 10 Jahren Datennahme)

Untergrund

Signal (klassisches Verfahren) Signal

mit NeuroBayes

(3)

Flexibilität:

Arbeiten mit NeuroBayes erlaubt stufenlose Einstellung von Signalreinheit oder –Effizienz.

z.B. auch gleiche Signal-Effizienz:

Unterdrückung des Untergrundes um ca. Faktor 10!

Untergrund

(klassisches Verfahren)

Untergrund mit NeuroBayes

Signal

Erfolgreich

im Wettbewerb

mit anderen

Data-Mining-

Methoden

(4)

und 2010....

und 2009…

Ab 2009: neue Regeln: nur noch 2 Teams pro Universität

Aufgabe: Prognosen über den Buchumsatz von 8 Buchtiteln in 2500 Buchhandlungen. (Libri)

Siegerteam : Uni Karlsruhe II (Studenten von

Prof. Dr. M. Feindt, u.a. 2 Phi-T-Praktikanten) mit NeuroBayes®-Unterstützung

Aufgabe: Optimierung von individuellen Kundenbindungs- maßnahmen in Online-Shop. (Libri)

Siegerteam : KIT II (Studenten von Prof. Dr. M. Feindt, u.a. 2 Phi-T-Praktikanten)

mit NeuroBayes®-Unterstützung

Nach sehr vielen erfolgreichen Anwendungen in der Elementarteilchenphysik- Grundlagenforschung Potenzial von NeuroBayes® für die Wirtschaft erkannt.

High-Tech-Ausgründung aus

Elite-Universität Karlsruhe nutzt und optimiert NeuroBayes® für die Wirtschaft.

2000-2002 NeuroBayes®-Spezialisierung für die Wirtschaft in Universität Karlsruhe

2002: Phi-T GmbH gegründet

2008: Gemeinsame Gründung der 50-50 Projekt- und Vertriebstochter Phi-T products&services mit dem OTTO-Konzern.

Exklusivrechte an und Weiterentwicklung und Anwendungen von NeuroBayes®.

>35 Mitarbeiter, hauptsächlich promovierte Physiker.

Historie

(5)

9

Rechnernutzung in der Physik

Statistische Methoden der Datenanalyse

• Einführung

• Wahrscheinlichkeit

• diskrete und kontinuierliche Verteilungen

• Beispiele

Statistische Methoden der Datenanalyse

Literatur

V. Blobel, E. Lohrmann

Statistische und numerische Methoden der Datenanalyse, Teubner, Stuttgart 1998

G. Cowan

Statistical Data Analysis, Clarendon, Oxford, 1998 R.J. Barlow

Statistics, Wiley1989 D.S. Sivia

Data Analysis – A Bayesian Tutorial, Clarendon, Oxford 1996 +viele mehr, z.B. Brandt-Dahmen, Datenanaylse (recht mathematisch)

(6)

11

Statistik: Einführung

Bei einfachen klassischen physikalischen Prozessen ist das Ergebnis exakt vorhersagbar

(eine Ursache erzeugt eine eindeutige Wirkung, Determinismus) Beispiele hierfür sind:

Pendel, Planetenbahnen, Billard, Elektromagnetismus…

Vorhersehbar

12

Zufall

Rein zufällige Ereignisse sind prinzipiell nicht vorhersagbar (auch bei genauer Kenntnis der Ausgangssituation!)

Beispiele hierfür sind:

• Lottozahlen (Zu viele Einflussgrößen, determi- nistisches Chaos)

• radioaktiver Zerfall (Quantenmechanik)

• Elektronisches Rauschen

• Meßfehler

(7)

13

Wahrscheinlichkeit

Viele Systeme: Mischung aus

vorhersagbarer Komponente und Zufallskomponente.

! Wahrscheinlichkeitsaussage, Statistik.

Extraktion der vorhersagbaren Komponente

Bestimmung von Modell-Parametern aus Messdaten

OPAL Experiment am LEP

Quantenmechanik:

Jedes Mal passiert etwas anderes!

(8)

15

Experiment: Messe Häufigkeitsverteilungen

16

Statistik: Wahrscheinlichkeit

Definition Wahrscheinlichkeit

Frequentist-Wahrscheinlichkeit = ,,objektive´´ Definition für beliebig wiederholbare Ereignisse oder bei

Vohandensein von Symmetrien anwendbar

Bayes-Wahrscheinlichkeit = ,,subjektive´´ Definition auch für einmalige Ereignisse anwendbar

Streit der Schulen zwischen Frequentisten und Bayesianern

(9)

17

Definition Wahrscheinlichkeit 2

Frequentist-Definition von Wahrscheinlichkeit Kombinatorische Definition:

Wenn ein Ereignis in n verschiedenen Arten auftreten kann, die alle gleiche

Wahrscheinlichkeit haben, und wenn k Ereignisse davon die Eigenschaft A aufweisen, ist die Wahrscheinlichkeit für A: P(A) = k/n

Empirische Definition:

Eine Beobachtung ist unter identischen Bedingungen unabhängig voneinander n mal wiederholt.

Wenn Eigenschaft A dabei k mal beobachtet wird, ist das Verhältnis k/n die empirische Wahrscheinlichkeit. Die Wahrscheinlichkeit P(A) wird definiert als der Grenzwert für unendlich viele Beobachtungen n.

Beide Definitionen können kritisiert werden:

Kombinatorisch: Schlange, die sich in den Schwanz beisst.

Empirisch: Grenzwert kann in der Praxis nie erreicht werden.

Viele Probleme: Experimente nicht wiederholbar

Definition Wahrscheinlichkeit 3

Formale Definition von Wahrscheinlichkeit: Kolmogorov-Axiome (1931) Betrachte Elementarereignisse ei

positiv additiv normiert

e

i

j

!"

(10)

19

A B

!"

Bedingte Wahrscheinlichkeit, dass A wahr ist, wenn B wahr ist.

A B

!"

A B

!"

Kombinationen von Wahrscheinlichkeiten

20

Reverend Thomas Bayes (1702 – 1761)

Essay Towards Solving a Problem in the Doctrine of Chances (1763), posthum veröffentlicht in

Philosophical Transactions of the Royal Society of London.

Wahrscheinlichkeit ist der Grad des Glaubens, dass ein Experiment ein bestimmtes Ergebnis haben wird.

-Subjektive Wahrscheinlichkeit- (erfüllt Kolmogorov-Axiome !)

(11)

21

Beispiele für Bayes-Wahrscheinlichkeit

Das Teilchen in diesem Ereignis ist ein Positron.

Die Natur ist supersymmetrisch.

Es wird morgen regnen.

Deutschland wird 2008 Fussball-Europameister.

Es hat am 8. März 1792 in Kairo geregnet.

Frequenz-Aussagen oft nicht möglich. Dann ist Bayes- Interpretation die einzig mögliche:

Wahrscheinlichkeit ist der Grad des Glaubens, dass eine Aussage zutrifft:

Oft kritisiert, weil ,,subjektiv‘‘ und ,,unwissenschaftlich‘‘. Beruht jedoch auf einfacher Wahrscheinlichkeitsrechnung und ist, richtig angewendet, nicht im Widerspruch zu Frequentist-Ansatz.

Statistik: Wahrscheinlichkeit, Bayes' Theorem

Wegen gilt:

Bayes’ Theorem:

Bedingte (conditional) Wahrscheinlichkeiten:

Bayes´ Theorem

(12)

23

Statistik: Wahrscheinlichkeit, Bayes' Theorem (2)

Besonders wichtig durch die Interpretation A=Theorie B=Daten

Posterior Evidenz

Likelihood Prior

24

Bsp: AIDS-Test

Wahrscheinlichkeit in allgemeiner Bevölkerung:

Ziemlich zuverlässiger AIDS-Test (Resultat + oder -):

a priori-Wissen

Messung, Likelihoods

Wie besorgt sollte man sein, wenn man ein positives Testresultat hat?

d.h. wie groß ist (die a posteriori-) Wahrscheinlichkeit P(AIDS|+)?

(13)

25

Statistik: Wahrscheinlichkeit, Bayes Theorem (4)

Bsp.: AIDS-Test (2)

Die Posterior-Wahrscheinlichkeit P(AIDS|+) beträgt nur 3,2%!

Warum? Wegen der kleinen Prior-Wahrscheinlichkeit von 0.01% und der nicht vernachlässigbaren Mißidentifikationswahrscheinlichkeit!

Vorsicht: Prior nicht richtig, wenn man zu einer Risikogruppe gehört!

Bayes’sche vs. klassische Statistik

Klassische Statistik ist nur Sonderfall der Bayes-Statistik:

Maximieren der Likelihood statt der a posteriori-Wahrscheinlichkeit

heisst:

Implizite Annahme, dass die Prior-Wahscheinlichkeit flach verteilt ist, d.h. jeder Wert ist gleich wahrscheinlich.

Hört sich vernünftig an, ist aber falsch!

Heisst nicht, dass man nichts weiss!

Posterior Evidenz

Likelihood Prior

(14)

27

Nicht-informativer Prior

28

Statistik: Zufallsgrößen

Diskrete Zufallszahlen

(15)

29

Wahrscheinlichkeitsdichte

Verteilungsfunktion

(16)

31

Erwartungswert und Varianz

32

Histogramme

Häufigkeitsverteilung:

Anzahl Ereignisse

in endlichen Intervallen (Bins)

PDF f(x) = Histogramm mit unendlicher Statistik, Binbreite Null,

normiert auf Fläche 1