1
Moderne Methoden der Datenanalyse WS 2010/11
Übungen Moderne Methoden der Datenanalyse WS 2010/11
Dr. Anze Zupanc
Tutoren: Bastian Kronenbitter, Markus Röhrken Donnerstags, 15.30 FE/6
http://www-ekp.physik.uni-karlsruhe.de/~zupanc/WS1011/
Ziele f(t|x) Beispiele Prinzip Funktion Konkurrenz Forschung Spiel
Idee NeuroBayes Hintergrund Historie Anwendung Beispiel Projekt l Projekt ll Ablauf A B
Start Idee NeuroBayes Summary A
Belle-Experiment am japanische Forschungszentrum KEK:
Sehr erfolgreiches Experiment, >400 Physiker aus aller Welt.
>400 Veröffentlichungen.
Beschleuniger hält Weltrekord an Luminosität.
Ca. 1 Milliarde Ereignisse mit 2 B-Mesonen über 10 Jahre vermessen
Prof. Dr. M. Feindt Stibo Systems NEXT Keynote München 7.10.2010
Daten jetzt mit neuer Software (NeuroBayes) reanalysiert (1042 Zerfallsketten mit 71 neuronalen Netzwerken, Entspricht mehreren 100 Doktorarbeiten)
Effizienzsteigerung um +130% bei gleichem Untergrundlevel (entspricht ca. weiteren 10 Jahren Datennahme)
Untergrund
Signal (klassisches Verfahren) Signal
mit NeuroBayes
Flexibilität:
Arbeiten mit NeuroBayes erlaubt stufenlose Einstellung von Signalreinheit oder –Effizienz.
z.B. auch gleiche Signal-Effizienz:
Unterdrückung des Untergrundes um ca. Faktor 10!
Untergrund
(klassisches Verfahren)
Untergrund mit NeuroBayes
Signal
Erfolgreich
im Wettbewerb
mit anderen
Data-Mining-
Methoden
und 2010....
und 2009…
Ab 2009: neue Regeln: nur noch 2 Teams pro Universität
Aufgabe: Prognosen über den Buchumsatz von 8 Buchtiteln in 2500 Buchhandlungen. (Libri)
Siegerteam : Uni Karlsruhe II (Studenten von
Prof. Dr. M. Feindt, u.a. 2 Phi-T-Praktikanten) mit NeuroBayes®-Unterstützung
Aufgabe: Optimierung von individuellen Kundenbindungs- maßnahmen in Online-Shop. (Libri)
Siegerteam : KIT II (Studenten von Prof. Dr. M. Feindt, u.a. 2 Phi-T-Praktikanten)
mit NeuroBayes®-Unterstützung
Nach sehr vielen erfolgreichen Anwendungen in der Elementarteilchenphysik- Grundlagenforschung Potenzial von NeuroBayes® für die Wirtschaft erkannt.
High-Tech-Ausgründung aus
Elite-Universität Karlsruhe nutzt und optimiert NeuroBayes® für die Wirtschaft.
2000-2002 NeuroBayes®-Spezialisierung für die Wirtschaft in Universität Karlsruhe
2002: Phi-T GmbH gegründet
2008: Gemeinsame Gründung der 50-50 Projekt- und Vertriebstochter Phi-T products&services mit dem OTTO-Konzern.
Exklusivrechte an und Weiterentwicklung und Anwendungen von NeuroBayes®.
>35 Mitarbeiter, hauptsächlich promovierte Physiker.
Historie
9
Rechnernutzung in der Physik
Statistische Methoden der Datenanalyse
• Einführung
• Wahrscheinlichkeit
• diskrete und kontinuierliche Verteilungen
• Beispiele
Statistische Methoden der Datenanalyse
Literatur
V. Blobel, E. Lohrmann
Statistische und numerische Methoden der Datenanalyse, Teubner, Stuttgart 1998
G. Cowan
Statistical Data Analysis, Clarendon, Oxford, 1998 R.J. Barlow
Statistics, Wiley1989 D.S. Sivia
Data Analysis – A Bayesian Tutorial, Clarendon, Oxford 1996 +viele mehr, z.B. Brandt-Dahmen, Datenanaylse (recht mathematisch)
11
Statistik: Einführung
Bei einfachen klassischen physikalischen Prozessen ist das Ergebnis exakt vorhersagbar
(eine Ursache erzeugt eine eindeutige Wirkung, Determinismus) Beispiele hierfür sind:
Pendel, Planetenbahnen, Billard, Elektromagnetismus…
Vorhersehbar
12
Statistik: Einführung
Zufall
Rein zufällige Ereignisse sind prinzipiell nicht vorhersagbar (auch bei genauer Kenntnis der Ausgangssituation!)
Beispiele hierfür sind:
• Lottozahlen (Zu viele Einflussgrößen, determi- nistisches Chaos)
• radioaktiver Zerfall (Quantenmechanik)
• Elektronisches Rauschen
• Meßfehler
13
Statistik: Einführung
Wahrscheinlichkeit
Viele Systeme: Mischung aus
vorhersagbarer Komponente und Zufallskomponente.
! Wahrscheinlichkeitsaussage, Statistik.
Extraktion der vorhersagbaren Komponente
Bestimmung von Modell-Parametern aus Messdaten
Statistik: Einführung
OPAL Experiment am LEP
Quantenmechanik:
Jedes Mal passiert etwas anderes!
15
Statistik: Einführung
Experiment: Messe Häufigkeitsverteilungen
16
Statistik: Wahrscheinlichkeit
Definition Wahrscheinlichkeit
Frequentist-Wahrscheinlichkeit = ,,objektive´´ Definition für beliebig wiederholbare Ereignisse oder bei
Vohandensein von Symmetrien anwendbar
Bayes-Wahrscheinlichkeit = ,,subjektive´´ Definition auch für einmalige Ereignisse anwendbar
Streit der Schulen zwischen Frequentisten und Bayesianern
17
Statistik: Wahrscheinlichkeit
Definition Wahrscheinlichkeit 2
Frequentist-Definition von Wahrscheinlichkeit Kombinatorische Definition:
Wenn ein Ereignis in n verschiedenen Arten auftreten kann, die alle gleiche
Wahrscheinlichkeit haben, und wenn k Ereignisse davon die Eigenschaft A aufweisen, ist die Wahrscheinlichkeit für A: P(A) = k/n
Empirische Definition:
Eine Beobachtung ist unter identischen Bedingungen unabhängig voneinander n mal wiederholt.
Wenn Eigenschaft A dabei k mal beobachtet wird, ist das Verhältnis k/n die empirische Wahrscheinlichkeit. Die Wahrscheinlichkeit P(A) wird definiert als der Grenzwert für unendlich viele Beobachtungen n.
Beide Definitionen können kritisiert werden:
Kombinatorisch: Schlange, die sich in den Schwanz beisst.
Empirisch: Grenzwert kann in der Praxis nie erreicht werden.
Viele Probleme: Experimente nicht wiederholbar
Statistik: Wahrscheinlichkeit
Definition Wahrscheinlichkeit 3
Formale Definition von Wahrscheinlichkeit: Kolmogorov-Axiome (1931) Betrachte Elementarereignisse ei
positiv additiv normiert
e
e
i
j
!"
19
Statistik: Wahrscheinlichkeit
A B
!"
Bedingte Wahrscheinlichkeit, dass A wahr ist, wenn B wahr ist.
A B
!"
Bedingte Wahrscheinlichkeit, dass A wahr ist, wenn B wahr ist.
A B
!"
Bedingte Wahrscheinlichkeit, dass A wahr ist, wenn B wahr ist.
Kombinationen von Wahrscheinlichkeiten
20
Statistik: Wahrscheinlichkeit
Reverend Thomas Bayes (1702 – 1761)
Essay Towards Solving a Problem in the Doctrine of Chances (1763), posthum veröffentlicht in
Philosophical Transactions of the Royal Society of London.
Wahrscheinlichkeit ist der Grad des Glaubens, dass ein Experiment ein bestimmtes Ergebnis haben wird.
-Subjektive Wahrscheinlichkeit- (erfüllt Kolmogorov-Axiome !)
21
Statistik: Wahrscheinlichkeit
Beispiele für Bayes-Wahrscheinlichkeit
Das Teilchen in diesem Ereignis ist ein Positron.
Die Natur ist supersymmetrisch.
Es wird morgen regnen.
Deutschland wird 2008 Fussball-Europameister.
Es hat am 8. März 1792 in Kairo geregnet.
Frequenz-Aussagen oft nicht möglich. Dann ist Bayes- Interpretation die einzig mögliche:
Wahrscheinlichkeit ist der Grad des Glaubens, dass eine Aussage zutrifft:
Oft kritisiert, weil ,,subjektiv‘‘ und ,,unwissenschaftlich‘‘. Beruht jedoch auf einfacher Wahrscheinlichkeitsrechnung und ist, richtig angewendet, nicht im Widerspruch zu Frequentist-Ansatz.
Statistik: Wahrscheinlichkeit, Bayes' Theorem
Wegen gilt:
Bayes’ Theorem:
Bedingte (conditional) Wahrscheinlichkeiten:
Bayes´ Theorem
23
Statistik: Wahrscheinlichkeit, Bayes' Theorem (2)
Besonders wichtig durch die Interpretation A=Theorie B=Daten
Posterior Evidenz
Likelihood Prior
24
Statistik: Wahrscheinlichkeit, Bayes' Theorem (3)
Bsp: AIDS-Test
Wahrscheinlichkeit in allgemeiner Bevölkerung:
Ziemlich zuverlässiger AIDS-Test (Resultat + oder -):
a priori-Wissen
Messung, Likelihoods
Wie besorgt sollte man sein, wenn man ein positives Testresultat hat?
d.h. wie groß ist (die a posteriori-) Wahrscheinlichkeit P(AIDS|+)?
25
Statistik: Wahrscheinlichkeit, Bayes Theorem (4)
Bsp.: AIDS-Test (2)
Die Posterior-Wahrscheinlichkeit P(AIDS|+) beträgt nur 3,2%!
Warum? Wegen der kleinen Prior-Wahrscheinlichkeit von 0.01% und der nicht vernachlässigbaren Mißidentifikationswahrscheinlichkeit!
Vorsicht: Prior nicht richtig, wenn man zu einer Risikogruppe gehört!
Statistik: Wahrscheinlichkeit, Bayes' Theorem (5)
Bayes’sche vs. klassische Statistik
Klassische Statistik ist nur Sonderfall der Bayes-Statistik:
Maximieren der Likelihood statt der a posteriori-Wahrscheinlichkeit
heisst:
Implizite Annahme, dass die Prior-Wahscheinlichkeit flach verteilt ist, d.h. jeder Wert ist gleich wahrscheinlich.
Hört sich vernünftig an, ist aber falsch!
Heisst nicht, dass man nichts weiss!
Posterior Evidenz
Likelihood Prior
27
Statistik: Wahrscheinlichkeit, Bayes' Theorem (6)
Nicht-informativer Prior
28
Statistik: Zufallsgrößen
Diskrete Zufallszahlen
29
Statistik: Zufallsgrößen
Wahrscheinlichkeitsdichte
Statistik: Zufallsgrößen
Verteilungsfunktion
31
Statistik: Zufallsgrößen
Erwartungswert und Varianz
32
Statistik: Zufallsgrößen
Histogramme
Häufigkeitsverteilung:
Anzahl Ereignisse
in endlichen Intervallen (Bins)
PDF f(x) = Histogramm mit unendlicher Statistik, Binbreite Null,
normiert auf Fläche 1