Stochastische Prozesse und Naïve Bayes
Klassifikation
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
Sample Space
Definition 1.
Die Menge aller möglichen Ausgänge eines Zufallsexperiments nennt man Sample Space (Stichprobenraum, Ereignismenge)
Die einzelnen Elemente des Stichprobenraums.
Sample Spaces
Sample Space eines Münzwurfes:
S = {K, Z}
K
Z
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
Sample Spaces
Sample Space eines Würfelwurfs:
S = {1, 2, 3, 4, 5, 6}
Sample Spaces
Sample Space dreier Würfelwürfe, oder eines Wurfes mit drei Würfeln.
S = {111,112,113,…, …,664,665,666}
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
Sample Spaces
Sample Space des einmaligen Ziehens aus einem Kartenspiel:
S={Ac,Ah,Ap,Ak,2c,2h,2p,…
…,Kc,Kh,Kp,Kk}
Definition Beispiel
Der Sample Space ist die Menge aller möglichen Ergebnisse.
{Ac,Ah,Ap,Ak,2c,2h,2p,…
…,Kc,Kh,Kp,Kk}
Ein Ergebnis ist ein Element
des Sample Space. 2c
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
Ereignis
Definition 2.
Ein Ereignis ist eine Teilmenge des Sample Space.
Ereignis
Ereignis “König”
• Der Sample Space ist die Menge aller möglichen Ergebnisse.
• Ein Ergebnis ist ein möglicher Ausgang des Zufallsexperiments.
• Ein Ereignis ist eine Menge möglicher Ausgänge.
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
Ereignis
Ereignis: “Herz”
• Der Sample Space ist die Menge aller möglichen Ergebnisse.
• Ein Ergebnis ist ein möglicher Ausgang des Zufallsexperiments.
• Ein Ereignis ist eine Menge möglicher Ausgänge.
Ereignis
Event: “Rot und Bild”
Sample Space of card draw
• Der Sample Space ist die Menge aller möglichen Ergebnisse.
• Ein Ergebnis ist ein möglicher Ausgang des Zufallsexperiments.
• Ein Ereignis ist eine Menge möglicher Ausgänge.
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
Definitionen
Definition Example
Der Sample Space ist die Menge aller möglichen Ergebnisse.
{Ac,Ah,Ap,Ak,2c,2h,2p,…
…,Kc,Kh,Kp,Kk}
Ein Ergebnis ist ein Element des Sample Space.
2c
Ein Ereignis ist eine Teilmenge des Sample Space.
{2h,2c,2p,2k}
Kolmogorovs Axiome der Wahrscheinlichkeit
Axiome der Wahrscheinlichkeitstheorie:
=> A.N. Kolmogorov (1903-1987), 1933, Springer-Verlag, Heidelberg
(Quelle: http://de.wikipedia.org/wiki/Bild:Kolm_lect_prep.jpg)
Axiom 1:
0 P(A) 1
Axiom 2:
P(Tautologie) = 1 P(Kontradiktion) = 0
Axiom 3:
P(A B) =
P(A) + P(B) - P(A B)
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
• Die Größe, relative Anzahl, des Ereignisses gibt die Wahrscheinlichkeit an.
• Dies ist nicht aus den Axiomen folgerbar.
• Andersherum liefert es aber ein mit den Axiomen verträgliches System.
A
~A
Häufiges Missverständnis
Bedingte Wahrscheinlichkeit
G
Ereignis: Gesteigerter Hunger
P(G) = 0.02
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
Bedingte Wahrscheinlichkeit
Ereignis: Kolossaler Bierkonsum
P(K) = 0.10
K G
Bedingte Wahrscheinlichkeit
P(G) = 0.02 P(K) = 0.10
P(K|G) : Wahrscheinlichkeit Kolossal viel Bier getrunken zu haben, wenn man gesteigerten Hunger hat.
K G
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
K
Bedingte Wahrscheinlichkeit
G
P(G) = 0.02 P(K) = 0.10 P(K|G) = 0.50
0.01 0.01 0.89
0.09
K = “Bier”
G = “Hunger”
Bedingte Wahrscheinlichkeit
Definition.
Für zwei Ereignisse A und B ist die Bedingte Wahrscheinlichkeit definiert als:
) (
) , ) (
|
( P B
B A B P
A
P
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
Inference
P(K) = 0.10 P(G) = 0.02 P(K|G) = 0.50
Ich habe kolossal viel Bier getrunken, habe ich jetzt also mit 50 % Wahrscheinlichkeit gesteigerten Hunger?
K G
Inference
) (
) ,
) (
|
( P G
K G K P
G
P ( )
) ( )
| (
K P
G P G K
P
H F
10 . 1 0
. 0
) 02 . 0 ( ) 50 . 0 (
P(K) = 0.10 P(G) = 0.02 P(K|G) = 0.50
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
Bayes’sche Regel
P(A,B) P(A|B) P(B) P(B|A) = --- = --- P(A) P(A)
Bayes, Thomas (1763) An essay
towards solving a problem in the doctrine of chances. Philosophical Transactions of the Royal Society of London, 53:370- 418
Allgemeinere Form der Bayes Regel
nA
k
k k
i i i
A P
A B
P
A P
A B
B P A
P
1
) (
)
| (
) (
)
| ) (
|
(
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
Unabhängigkeit
Definition.
Zwei Ereignisse sind unabhängig (absolut unabhängig), wenn
gilt.
) ( ) ( )
,
( A B P A P B
P
1. Wahrheitstafel mit allen
möglichen Ausgängen (bei n Boolschen Variablen sind das 2n Zeilen).
2. Für jede Kombination kann/muss man die
Wahrscheinlichkeit angeben.
3. Um eine Wahrscheinlichkeits- verteilung zu haben, muss die Summe 1 ergeben.
A B C Prob
0 0 0 0.30
0 0 1 0.05
0 1 0 0.10
0 1 1 0.05
1 0 0 0.05
1 0 1 0.10
1 1 0 0.25
1 1 1 0.10
A
B
0.05 C
0.25
0.10 0.05 0.05
0.10
0.10 0.30
The Joint Probability Table
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
Bayes’sche Netze in 3 Minuten!
Bayes Nets
• What are they?
• Bayesian nets are a framework for representing and analyzing models involving uncertainty
• What are they used for?
• Intelligent decision aids, data fusion, 3-E feature recognition, intelligent diagnostic aids, automated free text understanding, data mining
• How are they different from other knowledge representation and probabilistic analysis
tools?
• Uncertainty is handled in a mathematically rigorous yet efficient and simple way
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
A Simple Bayes Net
• Let’s assume that we already have P(Mpg,Horse)
How would you rewrite this using the Chain rule?
0.48 0.12
bad
0.04 0.36
good
hig h
P(good, low) = 0.36 low
P(good,high) = 0.04 P( bad, low) = 0.12 P( bad,high) = 0.48
P(Mpg, Horse) =
Review: Chain Rule
0.48 0.12
bad
0.04 0.36
good
hig h low
P(Mpg, Horse)
P(good, low) = 0.36 P(good,high) = 0.04 P( bad, low) = 0.12 P( bad,high) = 0.48
P(Mpg, Horse) P(good) = 0.4 P( bad) = 0.6
P( low|good) = 0.89 P( low| bad) = 0.21 P(high|good) = 0.11 P(high| bad) = 0.79
P(Mpg)
P(Horse|Mpg)
*
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
Review: Chain Rule
0.48 0.12
bad
0.04 0.36
good
hig h low
P(Mpg, Horse)
P(good, low) = 0.36 P(good,high) = 0.04 P( bad, low) = 0.12 P( bad,high) = 0.48
P(Mpg, Horse) P(good) = 0.4 P( bad) = 0.6
P( low|good) = 0.89 P( low| bad) = 0.21 P(high|good) = 0.11 P(high| bad) = 0.79
P(Mpg)
P(Horse|Mpg)
*
= P(good) * P(low|good) = 0.4 * 0.89
= P(good) * P(high|good)
= 0.4 * 0.11
= P(bad) * P(low|bad)
= 0.6 * 0.21
= P(bad) * P(high|bad)
= 0.6 * 0.79
How to Make a Bayes Net
P(Mpg, Horse) = P(Mpg) * P(Horse | Mpg)
Mpg
Horse
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
How to Make a Bayes Net
P(Mpg, Horse) = P(Mpg) * P(Horse | Mpg)
Mpg
Horse
P(good) = 0.4 P( bad) = 0.6
P(Mpg)
P( low|good) = 0.90 P( low| bad) = 0.21 P(high|good) = 0.10 P(high| bad) = 0.79
P(Horse|Mpg)
How to Make a Bayes Net
Mpg
Horse
P(good) = 0.4 P( bad) = 0.6
P(Mpg)
P( low|good) = 0.90 P( low| bad) = 0.21 P(high|good) = 0.10 P(high| bad) = 0.79
P(Horse|Mpg)
• Each node is a probability function
• Each arc denotes conditional dependence
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
How to Make a Bayes Net
So, what have we
accomplished thus far?
Nothing;
we’ve just “Bayes Net-ified” the P(Mpg, Horse) JPT using the Chain rule.
…the real excitement starts when we wield conditional independence
Mpg
Horse
P(Mpg)
P(Horse|Mpg)
Der Naïve Bayes Klassifikator
Annahme: Alle Attribute sind unabhängig.
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
Anstatt ein kompliziertes
Bayes’sches Netz aufzubauen, mit vielen möglichen
Parametern
Haben wir ein einfaches Netz mit wenigen Parametern.
Der Vorteil
Wahrscheinlichkeiten in Naïve Bayes
P(Mpg |Cylinders,Weight,Maker,…)
= P(C,W,M,… |Mpg)P(Mpg)/ P(C,W,M,… )
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
Wahrscheinlichkeiten in Naïve Bayes
P(Mpg |Cylinders,Weight,Maker,…)
= P(C,W,M,… |Mpg)P(Mpg)/ P(C,W,M,… )
= P(C|Mpg)P(W|Mpg) …P(Mpg) / P(C,W,M,… )
i
i
class x
P class
P class
P ( , x ) ( ) ( | )
Wahrscheinlichkeiten in Naïve Bayes
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
Klassifikation mit Naïve Bayes
•Für eine Instanz x kann der Wert P(c,x) für alle Klassen c errechnet werden.
•Dann wird diejenige Klasse ausgewählt, die den maximalen Wert liefert.
•Das ist die sogenannte:
•maximum a posteriori probability (MAP)
Im Gegensatz dazu noch die Maximum Likelihood Estimation (MLE):
max P(x|c)
c
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
Lernen von Naïve Bayes
Trainingsdaten werden genutzt um Wahrscheinlichkeiten aus den relativen Häufigkeiten abzuleiten.
Rel. Häufigkeit = Wahrscheinlichkeit
Bei kontinuierlichen Daten können Intervalle verwendet werden oder man nimmt eine Normalverteilung an.
Mit Mittelwert l und Standardabweichung r.
[1]
[1]
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011
Lernen von Naïve Bayes
Problem:
•Wenn ein Fall nicht in den Trainingsdaten vorkommt, dann ist die Wahrscheinlichkeit Null.
Lösung:
•Nicht bei Null sondern bei Eins beginnen zu zählen, oder alle Wahrscheinlichkeiten starten mit einem kleinen positiven Wert.
Naïve Bayes
•Funktioniert erstaunlich gut.
•Wird häufig als Referenz verwendet.
•Liefert schlechte Werte bei starken Abhängigkeiten der Attribute.
Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011