Stochastische Prozesse und Naïve Bayes Klassifikation

(1)

Stochastische Prozesse und Naïve Bayes

Klassifikation

(2)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

Sample Space

Definition 1.

Die Menge aller möglichen Ausgänge eines Zufallsexperiments nennt man Sample Space (Stichprobenraum, Ereignismenge)

Die einzelnen Elemente des Stichprobenraums.

(3)

Sample Spaces

Sample Space eines Münzwurfes:

S = {K, Z}

K

Z

(4)

Sample Spaces

Sample Space eines Würfelwurfs:

S = {1, 2, 3, 4, 5, 6}

(5)

Sample Spaces

Sample Space dreier Würfelwürfe, oder eines Wurfes mit drei Würfeln.

S = {111,112,113,…, …,664,665,666}

(6)

Sample Spaces

Sample Space des einmaligen Ziehens aus einem Kartenspiel:

S={Ac,Ah,Ap,Ak,2c,2h,2p,…

…,Kc,Kh,Kp,Kk}

(7)

Definition Beispiel

Der Sample Space ist die Menge aller möglichen Ergebnisse.

{Ac,Ah,Ap,Ak,2c,2h,2p,…

…,Kc,Kh,Kp,Kk}

Ein Ergebnis ist ein Element

des Sample Space. 2c

(8)

Ereignis

Definition 2.

Ein Ereignis ist eine Teilmenge des Sample Space.

(9)

Ereignis

Ereignis “König”

• Der Sample Space ist die Menge aller möglichen Ergebnisse.

• Ein Ergebnis ist ein möglicher Ausgang des Zufallsexperiments.

• Ein Ereignis ist eine Menge möglicher Ausgänge.

(10)

Ereignis

Ereignis: “Herz”

(11)

Ereignis

Event: “Rot und Bild”

Sample Space of card draw

(12)

Definitionen

Definition Example

Der Sample Space ist die Menge aller möglichen Ergebnisse.

{Ac,Ah,Ap,Ak,2c,2h,2p,…

…,Kc,Kh,Kp,Kk}

Ein Ergebnis ist ein Element des Sample Space.

2c

Ein Ereignis ist eine Teilmenge des Sample Space.

{2h,2c,2p,2k}

(13)

Kolmogorovs Axiome der Wahrscheinlichkeit

Axiome der Wahrscheinlichkeitstheorie:

=> A.N. Kolmogorov (1903-1987), 1933, Springer-Verlag, Heidelberg

(Quelle: http://de.wikipedia.org/wiki/Bild:Kolm_lect_prep.jpg)

Axiom 1:

0  P(A)  1

Axiom 2:

P(Tautologie) = 1 P(Kontradiktion) = 0

Axiom 3:

P(A  B) =

P(A) + P(B) - P(A  B)

(14)

• Die Größe, relative Anzahl, des Ereignisses gibt die Wahrscheinlichkeit an.

• Dies ist nicht aus den Axiomen folgerbar.

• Andersherum liefert es aber ein mit den Axiomen verträgliches System.

A

~A

Häufiges Missverständnis

(15)

Bedingte Wahrscheinlichkeit

G

Ereignis: Gesteigerter Hunger

P(G) = 0.02

(16)

Bedingte Wahrscheinlichkeit

Ereignis: Kolossaler Bierkonsum

P(K) = 0.10

K G

(17)

Bedingte Wahrscheinlichkeit

P(G) = 0.02 P(K) = 0.10

P(K|G) : Wahrscheinlichkeit Kolossal viel Bier getrunken zu haben, wenn man gesteigerten Hunger hat.

K G

(18)

K

Bedingte Wahrscheinlichkeit

G

P(G) = 0.02 P(K) = 0.10 P(K|G) = 0.50

0.01 0.01 0.89

0.09

K = “Bier”

G = “Hunger”

(19)

Bedingte Wahrscheinlichkeit

Definition.

Für zwei Ereignisse A und B ist die Bedingte Wahrscheinlichkeit definiert als:

) (

) , ) (

|

( P B

B A B P

A

P

(20)

Inference

P(K) = 0.10 P(G) = 0.02 P(K|G) = 0.50

Ich habe kolossal viel Bier getrunken, habe ich jetzt also mit 50 % Wahrscheinlichkeit gesteigerten Hunger?

K G

(21)

Inference

) (

) ,

) (

|

( P G

K G K P

G

P ( )

) ( )

| (

K P

G P G K

P

H F

10 . 1 0

. 0

) 02 . 0 ( ) 50 . 0 (

P(K) = 0.10 P(G) = 0.02 P(K|G) = 0.50

(22)

Bayes’sche Regel

P(A,B) P(A|B) P(B) P(B|A) = --- = --- P(A) P(A)

Bayes, Thomas (1763) An essay

towards solving a problem in the doctrine of chances. Philosophical Transactions of the Royal Society of London, 53:370- 418

(23)

Allgemeinere Form der Bayes Regel

nA

k

k k

i i i

A P

A B

P

A P

A B

B P A

P

1

) (

)

| (

) (

)

| ) (

|

(

(24)

Unabhängigkeit

Definition.

Zwei Ereignisse sind unabhängig (absolut unabhängig), wenn

gilt.

) ( ) ( )

,

( A B P A P B

P

(25)

1. Wahrheitstafel mit allen

möglichen Ausgängen (bei n Boolschen Variablen sind das 2ⁿ Zeilen).

2. Für jede Kombination kann/muss man die

Wahrscheinlichkeit angeben.

3. Um eine Wahrscheinlichkeits- verteilung zu haben, muss die Summe 1 ergeben.

A B C Prob

0 0 0 0.30

0 0 1 0.05

0 1 0 0.10

0 1 1 0.05

1 0 0 0.05

1 0 1 0.10

1 1 0 0.25

1 1 1 0.10

A

B

0.05 C

0.25

0.10 0.05 0.05

0.10

0.10 0.30

The Joint Probability Table

(26)

Bayes’sche Netze in 3 Minuten!

(27)

Bayes Nets

• What are they?

• Bayesian nets are a framework for representing and analyzing models involving uncertainty

• What are they used for?

• Intelligent decision aids, data fusion, 3-E feature recognition, intelligent diagnostic aids, automated free text understanding, data mining

• How are they different from other knowledge representation and probabilistic analysis

tools?

• Uncertainty is handled in a mathematically rigorous yet efficient and simple way

(28)

A Simple Bayes Net

• Let’s assume that we already have P(Mpg,Horse)

How would you rewrite this using the Chain rule?

0.48 0.12

bad

0.04 0.36

good

hig h

P(good, low) = 0.36 low

P(good,high) = 0.04 P( bad, low) = 0.12 P( bad,high) = 0.48

P(Mpg, Horse) =

(29)

Review: Chain Rule

0.48 0.12

bad

0.04 0.36

good

hig h low

P(Mpg, Horse)

P(good, low) = 0.36 P(good,high) = 0.04 P( bad, low) = 0.12 P( bad,high) = 0.48

P(Mpg, Horse) P(good) = 0.4 P( bad) = 0.6

P( low|good) = 0.89 P( low| bad) = 0.21 P(high|good) = 0.11 P(high| bad) = 0.79

P(Mpg)

P(Horse|Mpg)

*

(30)

Review: Chain Rule

0.48 0.12

bad

0.04 0.36

good

hig h low

P(Mpg, Horse)

P(good, low) = 0.36 P(good,high) = 0.04 P( bad, low) = 0.12 P( bad,high) = 0.48

P(Mpg, Horse) P(good) = 0.4 P( bad) = 0.6

P(Mpg)

P(Horse|Mpg)

*

= P(good) * P(low|good) = 0.4 * 0.89

= P(good) * P(high|good)

= 0.4 * 0.11

= P(bad) * P(low|bad)

= 0.6 * 0.21

= P(bad) * P(high|bad)

= 0.6 * 0.79

(31)

How to Make a Bayes Net

P(Mpg, Horse) = P(Mpg) * P(Horse | Mpg)

Mpg

Horse

(32)

How to Make a Bayes Net

P(Mpg, Horse) = P(Mpg) * P(Horse | Mpg)

Mpg

Horse

P(good) = 0.4 P( bad) = 0.6

P(Mpg)

P(Horse|Mpg)

(33)

How to Make a Bayes Net

Mpg

Horse

P(good) = 0.4 P( bad) = 0.6

P(Mpg)

P(Horse|Mpg)

• Each node is a probability function

• Each arc denotes conditional dependence

(34)

How to Make a Bayes Net

So, what have we

accomplished thus far?

Nothing;

we’ve just “Bayes Net-ified” the P(Mpg, Horse) JPT using the Chain rule.

…the real excitement starts when we wield conditional independence

Mpg

Horse

P(Mpg)

P(Horse|Mpg)

(35)

Der Naïve Bayes Klassifikator

Annahme: Alle Attribute sind unabhängig.

(36)

Anstatt ein kompliziertes

Bayes’sches Netz aufzubauen, mit vielen möglichen

Parametern

Haben wir ein einfaches Netz mit wenigen Parametern.

Der Vorteil

(37)

Wahrscheinlichkeiten in Naïve Bayes

P(Mpg |Cylinders,Weight,Maker,…)

= P(C,W,M,… |Mpg)P(Mpg)/ P(C,W,M,… )

(38)

Wahrscheinlichkeiten in Naïve Bayes

P(Mpg |Cylinders,Weight,Maker,…)

= P(C,W,M,… |Mpg)P(Mpg)/ P(C,W,M,… )

= P(C|Mpg)P(W|Mpg) …P(Mpg) / P(C,W,M,… )

(39)

i

class x

P class

P ( , x ) ( ) ( | )

Wahrscheinlichkeiten in Naïve Bayes

(40)

Klassifikation mit Naïve Bayes

•Für eine Instanz x kann der Wert P(c,x) für alle Klassen c errechnet werden.

•Dann wird diejenige Klasse ausgewählt, die den maximalen Wert liefert.

•Das ist die sogenannte:

•maximum a posteriori probability (MAP)

Im Gegensatz dazu noch die Maximum Likelihood Estimation (MLE):

max P(x|c)

c

(41)

Lernen von Naïve Bayes

Trainingsdaten werden genutzt um Wahrscheinlichkeiten aus den relativen Häufigkeiten abzuleiten.

Rel. Häufigkeit = Wahrscheinlichkeit

Bei kontinuierlichen Daten können Intervalle verwendet werden oder man nimmt eine Normalverteilung an.

Mit Mittelwert l und Standardabweichung r.

^[1]

(42)

Lernen von Naïve Bayes

Problem:

•Wenn ein Fall nicht in den Trainingsdaten vorkommt, dann ist die Wahrscheinlichkeit Null.

Lösung:

•Nicht bei Null sondern bei Eins beginnen zu zählen, oder alle Wahrscheinlichkeiten starten mit einem kleinen positiven Wert.

(43)

Naïve Bayes

•Funktioniert erstaunlich gut.

•Wird häufig als Referenz verwendet.

•Liefert schlechte Werte bei starken Abhängigkeiten der Attribute.

(44)