• Keine Ergebnisse gefunden

Stochastische Prozesse und Naïve Bayes Klassifikation

N/A
N/A
Protected

Academic year: 2021

Aktie "Stochastische Prozesse und Naïve Bayes Klassifikation"

Copied!
44
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Stochastische Prozesse und Naïve Bayes

Klassifikation

(2)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

Sample Space

Definition 1.

Die Menge aller möglichen Ausgänge eines Zufallsexperiments nennt man Sample Space (Stichprobenraum, Ereignismenge)

Die einzelnen Elemente des Stichprobenraums.

(3)

Sample Spaces

Sample Space eines Münzwurfes:

S = {K, Z}

K

Z

(4)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

Sample Spaces

Sample Space eines Würfelwurfs:

S = {1, 2, 3, 4, 5, 6}

(5)

Sample Spaces

Sample Space dreier Würfelwürfe, oder eines Wurfes mit drei Würfeln.

S = {111,112,113,…, …,664,665,666}

(6)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

Sample Spaces

Sample Space des einmaligen Ziehens aus einem Kartenspiel:

S={Ac,Ah,Ap,Ak,2c,2h,2p,…

…,Kc,Kh,Kp,Kk}

(7)

Definition Beispiel

Der Sample Space ist die Menge aller möglichen Ergebnisse.

{Ac,Ah,Ap,Ak,2c,2h,2p,…

…,Kc,Kh,Kp,Kk}

Ein Ergebnis ist ein Element

des Sample Space. 2c

(8)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

Ereignis

Definition 2.

Ein Ereignis ist eine Teilmenge des Sample Space.

(9)

Ereignis

Ereignis “König”

• Der Sample Space ist die Menge aller möglichen Ergebnisse.

• Ein Ergebnis ist ein möglicher Ausgang des Zufallsexperiments.

• Ein Ereignis ist eine Menge möglicher Ausgänge.

(10)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

Ereignis

Ereignis: “Herz”

• Der Sample Space ist die Menge aller möglichen Ergebnisse.

• Ein Ergebnis ist ein möglicher Ausgang des Zufallsexperiments.

• Ein Ereignis ist eine Menge möglicher Ausgänge.

(11)

Ereignis

Event: “Rot und Bild”

Sample Space of card draw

• Der Sample Space ist die Menge aller möglichen Ergebnisse.

• Ein Ergebnis ist ein möglicher Ausgang des Zufallsexperiments.

• Ein Ereignis ist eine Menge möglicher Ausgänge.

(12)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

Definitionen

Definition Example

Der Sample Space ist die Menge aller möglichen Ergebnisse.

{Ac,Ah,Ap,Ak,2c,2h,2p,…

…,Kc,Kh,Kp,Kk}

Ein Ergebnis ist ein Element des Sample Space.

2c

Ein Ereignis ist eine Teilmenge des Sample Space.

{2h,2c,2p,2k}

(13)

Kolmogorovs Axiome der Wahrscheinlichkeit

Axiome der Wahrscheinlichkeitstheorie:

=> A.N. Kolmogorov (1903-1987), 1933, Springer-Verlag, Heidelberg

(Quelle: http://de.wikipedia.org/wiki/Bild:Kolm_lect_prep.jpg)

Axiom 1:

0 P(A) 1

Axiom 2:

P(Tautologie) = 1 P(Kontradiktion) = 0

Axiom 3:

P(A B) =

P(A) + P(B) - P(A B)

(14)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

Die Größe, relative Anzahl, des Ereignisses gibt die Wahrscheinlichkeit an.

Dies ist nicht aus den Axiomen folgerbar.

Andersherum liefert es aber ein mit den Axiomen verträgliches System.

A

~A

Häufiges Missverständnis

(15)

Bedingte Wahrscheinlichkeit

G

Ereignis: Gesteigerter Hunger

P(G) = 0.02

(16)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

Bedingte Wahrscheinlichkeit

Ereignis: Kolossaler Bierkonsum

P(K) = 0.10

K G

(17)

Bedingte Wahrscheinlichkeit

P(G) = 0.02 P(K) = 0.10

P(K|G) : Wahrscheinlichkeit Kolossal viel Bier getrunken zu haben, wenn man gesteigerten Hunger hat.

K G

(18)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

K

Bedingte Wahrscheinlichkeit

G

P(G) = 0.02 P(K) = 0.10 P(K|G) = 0.50

0.01 0.01 0.89

0.09

K = “Bier”

G = “Hunger”

(19)

Bedingte Wahrscheinlichkeit

Definition.

Für zwei Ereignisse A und B ist die Bedingte Wahrscheinlichkeit definiert als:

) (

) , ) (

|

( P B

B A B P

A

P

(20)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

Inference

P(K) = 0.10 P(G) = 0.02 P(K|G) = 0.50

Ich habe kolossal viel Bier getrunken, habe ich jetzt also mit 50 % Wahrscheinlichkeit gesteigerten Hunger?

K G

(21)

Inference

) (

) ,

) (

|

( P G

K G K P

G

P ( )

) ( )

| (

K P

G P G K

P

H F

10 . 1 0

. 0

) 02 . 0 ( ) 50 . 0 (

P(K) = 0.10 P(G) = 0.02 P(K|G) = 0.50

(22)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

Bayes’sche Regel

P(A,B) P(A|B) P(B) P(B|A) = --- = --- P(A) P(A)

Bayes, Thomas (1763) An essay

towards solving a problem in the doctrine of chances. Philosophical Transactions of the Royal Society of London, 53:370- 418

(23)

Allgemeinere Form der Bayes Regel

nA

k

k k

i i i

A P

A B

P

A P

A B

B P A

P

1

) (

)

| (

) (

)

| ) (

|

(

(24)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

Unabhängigkeit

Definition.

Zwei Ereignisse sind unabhängig (absolut unabhängig), wenn

gilt.

) ( ) ( )

,

( A B P A P B

P

(25)

1. Wahrheitstafel mit allen

möglichen Ausgängen (bei n Boolschen Variablen sind das 2n Zeilen).

2. Für jede Kombination kann/muss man die

Wahrscheinlichkeit angeben.

3. Um eine Wahrscheinlichkeits- verteilung zu haben, muss die Summe 1 ergeben.

A B C Prob

0 0 0 0.30

0 0 1 0.05

0 1 0 0.10

0 1 1 0.05

1 0 0 0.05

1 0 1 0.10

1 1 0 0.25

1 1 1 0.10

A

B

0.05 C

0.25

0.10 0.05 0.05

0.10

0.10 0.30

The Joint Probability Table

(26)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

Bayes’sche Netze in 3 Minuten!

(27)

Bayes Nets

What are they?

• Bayesian nets are a framework for representing and analyzing models involving uncertainty

What are they used for?

• Intelligent decision aids, data fusion, 3-E feature recognition, intelligent diagnostic aids, automated free text understanding, data mining

How are they different from other knowledge representation and probabilistic analysis

tools?

• Uncertainty is handled in a mathematically rigorous yet efficient and simple way

(28)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

A Simple Bayes Net

• Let’s assume that we already have P(Mpg,Horse)

How would you rewrite this using the Chain rule?

0.48 0.12

bad

0.04 0.36

good

hig h

P(good, low) = 0.36 low

P(good,high) = 0.04 P( bad, low) = 0.12 P( bad,high) = 0.48

P(Mpg, Horse) =

(29)

Review: Chain Rule

0.48 0.12

bad

0.04 0.36

good

hig h low

P(Mpg, Horse)

P(good, low) = 0.36 P(good,high) = 0.04 P( bad, low) = 0.12 P( bad,high) = 0.48

P(Mpg, Horse) P(good) = 0.4 P( bad) = 0.6

P( low|good) = 0.89 P( low| bad) = 0.21 P(high|good) = 0.11 P(high| bad) = 0.79

P(Mpg)

P(Horse|Mpg)

*

(30)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

Review: Chain Rule

0.48 0.12

bad

0.04 0.36

good

hig h low

P(Mpg, Horse)

P(good, low) = 0.36 P(good,high) = 0.04 P( bad, low) = 0.12 P( bad,high) = 0.48

P(Mpg, Horse) P(good) = 0.4 P( bad) = 0.6

P( low|good) = 0.89 P( low| bad) = 0.21 P(high|good) = 0.11 P(high| bad) = 0.79

P(Mpg)

P(Horse|Mpg)

*

= P(good) * P(low|good) = 0.4 * 0.89

= P(good) * P(high|good)

= 0.4 * 0.11

= P(bad) * P(low|bad)

= 0.6 * 0.21

= P(bad) * P(high|bad)

= 0.6 * 0.79

(31)

How to Make a Bayes Net

P(Mpg, Horse) = P(Mpg) * P(Horse | Mpg)

Mpg

Horse

(32)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

How to Make a Bayes Net

P(Mpg, Horse) = P(Mpg) * P(Horse | Mpg)

Mpg

Horse

P(good) = 0.4 P( bad) = 0.6

P(Mpg)

P( low|good) = 0.90 P( low| bad) = 0.21 P(high|good) = 0.10 P(high| bad) = 0.79

P(Horse|Mpg)

(33)

How to Make a Bayes Net

Mpg

Horse

P(good) = 0.4 P( bad) = 0.6

P(Mpg)

P( low|good) = 0.90 P( low| bad) = 0.21 P(high|good) = 0.10 P(high| bad) = 0.79

P(Horse|Mpg)

• Each node is a probability function

• Each arc denotes conditional dependence

(34)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

How to Make a Bayes Net

So, what have we

accomplished thus far?

Nothing;

we’ve just “Bayes Net-ified” the P(Mpg, Horse) JPT using the Chain rule.

…the real excitement starts when we wield conditional independence

Mpg

Horse

P(Mpg)

P(Horse|Mpg)

(35)

Der Naïve Bayes Klassifikator

Annahme: Alle Attribute sind unabhängig.

(36)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

Anstatt ein kompliziertes

Bayes’sches Netz aufzubauen, mit vielen möglichen

Parametern

Haben wir ein einfaches Netz mit wenigen Parametern.

Der Vorteil

(37)

Wahrscheinlichkeiten in Naïve Bayes

P(Mpg |Cylinders,Weight,Maker,…)

= P(C,W,M,… |Mpg)P(Mpg)/ P(C,W,M,… )

(38)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

Wahrscheinlichkeiten in Naïve Bayes

P(Mpg |Cylinders,Weight,Maker,…)

= P(C,W,M,… |Mpg)P(Mpg)/ P(C,W,M,… )

= P(C|Mpg)P(W|Mpg) …P(Mpg) / P(C,W,M,… )

(39)

i

i

class x

P class

P class

P ( , x ) ( ) ( | )

Wahrscheinlichkeiten in Naïve Bayes

(40)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

Klassifikation mit Naïve Bayes

•Für eine Instanz x kann der Wert P(c,x) für alle Klassen c errechnet werden.

•Dann wird diejenige Klasse ausgewählt, die den maximalen Wert liefert.

•Das ist die sogenannte:

•maximum a posteriori probability (MAP)

Im Gegensatz dazu noch die Maximum Likelihood Estimation (MLE):

max P(x|c)

c

(41)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

Lernen von Naïve Bayes

Trainingsdaten werden genutzt um Wahrscheinlichkeiten aus den relativen Häufigkeiten abzuleiten.

Rel. Häufigkeit = Wahrscheinlichkeit

Bei kontinuierlichen Daten können Intervalle verwendet werden oder man nimmt eine Normalverteilung an.

Mit Mittelwert l und Standardabweichung r.

[1]

[1]

(42)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

Lernen von Naïve Bayes

Problem:

•Wenn ein Fall nicht in den Trainingsdaten vorkommt, dann ist die Wahrscheinlichkeit Null.

Lösung:

•Nicht bei Null sondern bei Eins beginnen zu zählen, oder alle Wahrscheinlichkeiten starten mit einem kleinen positiven Wert.

(43)

Naïve Bayes

•Funktioniert erstaunlich gut.

•Wird häufig als Referenz verwendet.

•Liefert schlechte Werte bei starken Abhängigkeiten der Attribute.

(44)

Probabilistische Methoden: Naïve Bayes Machine Learning– SS 2011

Klassifikation mit Naïve Bayes

Referenzen

ÄHNLICHE DOKUMENTE

1 (Geben Sie auf jedem L¨ osungsblatt Ihren Namen und Ihre ¨ Ubungsgruppe an... Bitte nur maximal zu

Zeigen Sie: Wenn X unabh¨ angige und station¨ are Zuw¨ achse besitzt, dann ist X ein Poisson- Prozess, d.h.. Sei S eine beliebige

d) Jeder abgeschlossene Teilraum eines polnischen Raums ist polnisch.. Aufgabe 32

Hinweis: Sie d¨ urfen ohne Beweis die analoge Aussage zu Satz 2.13 f¨ ur gestoppte Martingale in stetiger.

Die ¨ Ubungsaufgaben sowie weitere Informationen zur Vorlesung finden Sie auf der

[r]

Die ¨ Ubungsaufgaben sowie weitere Informationen zur Vorlesung finden Sie auf der

Stochastische Prozesse WS 15/16..