Was kommt jetzt?

(1)

Was kommt jetzt?

! " #

$ % " & ' "

( ! & )

* ( + & )

(2)

Entscheidungsbaum

&

, ,

!

, , ,

- " - "

- "

≤ ./0 1 ./0 ≤ 2/0 12/0

3 3

≤ 2/0 14 3

* + ( )

+ (3)

5

(3)

Entscheidungsbäume

" %

#

6 % # " + 6 /

% " " 3 $ /

" 6 + # %

%

# # " + /

#

(4)

Beispiel

&

, ,

!

, , ,

- " - "

- "

≤ ./0 1 ./0 ≤ 2/0 12/0

3 3

≤ 2/0 14 3

# 7

87& ,

! ,

- " , 2

(5)

Lernen von

Entscheidungsbäumen

9 7

7# & " % 6 /

+ ! 6 #

: 76 6 "

! "

; 7

" / # " " " " &

(6)

Beispiele

& ! - "

8 2

< = 3

. 2

> 0 3

0 = 3

? ?

2 88 3

= 4 3

4 4

& ! - "

8@ =

88 2 3

8< 8@

8. ?

8> 2 3

80 . 3

8? >

(7)

Beispiele nach Attributen sortiert

& 7

8 . 0 3

? 2 3

= 3 4 8@

8.

80 3 8?

72 / 37>

- 788

& 7

< 3

> 3 88 3 8<

8> 3

78/ 37>

- 70

! 7

8 88 3 8.

80 3 8?

7./37<

- 70

! 7

> 3 4 8@

8> 3 7</ 37<

- 7>

! 7

< 3 . 0 3

? 2 3

= 3 8<

7./37>

- 72

- " 7 1?/0 8

< 3 . 0 3 8@

88 3 8<

8> 3

7> / 37>

- 7=

- " 7

≤?/0

> 3

? 8.

80 3 8?

7./ 37<

- 70

(8)

Rekursiver Ansatz

/ " ! " 6 + % " " /

+ % / + 6 + " # % " "

+ 6 " " & #

+ !

- &

, ,

3

>A88 & 8A0 &

+ + 6 / +

& #

- & ,

B8/./0/?/2/=/4/8@/8./80/8?C

- & ,

B</>/88/8</8>C

(9)

Beispiel

&

, ,

B8/./0/?/2/=/4/8@/8./80/8?C B</>/88/8</8>C

!

, , ,

- " - "

≤ ./0 1 ./0 ≤ 2/0 12/0

3 3

B8/8./80/8?C B./0/?/2/=C B4/8@C

B80C B8/8./8?C B./?C B0/2/=C

- "

≤ 4 14 3

B</>/88/8>C B8<C

@ & #

(10)

TDIDT - Algorithmus

- - ( / - )

& # ! /

# " $

&$ D - - / E ! (- / )

! - " F E ! $

- - " !G 6 +

8/ /

&$ , 8/ / % 7 - - ( / - HB- C)

"

- ! " $

(11)

Qualitätsmaß

" 7 + % D IA I& " / "

" J #

K p_i " +

" &

" " m " ( )7

+ % & " / " D

"

i m

i

p

p log

=1

−

(12)

Informationsgewinn

: "

6 6 ! " +

: ! #

+ - + ! / "

# " " "

(13)

Beispiel

&

B</>/88/8</8>C

- 7 ! ,

, , ,

B88C B</ 8<C B>/8>C

= +

− 5

log1 5 1 5 log 4 5 4

= +

+

− 1log1

2 log 1 2 1 1 log 1

- 7- "

≤ 4 14 3

B</>/88/8>C B8<C

0 1 log 1 1 log

1 + =

9 + - " FG

!

+ - " 6

- " + !

(14)

Probleme

L ( % )7 -

" " + / "

# / -

6 + 7 - - " -

% ! ( % )

# " M " N

- F %

# "

(15)

Was wissen Sie jetzt?

- - % 6 "

6 + / + /

- # " $

- " E ! " + !

+ ( " " )

" " + " + ! +

O> 0 ( + K > = ) " ! % +

%

(16)

Erinnerung: Funktionslernen

Gegeben:

Beispiele X in LE

– die anhand einer Wahrscheinlichkeitsverteilung P auf X erzeugt wurden und – mit einem Funktionswert Y = t(X) versehen sind (alternativ: Eine

Wahrscheinlichkeitsverteilung P(Y|X) der möglichen Funktionswerte - verrauschte Daten).

H die Menge von Funktionen in LH.

Ziel: Eine Hypothese h(X) ∈ H, die das erwartete Fehlerrisiko R(h) minimiert.

Risiko:

=

x

x P h x Q h

R ( ) ( , ) ( )

(17)

Beispiel: Funktionenlernen

• H = { f

_a

| f

_a

(x) = 1, für x ≥ a, f

_a

(x) = -1 sonst, a ∈ℜ }

• R(f

₀

) = 0,25 + 0 + 0,20 = 0,45

• R(f

_1,5

) = 0 + 0 + 0,20 = 0,20

• R(f

_3,5

) = 0 + 0,5 + 0,05 = 0,55

1 2 3

50%

0%

25%

5%

20%

*$ 5

(18)

Reale Beispiele

7E ('/ ) , @/ (') , (')/ 8

- ' (' , ! )

: (' , ' # )

N P - + (' ,

& Q )

%" 6 " (' ,

N )

* 7E ('/ ) , ( (')I (')))

^<

; (' , ; / (') ,

! )

(19)

Erinnerung: Minimierung des beobachteten Fehlers

& F " 7

! & (R )

6 7

G " " $

& " "

" * "

(20)

Beispiel

(21)

Beispiel II

(22)

Probleme der ERM

6 7

& " " " " & ' + ! J

M % 7 N + #

$

(23)

Die optimale Hyperebene

# G / +

: P : / %

% # %

: G " : P / +

6 " ! % "

! % # " ' "

7 ' " "

" : P

H

d

(24)

Berechnung der opt. Hyperebene

: P

: , B' S + T'U , @C

: (' /P )/ P ∈B±8C

: " : P

(') , + T'U

(' ) 1 @ ⇔ P 1 @ SS+ SS " "

(' ) ≥ 8/ + P , 8

(' ) ≤ I8/ + P , I8

+1

-1

H f

(25)

Optimierungsaufgabe der SVM

" SS+ SS

^<

$ 7

(' ) , + T' U ≥ 8 $ P , 8 (' ) , + T' U ≤ I8 $ P , I8

V Q % 3 7P T (' ) ≥ 8

% ' / Q M " I "

M (

^.

) F

7SS+ SS , 8A / , 6 "

: P #

(26)

Nicht linear trennbare Daten

'

8 6 7

" " %

/ +

(" " & )

" 7 6 " + '

?

(27)

Weich trennende Hyperebene

• Wähle C ∈ℜ

_>0

und minimiere

• so dass für alle i gilt:

f(x

_i

) = w*x

_i

+b ≥ 1- ξ

_i

für y

_i

= 1 und f(x

_i

) = w*x

_i

+b ≤ -1+ ξ

_i

für y

_i

= -1

• Äquivalent: y

_i

*f(x

_i

) ≥ 1- ξ

_i

=

+

ⁿ

i

C

i

w

1

2

ξ

+1 f

ξ ξ

(28)

Duales Optimierungsproblem

• Umformung mit Lagrange-Multiplikatoren liefert einfacheres Optimierungsproblem:

• Maximiere

• unter 0 ≤ α

_i

≤ C für alle i und α

_i

y

_i

= 0

• Es gilt w = α

_i

y

_i

x

_i

, also f(x) = α

_i

y

_i

(x

_i

*x)+b

( )

= =

=

∗

−

=

ⁿ

i

n

j

j i

j i j i n

i

y y x x

W

1 1

2 1 1

)

( α α α α

(29)

Bedeutung von ξξξξ und αααα

f(x)=0 f(x)=1 f(x)=-1

ξ =0, α =0

ξ >1, α =C 0< ξ <1, 0< α <C ξ =0, 0 ≤α <C

Beispiele x

_i

mit α

_i

>0 heißen Stützvektoren SVM

(30)

Optimierungsalgorithmus

s = Gradient von W( α ) // s

_i

= α

_j

(x

_j

*x

_i

) while(nicht konvergiert(s)) // auf ε genau

WS = working_set(s) // suche k „gute“ Variablen α ‘ = optimiere(WS) // k neue α -Werte

s = update(s, α ‘) // s = Gradient von W( α ‘)

• Gradientensuchverfahren

• Trick: Stützvektoren allein definieren Lösung

• Weitere Tricks: Shrinking, Caching von x

_i

*x

_j

(31)

Was wissen wir jetzt?

& "

" " * F

M " : P ! *

' 7 + : P

# " N " "

9 "

: P J 3 J

(32)

Beispiel: Textklassifikation

To: rueping@ls8.cs.uni- dortmund.de

Subject: Astonishing

Guaranteed XXX Pictures FREE! Gao

In the next 2 minutes you are going to learn how to get access to totally FREE xxx pictures. Let me show you the secrets I have learned to get FREE porn passwords.

Indeed, with this in mind lets take a quick look below to see what you get, ok?

1 astonishing 3 free

2 in

2 pictures 1 porn 0 SVM 5 to

0 university 2 XXX

0.1 0.4 0.0 0.2 1.1 -0.6 0.0 -0.4 0.9

SVM

*

^{> 0}

(33)

TCat-Modell

- P " 78@ @@@ 8@@ @@@

N N + % F 5

' I I 7

positive Dokumente

negative Dokumente

(34)

Beispiel: Intensivmedizin

N %

% 6 "

J

: 9

N ! J

−

=

−

= 4 . 368

00 . 15

00 . 13

00 . 26

00 . 79

00 . 8

00 . 121

00 . 86

00 . 174

177 .

0 134 .

0 026 .

0 016 .

0 015 .

0 001 .

0 019 .

0 014 .

0 ) (

papmn papdia papsys

hr cvp artmn artdia artsys

x

f

(35)

Bias-Varianz-Problem

; : P " 7

;

' " (# )

; G : P " 7

; % G !

6 + (N )

F 7 "

& 7

*( ) ≤

_η

*

_"

( ) U N ( )

(36)

Strukturelle Risikominimierung

8 M : P

- " " !G

" ' !

< ! D - I

" : P "

"

" &

. ! "

: P " " "

*

Komplexität Schranke(h) =

R_emp(h) + Var(h)

(37)

Vapnik-Chervonenkis-Dimension

7 : %

: P "

% # / +

D - " %

∈: +

7 N OI "

% : P

: " ' " 6 %

# / % :

" +

(38)

VC-Dimension von Hyperebenen

7 N O I " : P

" * U8

# + 7

N O " (* ) ≥ U87 ! '_@ , @ ' ,

(@/ /@/8/@/ @) &$

- " 6 % ('_@/ /' ) P , 8/

' ∈ 6 P , 8

+ , P '

, P_@A< + '_@U , P_@A<

+ ' U , P UP_@A< 6 7+ 'U 6

N O " (* ) ≤ U87; $ $

& !

(39)

VC-Dim. und Anzahl der Parameter

• Setze f

_α

(x) = cos( α x) und x

_i

= 10

^-i

, i=1...l. Wähle y

_i

∈ {-1,1}. Dann gilt für α = π (

¹

/

₂

(1-y

_i

)10

ⁱ

):

−

=

−

=

−

=

l

i

k i i

k l

i

i i

k

y y

x

1 2 1 1

2

1

( 1 ) 10 10 π ( 1 ) 10

π α

− +

−

=

+

=

− −

=

− l

k i

k i i

k k

i

k i

i

y y

y

1 2 1 2

1 1

1 2

1

( 1 ) 10 ( 1 ) ( 1 ) 10

π

Vielfaches von 2 0 ≤ … ≤ 10

^-1

+10

^-2

+ … =1/9

(geometrische Reihe)

(40)

VC-Dim. und Anzahl der Parameter

(α' ), (π ) " ∈W@/⁸A₄X $ P ,8 ∈W8/^8@A₄X $ P ,I 8

(α') " '₈/ '

(α') N O I "

N O I " ! % 6

" 5

π 2 π 3 π

1

/

₉

cos

(41)

VC-Dimension der SVM

9 # '

₈

/ /' ∈ℜ "

SS' SS Y $ &$ N OI "

N + "

: P 7

N O " ( ) ≤ " B

^<

SS+ SS

^<

/ CU8

" ' ! N

" ! (&

" )/

F 5

(42)

Wozu die ganze Theorie?

Erwartetes Risiko R(h)

Empirisches Risiko R

_emp

(h)

h fest n → ∞

SRM

h : R

_srm

(h) = min

_h‘

R

_srm

(h‘)

Optimale Hypothese h : R(h) = min

_h‘

R(h‘) n → ∞

Optimale Hypothese h : R(h) = min

_h‘

R(h‘) ERM

h : R

_emp

(h) = min

_h‘

R

_emp

(h‘) n → ∞

F $ " J * 5

(43)

Was wissen wir jetzt?

* " " 7

$ *

+ " ' !

& " " ' ! 7N OI "

* N

9 $

M & 73$ $ ' J

(44)

Performanzschätzer

+ * *( ) N J

*( )

- ( " M % )

M " N OI " ( )

% A % IM IM I !

( )

(45)

Performanzschätzer II

7 % IM IM I& N

! *

₈

≤ S N S A

# + 7& # +

$ % 6 73 I $ % +

3 I

$ % ! : P /

+ " 8 I-

(46)

Performanzschätzer III

7 % IM IM I& N

! *

₈

≤ SB 7(<α

^<

Uξ )≥8CS A

( , * Z " " # )

# + 7# &! 7

ξ =0, α =0

ξ >1, α =C 0< ξ <1, 0< α <C

(47)

Nicht-lineare Daten

(48)

Nicht-lineare Daten

J

3 N I- + J (3 5)

N J ([ P \%

" " / % P " ])

- " " 5

x

₁

x

₂

(x

₁

)

²

x

₂

Φ(x₁,x₂) = (x₁²,x₂)

(49)

Kernfunktionen

7 (') , α P (' T')U

N ! % ' $ 'T'\

- " Φ T

('

₈

/'

_<

) , Φ('

₈

)TΦ('

_<

)

( )

= =

=

∗

−

=

ⁿ

i

n

j

j i

j i j i n

i

y y x x

W

1 1

2 1 1

)

( α α α α

X Z ℜ

K

Φ *

(50)

Kernfunktionen II

6 % Φ F / # 7

" ' ( (' /'

_D

))

_/D,8

" %

* I# 7 ('/P) , ' (IγSS'IPSS

^<

)

P " 7 ('/P) , ('TP)

3 3 7 ('/P) , ( ⋅'TPU )

% " "

% / "

% ; / % 6

(51)

Polynom-Kernfunktionen

• K

_d

(x,y) = (x*y)

^d

• Beispiel: d=2, x,y ∈ℜ

²

. K

₂

(x,y) = (x*y)

²

= ((x

₁

,x

₂

)*(y

₁

,y

₂

))

²

= (x

₁

y

₁

+x

₂

y

₂

)

²

= x

₁²

y

₁²

+2x

₁

y

₁

x

₂

y

₂

+x

₂²

y

₂²

= (x

₁²

, √ 2x

₁

x

₂

,x

₂²

)*(y

₁²

, √ 2y

₁

y

₂

,y

₂²

)

=: Φ (x)* Φ (y)

(52)

RBF-Kernfunktion

x

₀

x

exp(-1 ⋅ |x-x

₀

|

²

) x x

₀

exp(-10 ⋅ |x-x

₀

|

²

)

(53)

SVMs für Regression

"

$ 7

(' ) , + T' U ≤ P Uε UξT (' ) , + T' U ≥ P I ε I ξ

+ +

=

n

i

i n

i

C

i

w

1

* 1

2

ξ ξ

f(x)

ξ

_i

* ^f(x)- ε

f(x)+ ε

(54)

Verlustfunktion

Q

f(x)-y - ε ⁺ ε

N Q N

Q

f(x)-y

(55)

Duales Optimierungsproblem

' "

@ ≤ α /α T ≤ O $ α T , α

P ∈BI8/U8C/ ε,@ α ,@ $ P ,8 α T,@ $ P ,I8 / ! "

I N 5

=

−

− +

−

=

ⁿ

j i

j i j

j i

i n

i

i i

n

i

i i

i

K x x

y W

1 ,

*

* 2

1 1

* 1

*

) ( ) ( )( ) ( , )

( )

( α α α ε α α α α α α

(56)

Beispiel: Prognose von Zeitreihen

80 100 120 140 160 180 200 220

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 100

Fenster Horizont

(57)

Prognose von Zeitreihen

-

; P

# ( / / )

% % # J

6 G

(58)

SVMs und Datenbanken

G " (" 9 # )

" M

"

. 6 ! 7

"

N

(59)

Inkrementelle SVMs

" ' Q

7 + - "

SVs 1 Dat.

1

SVM 1

SVs 2 Dat.

2

SVM 2

SVs 3 Dat.

3

SVM 3

SVs 4 Dat.

4

SVM 4

Ergebnis

(60)

SVMs in Datenbanken

; $

O ; " '

# E I6

# 79 !

6

Optimierung Daten

bank Cache

Working-Set Iteration

(61)

Kernfunktion in SQL

• SELECT

x1.att_1 * x2.att_1 + … + x1.att_d * x2.att_d FROM examples_table x1, examples_table x2

WHERE x1.index = i and x2.index = j

• SELECT <kernel term>

FROM examples_table x1, examples_table x2 WHERE x1.index = I

• SELECT <kernel term>

FROM examples_table x1, examples_table x2, free_examples f

WHERE x1.index = i AND x2.index = f.index

• Weitere Optimierung durch Ausnutzen der relationalen Struktur im Cache möglich.

(62)

Was man über SVMs wissen muss

& * *

M " : P 7 / # /

+ -

3 I !

* / N O I "

! "

* I N