Wissensentdeckung in Datenbanken Modellklassen, Verlustfunktionen Nico Piatkowski und Uwe Ligges

(1)

Modelle

Wissensentdeckung in Datenbanken

Modellklassen, Verlustfunktionen

Nico Piatkowski und Uwe Ligges

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

02.05.2017

(2)

Modelle

Literatur

Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd edition. Springer Series in Statistics.

Springer. 2009

Im Moodle zum Download verfügbar.

Jorge Nocedal. Stephen Wright. Numerical Optimization.

2nd edition. Springer Series in Operations Research and Financial Engineering. Springer-Verlag New York. 2006

In der Zentralbibliothek verfügbar.

(3)

Modelle

Daten—und dann?

Personendaten Medizinische Daten Konto- und Zahlungsdaten Verbindungsdaten

Soziale Netzwerke

(4)

Modelle

Realisierung von Zufallsvektoren X

X =

⎛ ⎜⎜

⎜⎜ ⎜⎜

⎜⎜ ⎜

⎝

Alter Geschlecht Krankheitstage

Medikation Kontostand

Kredite Webseiten

. . .

⎞ ⎟⎟

⎟⎟ ⎟⎟

⎟⎟ ⎟

⎠

(5)

Modelle

Begriffe

Daten D = {( x ¹ , y ¹ ) , ( x ² , y ² ) , . . . , ( x ^N , y ^N )}

Realisierungen von Zufallsvariable X mit n-dimensionaler Domäne X Multimenge; # D ( x, y ) ∶ X × Y → N Messfehler, Rauschen ∼ P

Fehlende Werte; x i ∈ X ⁱ ∪ { ? } , 1 ≤ i ≤ n Modell f aus Modellklasse M

Funktionen M ⊆ F

Koeffizienten / Parameter M ⊆ R ^d Datenpunkte M ⊆ D , M ⊆ X × Y

Verlustfunktion (Güte) ` ∶ ( f; D) ↦ R

(6)

Modelle

Begriffe

Daten D = {( x ¹ , y ¹ ) , ( x ² , y ² ) , . . . , ( x ^N , y ^N )}

Realisierungen von Zufallsvariable X mit n-dimensionaler Domäne X Multimenge; # D ( x, y ) ∶ X × Y → N Messfehler, Rauschen ∼ P

Fehlende Werte; x i ∈ X ⁱ ∪ { ? } , 1 ≤ i ≤ n Modell f aus Modellklasse M

Funktionen M ⊆ F

Koeffizienten / Parameter M ⊆ R ^d Datenpunkte M ⊆ D , M ⊆ X × Y

Verlustfunktion (Güte) ` ∶ ( f; D) ↦ R

(7)

Modelle

Begriffe

Daten D = {( x ¹ , y ¹ ) , ( x ² , y ² ) , . . . , ( x ^N , y ^N )}

Realisierungen von Zufallsvariable X mit n-dimensionaler Domäne X Multimenge; # D ( x, y ) ∶ X × Y → N Messfehler, Rauschen ∼ P

Fehlende Werte; x i ∈ X ⁱ ∪ { ? } , 1 ≤ i ≤ n Modell f aus Modellklasse M

Funktionen M ⊆ F

Koeffizienten / Parameter M ⊆ R ^d Datenpunkte M ⊆ D , M ⊆ X × Y

Verlustfunktion (Güte) ` ∶ ( f; D) ↦ R

(8)

Modelle

Allgemeines Vorgehen

Daten D = {( x ¹ , y ¹ ) , ( x ² , y ² ) , . . . , ( x ^N , y ^N )}

Datenpunkt x ∈ X , Label (Klasse) y ∈ Y Modelle M

Modell “lernen”, Datenanalyse, ..

f ^∗ = arg min

f∈M ` ( f ; D)

Modellanwendung, “Vorhersage”, ..

ˆ

y = f ^∗ ( x )

(9)

Modelle

Allgemeines Vorgehen

Daten D = {( x ¹ , y ¹ ) , ( x ² , y ² ) , . . . , ( x ^N , y ^N )}

Datenpunkt x ∈ X , Label (Klasse) y ∈ Y Modelle M

Modell “lernen”, Datenanalyse, ..

f ^∗ = arg min

f∈M ` ( f ; D)

Modellanwendung, “Vorhersage”, ..

ˆ

y = f ^∗ ( x )

(10)

Modelle

Allgemeines Vorgehen

Daten D = {( x ¹ , y ¹ ) , ( x ² , y ² ) , . . . , ( x ^N , y ^N )}

Datenpunkt x ∈ X , Label (Klasse) y ∈ Y Modelle M

Modell “lernen”, Datenanalyse, ..

f ^∗ = arg min

f∈M ` ( f ; D)

Modellanwendung, “Vorhersage”, ..

ˆ

y = f ^∗ ( x )

(11)

-1 -0.5 0 0.5 1

Function value

z

T₀ T₁ T₂ T₃ T₄

Modelle

Modellklassen M

f ∶ X → Y Linear

f ( x ) = β ₀ + ⟨ β, x ⟩

Polynom f ( x ) = β ₀ + ∑ ⁿ

i=1 β _i x i + ∑ ⁿ

i=1

∑ n

j=1 β _i,j x i x j + ∑ ⁿ

i=1

∑ n j=1

∑ n

k=1 β _i,j,k x i x j x _k + . . . Trigonometrisch/Periodisch

f ( x ) = ∑ ^k

i=0 θ _i cos ( i arccos (⟨ β ⁱ , x ⟩))

(12)

-1 -0.5 0 0.5 1

Function value

z

T₀ T₁ T₂ T₃ T₄

Modelle

Modellklassen M

f ∶ X → Y Linear

f ( x ) = β ₀ + ⟨ β, x ⟩

Polynom

f ( x ) = β ₀ + ∑ ⁿ

i=1 β _i x i + ∑ ⁿ

i=1

∑ n

j=1 β _i,j x i x j + ∑ ⁿ

i=1

∑ n j=1

∑ n

k=1 β _i,j,k x i x j x _k + . . . Trigonometrisch/Periodisch

f ( x ) = ∑ ^k

i=0 θ _i cos ( i arccos (⟨ β ⁱ , x ⟩))

(13)

-1 -0.5 0 0.5 1

Function value

z

T₀ T₁ T₂ T₃ T₄

Modelle

Modellklassen M

f ∶ X → Y Linear

f ( x ) = β ₀ + ⟨ β, x ⟩

Polynom

f ( x ) = β ₀ + ∑ ⁿ

i=1 β _i x i + ∑ ⁿ

i=1

∑ n

j=1 β _i,j x i x j + ∑ ⁿ

i=1

∑ n j=1

∑ n

k=1 β _i,j,k x i x j x _k + . . . Trigonometrisch/Periodisch

f ( x ) = ∑ ^k

i=0 θ _i cos ( i arccos (⟨ β ⁱ , x ⟩))

(14)

Modelle

Modellklassen M (II)

Probabilistisch/Exponentialfamilie/Bayesianisch

p _Gauss ( x ) = 1

√ ( 2π ) ⁿ det Σ exp (− 1

2 ( x − µ ) ^⊺ Σ ⁻¹ ( x − µ )) p _Posterior ( x ) = p _Likelihood ( x ) p _Prior ₁ ( α ) p _Prior ₂ ( γ ) . . .

Unstetig/Piecewise/Thresholding

f _v ( x ) = ⎧⎪⎪

⎨⎪⎪ ⎩

f _Left(v) ( x ) g ( x ) ≥ ρ v

f _Right(v) ( x ) g ( x ) < ρ _v

(15)

Modelle

Modellklassen M (II)

Probabilistisch/Exponentialfamilie/Bayesianisch

p _Gauss ( x ) = 1

√ ( 2π ) ⁿ det Σ exp (− 1

2 ( x − µ ) ^⊺ Σ ⁻¹ ( x − µ )) p _Posterior ( x ) = p _Likelihood ( x ) p _Prior ₁ ( α ) p _Prior ₂ ( γ ) . . .

Unstetig/Piecewise/Thresholding

f _v ( x ) = ⎧⎪⎪

⎨⎪⎪ ⎩

f _Left(v) ( x ) g ( x ) ≥ ρ v

f _Right(v) ( x ) g ( x ) < ρ _v

(16)

Modelle

Beispiel: Fehlerwahrscheinlichkeit Y = { c ₁ , c ₂ , . . . , c _k } , Modell f

Wahrscheinlichkeitsdichte falscher Vorhersagen:

p ( f ( X ) /= Y ) = E X,Y [1 {f (X)/=Y } ] = E X E Y ∣X [1 {f (X)/=Y } ]

= E X [ ∑ ^k

i=1 1 {f(X)/=c i } P ( Y = c i ∣ X )]

Wahl von f , so dass innere Summe minimiert wird..

f ( x ) = arg min ^k

j=1

∑ k

i=1 1 {c j /=c i } P( Y = c i ∣ X = x )

= arg min ^k

j=1 ( 1 − P( Y = c j ∣ X = x ))

= arg max ^k

j=1 P( Y = c j ∣ X = x )

(17)

Modelle

Beispiel: Fehlerwahrscheinlichkeit Y = { c ₁ , c ₂ , . . . , c _k } , Modell f

Wahrscheinlichkeitsdichte falscher Vorhersagen:

p ( f ( X ) /= Y ) = E X,Y [1 {f (X)/=Y } ] = E X E Y ∣X [1 {f (X)/=Y } ]

= E X [ ∑ ^k

i=1 1 {f(X)/=c i } P ( Y = c i ∣ X )]

Wahl von f , so dass innere Summe minimiert wird..

f ( x ) = arg min ^k

j=1

∑ k

i=1 1 {c j /=c i } P( Y = c i ∣ X = x )

= arg min ^k

j=1 ( 1 − P( Y = c j ∣ X = x ))

= arg max ^k

j=1 P( Y = c j ∣ X = x )

(18)

Modelle

Verlustfunktionen `

Absoluter Fehler/SSE/MSE/RMSE

Err ( f ; D) = ∑

(x,y)∈D ∣ y − f ( x )∣

RMSE ( f ; D) =

¿ Á Á À 1

∣D∣ ∑ (x,y)∈D ( y − f ( x )) ² Hinge Loss

Hinge ( f; D) = ∑

(x,y)∈D

max { 0, 1 − yf ( x )}

(19)

Modelle

Verlustfunktionen `

Absoluter Fehler/SSE/MSE/RMSE

Err ( f ; D) = ∑

(x,y)∈D ∣ y − f ( x )∣

RMSE ( f ; D) =

¿ Á Á À 1

∣D∣ ∑ (x,y)∈D ( y − f ( x )) ² Hinge Loss

Hinge ( f; D) = ∑

(x,y)∈D

max { 0, 1 − yf ( x )}

(20)

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Err(f; x , y )

f( ) y = +1

y = -1

Modelle

Absoluter Fehler, ∣ y − f ( x )∣

(21)

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

MSE(f; x , y )

f( ) y = +1

y = -1

Modelle

Quadratischer Fehler, ( y − f ( x )) ²

(22)

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Hinge(f; x , y )

f( ) y = +1

y = -1

Modelle

Hinge Fehler, max { 0, 1 − y − f ( x )}

(23)

Modelle

Verlustfunktionen ` (II) - Likelihood Varianten

Likelihood

L( p; D) = ∏

(x,y)∈D

p ( x, y )

Log-Likelihood

log L( p; D) = ∑

(x,y)∈D

log p ( x, y )

Neg. Avg. Log-Likelihood

` ( p; D) = − 1

∣D∣ ∑ (x,y)∈D

log p ( x, y )

(24)

Modelle

Verlustfunktionen ` (II) - Likelihood Varianten

Likelihood

L( p; D) = ∏

(x,y)∈D

p ( x, y )

Log-Likelihood

log L( p; D) = ∑

(x,y)∈D

log p ( x, y )

Neg. Avg. Log-Likelihood

` ( p; D) = − 1

∣D∣ ∑ (x,y)∈D

log p ( x, y )

(25)

Modelle

Verlustfunktionen ` (II) - Likelihood Varianten

Likelihood

L( p; D) = ∏

(x,y)∈D

p ( x, y )

Log-Likelihood

log L( p; D) = ∑

(x,y)∈D

log p ( x, y )

Neg. Avg. Log-Likelihood

` ( p; D) = − 1

∣D∣ ∑ (x,y)∈D

log p ( x, y )

(26)

Modelle

Verlustfunktionen ` (III) - MDL

Minimum Description Length (MDL)

Formalisierung von Ockhams Rasiermesser min

C∈M L ( C ) + L (D ∣ C ) Intuition:

Nur wenige Objekte können kurze Codes haben

Nur wenige Objekte können hohe Wahrscheinlichkeit haben Formal: Alphabet A = { 1, 2, . . . , m } , Codierung C,

Codelängen L C ( 1 ) , L C ( 2 ) , . . . , L C ( m )

⇔ ∑ a∈A 2 ^−L ^C ^(a) ≤ 1

Kraft, 1949

(27)

Modelle

Verlustfunktionen ` (III) - MDL

Minimum Description Length (MDL)

Formalisierung von Ockhams Rasiermesser min

C∈M L ( C ) + L (D ∣ C ) Intuition:

Nur wenige Objekte können kurze Codes haben

Nur wenige Objekte können hohe Wahrscheinlichkeit haben Formal: Alphabet A = { 1, 2, . . . , m } , Codierung C,

Codelängen L C ( 1 ) , L C ( 2 ) , . . . , L C ( m )

⇔ ∑ a∈A 2 ^−L ^C ^(a) ≤ 1

Kraft, 1949

(28)

Modelle

Verlustfunktionen ` (III) - MDL

Minimum Description Length (MDL)

Formalisierung von Ockhams Rasiermesser min

C∈M L ( C ) + L (D ∣ C ) Intuition:

Nur wenige Objekte können kurze Codes haben

Nur wenige Objekte können hohe Wahrscheinlichkeit haben Formal: Alphabet A = { 1, 2, . . . , m } , Codierung C,

Codelängen L C ( 1 ) , L C ( 2 ) , . . . , L C ( m )

⇔ ∑ a∈A 2 ^−L ^C ^(a) ≤ 1

Kraft, 1949

(29)

Modelle

Verlustfunktionen ` (IV) - Clustering

Datensatz D = { x ¹ , x ² , . . . , x ^N } ohne Label Modell ⊂ R ⁿ

k-Means (Intra-Cluster Varianz) ICV ( k; D) = min

C⊂ R ⁿ ,∣C∣=k ∑

x∈D min

c∈C ∥ x − c ∥ ² 2

Mixture Modelle (Expectation Maximization) Example: Gaussian

{(µ _i ,Σ i )} min _1≤i≤k ⊂ R ⁿ ×S ₊₊ ⁿ − ∑

x∈D log

∑ k

i=1 p Gauss ( x ∣ i ) p ( i )

(30)

Modelle

Verlustfunktionen ` (IV) - Clustering

Datensatz D = { x ¹ , x ² , . . . , x ^N } ohne Label Modell ⊂ R ⁿ

k-Means (Intra-Cluster Varianz) ICV ( k; D) = min

C⊂ R ⁿ ,∣C∣=k ∑

x∈D min

c∈C ∥ x − c ∥ ² 2

Mixture Modelle (Expectation Maximization) Example: Gaussian

{(µ _i ,Σ i )} min _1≤i≤k ⊂ R ⁿ ×S ₊₊ ⁿ − ∑

x∈D log

∑ k

i=1 p Gauss ( x ∣ i ) p ( i )

Wissensentdeckung in Datenbanken Modellklassen, Verlustfunktionen Nico Piatkowski und Uwe Ligges

Modelle

Wissensentdeckung in Datenbanken

Modellklassen, Verlustfunktionen

Nico Piatkowski und Uwe Ligges

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

02.05.2017

Modelle

Literatur

Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd edition. Springer Series in Statistics.

Springer. 2009

Im Moodle zum Download verfügbar.

Jorge Nocedal. Stephen Wright. Numerical Optimization.

2nd edition. Springer Series in Operations Research and Financial Engineering. Springer-Verlag New York. 2006

In der Zentralbibliothek verfügbar.

Modelle

Daten—und dann?

Personendaten Medizinische Daten Konto- und Zahlungsdaten Verbindungsdaten

Soziale Netzwerke

Modelle

Realisierung von Zufallsvektoren X

X =

⎛ ⎜⎜

⎜⎜ ⎜⎜

⎜⎜ ⎜⎜

⎜⎜ ⎜

⎝

Alter Geschlecht Krankheitstage

Medikation Kontostand

Kredite Webseiten

. . .

⎞ ⎟⎟

⎟⎟ ⎟⎟

⎟⎟ ⎟⎟

⎟⎟ ⎟

⎠

Modelle

Begriffe

Daten D = {( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N )}

Realisierungen von Zufallsvariable X mit n-dimensionaler Domäne X Multimenge; # D ( x, y ) ∶ X × Y → N Messfehler, Rauschen ∼ P

Fehlende Werte; x i ∈ X i ∪ { ? } , 1 ≤ i ≤ n Modell f aus Modellklasse M

Funktionen M ⊆ F

Koeffizienten / Parameter M ⊆ R d Datenpunkte M ⊆ D , M ⊆ X × Y

Verlustfunktion (Güte) ` ∶ ( f; D) ↦ R

Modelle

Begriffe

Daten D = {( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N )}

Realisierungen von Zufallsvariable X mit n-dimensionaler Domäne X Multimenge; # D ( x, y ) ∶ X × Y → N Messfehler, Rauschen ∼ P

Fehlende Werte; x i ∈ X i ∪ { ? } , 1 ≤ i ≤ n Modell f aus Modellklasse M

Funktionen M ⊆ F

Koeffizienten / Parameter M ⊆ R d Datenpunkte M ⊆ D , M ⊆ X × Y

Verlustfunktion (Güte) ` ∶ ( f; D) ↦ R

Modelle

Begriffe

Daten D = {( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N )}

Realisierungen von Zufallsvariable X mit n-dimensionaler Domäne X Multimenge; # D ( x, y ) ∶ X × Y → N Messfehler, Rauschen ∼ P

Fehlende Werte; x i ∈ X i ∪ { ? } , 1 ≤ i ≤ n Modell f aus Modellklasse M

Funktionen M ⊆ F

Koeffizienten / Parameter M ⊆ R d Datenpunkte M ⊆ D , M ⊆ X × Y

Verlustfunktion (Güte) ` ∶ ( f; D) ↦ R

Modelle

Allgemeines Vorgehen

Daten D = {( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N )}

Datenpunkt x ∈ X , Label (Klasse) y ∈ Y Modelle M

Modell “lernen”, Datenanalyse, ..

f ∗ = arg min

f∈M ` ( f ; D)

Modellanwendung, “Vorhersage”, ..

ˆ

y = f ∗ ( x )

Modelle

Allgemeines Vorgehen

Daten D = {( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N )}

Datenpunkt x ∈ X , Label (Klasse) y ∈ Y Modelle M

Modell “lernen”, Datenanalyse, ..

f ∗ = arg min

f∈M ` ( f ; D)

Modellanwendung, “Vorhersage”, ..

ˆ

y = f ∗ ( x )

Daten D = {( x ¹ , y ¹ ) , ( x ² , y ² ) , . . . , ( x ^N , y ^N )}

Fehlende Werte; x i ∈ X ⁱ ∪ { ? } , 1 ≤ i ≤ n Modell f aus Modellklasse M

Koeffizienten / Parameter M ⊆ R ^d Datenpunkte M ⊆ D , M ⊆ X × Y

Daten D = {( x ¹ , y ¹ ) , ( x ² , y ² ) , . . . , ( x ^N , y ^N )}

Fehlende Werte; x i ∈ X ⁱ ∪ { ? } , 1 ≤ i ≤ n Modell f aus Modellklasse M

Koeffizienten / Parameter M ⊆ R ^d Datenpunkte M ⊆ D , M ⊆ X × Y

Daten D = {( x ¹ , y ¹ ) , ( x ² , y ² ) , . . . , ( x ^N , y ^N )}

Fehlende Werte; x i ∈ X ⁱ ∪ { ? } , 1 ≤ i ≤ n Modell f aus Modellklasse M

Koeffizienten / Parameter M ⊆ R ^d Datenpunkte M ⊆ D , M ⊆ X × Y

Daten D = {( x ¹ , y ¹ ) , ( x ² , y ² ) , . . . , ( x ^N , y ^N )}

f ^∗ = arg min

y = f ^∗ ( x )

Daten D = {( x ¹ , y ¹ ) , ( x ² , y ² ) , . . . , ( x ^N , y ^N )}

f ^∗ = arg min

y = f ^∗ ( x )

Daten D = {( x ¹ , y ¹ ) , ( x ² , y ² ) , . . . , ( x ^N , y ^N )}

f ^∗ = arg min

y = f ^∗ ( x )

f ( x ) = β ₀ + ⟨ β, x ⟩

Polynom f ( x ) = β ₀ + ∑ ⁿ

i=1 β _i x i + ∑ ⁿ

j=1 β _i,j x i x j + ∑ ⁿ

k=1 β _i,j,k x i x j x _k + . . . Trigonometrisch/Periodisch

f ( x ) = ∑ ^k

i=0 θ _i cos ( i arccos (⟨ β ⁱ , x ⟩))

f ( x ) = β ₀ + ⟨ β, x ⟩

f ( x ) = β ₀ + ∑ ⁿ

i=1 β _i x i + ∑ ⁿ

j=1 β _i,j x i x j + ∑ ⁿ

k=1 β _i,j,k x i x j x _k + . . . Trigonometrisch/Periodisch

f ( x ) = ∑ ^k

i=0 θ _i cos ( i arccos (⟨ β ⁱ , x ⟩))

f ( x ) = β ₀ + ⟨ β, x ⟩

f ( x ) = β ₀ + ∑ ⁿ

i=1 β _i x i + ∑ ⁿ

j=1 β _i,j x i x j + ∑ ⁿ

k=1 β _i,j,k x i x j x _k + . . . Trigonometrisch/Periodisch

f ( x ) = ∑ ^k

i=0 θ _i cos ( i arccos (⟨ β ⁱ , x ⟩))

p _Gauss ( x ) = 1

√ ( 2π ) ⁿ det Σ exp (− 1

2 ( x − µ ) ^⊺ Σ ⁻¹ ( x − µ )) p _Posterior ( x ) = p _Likelihood ( x ) p _Prior ₁ ( α ) p _Prior ₂ ( γ ) . . .

f _v ( x ) = ⎧⎪⎪

f _Left(v) ( x ) g ( x ) ≥ ρ v

f _Right(v) ( x ) g ( x ) < ρ _v