• Keine Ergebnisse gefunden

Wissensentdeckung in Datenbanken Modellklassen, Verlustfunktionen Nico Piatkowski und Uwe Ligges

N/A
N/A
Protected

Academic year: 2022

Aktie "Wissensentdeckung in Datenbanken Modellklassen, Verlustfunktionen Nico Piatkowski und Uwe Ligges"

Copied!
30
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Modelle

Wissensentdeckung in Datenbanken

Modellklassen, Verlustfunktionen

Nico Piatkowski und Uwe Ligges

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

02.05.2017

(2)

Modelle

Literatur

Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd edition. Springer Series in Statistics.

Springer. 2009

Im Moodle zum Download verfügbar.

Jorge Nocedal. Stephen Wright. Numerical Optimization.

2nd edition. Springer Series in Operations Research and Financial Engineering. Springer-Verlag New York. 2006

In der Zentralbibliothek verfügbar.

(3)

Modelle

Daten—und dann?

Personendaten Medizinische Daten Konto- und Zahlungsdaten Verbindungsdaten

Soziale Netzwerke

(4)

Modelle

Realisierung von Zufallsvektoren X

X =

⎛ ⎜⎜

⎜⎜ ⎜⎜

⎜⎜ ⎜⎜

⎜⎜ ⎜

Alter Geschlecht Krankheitstage

Medikation Kontostand

Kredite Webseiten

. . .

⎞ ⎟⎟

⎟⎟ ⎟⎟

⎟⎟ ⎟⎟

⎟⎟ ⎟

(5)

Modelle

Begriffe

Daten D = {( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N )}

Realisierungen von Zufallsvariable X mit n-dimensionaler Domäne X Multimenge; # D ( x, y ) ∶ X × Y → N Messfehler, Rauschen ∼ P

Fehlende Werte; x i ∈ X i ∪ { ? } , 1 ≤ i ≤ n Modell f aus Modellklasse M

Funktionen M ⊆ F

Koeffizienten / Parameter M ⊆ R d Datenpunkte M ⊆ D , M ⊆ X × Y

Verlustfunktion (Güte) ` ∶ ( f; D) ↦ R

(6)

Modelle

Begriffe

Daten D = {( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N )}

Realisierungen von Zufallsvariable X mit n-dimensionaler Domäne X Multimenge; # D ( x, y ) ∶ X × Y → N Messfehler, Rauschen ∼ P

Fehlende Werte; x i ∈ X i ∪ { ? } , 1 ≤ i ≤ n Modell f aus Modellklasse M

Funktionen M ⊆ F

Koeffizienten / Parameter M ⊆ R d Datenpunkte M ⊆ D , M ⊆ X × Y

Verlustfunktion (Güte) ` ∶ ( f; D) ↦ R

(7)

Modelle

Begriffe

Daten D = {( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N )}

Realisierungen von Zufallsvariable X mit n-dimensionaler Domäne X Multimenge; # D ( x, y ) ∶ X × Y → N Messfehler, Rauschen ∼ P

Fehlende Werte; x i ∈ X i ∪ { ? } , 1 ≤ i ≤ n Modell f aus Modellklasse M

Funktionen M ⊆ F

Koeffizienten / Parameter M ⊆ R d Datenpunkte M ⊆ D , M ⊆ X × Y

Verlustfunktion (Güte) ` ∶ ( f; D) ↦ R

(8)

Modelle

Allgemeines Vorgehen

Daten D = {( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N )}

Datenpunkt x ∈ X , Label (Klasse) y ∈ Y Modelle M

Modell “lernen”, Datenanalyse, ..

f = arg min

f∈M ` ( f ; D)

Modellanwendung, “Vorhersage”, ..

ˆ

y = f ( x )

(9)

Modelle

Allgemeines Vorgehen

Daten D = {( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N )}

Datenpunkt x ∈ X , Label (Klasse) y ∈ Y Modelle M

Modell “lernen”, Datenanalyse, ..

f = arg min

f∈M ` ( f ; D)

Modellanwendung, “Vorhersage”, ..

ˆ

y = f ( x )

(10)

Modelle

Allgemeines Vorgehen

Daten D = {( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N )}

Datenpunkt x ∈ X , Label (Klasse) y ∈ Y Modelle M

Modell “lernen”, Datenanalyse, ..

f = arg min

f∈M ` ( f ; D)

Modellanwendung, “Vorhersage”, ..

ˆ

y = f ( x )

(11)

-1 -0.5 0 0.5 1

-1 -0.5 0 0.5 1

Function value

z

T0 T1 T2 T3 T4

Modelle

Modellklassen M

f ∶ X → Y Linear

f ( x ) = β 0 + ⟨ β, x ⟩

Polynom f ( x ) = β 0 + ∑ n

i=1 β i x i + ∑ n

i=1

∑ n

j=1 β i,j x i x j + ∑ n

i=1

∑ n j=1

∑ n

k=1 β i,j,k x i x j x k + . . . Trigonometrisch/Periodisch

f ( x ) = ∑ k

i=0 θ i cos ( i arccos (⟨ β i , x ⟩))

(12)

-1 -0.5 0 0.5 1

-1 -0.5 0 0.5 1

Function value

z

T0 T1 T2 T3 T4

Modelle

Modellklassen M

f ∶ X → Y Linear

f ( x ) = β 0 + ⟨ β, x ⟩

Polynom

f ( x ) = β 0 + ∑ n

i=1 β i x i + ∑ n

i=1

∑ n

j=1 β i,j x i x j + ∑ n

i=1

∑ n j=1

∑ n

k=1 β i,j,k x i x j x k + . . . Trigonometrisch/Periodisch

f ( x ) = ∑ k

i=0 θ i cos ( i arccos (⟨ β i , x ⟩))

(13)

-1 -0.5 0 0.5 1

-1 -0.5 0 0.5 1

Function value

z

T0 T1 T2 T3 T4

Modelle

Modellklassen M

f ∶ X → Y Linear

f ( x ) = β 0 + ⟨ β, x ⟩

Polynom

f ( x ) = β 0 + ∑ n

i=1 β i x i + ∑ n

i=1

∑ n

j=1 β i,j x i x j + ∑ n

i=1

∑ n j=1

∑ n

k=1 β i,j,k x i x j x k + . . . Trigonometrisch/Periodisch

f ( x ) = ∑ k

i=0 θ i cos ( i arccos (⟨ β i , x ⟩))

(14)

Modelle

Modellklassen M (II)

Probabilistisch/Exponentialfamilie/Bayesianisch

p Gauss ( x ) = 1

√ ( 2π ) n det Σ exp (− 1

2 ( x − µ ) Σ −1 ( x − µ )) p Posterior ( x ) = p Likelihood ( x ) p Prior 1 ( α ) p Prior 2 ( γ ) . . .

Unstetig/Piecewise/Thresholding

f v ( x ) = ⎧⎪⎪

⎨⎪⎪ ⎩

f Left(v) ( x ) g ( x ) ≥ ρ v

f Right(v) ( x ) g ( x ) < ρ v

(15)

Modelle

Modellklassen M (II)

Probabilistisch/Exponentialfamilie/Bayesianisch

p Gauss ( x ) = 1

√ ( 2π ) n det Σ exp (− 1

2 ( x − µ ) Σ −1 ( x − µ )) p Posterior ( x ) = p Likelihood ( x ) p Prior 1 ( α ) p Prior 2 ( γ ) . . .

Unstetig/Piecewise/Thresholding

f v ( x ) = ⎧⎪⎪

⎨⎪⎪ ⎩

f Left(v) ( x ) g ( x ) ≥ ρ v

f Right(v) ( x ) g ( x ) < ρ v

(16)

Modelle

Beispiel: Fehlerwahrscheinlichkeit Y = { c 1 , c 2 , . . . , c k } , Modell f

Wahrscheinlichkeitsdichte falscher Vorhersagen:

p ( f ( X ) /= Y ) = E X,Y [1 {f (X)/=Y } ] = E X E Y ∣X [1 {f (X)/=Y } ]

= E X [ ∑ k

i=1 1 {f(X)/=c i } P ( Y = c i ∣ X )]

Wahl von f , so dass innere Summe minimiert wird..

f ( x ) = arg min k

j=1

∑ k

i=1 1 {c j /=c i } P( Y = c i ∣ X = x )

= arg min k

j=1 ( 1 − P( Y = c j ∣ X = x ))

= arg max k

j=1 P( Y = c j ∣ X = x )

(17)

Modelle

Beispiel: Fehlerwahrscheinlichkeit Y = { c 1 , c 2 , . . . , c k } , Modell f

Wahrscheinlichkeitsdichte falscher Vorhersagen:

p ( f ( X ) /= Y ) = E X,Y [1 {f (X)/=Y } ] = E X E Y ∣X [1 {f (X)/=Y } ]

= E X [ ∑ k

i=1 1 {f(X)/=c i } P ( Y = c i ∣ X )]

Wahl von f , so dass innere Summe minimiert wird..

f ( x ) = arg min k

j=1

∑ k

i=1 1 {c j /=c i } P( Y = c i ∣ X = x )

= arg min k

j=1 ( 1 − P( Y = c j ∣ X = x ))

= arg max k

j=1 P( Y = c j ∣ X = x )

(18)

Modelle

Verlustfunktionen `

Absoluter Fehler/SSE/MSE/RMSE

Err ( f ; D) = ∑

(x,y)∈D ∣ y − f ( x )∣

RMSE ( f ; D) =

¿ Á Á À 1

∣D∣ ∑ (x,y)∈D ( y − f ( x )) 2 Hinge Loss

Hinge ( f; D) = ∑

(x,y)∈D

max { 0, 1 − yf ( x )}

(19)

Modelle

Verlustfunktionen `

Absoluter Fehler/SSE/MSE/RMSE

Err ( f ; D) = ∑

(x,y)∈D ∣ y − f ( x )∣

RMSE ( f ; D) =

¿ Á Á À 1

∣D∣ ∑ (x,y)∈D ( y − f ( x )) 2 Hinge Loss

Hinge ( f; D) = ∑

(x,y)∈D

max { 0, 1 − yf ( x )}

(20)

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Err(f; x , y )

f( ) y = +1

y = -1

Modelle

Absoluter Fehler, ∣ y − f ( x )∣

(21)

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

MSE(f; x , y )

f( ) y = +1

y = -1

Modelle

Quadratischer Fehler, ( y − f ( x )) 2

(22)

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Hinge(f; x , y )

f( ) y = +1

y = -1

Modelle

Hinge Fehler, max { 0, 1 − y − f ( x )}

(23)

Modelle

Verlustfunktionen ` (II) - Likelihood Varianten

Likelihood

L( p; D) = ∏

(x,y)∈D

p ( x, y )

Log-Likelihood

log L( p; D) = ∑

(x,y)∈D

log p ( x, y )

Neg. Avg. Log-Likelihood

` ( p; D) = − 1

∣D∣ ∑ (x,y)∈D

log p ( x, y )

(24)

Modelle

Verlustfunktionen ` (II) - Likelihood Varianten

Likelihood

L( p; D) = ∏

(x,y)∈D

p ( x, y )

Log-Likelihood

log L( p; D) = ∑

(x,y)∈D

log p ( x, y )

Neg. Avg. Log-Likelihood

` ( p; D) = − 1

∣D∣ ∑ (x,y)∈D

log p ( x, y )

(25)

Modelle

Verlustfunktionen ` (II) - Likelihood Varianten

Likelihood

L( p; D) = ∏

(x,y)∈D

p ( x, y )

Log-Likelihood

log L( p; D) = ∑

(x,y)∈D

log p ( x, y )

Neg. Avg. Log-Likelihood

` ( p; D) = − 1

∣D∣ ∑ (x,y)∈D

log p ( x, y )

(26)

Modelle

Verlustfunktionen ` (III) - MDL

Minimum Description Length (MDL)

Formalisierung von Ockhams Rasiermesser min

C∈M L ( C ) + L (D ∣ C ) Intuition:

Nur wenige Objekte können kurze Codes haben

Nur wenige Objekte können hohe Wahrscheinlichkeit haben Formal: Alphabet A = { 1, 2, . . . , m } , Codierung C,

Codelängen L C ( 1 ) , L C ( 2 ) , . . . , L C ( m )

⇔ ∑ a∈A 2 −L C (a) ≤ 1

Kraft, 1949

(27)

Modelle

Verlustfunktionen ` (III) - MDL

Minimum Description Length (MDL)

Formalisierung von Ockhams Rasiermesser min

C∈M L ( C ) + L (D ∣ C ) Intuition:

Nur wenige Objekte können kurze Codes haben

Nur wenige Objekte können hohe Wahrscheinlichkeit haben Formal: Alphabet A = { 1, 2, . . . , m } , Codierung C,

Codelängen L C ( 1 ) , L C ( 2 ) , . . . , L C ( m )

⇔ ∑ a∈A 2 −L C (a) ≤ 1

Kraft, 1949

(28)

Modelle

Verlustfunktionen ` (III) - MDL

Minimum Description Length (MDL)

Formalisierung von Ockhams Rasiermesser min

C∈M L ( C ) + L (D ∣ C ) Intuition:

Nur wenige Objekte können kurze Codes haben

Nur wenige Objekte können hohe Wahrscheinlichkeit haben Formal: Alphabet A = { 1, 2, . . . , m } , Codierung C,

Codelängen L C ( 1 ) , L C ( 2 ) , . . . , L C ( m )

⇔ ∑ a∈A 2 −L C (a) ≤ 1

Kraft, 1949

(29)

Modelle

Verlustfunktionen ` (IV) - Clustering

Datensatz D = { x 1 , x 2 , . . . , x N } ohne Label Modell ⊂ R n

k-Means (Intra-Cluster Varianz) ICV ( k; D) = min

C⊂ R n ,∣C∣=k ∑

x∈D min

c∈C ∥ x − c ∥ 2 2

Mixture Modelle (Expectation Maximization) Example: Gaussian

{(µ i ,Σ i )} min 1≤i≤k ⊂ R n ×S ++ n − ∑

x∈D log

∑ k

i=1 p Gauss ( x ∣ i ) p ( i )

(30)

Modelle

Verlustfunktionen ` (IV) - Clustering

Datensatz D = { x 1 , x 2 , . . . , x N } ohne Label Modell ⊂ R n

k-Means (Intra-Cluster Varianz) ICV ( k; D) = min

C⊂ R n ,∣C∣=k ∑

x∈D min

c∈C ∥ x − c ∥ 2 2

Mixture Modelle (Expectation Maximization) Example: Gaussian

{(µ i ,Σ i )} min 1≤i≤k ⊂ R n ×S ++ n − ∑

x∈D log

∑ k

i=1 p Gauss ( x ∣ i ) p ( i )

Referenzen

ÄHNLICHE DOKUMENTE

Erster Ordnung, mit Gradient Einfache Implementierung Geringer Ressourcenverbrauch Vergleichsweise langsame Konvergenz Zweiter Ordnung, mit Hesse-Matrix. Hoher

Relationale Datenbanken ≡ Menge von Tabellen Relationales Datenbankmanagementsystem erlaubt Anfrage und Manipulation von Daten mittels Structured Query Language (SQL).

Nutzung eine Ordnung auf den Items um jeder Transaktionen einen eindeutigen String zuzuordnen Häufigkeiten identischer Teilstrings können dann in einem Prefixbaum

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund..

baumberechnung sind die empirischen (aus den Daten bestimmte) Mutual- Informations zwischen den Knoten Gefundener Baum hat minimale. Kullback-Leibler Divergenz zum optimalen

Erste Schichten: Allgemein, lokale Representation Tiefe Schichten: Spezifisch,

Es gibt m Klassen von Neuronen—alle Neuronen einer Klasse c verwenden den gleichen Gewichtsvektor β c Jedes Neuron jeder Klasse (=Filter) ist mit einem anderen h × h Ausschnitt

The Elements of Statistical Learning; 14.3.6, 14.3.7 Graphical Models, Exponential Families, and Variational Inference; Example 3.5.. Merkmalsauswahl, Greedy Selection,