Wissensentdeckung in Datenbanken Überanpassung, Häuﬁge Mengen Nico Piatkowski und Uwe Ligges

(1)

Überanpassung Datenbanken und Häufige Mengen

Wissensentdeckung in Datenbanken

Überanpassung, Häufige Mengen

Nico Piatkowski und Uwe Ligges

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

09.05.2017

(2)

-1 -0.5 0 0.5 1

Function value

z

T₀ T₁ T₂ T₃ T₄

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Err(f;x,y)

f(x) y = +1

y = -1

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

MSE(f;x,y)

f(x) y = +1 y = -1

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Hinge(f;x,y)

f(x) y = +1

y = -1

Überblick

Was bisher geschah...

Modellklassen Verlustfunktionen

Numerische Optimierung Regularisierung

Heute

Überanpassung Häufige Mengen

(3)

-1 -0.5 0 0.5 1

Function value

z

T₀ T₁ T₂ T₃ T₄

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Err(f;x,y)

f(x) y = +1

y = -1

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

MSE(f;x,y)

f(x) y = +1 y = -1

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Hinge(f;x,y)

f(x) y = +1

y = -1

Überblick

Was bisher geschah...

Modellklassen Verlustfunktionen

Numerische Optimierung Regularisierung

Heute

Überanpassung Häufige Mengen

(4)

Fehlertypen

Lernen des ModellsfDauf Basis vonTrainingsdatenD Anwendung des Modells aufTestdatenT

Dist Zufallsvariable⇒fD ist Zufallsvariable

DasgelernteModell soll aufzufälligenTestpunkten (X, Y)möglichst gut funktionieren, d.h.

E[`(fD;(X, Y)) ∣ D ] soll minimal sein.

Aber numerische Optimierung wähltf so, dass

`(f;D) ∝ 1

∣D∣

∑

(x,y)∈D

`(f;(x, y)) =Eˆ[`(f;(X, Y))]

minimiert wird.

(5)

Fehlertypen

`(f;D) ∝ 1

∣D∣

∑

(x,y)∈D

`(f;(x, y)) =Eˆ[`(f;(X, Y))]

minimiert wird.

(6)

Fehlertypen

`(f;D) ∝ 1

∣D∣

∑

(x,y)∈D

`(f;(x, y)) =Eˆ[`(f;(X, Y))]

minimiert wird.

(7)

Beispiel: Hellrot =E[`(fD;(X, Y)) ∣ D], Hellblau =Eˆ[`(f;(X, Y))]

(8)

Überanpassung

Freiheitsgrade im linearen Modell:df_RSS(β) =d

Fallsd≫nkann sich das Modell “perfekt” an die Daten anpassen

Modell lernt die Daten “auswendig”≡Überanpassung Optimum der Verlustfunktion`(f;D) =Eˆ[`(f;(X, Y))]

liefert suboptimale Vorhersagen

Hinzufügen von “Anpassungskosten” soll Überanpassung verhindern

(9)

Überanpassung

Freiheitsgrade im linearen Modell:df_RSS(β) =d

Fallsd≫nkann sich das Modell “perfekt” an die Daten anpassen

Modell lernt die Daten “auswendig”≡Überanpassung Optimum der Verlustfunktion`(f;D) =Eˆ[`(f;(X, Y))]

liefert suboptimale Vorhersagen

Hinzufügen von “Anpassungskosten” soll Überanpassung verhindern

(10)

Modellkomplexität

Allgemein für lineare Modelle mitβ∈R^dundy=f(x) +ε df(f) = 1

σ_ε² ∑

(x,y)∈D

C[f(x), y]

Idee: bestrafe Überanpassung mittelsRegularisierung R∶ M →R

fD=arg min

f∈M

`(f;D) +λR(f)

Der Parameterλ>0bestimmt den Einfluss der Regularisierung.

Oft:R(f) = ∥f∥^q_q

(11)

Modellkomplexität

σ_ε² ∑

(x,y)∈D

C[f(x), y]

fD=arg min

f∈M

`(f;D) +λR(f)

(12)

Modellkomplexität

σ_ε² ∑

(x,y)∈D

C[f(x), y]

fD=arg min

f∈M

`(f;D) +λR(f)

(13)

Regularisierung kontrolliert Modellkomplexität

Freiheitsgrade fürR_l₂(f) = ∥β∥²₂ und R_l₁(f) = ∥β∥₁: dfRSS+l2(β) =trace[D(D^⊺D+λI)⁻¹D^⊺]

dfRSS+l1(β) ≈

d

∑

i=1

1β_i=0/

mit DatenmatrixD= (x¹,x², . . . ,x^N)^⊺und EinheitsmatrixI. Beispiel:

f(x) = ⟨β,x⟩

`(f;D) =RSS(f;D) = ∑_(x,y)∈D(y−f(x))² λ=0.1,D = {(0.25,0.5)}

(14)

Regularisierung kontrolliert Modellkomplexität

Freiheitsgrade fürR_l₂(f) = ∥β∥²₂ und R_l₁(f) = ∥β∥₁: dfRSS+l2(β) =trace[D(D^⊺D+λI)⁻¹D^⊺]

dfRSS+l1(β) ≈

d

∑

i=1

1β_i=0/

mit DatenmatrixD= (x¹,x², . . . ,x^N)^⊺und EinheitsmatrixI. Beispiel:

f(x) = ⟨β,x⟩

`(f;D) =RSS(f;D) = ∑_(x,y)∈D(y−f(x))² λ=0.1,D = {(0.25,0.5)}

(15)

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

0 0.5 1 1.5 2

β_RSS β_RSS+l

2

Loss

RSS(β)+λ||β||

₂²

RSS(β)

Beispiel:l2-Regularisierung

(16)

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

0 0.5 1 1.5 2

β_RSS β_RSS+l

1

Loss

β

RSS(β)+λ||β||

₁

RSS(β)

Beispiel:l1-Regularisierung

(17)

Verzerrung und Varianz

FallsY =f(x) +εundE[ε] =0, dann E[RSS(fD;(x, Y))] =E[(Y −fD(x))²]

=E[Y²−2Y fD(x) +fD(x)²]

=E[(f(x) +ε)²] −E[2Y fD(x)] +E[fD(x)²]

=E[f(x)²+2f(x)ε+ε²] −E[2Y fD(x)] +E[fD(x)²]

=f(x)²+σ²_ε−E[2Y fD(x)] +V[fD(x)] +E[fD(x)]²

=σ_ε²+V[fD(x)] +B[fD(x)]²

mitB[fD(x)] =f(x) −E[fD(x)]und alle Erwartungswerte sind bedingt aufx.

(18)

0 0.2 0.4 0.6 0.8 1

Bias Varianz

Error

Complexity

Verzerrung und Varianz (II)

(19)

Datenbanken und Häufige Mengen

(20)

Datenbanken und SQL

Jetzt:M ⊂ Dbzw.M ⊂ X

Relationale Datenbanken≡Menge von Tabellen Relationales Datenbankmanagementsystem erlaubt Anfrage und Manipulation von Daten mittels Structured Query Language (SQL)

Beispielhafte AnfragenQ:

SELECT DISTINCT x1,x2 FROM data WHERE ...

SELECT * FROM ... ORDER BY x SELECT AVG(x) FROM ... GROUP BY y SELECT MIN(x) FROM ... GROUP BY y SELECT MAX(x) FROM ... GROUP BY y

SELECT COUNT(x) AS c FROM ... HAVING c>10

(21)

Datenbanken und SQL

Jetzt:M ⊂ Dbzw.M ⊂ X

Relationale Datenbanken≡Menge von Tabellen Relationales Datenbankmanagementsystem erlaubt Anfrage und Manipulation von Daten mittels Structured Query Language (SQL)

Beispielhafte AnfragenQ:

SELECT DISTINCT x1,x2 FROM data WHERE ...

SELECT * FROM ... ORDER BY x SELECT AVG(x) FROM ... GROUP BY y SELECT MIN(x) FROM ... GROUP BY y SELECT MAX(x) FROM ... GROUP BY y

SELECT COUNT(x) AS c FROM ... HAVING c>10

(22)

Anfragen und Mengen

Resultat einer DatenbankanfrageQist eine neue TabelleD Annahme: Datenbank besteht aus Binärdaten, oder wird mittels SQL Anfragen konvertiert

Die Einträge vonDheißen dannTransaktionen

Transaktiont∈Dentspricht Indikatorvektor einer Menge 001010011101000110010≡ {x₃, x₅, x₈, x₉, x₁₀, x₁₂, x₁₆, x₁₇, x₂₀} Die Elementexi der Menge nennt man

auchItems

(23)

Anfragen und Mengen

Resultat einer DatenbankanfrageQist eine neue TabelleD Annahme: Datenbank besteht aus Binärdaten, oder wird mittels SQL Anfragen konvertiert

Die Einträge vonDheißen dannTransaktionen

Transaktiont∈Dentspricht Indikatorvektor einer Menge 001010011101000110010≡ {x₃, x₅, x₈, x₉, x₁₀, x₁₂, x₁₆, x₁₇, x₂₀}

Die Elementexi der Menge nennt man auchItems

(24)

Ausblick: Häufige Mengen und Apriori

Frequent Itemset Mining:

Bestimme alle Mengen von Items die in mindestens s-prozent aller Transaktionen vorkommen

Solche Menge heißenhäufig 2ⁿmögliche häufige Mengen!

Aber: Eine Menge kann nur dann häufig sein, wenn alle ihre Teil- mengen häufig sind

Apriori: Bottom-Up Algorithmus über Teilmengenverband zur Berechnung aller häufigen Mengen