• Keine Ergebnisse gefunden

Wissensentdeckung in Datenbanken Überanpassung, Häufige Mengen Nico Piatkowski und Uwe Ligges

N/A
N/A
Protected

Academic year: 2022

Aktie "Wissensentdeckung in Datenbanken Überanpassung, Häufige Mengen Nico Piatkowski und Uwe Ligges"

Copied!
24
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Überanpassung Datenbanken und Häufige Mengen

Wissensentdeckung in Datenbanken

Überanpassung, Häufige Mengen

Nico Piatkowski und Uwe Ligges

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität Dortmund

09.05.2017

(2)

-1 -0.5 0 0.5 1

-1 -0.5 0 0.5 1

Function value

z

T0 T1 T2 T3 T4

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Err(f;x,y)

f(x) y = +1

y = -1

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

MSE(f;x,y)

f(x) y = +1 y = -1

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Hinge(f;x,y)

f(x) y = +1

y = -1

Überanpassung Datenbanken und Häufige Mengen

Überblick

Was bisher geschah...

Modellklassen Verlustfunktionen

Numerische Optimierung Regularisierung

Heute

Überanpassung Häufige Mengen

(3)

-1 -0.5 0 0.5 1

-1 -0.5 0 0.5 1

Function value

z

T0 T1 T2 T3 T4

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Err(f;x,y)

f(x) y = +1

y = -1

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

MSE(f;x,y)

f(x) y = +1 y = -1

0 0.5 1 1.5 2 2.5 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Hinge(f;x,y)

f(x) y = +1

y = -1

Überanpassung Datenbanken und Häufige Mengen

Überblick

Was bisher geschah...

Modellklassen Verlustfunktionen

Numerische Optimierung Regularisierung

Heute

Überanpassung Häufige Mengen

(4)

Überanpassung Datenbanken und Häufige Mengen

Fehlertypen

Lernen des ModellsfDauf Basis vonTrainingsdatenD Anwendung des Modells aufTestdatenT

Dist Zufallsvariable⇒fD ist Zufallsvariable

DasgelernteModell soll aufzufälligenTestpunkten (X, Y)möglichst gut funktionieren, d.h.

E[`(fD;(X, Y)) ∣ D ] soll minimal sein.

Aber numerische Optimierung wähltf so, dass

`(f;D) ∝ 1

∣D∣

(x,y)∈D

`(f;(x, y)) =Eˆ[`(f;(X, Y))]

minimiert wird.

(5)

Überanpassung Datenbanken und Häufige Mengen

Fehlertypen

Lernen des ModellsfDauf Basis vonTrainingsdatenD Anwendung des Modells aufTestdatenT

Dist Zufallsvariable⇒fD ist Zufallsvariable

DasgelernteModell soll aufzufälligenTestpunkten (X, Y)möglichst gut funktionieren, d.h.

E[`(fD;(X, Y)) ∣ D ] soll minimal sein.

Aber numerische Optimierung wähltf so, dass

`(f;D) ∝ 1

∣D∣

(x,y)∈D

`(f;(x, y)) =Eˆ[`(f;(X, Y))]

minimiert wird.

(6)

Überanpassung Datenbanken und Häufige Mengen

Fehlertypen

Lernen des ModellsfDauf Basis vonTrainingsdatenD Anwendung des Modells aufTestdatenT

Dist Zufallsvariable⇒fD ist Zufallsvariable

DasgelernteModell soll aufzufälligenTestpunkten (X, Y)möglichst gut funktionieren, d.h.

E[`(fD;(X, Y)) ∣ D ] soll minimal sein.

Aber numerische Optimierung wähltf so, dass

`(f;D) ∝ 1

∣D∣

(x,y)∈D

`(f;(x, y)) =Eˆ[`(f;(X, Y))]

minimiert wird.

(7)

Überanpassung Datenbanken und Häufige Mengen

Beispiel: Hellrot =E[`(fD;(X, Y)) ∣ D], Hellblau =Eˆ[`(f;(X, Y))]

(8)

Überanpassung Datenbanken und Häufige Mengen

Überanpassung

Freiheitsgrade im linearen Modell:dfRSS(β) =d

Fallsd≫nkann sich das Modell “perfekt” an die Daten anpassen

Modell lernt die Daten “auswendig”≡Überanpassung Optimum der Verlustfunktion`(f;D) =Eˆ[`(f;(X, Y))]

liefert suboptimale Vorhersagen

Hinzufügen von “Anpassungskosten” soll Überanpassung verhindern

(9)

Überanpassung Datenbanken und Häufige Mengen

Überanpassung

Freiheitsgrade im linearen Modell:dfRSS(β) =d

Fallsd≫nkann sich das Modell “perfekt” an die Daten anpassen

Modell lernt die Daten “auswendig”≡Überanpassung Optimum der Verlustfunktion`(f;D) =Eˆ[`(f;(X, Y))]

liefert suboptimale Vorhersagen

Hinzufügen von “Anpassungskosten” soll Überanpassung verhindern

(10)

Überanpassung Datenbanken und Häufige Mengen

Modellkomplexität

Allgemein für lineare Modelle mitβ∈Rdundy=f(x) +ε df(f) = 1

σε2

(x,y)∈D

C[f(x), y]

Idee: bestrafe Überanpassung mittelsRegularisierung R∶ M →R

fD=arg min

f∈M

`(f;D) +λR(f)

Der Parameterλ>0bestimmt den Einfluss der Regularisierung.

Oft:R(f) = ∥f∥qq

(11)

Überanpassung Datenbanken und Häufige Mengen

Modellkomplexität

Allgemein für lineare Modelle mitβ∈Rdundy=f(x) +ε df(f) = 1

σε2

(x,y)∈D

C[f(x), y]

Idee: bestrafe Überanpassung mittelsRegularisierung R∶ M →R

fD=arg min

f∈M

`(f;D) +λR(f)

Der Parameterλ>0bestimmt den Einfluss der Regularisierung.

Oft:R(f) = ∥f∥qq

(12)

Überanpassung Datenbanken und Häufige Mengen

Modellkomplexität

Allgemein für lineare Modelle mitβ∈Rdundy=f(x) +ε df(f) = 1

σε2

(x,y)∈D

C[f(x), y]

Idee: bestrafe Überanpassung mittelsRegularisierung R∶ M →R

fD=arg min

f∈M

`(f;D) +λR(f)

Der Parameterλ>0bestimmt den Einfluss der Regularisierung.

Oft:R(f) = ∥f∥qq

(13)

Überanpassung Datenbanken und Häufige Mengen

Regularisierung kontrolliert Modellkomplexität

Freiheitsgrade fürRl2(f) = ∥β∥22 und Rl1(f) = ∥β∥1: dfRSS+l2(β) =trace[D(DD+λI)−1D]

dfRSS+l1(β) ≈

d

i=1

1βi=0/

mit DatenmatrixD= (x1,x2, . . . ,xN)und EinheitsmatrixI. Beispiel:

f(x) = ⟨β,x⟩

`(f;D) =RSS(f;D) = ∑(x,y)∈D(y−f(x))2 λ=0.1,D = {(0.25,0.5)}

(14)

Überanpassung Datenbanken und Häufige Mengen

Regularisierung kontrolliert Modellkomplexität

Freiheitsgrade fürRl2(f) = ∥β∥22 und Rl1(f) = ∥β∥1: dfRSS+l2(β) =trace[D(DD+λI)−1D]

dfRSS+l1(β) ≈

d

i=1

1βi=0/

mit DatenmatrixD= (x1,x2, . . . ,xN)und EinheitsmatrixI. Beispiel:

f(x) = ⟨β,x⟩

`(f;D) =RSS(f;D) = ∑(x,y)∈D(y−f(x))2 λ=0.1,D = {(0.25,0.5)}

(15)

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

0 0.5 1 1.5 2

βRSS βRSS+l

2

Loss

RSS(β)+λ||β||

22

RSS(β)

Überanpassung Datenbanken und Häufige Mengen

Beispiel:l2-Regularisierung

(16)

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

0 0.5 1 1.5 2

βRSS βRSS+l

1

Loss

β

RSS(β)+λ||β||

1

RSS(β)

Überanpassung Datenbanken und Häufige Mengen

Beispiel:l1-Regularisierung

(17)

Überanpassung Datenbanken und Häufige Mengen

Verzerrung und Varianz

FallsY =f(x) +εundE[ε] =0, dann E[RSS(fD;(x, Y))] =E[(Y −fD(x))2]

=E[Y2−2Y fD(x) +fD(x)2]

=E[(f(x) +ε)2] −E[2Y fD(x)] +E[fD(x)2]

=E[f(x)2+2f(x)ε+ε2] −E[2Y fD(x)] +E[fD(x)2]

=f(x)22ε−E[2Y fD(x)] +V[fD(x)] +E[fD(x)]2

ε2+V[fD(x)] +B[fD(x)]2

mitB[fD(x)] =f(x) −E[fD(x)]und alle Erwartungswerte sind bedingt aufx.

(18)

0 0.2 0.4 0.6 0.8 1

0 0.2 0.4 0.6 0.8 1

Bias Varianz

Error

Complexity

Überanpassung Datenbanken und Häufige Mengen

Verzerrung und Varianz (II)

(19)

Überanpassung Datenbanken und Häufige Mengen

Datenbanken und Häufige Mengen

(20)

Überanpassung Datenbanken und Häufige Mengen

Datenbanken und SQL

Jetzt:M ⊂ Dbzw.M ⊂ X

Relationale Datenbanken≡Menge von Tabellen Relationales Datenbankmanagementsystem erlaubt Anfrage und Manipulation von Daten mittels Structured Query Language (SQL)

Beispielhafte AnfragenQ:

SELECT DISTINCT x1,x2 FROM data WHERE ...

SELECT * FROM ... ORDER BY x SELECT AVG(x) FROM ... GROUP BY y SELECT MIN(x) FROM ... GROUP BY y SELECT MAX(x) FROM ... GROUP BY y

SELECT COUNT(x) AS c FROM ... HAVING c>10

(21)

Überanpassung Datenbanken und Häufige Mengen

Datenbanken und SQL

Jetzt:M ⊂ Dbzw.M ⊂ X

Relationale Datenbanken≡Menge von Tabellen Relationales Datenbankmanagementsystem erlaubt Anfrage und Manipulation von Daten mittels Structured Query Language (SQL)

Beispielhafte AnfragenQ:

SELECT DISTINCT x1,x2 FROM data WHERE ...

SELECT * FROM ... ORDER BY x SELECT AVG(x) FROM ... GROUP BY y SELECT MIN(x) FROM ... GROUP BY y SELECT MAX(x) FROM ... GROUP BY y

SELECT COUNT(x) AS c FROM ... HAVING c>10

(22)

Überanpassung Datenbanken und Häufige Mengen

Anfragen und Mengen

Resultat einer DatenbankanfrageQist eine neue TabelleD Annahme: Datenbank besteht aus Binärdaten, oder wird mittels SQL Anfragen konvertiert

Die Einträge vonDheißen dannTransaktionen

Transaktiont∈Dentspricht Indikatorvektor einer Menge 001010011101000110010≡ {x3, x5, x8, x9, x10, x12, x16, x17, x20} Die Elementexi der Menge nennt man

auchItems

(23)

Überanpassung Datenbanken und Häufige Mengen

Anfragen und Mengen

Resultat einer DatenbankanfrageQist eine neue TabelleD Annahme: Datenbank besteht aus Binärdaten, oder wird mittels SQL Anfragen konvertiert

Die Einträge vonDheißen dannTransaktionen

Transaktiont∈Dentspricht Indikatorvektor einer Menge 001010011101000110010≡ {x3, x5, x8, x9, x10, x12, x16, x17, x20}

Die Elementexi der Menge nennt man auchItems

(24)

Überanpassung Datenbanken und Häufige Mengen

Ausblick: Häufige Mengen und Apriori

Frequent Itemset Mining:

Bestimme alle Mengen von Items die in mindestens s-prozent aller Transaktionen vorkommen

Solche Menge heißenhäufig 2nmögliche häufige Mengen!

Aber: Eine Menge kann nur dann häufig sein, wenn alle ihre Teil- mengen häufig sind

Apriori: Bottom-Up Algorithmus über Teilmengenverband zur Berechnung aller häufigen Mengen

Referenzen

ÄHNLICHE DOKUMENTE

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität

Erster Ordnung, mit Gradient Einfache Implementierung Geringer Ressourcenverbrauch Vergleichsweise langsame Konvergenz Zweiter Ordnung, mit Hesse-Matrix. Hoher

Nutzung eine Ordnung auf den Items um jeder Transaktionen einen eindeutigen String zuzuordnen Häufigkeiten identischer Teilstrings können dann in einem Prefixbaum

Informatik—Künstliche Intelligenz Computergestützte Statistik Technische Universität

(1) Die Zielfunktion von probabilistischen Modellen ist die (mittlere) negative Log-Likelihood (02.05.). (2) Die Parameter β des graphischen Modells lernen wir mittels

Neue Verlustfunktion(?) = neuer Algorithmus Kategorisierung der Punkte eines Datensatzes:. Kernpunkte

Es gibt m Klassen von Neuronen—alle Neuronen einer Klasse c verwenden den gleichen Gewichtsvektor β c Jedes Neuron jeder Klasse (=Filter) ist mit einem anderen h × h Ausschnitt

The Elements of Statistical Learning; 14.3.6, 14.3.7 Graphical Models, Exponential Families, and Variational Inference; Example 3.5.. Merkmalsauswahl, Greedy Selection,