Computer Vision: Clusterung, BoW

(1)

Computer Vision: Clusterung, BoW

(2)

Idee

I. Bilder sind Vektoren, ein Pixel entspricht einer Komponente.

Ein Bildfragment um ein Pixel ist ein Vektor, der die Umgebung „charakterisiert“.

II. Die Menge aller Bildfragmente besteht aus Teilmengen, jede Teilmenge hat einen Repräsentant – ein „ideales“ Muster, alle Bildfragmente sind verrauschte Varianten der Repräsentanten.

III. Der Merkmal eines Bildfragmentes ist der ähnlichste Repräsentant (seine Nummer).

Aufgabe:

Man finde die Repräsentanten anhand einer Lernstichprobe von Bildfragmenten

⇒Clusterung

D. Schlesinger ()Computer Vision: Clusterung, BoW 2 / 12

(3)

Clusterung

Aufgabe: partitioniere eine Menge der Objekte auf sinnvolle Teile – Clusters.

Die Objekte eines Clusters sollen „ähnlich“ sein.

Clustermenge:K

Indexmenge:I={1,2, . . . ,|I|}

Merkmalsvektoren:xⁱ,i∈I.

Partitionierung:C= (I1,I2, . . . ,I|K|),Ik∩Ik⁰=∅fürk6=k⁰,

S

kIk=I

xⁱ∈Rⁿ, jeder Cluster hat einen „Repräsentant“y^k∈Rⁿ Die Aufgabe:

X

k

X

i∈I_k

kxⁱ−y^kk²→min

C,y

Alternativ – gesucht wird eine AbbildungC:I→K

X

i

kxⁱ−y^C(i)k²→min

y,C

X

i

min

k

kxⁱ−y^kk²→min

y

(4)

K-Means Algorithmus

Initialisiere Clusterzentreny^kzufällig.

Wiederhole solange sich die ClusterungC ändert:

1) Klassifikation:

C(i) = arg min

k⁰

kxⁱ−y^k⁰k² ⇒ i∈Ik

2) Aktualisierung der Zentren:

y^k= arg min

y

X

i∈I_k

kxⁱ−yk²= 1

|I_k|

X

i∈I_k

xⁱ

– NP-vollständig.

– K-Means Konvergiert zum lokalen Optimum→abhängig von der Initialisierung (Beispiel lokaler Konvergenz auf der Tafel).

Ausweg – z.B. zufällige Initialisierung und Wiederholung.

(5)

Beispiel – Farbreduktion

Die Elementen sind die Pixel des Bildes, die Merkmale sind Farbwerte,

man zerlege das Bild auf Teile, die jeweils „charakteristischen Farben“ entsprechen.

Beispiel der Farbreduktion auf 8 Farben:

(6)

Varianten/Verallgemeinerungen

Ein anderer Abstandsmaß, zum Beispielkxⁱ−y^kkanstattkxⁱ−y^kk²: beim K-Means ist die Klassifikation 1) dasselbe,

die Aktualisierung 2) – der geometrische Median der Punktexⁱ,i∈Ik: yk= arg min

y

X

i∈I_k

kxⁱ−yk

(etwas schwieriger zu berechnen als der Mittelpunkt).

Problem: die Merkmalexlassen sich nicht immer mitteln (y^k existiert nicht).

Ein Ausweg – K-Medioid Algorithmus (y^kist ein Punktxⁱaus der Lernstichprobe).

Eine andere Verallgemeinerung basiert auf der Beobachtung

X

i

kxⁱ−¯xk²∼

X

ij

kxⁱ−x^jk²,

daraus folgt

X

k

X

ij∈I_k

kxⁱ−x^jk²=

X

k

X

ij∈I_k

d(i,j)→min

C ,

mit der Abstandsmatrixd(die auf unterschiedlichste Weisen definiert werden kann).

(7)

Block Matching (siehe Stereo)

Wichtig ist, Bildfragmente durch geeignete Wahl vond(i,j) vergleichen zu können

Quadratischer Abstand:

d I1(p1),I2(p2)

=

X

p⁰∈W

I1(p1+p⁰)−I2(p2+p⁰)

2

Mittelwertfreie Färbungen:

Da I1(p1),I2(p2)

= min

Ca

X

p⁰∈W

I1(p1+p⁰) +Ca−I2(p2+p⁰)

²

Skalierung (Kontrast):I1(p1+p⁰) wird zuCm·I1(p1+p⁰) +Ca

⇒Korrelationskoeffizient – mittelwertfreie Färbungen, normiert auf ihre Varianzen.

Geometrische Transformationen:I1(p1+p⁰) wird zuI1(Tr(p1+p⁰)) usw.

(8)

Weitere Abstandsmaße/Varianten

Graph basierte Abstandsmaße:

Gegeben ist ein Graph, dessen Knoten die Elementen von I sind. Jede Kante ist mit d(i,j) bewertet. Der Abstand zwischeniundjist die (summarische) Länge des kürzesten Pfaden zwischen den entsprechenden Knoten im Graphen.

→So ein Abstandsmaß ist eine Metrik.

Pfad basierte Abstandsmaße (auch Graphen):

Die Idee – selbst wenn zwei Merkmalexⁱundx^j von einander weit entfernt sind, gehören sie eher zum selben Cluster, wenn ein Pfad (xⁱ,x^l,x^l⁰, . . . ,x^j) existiert so, dass die Abständed(x^l,x^l⁰) klein sind.

→Der minimale aufspannende Baum wird benötigt.

Abstandsmaße für „andere“ Objekte (nicht∈Rⁿ):

Zum Beispiel:

Edit distance (Levenstein Abstand) zwischen zwei Folgen, Graph Isomorphismus basierte Abstände zwischen Graphen

Noch eine Variante – Minimierung der Durchmesser (bei|K|= 2 polynomiell lösbar):

max

k max

ij∈I_kd(i,j)→min

C

. . .

(9)

Visuelle Wörter

– Finde interessante Punkte in Bildern einer Datenbank – Betrachte die entsprechenden Bildfragmente als Vektoren – Clustere sie (Distanzmaß aus Block Matching)

Bilddatenbank ⇒ Visuelle Wörter

Jedem Bildausschnitt wird das Wort zugeordnet, zu welchem er am nächsten liegt.

Bildmerkmal – Nummer des Wortes

(10)

Punktmerkmale → Bildmerkmale

Grundlage:

Input: Bild

→Interessante Punkte (Harris, MSER, Laplace ...)

→Deskriptoren, ein pro Punkt (Haar, SIFT, Bildfragmente ...) Output: Ein „Tupel“ von Vektoren pro Bild.

Was ist im Bild zu sehen (Erkennung, Klassifikation)?

Die Deskriptoren an sich sind nicht aussagekräftig genug – es sind „nur Zahlen“.

Die Menge aller Deskriptoren wird geclustert,

der Deskriptor (numerisch) wird wehrend der Erkennung durch Clusternummer ersetzt – Klassifikation (Interpretation des Wertes) – eine „etwas semantischere“ Bedeutung

⇒Output: Eine Liste der Besondere Punkte mit den entsprechenden Clusternummern.

Was ist im Bild zu sehen?

Die Idee:

die Häufigkeiten des Vorkommens der Clusternummer sind für die Klassifikation relevant Beispiel: „sehr viele vertikale Kanten im Bild“⇒(höchstwahrscheinlich) „Zebra“

Bildmerkmalist das Histogramm des Vorkommens der Clusternummer.

(11)

Bag of Visual Words

(12)

Erkennung

Was ist im Bild zu sehen?

Bild → Merkmal →

^?

Klasse

EinKlassifikatorist eine Abbildunge:Rⁿ→K, die jedemMusterx∈RⁿeineKlassek∈K zuordnet.

Lernaufgabe:

Gegeben sei eine FamilieEder Klassifikatoren

Gegeben sei eineannotierte Lernstichprobe (x1,k1),(x2,k2). . .(xL,kL)

Man suche nach dem Klassifikatore∈ Eso, dasse(xl) =klfür allelgilt (wenn es mehrere gibt, finde den „besten“)

Mashine Learning, Mustererkennung Empfehlenswert:

http://people.csail.mit.edu/torralba/shortCourseRLOC/index.html