• Keine Ergebnisse gefunden

Computer Vision: Clusterung, BoW

N/A
N/A
Protected

Academic year: 2022

Aktie "Computer Vision: Clusterung, BoW"

Copied!
12
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Computer Vision: Clusterung, BoW

(2)

Idee

I. Bilder sind Vektoren, ein Pixel entspricht einer Komponente.

Ein Bildfragment um ein Pixel ist ein Vektor, der die Umgebung „charakterisiert“.

II. Die Menge aller Bildfragmente besteht aus Teilmengen, jede Teilmenge hat einen Repräsentant – ein „ideales“ Muster, alle Bildfragmente sind verrauschte Varianten der Repräsentanten.

III. Der Merkmal eines Bildfragmentes ist der ähnlichste Repräsentant (seine Nummer).

Aufgabe:

Man finde die Repräsentanten anhand einer Lernstichprobe von Bildfragmenten

⇒Clusterung

D. Schlesinger ()Computer Vision: Clusterung, BoW 2 / 12

(3)

Clusterung

Aufgabe: partitioniere eine Menge der Objekte auf sinnvolle Teile – Clusters.

Die Objekte eines Clusters sollen „ähnlich“ sein.

Clustermenge:K

Indexmenge:I={1,2, . . . ,|I|}

Merkmalsvektoren:xi,iI.

Partitionierung:C= (I1,I2, . . . ,I|K|),IkIk0=∅fürk6=k0,

S

kIk=I

xi∈Rn, jeder Cluster hat einen „Repräsentant“yk∈Rn Die Aufgabe:

X

k

X

i∈Ik

kxiykk2→min

C,y

Alternativ – gesucht wird eine AbbildungC:IK

X

i

kxiyC(i)k2→min

y,C

X

i

min

k

kxiykk2→min

y

(4)

K-Means Algorithmus

Initialisiere Clusterzentrenykzufällig.

Wiederhole solange sich die ClusterungC ändert:

1) Klassifikation:

C(i) = arg min

k0

kxiyk0k2iIk

2) Aktualisierung der Zentren:

yk= arg min

y

X

i∈Ik

kxiyk2= 1

|Ik|

X

i∈Ik

xi

– NP-vollständig.

– K-Means Konvergiert zum lokalen Optimum→abhängig von der Initialisierung (Beispiel lokaler Konvergenz auf der Tafel).

Ausweg – z.B. zufällige Initialisierung und Wiederholung.

D. Schlesinger ()Computer Vision: Clusterung, BoW 4 / 12

(5)

Beispiel – Farbreduktion

Die Elementen sind die Pixel des Bildes, die Merkmale sind Farbwerte,

man zerlege das Bild auf Teile, die jeweils „charakteristischen Farben“ entsprechen.

Beispiel der Farbreduktion auf 8 Farben:

(6)

Varianten/Verallgemeinerungen

Ein anderer Abstandsmaß, zum Beispielkxiykkanstattkxiykk2: beim K-Means ist die Klassifikation 1) dasselbe,

die Aktualisierung 2) – der geometrische Median der Punktexi,iIk: yk= arg min

y

X

i∈Ik

kxiyk

(etwas schwieriger zu berechnen als der Mittelpunkt).

Problem: die Merkmalexlassen sich nicht immer mitteln (yk existiert nicht).

Ein Ausweg – K-Medioid Algorithmus (ykist ein Punktxiaus der Lernstichprobe).

Eine andere Verallgemeinerung basiert auf der Beobachtung

X

i

kxi−¯xk2

X

ij

kxixjk2,

daraus folgt

X

k

X

ij∈Ik

kxixjk2=

X

k

X

ij∈Ik

d(i,j)→min

C ,

mit der Abstandsmatrixd(die auf unterschiedlichste Weisen definiert werden kann).

D. Schlesinger ()Computer Vision: Clusterung, BoW 6 / 12

(7)

Block Matching (siehe Stereo)

Wichtig ist, Bildfragmente durch geeignete Wahl vond(i,j) vergleichen zu können

Quadratischer Abstand:

d I1(p1),I2(p2)

=

X

p0∈W

I1(p1+p0)−I2(p2+p0)

2

Mittelwertfreie Färbungen:

Da I1(p1),I2(p2)

= min

Ca

X

p0∈W

I1(p1+p0) +CaI2(p2+p0)

2

Skalierung (Kontrast):I1(p1+p0) wird zuCm·I1(p1+p0) +Ca

⇒Korrelationskoeffizient – mittelwertfreie Färbungen, normiert auf ihre Varianzen.

Geometrische Transformationen:I1(p1+p0) wird zuI1(Tr(p1+p0)) usw.

(8)

Weitere Abstandsmaße/Varianten

Graph basierte Abstandsmaße:

Gegeben ist ein Graph, dessen Knoten die Elementen von I sind. Jede Kante ist mit d(i,j) bewertet. Der Abstand zwischeniundjist die (summarische) Länge des kürzesten Pfaden zwischen den entsprechenden Knoten im Graphen.

→So ein Abstandsmaß ist eine Metrik.

Pfad basierte Abstandsmaße (auch Graphen):

Die Idee – selbst wenn zwei Merkmalexiundxj von einander weit entfernt sind, gehören sie eher zum selben Cluster, wenn ein Pfad (xi,xl,xl0, . . . ,xj) existiert so, dass die Abständed(xl,xl0) klein sind.

→Der minimale aufspannende Baum wird benötigt.

Abstandsmaße für „andere“ Objekte (nicht∈Rn):

Zum Beispiel:

Edit distance (Levenstein Abstand) zwischen zwei Folgen, Graph Isomorphismus basierte Abstände zwischen Graphen

Noch eine Variante – Minimierung der Durchmesser (bei|K|= 2 polynomiell lösbar):

max

k max

ij∈Ikd(i,j)→min

C

. . .

D. Schlesinger ()Computer Vision: Clusterung, BoW 8 / 12

(9)

Visuelle Wörter

– Finde interessante Punkte in Bildern einer Datenbank – Betrachte die entsprechenden Bildfragmente als Vektoren – Clustere sie (Distanzmaß aus Block Matching)

Bilddatenbank ⇒ Visuelle Wörter

Jedem Bildausschnitt wird das Wort zugeordnet, zu welchem er am nächsten liegt.

Bildmerkmal – Nummer des Wortes

(10)

Punktmerkmale → Bildmerkmale

Grundlage:

Input: Bild

→Interessante Punkte (Harris, MSER, Laplace ...)

→Deskriptoren, ein pro Punkt (Haar, SIFT, Bildfragmente ...) Output: Ein „Tupel“ von Vektoren pro Bild.

Was ist im Bild zu sehen (Erkennung, Klassifikation)?

Die Deskriptoren an sich sind nicht aussagekräftig genug – es sind „nur Zahlen“.

Die Menge aller Deskriptoren wird geclustert,

der Deskriptor (numerisch) wird wehrend der Erkennung durch Clusternummer ersetzt – Klassifikation (Interpretation des Wertes) – eine „etwas semantischere“ Bedeutung

Output: Eine Liste der Besondere Punkte mit den entsprechenden Clusternummern.

Was ist im Bild zu sehen?

Die Idee:

die Häufigkeiten des Vorkommens der Clusternummer sind für die Klassifikation relevant Beispiel: „sehr viele vertikale Kanten im Bild“⇒(höchstwahrscheinlich) „Zebra“

Bildmerkmalist das Histogramm des Vorkommens der Clusternummer.

D. Schlesinger ()Computer Vision: Clusterung, BoW 10 / 12

(11)

Bag of Visual Words

(12)

Erkennung

Was ist im Bild zu sehen?

Bild → Merkmal →

?

Klasse

EinKlassifikatorist eine Abbildunge:RnK, die jedemMusterx∈RneineKlassekK zuordnet.

Lernaufgabe:

Gegeben sei eine FamilieEder Klassifikatoren

Gegeben sei eineannotierte Lernstichprobe (x1,k1),(x2,k2). . .(xL,kL)

Man suche nach dem Klassifikatore∈ Eso, dasse(xl) =klfür allelgilt (wenn es mehrere gibt, finde den „besten“)

Mashine Learning, Mustererkennung Empfehlenswert:

http://people.csail.mit.edu/torralba/shortCourseRLOC/index.html

D. Schlesinger ()Computer Vision: Clusterung, BoW 12 / 12

Referenzen

ÄHNLICHE DOKUMENTE

b) Possible extensions: row-wise Iterated Conditional Mode, more complex data-terms

Scene type Scene geometry Object classes Object position Object orientation Object shape Depth/occlusions Object appearance Illumination Shadows Motion blur Camera

• „Tracking an object in an image sequence means continuously identifying its location when either the object or the camera are moving“ [Lepetit and Fua 2005].. • This can

• „Tracking an object in an image sequence means continuously identifying its location when either the object or the camera are moving“ [Lepetit and Fua 2005].. • This can

Computation  of  the  “Cornerness”...  colors,  homogenous  regions

der Deskriptor (numerisch) wird wehrend der Erkennung durch Clusternummer ersetzt – Klassifikation (Interpretation des Wertes) – eine „etwas semantischere“ Bedeutung. ⇒ Output:

Shape from Texture. Shape

Lowe: Distinctive Image Features from Scale-Invariant Keypoints – Viola & Jones: Rapid Object Detection using a Boosted Cascade of Simple Features.