• Keine Ergebnisse gefunden

Learning Image Embeddings using CNNs for Improved Multi-Modal Semantics

N/A
N/A
Protected

Academic year: 2022

Aktie "Learning Image Embeddings using CNNs for Improved Multi-Modal Semantics"

Copied!
55
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Motivation Modell Evaluation Ergebnisse Quellen

Learning Image Embeddings using CNNs for Improved Multi-Modal Semantics

Douwe Kiela, L´eon Bottou, 2014

Daub Haubenreisser

2.7.19

(2)

Motivation Modell Evaluation Ergebnisse Quellen

Autoren

Douwe Kiela L´eon Bottou

I 2014 war Kiela als Gastwissenschaftler bei Microsoft Research, wo Bottou angestellt war

I mittlerweile arbeiten beide bei Facebook AI unter Yann LeCun

(3)

Motivation Modell Evaluation Ergebnisse Quellen

Inhaltsverzeichnis

Motivation Modell

Linguistische Repr¨asentation Perzeptuelle Repr¨asentation Multimodale Repr¨asentation

Evaluation Ergebnisse Quellen

(4)

Motivation Modell Evaluation Ergebnisse Quellen

1. Frage

I Was ist die Hauptidee hinter dem multimodalen Ansatz und wie wird dieser zu menschlicher Kognition in Beziehung gesetzt?

I Man m¨ochte die Bedeutung eines Wortes erweitern um zus¨atzliche Informationenaus anderen Quellen (Modi) I ¨ahnlich zum menschlichen Lernprozess: wahrnehmungsbasiert I Ziel: Performanz der Wortrepr¨asentation steigern

I Allgemein: keine echte AI ohne L¨osung des Symbol Grounding Problems (wie erhalten Zeichen ihre Bedeutung?) 1

1Douwe Kiela: TEDx talk

(5)

Motivation Modell Evaluation Ergebnisse Quellen

1. Frage

I Was ist die Hauptidee hinter dem multimodalen Ansatz und wie wird dieser zu menschlicher Kognition in Beziehung gesetzt?

I Man m¨ochte die Bedeutung eines Wortes erweitern um zus¨atzliche Informationenaus anderen Quellen (Modi) I ¨ahnlich zum menschlichen Lernprozess: wahrnehmungsbasiert I Ziel: Performanz der Wortrepr¨asentation steigern

I Allgemein: keine echte AI ohne L¨osung des Symbol Grounding Problems (wie erhalten Zeichen ihre Bedeutung?) 1

1Douwe Kiela: TEDx talk

(6)

Motivation Modell Evaluation Ergebnisse Quellen

Inhaltsverzeichnis

Motivation Modell

Linguistische Repr¨asentation Perzeptuelle Repr¨asentation Multimodale Repr¨asentation

Evaluation Ergebnisse Quellen

(7)

Motivation Modell Evaluation Ergebnisse Quellen

Modell

word2vec

(8)

Motivation Modell Evaluation Ergebnisse Quellen

Modell

word2vec

(9)

Motivation Modell Evaluation Ergebnisse Quellen

Linguistische Repr¨ asentation

I 100-dimensionale word2vec (skipgram) Vektoren I Trainingsdaten:

I Text8 Corpus (die ersten 108Byte (100 MB) von wikipedia):

400 Millionen Worte2 I BNC (100 Millionen Worte)3

I Mikolov et al. haben bereits 300 dim. Vektoren auf 783 Millionen Worten trainiert!

2http://www.mattmahoney.net/dc/textdata.html

3ota.ox.ac.uk/desc/2554

(10)

Motivation Modell Evaluation Ergebnisse Quellen

Modell

ImageNet

(11)

Motivation Modell Evaluation Ergebnisse Quellen

Modell

ImageNet

(12)

Motivation Modell Evaluation Ergebnisse Quellen

ImageNet I

I entwickelt in Stanford, erste Version aus dem Jahr 2009 I Vorbild: WordNet →identische Struktur (synsets), Hierarchie I s¨amtliche synsets sind Nomen

I Ziel f¨ur ImageNet: 500-1000 Bilder pro synset (50 Millionen insgesamt) 4

4http://image-net.org/papers/imagenet cvpr09.pdf

(13)

Motivation Modell Evaluation Ergebnisse Quellen

ImageNet II

I Stand Juni 2019: ∼14 Millionen Bilder f¨ur∼22.000 synsets I hier: ∼12.5 Millionen Bilder f¨ur∼22.000 synsets

I manuelle Annotation mittels Amazon Mechanical Turk I Webseite hostet nur Thumbnails, die Bilder m¨ussen von

anderen Seiten geladen werden!

(14)

Motivation Modell Evaluation Ergebnisse Quellen

ImageNet III

#Bilder

#synsets im subtree

wnids der synsets im ST

(15)

Motivation Modell Evaluation Ergebnisse Quellen

ImageNet III

#Bilder

#synsets im subtree

wnids der synsets im ST

(16)

Motivation Modell Evaluation Ergebnisse Quellen

ImageNet III

#Bilder

#synsets im subtree

wnids der synsets im ST

(17)

Motivation Modell Evaluation Ergebnisse Quellen

ImageNet III

#Bilder

#synsets im subtree

wnids der synsets im ST

(18)

Motivation Modell Evaluation Ergebnisse Quellen

ImageNet IV

Beispiel: Golden Retriever

I 500 x 483 Pixel

I mehr Mensch als Hund zu sehen

I 500 x 458 Pixel

I man sieht nur den Kopf

(19)

Motivation Modell Evaluation Ergebnisse Quellen

ESP Game Datensatz

I entwickelt an der CMU, erste Ver¨offentlichung 2004 I Idee: Menschen labeln Bilder in einem Spiel

(20)

Motivation Modell Evaluation Ergebnisse Quellen

Unterschiede ImageNet - ESP Game

ImageNet:

I 22.000 Worte (synsets) I 12.5 Millionen Bilder I 1 tag pro Bild(?) I ordentliche Qualit¨at I Objekt normalerweise

zentriert und gut zu erkennen

ESG Game:

I 20515 Worte I 100.000 Bilder I ∼14 tags pro Bild

I deutlich schlechtere Qualit¨at I Objekt kann auch im

Hintergrund auftauchen

(21)

Motivation Modell Evaluation Ergebnisse Quellen

Modell

CNN

(22)

Motivation Modell Evaluation Ergebnisse Quellen

Modell

CNN

(23)

Motivation Modell Evaluation Ergebnisse Quellen

CNN

I basiert auf AlexNet

I entwickelt von Alex Krizhevsky, ver¨offentlicht im Jahr 2012 I laut google scholar ¨uber 42.000 mal zitiert5

I 5 convolution layer (Cx), gefolgt von 3 fully connected (FCx) layern

I das vorletzte layer (FC7) mit 6144 Gewichten wird benutzt zur Konstruktion der multi-modalen Repr¨asentation (transfer learning)

5Google scholar

(24)

Motivation Modell Evaluation Ergebnisse Quellen

CNN - convolution layer

Standford CD 231n class

(25)

Motivation Modell Evaluation Ergebnisse Quellen

CNN - kurzer ¨ Uberblick

I zwei Teile:

I der vordere Teil besteht prinzipiell nur aus convolution und max-pooling layern

I der hintere Teil ist ein fully connected MLP

I in den convolution layern l¨auft ein Filter zeilenweise ¨uber das Bild, dann wird das dot product aus den Filtergewichten und Pixelwerten berechnet

I Filter (fast) immer quadratisch, Aktivierungsfunktion in den convolutional layern (fast) immer ReLU

(26)

Motivation Modell Evaluation Ergebnisse Quellen

Modell

Aggregation

(27)

Motivation Modell Evaluation Ergebnisse Quellen

Modell

Aggregation

(28)

Motivation Modell Evaluation Ergebnisse Quellen

Aggregation

I die trainierten perzeptuellen Vektoren werden auf zwei Arten aggregiert:

1. CNN-Meanberechnet f¨ur jedesxi den Durchschnitt aller Vektoren

2. CNN-Maxnimmt f¨ur jedesxi das Maximum aller Vektoren bag of visual properties

(29)

Motivation Modell Evaluation Ergebnisse Quellen

Modell

Output

(30)

Motivation Modell Evaluation Ergebnisse Quellen

Modell

Output

(31)

Motivation Modell Evaluation Ergebnisse Quellen

Multimodale Repr¨ asentation

~vconcept =α×~vling k(1−α)×~vvis (1)

I man kann die Formel als eine Konvexkombination der beiden Vektoren~vling, ~vvis auffassen:

~vling =

 x1 x2 ... x100 x101= 0

... x6244= 0

~vvis =

x1 = 0 x2 = 0

... x100= 0

x101 ... x6244

(32)

Motivation Modell Evaluation Ergebnisse Quellen

Multimodale Repr¨ asentation

~vconcept =α×~vling k(1−α)×~vvis (1)

I man kann die Formel als eine Konvexkombination der beiden Vektoren~vling, ~vvis auffassen:

~vling =

 x1 x2 ... x100 x101= 0

... x6244= 0

~ vvis =

x1 = 0 x2 = 0

... x100= 0

x101 ... x6244

(33)

Motivation Modell Evaluation Ergebnisse Quellen

Konvexkombination

(34)

Motivation Modell Evaluation Ergebnisse Quellen

Konvexkombination

(35)

Motivation Modell Evaluation Ergebnisse Quellen

Konvexkombination

(36)

Motivation Modell Evaluation Ergebnisse Quellen

Konvexkombination

(37)

Motivation Modell Evaluation Ergebnisse Quellen

2. Frage - multimodale Repr¨ asentation

~vconcept =α×~vling k(1−α)×~vvis (1)

I Wie s¨ahe Formel 1 aus, wenn man noch eine dritte Modalit¨at wie Audio hinzuf¨ugen w¨urde?

α×~vling kβ×~vNEU kγ×~vvis =~vconcept (2)

α+β+γ = 1 (3)

α, β, γ≥0 (4)

(38)

Motivation Modell Evaluation Ergebnisse Quellen

2. Frage - multimodale Repr¨ asentation

~vconcept =α×~vling k(1−α)×~vvis (1)

I Wie s¨ahe Formel 1 aus, wenn man noch eine dritte Modalit¨at wie Audio hinzuf¨ugen w¨urde?

α×~vling kβ×~vNEU kγ×~vvis =~vconcept (2)

α+β+γ = 1 (3)

α, β, γ≥0 (4)

(39)

Motivation Modell Evaluation Ergebnisse Quellen

Konvexkombination f¨ ur 3 Vektoren

(40)

Motivation Modell Evaluation Ergebnisse Quellen

Konvexkombination f¨ ur 3 Vektoren

(41)

Motivation Modell Evaluation Ergebnisse Quellen

Modell - Zusammenfassung

I linguistische Repr¨asentation: 100 dim. Vektor(word2vec, skipgram), trainiert auf wikipedia-Artikeln/dem BNC I perzeptuelle Repr¨asentation: 6144 dim. Vektor (CNN,

trainiert auf ImageNet- und ESP Game-Bildern)

I multimodale Repr¨asentation: Konvexkombination der beiden Vektoren

(42)

Motivation Modell Evaluation Ergebnisse Quellen

Inhaltsverzeichnis

Motivation Modell

Linguistische Repr¨asentation Perzeptuelle Repr¨asentation Multimodale Repr¨asentation Evaluation

Ergebnisse Quellen

(43)

Motivation Modell Evaluation Ergebnisse Quellen

Evaluation I

WordSim353 (Finkelstein et al., 2001)

I Auswahl aus 353 concept pairs mit menschlicher Bewertung der ¨Ahnlichkeit

I Problem: enth¨alt Worte, deren Darstellung schwierig ist:

I Named Entities (OPEC) I abstrakte Begriffe (credibility)

(44)

Motivation Modell Evaluation Ergebnisse Quellen

Evaluation II

MEN (Bruni et al., 2012)

I Ziel: Probleme aus WordSim353 zu lindern

I Nur h¨aufige W¨orter mit mindestens 50 Wortpaaren im ESP Game

I Much Larger: 3000 Word pairs consisting of 751 individual words

(45)

Motivation Modell Evaluation Ergebnisse Quellen

Evaluation III

I Subsets: WordSim Relevant und MEN-Relevant: Bilder in beiden Datensets enthalten!

I Bewertung der Modelle anhand der Spearman-Korrelation I Ahnlichkeit zwischen der Repr¨¨ asentation ¨uber

Kosinus-¨Ahnlichkeit:

cos(v1,v2) =kvv1·v2

1kkv2k

(46)

Motivation Modell Evaluation Ergebnisse Quellen

Inhaltsverzeichnis

Motivation Modell

Linguistische Repr¨asentation Perzeptuelle Repr¨asentation Multimodale Repr¨asentation

Evaluation Ergebnisse Quellen

(47)

Motivation Modell Evaluation Ergebnisse Quellen

Kernfragen

I Liefern CNNs bessere Ergebnisse f¨ur perzeptuelle Repr¨asentationen?

I Liefern CNNs bessere Ergebnisse f¨ur multimodale Repr¨asentationen?

I Was f¨ur eine Auswirkung auf das Ergebnis hat die Beschaffenheit des verwendeten Datensets?

(48)

Motivation Modell Evaluation Ergebnisse Quellen

Ergebnisse

(49)

Motivation Modell Evaluation Ergebnisse Quellen

Einfluss des α-Parameter

(50)

Motivation Modell Evaluation Ergebnisse Quellen

3. Frage

I F¨ur welche Arten von Konzepten/W¨ortern wird wohl die Extrainformation aus Bildern das Ergebnis verbessern, f¨ur welche eher nicht oder weniger?

(51)

Motivation Modell Evaluation Ergebnisse Quellen

Ergebnisse II

(52)

Motivation Modell Evaluation Ergebnisse Quellen

Fehleranalyse

I Mehrere Fehlerquellen m¨oglich:

I schlechte linguistische Repr¨asentationen I schlechte ImageNet Repr¨asentationen

(53)

Motivation Modell Evaluation Ergebnisse Quellen

Zusammenfassung/Kritik

I Etwas “naiver” Ansatz der Bewertung (Spearman) I Auf Fehler wird nur kurz eingegangen

(54)

Motivation Modell Evaluation Ergebnisse Quellen

Inhaltsverzeichnis

Motivation Modell

Linguistische Repr¨asentation Perzeptuelle Repr¨asentation Multimodale Repr¨asentation

Evaluation Ergebnisse Quellen

(55)

Motivation Modell Evaluation Ergebnisse Quellen

Quellen

I Mikolov et al.:

Estimation of Word Representations in Vector Space I http://image-net.org/

I Ahn et al.: Labeling Images with a Computer Game I http://cs231n.github.io/convolutional-networks/

Referenzen

ÄHNLICHE DOKUMENTE

Bachelor (Kern- oder Komplementfach) und LA Philosophie: Sie erhalten einen Schein (2 CP) f¨ ur eine aktive Teilnahme.. Aktiv nimmt am

wer das Seminar w¨ ahrend der ersten H¨ alfte des Semesters regelm¨ aßig besucht (bitte entschuldigen Sie sich per Email (s.u.), wenn Sie einmal nicht kommen k¨ onnen) und m¨

Weil beide die gleiche Längenänderungskonstante  haben kann man die Materialien gut verträglich zu einem Kombibaustoff verbinden, der sowohl auf Zug als auch auf Druck

Bei einem Versuch zur Längenänderung eines Kupferrohres in Abhängigkeit von der Temperat ur wird folgende Messreihe aufgenommen..

f c) Wenn sich ein Körper erwärmt, steigt die Temperatur seiner Teilchen. f d) Das Volumen der Teilchen eines Körpers ist ein Maß für dessen

Woher stammt das Elektron beim ß-Zerfall, wie entsteht es (Skizze)3. Formuliere die

We construct multi-modal concept repre- sentations by concatenating a skip-gram linguistic representation vector with a vi- sual concept representation vector com- puted using

erniedrigt, enth¨ alt der Verwerfungsbereich nur noch die “¨ ausserst unplausiblen” Werte (genauer: nur noch die Werte, die mit einer Wahrscheinlichkeit von 1% auftreten, falls H