• Keine Ergebnisse gefunden

Quiz zur Klausurvorbereitung

N/A
N/A
Protected

Academic year: 2022

Aktie "Quiz zur Klausurvorbereitung"

Copied!
22
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Quiz zur Klausurvorbereitung

VL Embeddings

Uni Heidelberg

SS 2019

(2)

Quiz

Die folgenden Quizfragen unterscheiden sich von den Klausurfragen

Sie dienen nur zur Klausurvorbereitung

In der Klausur werden keine Multiple-Choice-Fragen kommen

(3)

SkipGram mit negativem Sampling

A minimiert die Wahrscheinlichkeit von ungesehenen Wortpaaren.

B maximiert die Wahrscheinlichkeit von ungesehenen Wortpaaren.

C maximiert die Wahrscheinlichkeit von gesehenen Wortpaaren.

(4)

Subsampling von frequenten Worten wird benutzt, um

A den Lernprozess zu verlangsamen und so lokale Minima zu vermeiden.

B bessere Repr¨asentationen f¨ur seltene Worte zu lernen.

C bessere Repr¨asentationen f¨ur unbekannte Worte zu lernen.

(5)

GloVe

Welche der folgenden Aussagen sind korrekt?

A GloVe ist effizienter als eine SVD.

B GloVe minimiert die Distanz zwischen dem Skalarprodukt zweier Worte und dem log der der beiden Worte im Korpus.

C Glove gibt der Rekonstruktion von seltenen Worten im Korpus mehr Gewicht.

(6)

SkipGram, CBOW, GloVe

Welches Embedding-Modell trainiert Wortvektoren f¨ur Zielwort und Kontextworte und beh¨alt am Ende nur die Repr¨asentationen f¨ur die Zielworte?

A SkipGram B CBOW C GloVe

(7)

SGNS

Mit der Anzahl der negativen Samples

A steigt die Akkuratheit der Ergebnisse B steigt der Zeitbedarf beim Training C steigt das Risiko des Overfittings

(8)

Word2Vec (SkipGram, CBOW)

Wird im Word2Vec-Modell die Position eines Kontextwortes im Kontextfenster ber¨ucksichtigt, oder ignoriert das Modell diese Information?

A Die Position wird ber¨ucksichtigt: Worte, die n¨aher am Zentrumswort sind, werden st¨arker ber¨ucksichtigt.

B Die Position wird ber¨ucksichtigt: Worte, die n¨aher am Zentrumswort sind, werden weniger stark ber¨ucksichtigt.

C Die Position eines Wortes im Kontextfenster spielt keine Rolle.

(9)

Dependenz-basierte Embeddings

Was ist der Unterschied zwischen dependenz-basierten Wortembeddings und SkipGram?

A Dependenz-basierte Embeddings erfassen thematische Ahnlichkeit st¨¨ arker als SkipGram.

B SkipGram erfasst thematische ¨Ahnlichkeit st¨arker als dependenz-basierte Embeddings.

C Dependenz-basierte Embeddings haben h¨ohere Akkuratheit in Analogie-Task als SkipGram.

(10)

Trainingsdaten

Was hat Einfluss darauf, welche Arten von ¨Ahnlichkeiten in Embeddings kodiert werden?

A Die Zusammensetzung des Korpus entscheidet, welche Informationen gelernt werden

B Der Embedding-Algorithmus entscheidet, welche Informationen gelernt werden.

C Die Gr¨oße des Korpus entscheidet, welche Informationen gelernt werden.

(11)

FastText I

A FastText ist eine Erweiterung von CBOW.

B FastText ist eine Erweiterung von SkipGram.

C FastText ist eine Erweiterung von GloVe.

(12)

FastText II

Wodurch lernt FastText bessere Embeddings f¨ur seltene Worte?

A Die Repr¨asentation eines Wortes basiert auf

Buchstaben-Ngrammen, die zwischen W¨ortern im gleichen Dokument geteilt werden.

B FastText sagt die Wahrscheinlichkeit eines Wortes vorher, basierend auf der Summe der Worte im Kontext.

C FastText lernt verl¨asslichere Repr¨asentationen mit Hilfe der gewichteten Kleinstquadratmethode (weighted least-squares objective).

(13)

Embeddings f¨ ur Phrasen

Embeddings f¨ur Phrasen kann man erzeugen, indem man

A die Summe der Embeddings f¨ur die einzelnen Worte bildet.

B die Worte mergt und darauf Embeddings trainiert.

C den Durchschnitt der Embeddings f¨ur die einzelnen Worte berechnet.

(14)

Stochastic Gradient Descent

A Der Zeitbedarf f¨ur ein Parameterupdate steigt linear mit der Anzahl der Trainingsinstanzen.

B Der Zeitbedarf f¨ur ein Parameterupdate steigt nicht mit der Anzahl der Trainingsinstanzen.

C Der Zeitbedarf f¨ur ein Parameterupdate steigt exponentiell an.

(15)

Stochastic Gradient Descent

A SGD wird oft zusammen mit Backpropagation benutzt.

B SGD wird oft zusammen mit Adam und BFGS benutzt.

C SGD ist eine Implementation der Kettenregel (chain rule).

(16)

Backpropagation

A ist eine Prozedur zur Berechnung des Biasterms der Kostenfunktion.

B ist eine Prozedur zur Berechnung des Gradienten der Kostenfunktion.

C ist eine Prozedur zur Berechnung der Gewichte im Netzwerk.

(17)

Huffman-B¨ aume

A werden benutzt, um die Anzahl an Trainingssamples zu minimieren.

B werden benutzt, um die Anzahl an Parameterupdates beim Training zu minimieren.

C werden benutzt, um Daten zu komprimieren.

(18)

Entropie I

A Entropie ist die erwartete Anzahl an Bits, die man ben¨otigt, um eine Zufallsvariable mit einem optimalen

Kodierungsschema zu kodieren.

B Entropie ist die erwartete Anzahl an Bits, die man ben¨otigt, um eine Zufallsvariable mit einem suboptimalen

Kodierungsschema zu kodieren.

C Entropie ist die erwartete Anzahl an Bits, die man ben¨otigt, um die Wahrscheinlichkeit einer Zufallsvariable zu berechnen.

(19)

Entropie II

A Negative Log-Likelihood ist das Gleiche wie Entropy B Negative Log-Likelihood ist das Gleiche wie Surprisal C Negative Log-Likelihood ist das Gleiche wie Cross Entropy

(20)

Entropie III

A Entropie ist immer gr¨oßer als Cross-Entropie.

B Cross-Entropie ist immer gr¨oßer als Entropie.

C Cross-Entropie ist entweder gleich groß oder gr¨oßer als Entropie.

(21)

The End

(22)

L¨ osungen

Frage L¨osung Frage L¨osung

1 A, C 10 –

2 B 11 A, B, C

3 A, B 12 B

4 A, B 13 A

5 B 14 B

6 C 15 B, C

7 B 16 A

8 A, B, C 17 C

9 B 18 C

Referenzen

ÄHNLICHE DOKUMENTE

Bemerkung: Die Hyperfeinstruktur im Grundzustand von atomarem Wasserstoff spielt in der Astrophysik eine wichtige Rolle (21cm-Linie), und wird gerne f¨ ur Tests der

Dabei musste bei allen Abmessungen ber¨ ucksichtigt werden, dass der Teil der St¨ utze, der miteinander verschweißt wird, als ein zusammenh¨ angendes Bauteil durch die Seiten¨

Nach dem Abgabetermin eingeworfene Bearbeitungen k¨ onnen nicht ber¨

Günther Beck: Indem ich zur Berichterstattung über den Stand unserer Sammlungen schreite, muss ich mit Freuden erwähnen, dass unserer Gesellschaft von einer sich stetig mehrenden

zoologisch botanische Gesellschaft, welche in der Beförderung der Kenntnisse der vaterländischen organischen Welt eine ihrer Hauptaufgaben sieht, in Euer Hochwohlgeboren;

Wenn die Sch¨atzung diese zuf¨alligen Fehler nicht ber¨ucksichtigt, wird die Gerade zu flach gesch¨atzt, wie wir gesehen haben.. F¨ur Schadstoffe, die von den Lastwagen

Betrachtet wird eine Masse m, welche sich auf einer vorgegebenen Bahn s bewegen kann.. Geben Sie die Dissipationsfunktion f¨ ur den turbulenten