• Keine Ergebnisse gefunden

Vektormodell Dokumentdistanz

N/A
N/A
Protected

Academic year: 2021

Aktie "Vektormodell Dokumentdistanz"

Copied!
26
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Dokumentdistanz

Dokumentdistanz

Vektormodell

(2)

Dokumentdistanz

Motivation

Wozu ein Mass f¨ur die ¨Ahnlichkeit zweier Dokumente?

I automatische Klassifikation von Dokumenten I Document Retrieval (Auffinden von Dokumenten) I Erkennung von Plagiaten

(3)

Dokumentdistanz

Das Modell

In einer Sammlung von Dokumenten wird jedes Dokument als Menge von W¨ortern aufgefasst. Wird die H¨aufigkeit der W¨orter ber¨ucksichtigt, spricht man von einer Multimenge(Bag of Words).

W¨ahlt man eine willk¨urliche aber feste Reihenfolge in der Menge aller W¨orter in der Dokumentsammlung (~w1,w~2, . . . , w~n), so l¨asst sich jedes Dokumentd der Kollektion als Vektor

d~=h1·w~1+h2·w~2+. . .+hn·w~n

im Vektorraum dern fest gew¨ahlten (Basis)W¨orter darstellen. Die skalaren Komponentenh1,h2, . . . , hn stellen die H¨aufigkeiten der entsprechenden W¨orter dar.

(4)

Dokumentdistanz

Beispiel 1

d~1 =

”die maus“

d~2 =

”die katze“

Basisvektor d~1 d~2

die

1 1

maus

1 0

katze

0 1

katze maus

die

1 1

1

d~1

d~2

(5)

Dokumentdistanz

Beispiel 1

d~1 =

”die maus“

d~2 =

”die katze“

Basisvektor d~1 d~2

die 1

1

maus 1

0

katze 0

1

katze maus

die

1 1

1

d~1

d~2

(6)

Dokumentdistanz

Beispiel 1

d~1 =

”die maus“

d~2 =

”die katze“

Basisvektor d~1 d~2

die 1 1

maus 1 0

katze 0 1

katze maus

die

1 1

1

d~1

d~2

(7)

Dokumentdistanz

Beispiel 1

d~1 =

”die maus“

d~2 =

”die katze“

Basisvektor d~1 d~2

die 1 1

maus 1 0

katze 0 1

katze maus

die

1 1

1 d~1

d~2

(8)

Dokumentdistanz

Beispiel 1

d~1 =

”die maus“

d~2 =

”die katze“

Basisvektor d~1 d~2

die 1 1

maus 1 0

katze 0 1

katze maus

die

1 1

1 d~1

d~2

(9)

Dokumentdistanz

Nun k¨onnen wir den Winkel zwischen den vektorisierten

Dokumentend~1 und d~2 als Mass f¨ur ihre Distanz auffassen. Daf¨ur verwenden wir die aus der Vektorgeometrie bekannte

Zwischenwinkelformel:

ϕ= arccos

d~1·d~2

|d~1| · |d~2|

(10)

Dokumentdistanz

Beispiel 1 (Fortsetzung)

d~1 =

 1 1 0

 (

”die katze“) d~2 =

 1 0 1

 (

”die maus“)

ϕ=

arccos 1·1 + 1·0 + 0·1

12+ 12+ 02·√

12+ 02+ 12

= arccos 1

√ 2·√

2 = arccos1 2 = 60

(11)

Dokumentdistanz

Beispiel 1 (Fortsetzung)

d~1 =

 1 1 0

 (

”die katze“) d~2 =

 1 0 1

 (

”die maus“)

ϕ=

arccos 1·1 + 1·0 + 0·1

12+ 12+ 02·√

12+ 02+ 12

= arccos 1

√ 2·√

2 = arccos1 2 = 60

(12)

Dokumentdistanz

Beispiel 1 (Fortsetzung)

d~1 =

 1 1 0

 (

”die katze“) d~2 =

 1 0 1

 (

”die maus“)

ϕ=arccos 1·1 + 1·0 + 0·1

12+ 12+ 02·√

12+ 02+ 12

= arccos 1

√ 2·√

2 = arccos1 2 = 60

(13)

Dokumentdistanz

Beispiel 1 (Fortsetzung)

d~1 =

 1 1 0

 (

”die katze“) d~2 =

 1 0 1

 (

”die maus“)

ϕ=arccos 1·1 + 1·0 + 0·1

12+ 12+ 02·√

12+ 02+ 12

= arccos 1

√ 2·√

2

= arccos1 2 = 60

(14)

Dokumentdistanz

Beispiel 1 (Fortsetzung)

d~1 =

 1 1 0

 (

”die katze“) d~2 =

 1 0 1

 (

”die maus“)

ϕ=arccos 1·1 + 1·0 + 0·1

12+ 12+ 02·√

12+ 02+ 12

= arccos 1

√ 2·√

2 = arccos1 2

= 60

(15)

Dokumentdistanz

Beispiel 1 (Fortsetzung)

d~1 =

 1 1 0

 (

”die katze“) d~2 =

 1 0 1

 (

”die maus“)

ϕ=arccos 1·1 + 1·0 + 0·1

12+ 12+ 02·√

12+ 02+ 12

= arccos 1

√ 2·√

2 = arccos1 2 = 60

(16)

Dokumentdistanz

Beispiel 2

d~1 =

”der hund jagt die katze“

d~2 =

”die katze jagt den hund“

d~3 =

”die katze jagt die maus“

Basisvektor d~1 d~2 d~3

der

1 0 0

hund

1 1 0

jagt

1 1 1

die

1 1 2

katze

1 1 1

den

0 1 0

maus

0 0 1

(17)

Dokumentdistanz

Beispiel 2

d~1 =

”der hund jagt die katze“

d~2 =

”die katze jagt den hund“

d~3 =

”die katze jagt die maus“

Basisvektor d~1 d~2 d~3

der 1

0 0

hund 1

1 0

jagt 1

1 1

die 1

1 2

katze 1

1 1

den 0

1 0

maus 0

0 1

(18)

Dokumentdistanz

Beispiel 2

d~1 =

”der hund jagt die katze“

d~2 =

”die katze jagt den hund“

d~3 =

”die katze jagt die maus“

Basisvektor d~1 d~2 d~3

der 1 0

0

hund 1 1

0

jagt 1 1

1

die 1 1

2

katze 1 1

1

den 0 1

0

maus 0 0

1

(19)

Dokumentdistanz

Beispiel 2

d~1 =

”der hund jagt die katze“

d~2 =

”die katze jagt den hund“

d~3 =

”die katze jagt die maus“

Basisvektor d~1 d~2 d~3

der 1 0 0

hund 1 1 0

jagt 1 1 1

die 1 1 2

katze 1 1 1

den 0 1 0

maus 0 0 1

(20)

Dokumentdistanz

Welche der drei Dokumente haben die kleinste

”Distanz“?

dist(d~1, ~d2) =

arccos 4

√5√

5 = 36.87

dist(d~2, ~d3) =

arccos 4

√ 5√

7 = 47.46

dist(d~3, ~d1) =

arccos 4

√ 5√

7 = 47.46

(21)

Dokumentdistanz

Welche der drei Dokumente haben die kleinste

”Distanz“?

dist(d~1, ~d2) =arccos 4

√5√

5 = 36.87 dist(d~2, ~d3) =

arccos 4

√ 5√

7 = 47.46

dist(d~3, ~d1) =

arccos 4

√ 5√

7 = 47.46

(22)

Dokumentdistanz

Welche der drei Dokumente haben die kleinste

”Distanz“?

dist(d~1, ~d2) =arccos 4

√5√

5 = 36.87 dist(d~2, ~d3) =arccos 4

√ 5√

7 = 47.46 dist(d~3, ~d1) =

arccos 4

√ 5√

7 = 47.46

(23)

Dokumentdistanz

Welche der drei Dokumente haben die kleinste

”Distanz“?

dist(d~1, ~d2) =arccos 4

√5√

5 = 36.87 dist(d~2, ~d3) =arccos 4

√ 5√

7 = 47.46 dist(d~3, ~d1) =arccos 4

√ 5√

7 = 47.46

(24)

Dokumentdistanz

Bemerkungen

I Es treten nur Winkel zwischen 0 (wortm¨assige

Ubereinstimmung) und 90¨ (disjunkte Wortmengen) auf.

I In bestimmten Situationen kann es sinnvoll sein, W¨orter h¨ochstens einfach zu z¨ahlen oder W¨orter aus den Dokumenten zu entfernen, die keinen Beitrag zu ihrer Charakterisierung leisten (Stop words).

(25)

Dokumentdistanz

Geschichte

Das Vektorraummodell geht auf Gerhard Salton zur¨uck, der es in den 60er Jahren bei der Arbeit am SMART-Projekt (System for the Mechanical Analysis and Retrieval of Text) entwickelt hat (Fuhr, 2006).

(26)

Dokumentdistanz

Quellen

Demaine, E. (2011). Lecture 2: Models of Computation, Document Distance. 33’–43’.

https://ocw.mit.edu/courses/electrical-engineering-and-computer- science/6-006-introduction-to-algorithms-fall-2011/lecture-

videos/lecture-2-models-of-computation-document-distance/

(7.9.2018)

Fuhr, N. (2006).Information Retrieval. Skriptum zur Vorlesung im SS 06.

http://www.is.informatik.uni-

duisburg.de/courses/ir ss06/folien/irskall.pdf (7.9.2018)

Referenzen

ÄHNLICHE DOKUMENTE

[r]

meinen eindeutig bestimmt ist) , dann liegt eine gefährliche Annahme vor. Die Anzahl der Stand- und Zielpunkte kann im übrigen beliebig erhöht werden, ohne daß die

I Wenn alle W¨ orter auf den Dominos L¨ ange 1 haben, so ist das PCP entscheidbar. I Wenn alle W¨ orter L¨ ange 1 oder 2 haben, so ist das

Zwei Punktladungen q 1 = Q und q 2 = −Q befinden sich in den Abst¨ anden a und 2a von einer unendlich ausgedehnten, leitenden Ebene in Punkten (−b/2, 0, a) und (b/2, 0, 2a)

Wenn die Kugel nicht geerdet ist, sondern auf dem Potential Φ 0 liegt, m¨ ussen wir zu dem Skalarpotential im Außenraum eine L¨ osung ϕ 1 (r) der Laplacegleichung addieren, welche

Fassen Sie auch die Clebsch-Gordan-Koeffizienten zu einer Matrix C zusammen und zeigen Sie, daß diese unit¨ar ist. F¨ ur eine genauere Rechnung muß

Der Beweiser offenbart dem Verifizierer sein Paßwort w, dieser berechnet f (w) und ¨uberpr ¨uft, ob der Wert in der Benutzer-Datei f ¨ur den Beweiser

Ziel: A und B wollen (mithilfe von ¨offentlichen Schl ¨usseln, Master Keys) einen gemeinsamen, geheimen Schl ¨ussel (Session Key) bestimmen.. Dieser kann dann beispielsweise f