• Keine Ergebnisse gefunden

PS Ähnlichkeitssuche 
 in großen Datenbanken

N/A
N/A
Protected

Academic year: 2022

Aktie "PS Ähnlichkeitssuche 
 in großen Datenbanken"

Copied!
5
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Thomas Hütter, WS 2020

PS Ähnlichkeitssuche

in großen Datenbanken

Final Session

(2)

What’s next …

… in terms of similarity search?

Set

Similarity Join

Strings, Trees, Graphs, …

Lookup, Top-k, …

q-gram dist

≤ SED

Parallel,

Distributed,

Datatype

Relationships

Query

System

(3)

Challenges:

Neither the sets nor their elements have an order.

Similar sets may be on different cluster nodes.

Sending data across the network is expensive.

Set Similarity Joins …

… in a parallel sytem?

Collection R of sets ri ∈ R:

|r1| = {a, b, c}

|r2| = {a, c, d, e, s}

|r3| = {b, d, e, s, t, x}

|r4| = {a, b, m, n, s, u, v}

|r5| = {d, h, i, m, n, t, x}

|r6| = {a, e, g, k, t, u, v}

|r7| = {b, c, e, i, n, s, t, v, w, x}

|r8| = {a, c, d, k, m, t, u, v, w, x}

|r1|

|r6|

|r4|

|r3|

|r8|

|r5|

|r2|

|r7|

(4)

PLUS Online (https://online.uni-salzburg.at/) → Ressourcen → Evaluierungen

Direct feedback

PS Ähnlichkeitssuche in großen Datenbanken

Evaluation

(5)

Task 4 will be graded tomorrow.

Comments until Tuesday, 26.01.2021, 16:55.

The final grade will be in PLUS Online on Wednesday, 27.01.2021.

Grading

Final

Referenzen

ÄHNLICHE DOKUMENTE

• Explain variables maxr, maxs, and each stopping condition of the while loop in a comment block above the verify function.. • The paper mentions 7 set similarity

Zudem kann ein Beitrag mit mehreren Schlagwörtern (Tags) gekennzeichnet werden und die Anzahl wie oft ein Beitrag für gut befunden wurde wird berechnet ( #Likes ).. Ebenso

Igor Friedensplatz 2/A/1 Andrej Friedensplatz 3 Francesco Untervigil 1 Johann Cimitero 6/B.. Igor Friedensplatz 2/A/2 Nikolaus

Arturas Gilmstrasse 3 Linas Marieng. 1/A Markus Cimitero 4 Michael Gilmstrasse 5 Igor Friedensplatz 2/A/1 Andrej Friedensplatz 3 Francesco Untervigil 1 Johann Cimitero 6/B

Windowed pq-Grams for Data-Centric XML Efficient Similarity Joins with Windowed pq-Grams Experiments..

Inwiefern hebt sich diese Lösung von anderen, bereits vorhandenen

The forest distance between two ordered forests is the minimum cost sequence of node edit operations (node deletion, node insertion, node rename) that transforms on forest into

We count all pq-grams whose leftmost leaf is a dummy node: Each leaf is the anchor node of exactly one pq-gram whose leftmost leaf is a dummy node, giving l pq-grams.. The