• Keine Ergebnisse gefunden

Leipzig, 03.07.2015Paul Jähne HOCHDIMENSIONALEHOCHDIMENSIONALEDATENDATEN

N/A
N/A
Protected

Academic year: 2022

Aktie "Leipzig, 03.07.2015Paul Jähne HOCHDIMENSIONALEHOCHDIMENSIONALEDATENDATEN"

Copied!
19
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

HOCHDIMENSIONALE HOCHDIMENSIONALE

DATEN DATEN

Leipzig, 03.07.2015 Paul Jähne

(2)

Beispiele: Geoinformationssystem, CAD, Molekular-Biologie, Gen-Sequenzierung, psychoogische Profile, Data-Mining

Ähnlichkeitsanfragen werden auf Nachbarschaftsanfragen in Feature- Räumen abgebildet

(3)

HOCHDIMENSIONALE FEATURE-VEKTOREN HOCHDIMENSIONALE FEATURE-VEKTOREN

Modell für wichtige Eigenschaften eines Objekts

Vektor mit Zahlenwert für feste Anzahl an Dimension bilden Vektorraum

orthogonale Dimensionen Reduktion auf lineare Algebra

Beispiele: Farb-Histogramm, Fourier-Vektor

(4)

OPERATIONEN AUF FEATURE-VEKTOREN OPERATIONEN AUF FEATURE-VEKTOREN

Nächste-Nachbarsuche (NN) k-Nächste-Nachbarsuche (kNN)

Approximative Nächste-Nachbarsuche (aNN) Reverse-Nächste-Nachbarsuche (rNN)

Bereichssuche Punktsuche

Partial-Match-Suche Ähnlichkeitsverbund

(5)

METRIKEN FÜR ABSTÄNDE METRIKEN FÜR ABSTÄNDE

Ähnlichkeit:

Unähnlichkeit: ,

(6)

INDEXSTRUKTUREN INDEXSTRUKTUREN

B-Baum ungenügend

nur nach einer Dimension indexiert exakte Suche

(7)

R-BAUM R-BAUM

Rectangle

B-Baum mit mehreren Dimensionen

Clusterbildung mit umschließenden Rechtecken

jeder Elternknoten umfasst mindestens alle rechtecke der Kindknoten für effiziente Suche minimale Überlappung benötigt

(8)
(9)
(10)

R-BAUM EINFÜGEN R-BAUM EINFÜGEN

Suche von Knoten mit geringstem Erweiterungsvolumen falls gleich, dann kleinerer Knoten

Blatt gefunden, dann einfügen und Vaterknoten anpassen Überlauf

Zerlegung in zwei Knoten

Aufteilung mit geringster Volumensumme wählen

(11)

R-BAUM SUCHE R-BAUM SUCHE

löst Nächster-Nachbar-Problem RKV-Algorithmus

Branch and Bound Tiefensuche

kein getNext möglich HS-Algorithmus

Breitensuche getNext möglich

benötigt viel Speicher

(12)

hohe Dimensionalität ergibt viele Überlappungen seltener Teilbäume ausschließbar

verschiedene Varianten, um dies zu verbessern:

R+

Überlappungen verboten neuer Einfügealgorithmus

dafür geringe Auslastung der Knoten → viele Knoten R*X

(13)

X-BAUM X-BAUM

eXtended

hybrid aus Array und R-Baum

R-Baum-Split kann schlechte Strukturen erzeugen viele Überlappungen

besonders bei hochdimensionalen Daten viele Pfade müssen untersucht werden gute Split-Strategie: viele Leerknoten

(14)
(15)

X-BAUM X-BAUM

R*-Erweiterung

sequentieller Durchlauf bei hoher Überlappung effizienter überlappungsfreie Splitstrategie mit Split-Historie

zusätzliche Superknoten

dynamisch angelegt bei hoher Überlappung umfassen beliebig viele Seiten

Suche innerhalb sequentiell

(16)
(17)

größerer Fanout

Scan von Superknoten eventuell schneller als Suche in R-Baum Punktsuche bis zu 450x schneller als R*-Baum

NN-Suche bis zu 20x schneller als R*-Baum Einfügen 8x schneler als R*

größere Knoten nur dort wo sie benötigt werden

(18)

ZUSAMMENFASSUNG ZUSAMMENFASSUNG

hohe Dimensionalität vermeiden Modellierung mit Feature-Vektoren

Anfragen häufig Nächste-Nachbar- oder Bereichssuche X-Bäume als Index gut geeignet

(19)

Böhm, Brechtold, Keim: Searching in High-dimensional Spaces - Index Structures for Improving the Performance of Multimedia Databases,

2001

Böhm: Effiziente Indexstrukturen für hochdimensionale Datenräume, 1998

Brechtold, Keim, Kriegel: The X-tree: An Index Structure for High-Dimensional Data, 1996

Wikipedia: R-tree, https://en.wikipedia.org/wiki/R-tree, 2015 Schmitt: Multimedia-Datenbanken - 6 Effziente Algorithmen und

Datenstrukturen,

, 2009

http://wwwiti.cs.uni-magdeburg.de/iti_db/lehre /mmdb/skripte/6.pdf

Referenzen

ÄHNLICHE DOKUMENTE

Dass die Fotos und die dazugehörigen Beschreibun- gen je nach Format unterschiedlich quer oder längs angeordnet sind, wird bei der Vielfalt der Kar- ten für kaum einen

könnte deine Schwester, Frau N., wenn sie nun doch auf diesem Stück Erde mit ihrem Manne wohnen will, ungestraft das alte Haus niederreissen und ein neues bauen; denn dies neue

Überlegen Sie (schriftlich!) die Gründe für die jeweiligen Änderungen der Effizienz der einzelnen Methoden. Wodurch ergeben sich die Unterschiede?.. Übung Praktische

[r]

Bäumchen – nun ein stattlicher schöner Baum – sehr viel Kraft, den anderen Trost zuzusprechen, so dass sie, dadurch gestärkt, innerlich stark wurden, was auch sie zum

Die Schüler sollen aus dem dunkelbraunen Tonpapier einen Stamm und viele Äste reißen und auf den Hintergrund kleben. Anschließend werden aus dem bunten Seidenpapier kleine

Wenn Früchte von Vögeln oder anderen Tieren gefressen werden, können sich an ande- rer Stelle aus den ausgeschiedenen Samen neue Bäume entwickeln.. Eichhörnchen vergraben Früchte

Birke..