• Keine Ergebnisse gefunden

Bau effizienter und effektiver Metasuchmaschinen

N/A
N/A
Protected

Academic year: 2022

Aktie "Bau effizienter und effektiver Metasuchmaschinen"

Copied!
66
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Bau effizienter und effektiver

Metasuchmaschinen

von Daniel Weichert FU-Berlin

WS 03/04

(2)

Definition

„Eine Meta-Suchmaschine ist eine

Suchmaschine, deren wesentliches Merkmal darin besteht, dass sie eine Suchanfrage an mehrere andere Suchmaschinen weiterleitet, die Ergebnisse sammelt und aufbereitet…“

(www.net-lexikon.de)

Global Interface

Search Engine Search Engine Search Engine

(3)

Übersicht (1)

Vorteile von Metasuchmaschinen

Generelle Probleme durch unterschiedliche Suchmaschinen

Architektur und Aufbau von MSMs

Funktionsweise einzelner MSM- Komponenten

Weitere Herausforderungen

(4)

Vorteile von

Metasuchmaschinen

Erreichung höherer Internet-Abdeckung

Vorteile der Skalierbarkeit durch Nutzung kleinerer (Spezial-)Suchmaschinen

Einfachere Benutzung bei „verstreuten Daten“

Effizienteres Aussortieren nicht relevanter Dokumente

(5)

Übersicht (2)

Vorteile von Metasuchmaschinen

Generelle Probleme durch

unterschiedliche Suchmaschinen

Architektur und Aufbau von MSMs

Funktionsweise einzelner MSM- Komponenten

Weitere Herausforderungen

(6)

Generelle Probleme durch unterschiedliche

Suchmaschinen

Indexierungsmethode

Dokument-Term-Gewichtung

Anfrage-Term-Gewichtung

Vergleichs-Funktion

Dokument-Datenbank

Dokument-Version

Unvergleichbarkeit untereinander und proprietäres Unwissen

(7)

Übersicht (3)

Vorteile von Metasuchmaschinen

Generelle Probleme durch unterschiedliche Suchmaschinen

Architektur und Aufbau von MSMs

Funktionsweise einzelner MSM- Komponenten

Weitere Herausforderungen

(8)

Aufbau einer

Metasuchmaschine

„Architektur“ (1)

User Interface

Database Selector 1

2

User

Search Engine Search Engine

(9)

Aufbau einer

Metasuchmaschine

„Database Selector“

Auswahl nur sinnvoller Suchmaschinen

bei großer Suchmaschinenzahl

bei geringer Anzahl auszugebender Ergebnisse

Ressourceneinsparung

bei Anfrage-Weiterleitung in MSM-Umgebung

bei Anfrage-Auswertung in Komponenten- Suchmaschine

durch weniger Netz-Verkehr

bei Rückgabe-Auswertung in MSM-Umgebung

(10)

Aufbau einer

Metasuchmaschine

„Architektur“ (2)

User Interface

Database Selector

Document Selector 1

2

3

User

3

Search Engine Search Engine

(11)

Aufbau einer

Metasuchmaschine

„Document Selector“

Auswahl zurückzugebender Dokumente

Direkte Beeinflussung der Rückgabe-Anzahl

Vergleich gegen einen „Ähnlichkeits-Grenzwert“

Maximale Anzahl sinnvoller Dokumente

Minimale Anzahl unnützer Dokumente

Durchführung für jede ausgewählte Suchmaschine

(12)

Aufbau einer

Metasuchmaschine

„Architektur“ (3)

User Interface

Database Selector

Document Selector

Query Dispatcher

Search Engine Search Engine

1

2

3

4

5

User

3

5

(13)

Aufbau einer

Metasuchmaschine

„Query Dispatcher “

Verbindungsaufbau zu Komponenten- Suchmaschinen

HTTP-Anfrage-Methode (GET/POST)

Suchanfrage-Format

Verändern der Suchanfrage

(Relative) Gewichtung der Anfrage-Terme

Anzahl der zurückzugebenden Dokumente

(14)

Aufbau einer

Metasuchmaschine

„Architektur“ (4)

User Interface

Database Selector

Document Selector

Query Dispatcher

Search Engine Search Engine

Result Merger 1

2

3

4

5 5

6 7 8

User

3

(15)

Aufbau einer

Metasuchmaschine

„Result Merger “

Verschmelzung der Rückgabe-Ergebnisse in sinnvoller Weise

EINE Liste mit Ergebnissen

Beachtung der Dokument-Rückgabezahl der MSM

Bewertung (ranking) auf Basis einer globalen Vergleichsfunktion (gegeben durch MSM)

(16)

Aufbau einer

Metasuchmaschine

„Architektur“ (5)

User Interface

Database Selector

Document Selector

Query Dispatcher

Search Engine Search Engine

Result Merger 1

2

3

4

5 5

6 7 8

User

3

(17)

Übersicht (4)

Vorteile von Metasuchmaschinen

Generelle Probleme durch unterschiedliche Suchmaschinen

Architektur und Aufbau von MSMs

Funktionsweise einzelner MSM- Komponenten

Weitere Herausforderungen

(18)

Einzelne MSM-Komponenten

„Übersicht“ (1)

Suchmaschinen-Auswahl (database selection)

Dokument-Auswahl (document selection)

Ergebnis-Verschmelzung (result merging)

(19)

Einzelne MSM-Komponenten

„Database Selection“ (1)

Auswahl nur nützlicher Datenbanken mit Hilfe von

einfachen Repräsentanten

statistischen Repräsentanten

lern-basierten Methoden

(20)

Database Selection

„Einfache Repräsentanten“ (1)

Text-Beschreibung des Datenbank-Inhalts

Oftmals manuell erstellt

Vergleich Anfrage – Beschreibung

Verschiedene Techniken

Beschreibung des DB-Inhalts

Fachgebiets-Angabe plus Anfrage

Restrukturierung der Anfrage

Automatisch erstellte Repräsentanten (Bsp.:

(21)

Database Selection

„Einfache Repräsentanten“ (2)

ALIWEB

Template-Type: DOCUMENT

Title: Perl

URI: /public/perl/perl.html Description: Information on the Perl

Programming

Language. Includes a local Hypertext Perl Manual, and the latest FAQ in Hypertext.

Keywords: perl, perl-faq, language Author-Handle: m.koster@nexor.co.uk

NetSerf

topic: country

synset: [nation,

nationality, land, country,

a_people]

synset: [state, nation, country, land, common-wealth, res_publica,

body_politic]

synset: [country, state, land, nation]

info-type: facts Beispiele:

(22)

Database Selection

„Einfache Repräsentanten“ (3)

Vorteile

Einfache Handhabung

Ressourcenschonend

Einsetzbar bei hoch spezialisierten Datenbanken

Nachteile

Datenbank-Beschreibung unzureichend

Eventuell Eingriff des Nutzers nötig bei DB- Auswahl

Nicht gut einsetzbar bei umfassenden DB

(23)

Einzelne MSM-Komponenten

„Database Selection“ (2)

Auswahl nur nützlicher Datenbanken mit Hilfe von

einfachen Repräsentanten

statistischen Repräsentanten

lern-basierten Methoden

(24)

Database Selection

„Statistische Repräsentanten“

(1)

Nutzung detaillierter Informationen einer KSM

über Dokument-Frequenz jedes Terms

über Durchschnitts-Gewicht eines Terms über alle Dokumente …

Vorteil

Hohe Genauigkeit in Bestimmung der

Ähnlichkeiten von Dokumenten zu einer Anfrage in einer KSM

Nachteil

Skalierbarkeit nicht immer optimal

(25)

Database Selection

„Statistische Repräsentanten“

(2)

Methoden

Relative KSM-Bewertung

Relativer KSM-Ranking-Wert

Absolute KSM-Bewertung

Unabhängiger Ranking-Wert

Schätzung der Anzahl nützlicher Dokumente

Schätzung der globalen Ähnlichkeit des der Anfrage am ähnlichsten Dokumentes

(26)

Statistische Repräsentanten

„Ähnlichstes Dokument“ (1)

Definition:

Eine Menge von M Datenbanken ist optimal gewichtet [D1, D2, …, DM], wenn es ein k gibt, sodass D1, D2, …, Dk die m ähnlichsten

Dokumente beinhalten und jede Di (1<= i <= k) mindestens eines der m Dokumente enthält.

Bedingung: msim(q, D1) > msim(q, D2) > …

msim(q, Di) = Globaler Vergleichswert des der Anfrage ähnlichsten Dokumentes

Auswahl der ersten k KSMs

(27)

Statistische Repräsentanten

„Ähnlichstes Dokument“ (2)

Bestimmung von msim(q, D):

Zwei Repräsentanten

Global: Globales inverses Dokument-Frequenz-Gewicht gidfi für jeden Term ti

Lokal: Wertepaar (mnwi, anwi) mit

mnwi = Maximales normalisiertes Gewicht von ti

anwi = Durchschnittliches normalisiertes Gewicht von ti

Normalisiertes Gewicht = di / |d|

di = Gewicht von Term ti in Dokument d

|d| = Länge von Dokument d

(28)

Statistische Repräsentanten

„Ähnlichstes Dokument“ (3)

Anfrage-Vektor q = (q1, q2, …, qk)

msim(q, D) =

Links: Anfrage-ähnlichstes Dokument hat Maximumgewicht des i-ten Anfrage-Terms

/ |q|: Normalisierung von msim

Sortierung der KSMs nach msim(q, D)

(29)

Statistische Repräsentanten

„Ähnlichstes Dokument“ (4)

Einfache Anpassung bei Wort- zusammenhängen

Maximales normalisiertes Gewicht dominiert

üblicherweise um 2 oder mehr Ordnungen

wegen Einberechnungen der Null-Werte im durchschnittlichen Gewicht

Einschränkung der Formel für msim(q, D) auf msim(q, D) = max1<=i<=k {qi * ami} mit

ami = gidfi * mnwi [Angepasstes normalisiertes Gewicht]

(30)

Einzelne MSM-Komponenten

„Database Selection“ (3)

Auswahl nur nützlicher Datenbanken mit Hilfe von

einfachen Repräsentanten

statistischen Repräsentanten

lern-basierten Methoden

(31)

Database Selection

„Lern-basierte Methoden“

Nutzenbestimmung einer Datenbank durch Erfahrungswerte

Verschiedene Techniken

Statisches Lernen

MRDD (modeling relevant document distribution)

Dynamisches Lernen

Ranking-Wert-Bestimmung u.a. durch „Maus-Klicks“

Kombination aus statischem und dynamischem Lernen

(32)

Statisches Lernen

„MRDD“ (1)

Bilden einer Menge von Trainings-Anfragen

Weiterleitung der T-Anfragen an alle KSM

Bilden eines Verteilungs-Vektors aus

relevanten Dokumenten pro T-Anfrage und KSM

Identifikation der relevanten Dokumente aus Rückgabeliste

Aufbau: Pro VV-Dimension Anzahl zu holender Dokumente für nächstes relevantes Dokument

(33)

Statisches Lernen

„MRDD“ (2)

Vergleich Benutzer-Anfrage/Trainings- Anfragen

Bestimmung der k ähnlichsten T-Anfragen

Pro KSM Errechnung eines Durchschnitts- Verteilungs-Vektors der k T-Anfragen

Nutzung dieser Durchschnittsvektoren zur KSM-Auswahl mit Blick auf Precision-

Maximierung

(34)

Statisches Lernen

„MRDD“ (3)

Beispiel (Aufbau eines Verteilungsvektors):

Für T-Anfrage wurden 100 Dokumente in KSM gefunden

(d1, d2, …, d100) [in dieser Reihenfolge]

Relevante Dokumente: d1, d6, d20, d88

Verteilungsvektor: {1, 6, 20, 88}

(35)

Statisches Lernen

„MRDD“ (4)

Beispiel-Fortsetzung (KSM-Auswahl):

Durchschnitts-Vektoren:

D1: {1, 4, 6, 7, 10, 12, 17}

D2: {3, 5, 7, 9, 15, 20}

D3: {2, 3, 6, 9, 11, 16}

Anzahl auszugebender Dokumente:

m = 3

Dokumentzahl pro KSM:

m1 = 1; m3 = 3 => Precision = 0,75 KSM-Auswahl:

D , D

(36)

Suchmaschinen-Auswahl

„Zusammenfassung“

Einfache Repräsentanten

Statistische Repräsentanten

„Ähnlichstes Dokument“

Lern-basierte Methoden

MRDD

(37)

Einzelne MSM-Komponenten

„Übersicht“ (2)

Suchmaschinen-Auswahl (database selection)

Dokument-Auswahl (document selection)

Ergebnis-Verschmelzung (result merging)

(38)

Einzelne MSM-Komponenten

„Document Selection“

Einschränkung der Ergebnis-Dokumenten- Anzahl

Entscheidung durch Benutzer

(Datenbank-)Gewichtete Auswahl

Lern-basierte Methoden

Garantierte Rückgabe (guaranteed retrieval)

(39)

Document Selection

„Benutzer-Entscheidung“

Benutzer-Entscheidung über Maximalanzahl der Rückgabe-Dokumente pro KSM

Vorteil

Einfachst-Implementierung

Nachteile

Nur bei kleiner KSM-Zahl und großem Wissen über selbige günstig

Uneffektiv, wenn Dokument-Anzahl pauschal angegeben (pro KSM Dokumente)

(40)

Document Selection

„Gewichtete Auswahl“

Mehr Dokumente von gewichtigeren (nach

‚database selection‘) KSM

Basierend auf ‚ranking score‘ oder ‚db rank‘

Vorteile

Einfache Implementierung

Vernünftige Grundlage

Nachteil

Möglicherweise zu wenig nützliche Dokumente

(41)

Document Selection

„Lern-basierte Methoden“

Rückblick auf Retrieval-Erfahrungen

MRDD (modeling relevant document distribution)

QC (query clustering)

(42)

Document Selection

„Lern-basiertes Query Clustering“ (1)

Trainingsphase mit „Übungs-Anfragen“

Clustering dieser Anfragen innerhalb jeder KSM

T-Anfrage 1 T-Anfrage 2

T-Anfrage 4 T-Anfrage 3

T-Anfrage 5

Dokument A, Dokument C, Dokument D Dokument B, Dokument C, Dokument D Dokument E, Dokument F, Dokument G Dokument E, Dokument H, Dokument I Dokument E, Dokument F, Dokument I

T-Anfrage 1 T-Anfrage 2 T-Anfrage 3 T-Anfrage 5

Anfragen Rückgabe-Dokumente Cluster

T-Anfrage 4

(43)

Document Selection

„Lern-basiertes Query Clustering“ (2)

Bilden des Durchschnittsvektors (centroid) der Anfrage-Vektoren pro Cluster

Gewichtung der Cluster auf Basis

der Durchschnitts-Anzahl der relevanten Dokumente

aus den besten T ausgegebenen Dokumenten

Clustergewicht ~ ‚Precision‘ der Anfragen innerhalb des Clusters

(44)

Document Selection

„Lern-basiertes Query Clustering“ (3)

Wahl des Clusters pro KSM nach Ähnlichkeit mit Benutzer-Anfrage m.H. des ‚centroid‘

Nutzung aller ausgewählten Cluster- Gewichtungen zur Dokument-Auswahl

Dokumentanzahl aus KSM Di =

m = Gesamtzahl zurückzugebender Dokumente wi = Gewicht des Anfrage-Clusters von Di

(45)

Document Selection

„Lern-basiertes Query Clustering“ (4)

Vorteile

Gute Ergebnisse bei großer Ähnlichkeit von Trainings- und Benutzer-Anfragen

Nachteile

Schlechte Anpassungsfähigkeit des Verfahrens

Schwierige Auswahl der Trainings-Anfragen

Großer Zeitaufwand beim Filtern der relevanten Dokumente bei hoher Zahl von Trainings-

Anfragen

(46)

Document Selection

„Garantierte Rückgabe“

Mitbetrachtung der globalen Vergleichsfunktionen

Umgehung von KSM-Unterschiedlichkeits-Problemen

Effektivitäts-Steigerung bei Filterung nützlicher und unnützer Dokumente

Ziel: Rückgabe aller nützlichen bei Minimierung von nutzlosen Dokumenten

Methoden

Anfrage-Modifikation

Berechnung des kleinsten lokalen Grenzwertes

(47)

Garantierte Rückgabe

„Anfrage-Modifikation“

Veränderung der Anfrage vor Weiterleitung an KSM

Ziel: Rückgabe der KSM-Dokumente in Reihenfolge der globalen Ähnlichkeiten

Nachteile

Nicht jede Kombination von lokalen und globalen Vergleichs-Funktionen möglich

Wissen über Vergleichs-Funktion und Term- Gewichtungs-Formel nötig

(48)

Garantierte Rückgabe

„Kleinster lokaler Grenzwert“

Finden eines Ähnlichkeits-Grenzwertes pro KSM, bei dem

alle relevanten Dokumente ausgegeben werden

keine unnützen Dokumente zurückgegeben werden

Nachteile

Lösungsfindung für jedes Globale-Lokale- Vergleichsfunktions-Paar einzeln

Lösung existiert nicht immer

(49)

Dokument-Auswahl

„Zusammenfassung“

Benutzer-Entscheidung

Gewichtete Auswahl

Lern-basierte Methoden

Query Clustering

Garantierte Rückgabe

(50)

Einzelne MSM-Komponenten

„Übersicht“ (3)

Suchmaschinen-Auswahl (database selection)

Dokumenten-Auswahl (document selection)

Ergebnis-Verschmelzung (result merging)

(51)

Einzelne MSM-Komponenten

„Result Merging“ (1)

Verschmelzung der Such-Ergebnisse in

eine Liste

mit Bewertungen nach globaler Ähnlichkeit

Schwierigkeiten

KSM-Ranking mit eigener Vergleichsfunktion

Ähnlichkeitswert nicht unbedingt öffentlich

Mehrfache Rückgabe von Dokumenten

(52)

Einzelne MSM-Komponenten

„Result Merging“ (2)

Lokale Ähnlichkeits-Anpassung

Nutzung zusätzlicher Informationen (KSM- Bewertung o.ä.)

Umwandlung von Dokument-Rang in Vergleichswert

Globale Ähnlichkeits-Schätzung

Berechnung oder

Schätzung globaler Vergleichswerte von Dokumenten

(53)

Result Merging

„Local Similarity Adjustment“

(1)

Überlappungs-Möglichkeiten

Keine Überlappungen -> KSMs paarweise disjunkt

Überlappungen, aber KSMs nicht identisch

KSMs sind identisch

‚Data Fusion‘ – Nutzung verschiedener Ranking- Methoden für höhere Rückgabe-Effektivität

Ergebnis-Findung durch Anwendung einfacher Funktionen (max, Summe, …)

Tritt nicht in MSMs auf

(54)

Result Merging

„Local Similarity Adjustment“

(2)

Einfach bei gegebenen lokalen Vergleichswerten

Normalisierung der Vergleichswerte (0 < s <= 1)

Bsp.:

sd = Lokaler Vergleichswert von Dokument d wD = Ranking-Wert von KSM D

(55)

Result Merging

„Local Similarity Adjustment“

(3)

Nutzung des Dokument-Ranges ohne lokalen Vergleichswert

Direkte Nutzung des Dokument-Ranges

Umwandlung von Dokument-Rängen in Vergleichswerte

(56)

Result Merging

„Local Similarity Adjustment“

(4)

Direkte Nutzung des Dokument-Ranges

Reihum nächst bestes Dokument der nächst besten KSM in Liste einfügen

„Zufällige“ Auswahl (MRDD KSM-Auswahl)

Umwandlung von Dokument-Rängen

r = Lokaler Dokument-Rang ri = Ranking-Wert von KSM Di

rmin = Niedrigster KSM-Ranking-Wert

(57)

Result Merging

„Local Similarity Adjustment“

(5)

Problem: Vorhandensein eines Dokumentes in mehreren KSMs

Lösungen

Durchführung von LSA-Verfahren

danach Ergebnis-Behandlung wie in Pro-Fusion

Nicht unbedingt sinnvoll bei MSM

KSM sieht Dokument nicht als sinnvoll an

Dokument eventuell in KSM nicht vorhanden

Forschungsgebiet

(58)

Result Merging

„Global Similarity Estimation“

Berechnung oder Schätzung von globalen Vergleichswerten

Dokument-Download (document fetching)

Nutzen von „gefundenem Wissen“

Herausfinden von Indizierungs-Methode und Vergleichs- Funktion möglich

Wissen über Vergleichbarkeit von Vergleichsfunktionen,

Anpassungs-Möglichkeiten von Vergleichsfunktionen,

Bewertung von lokalen Vergleichsfunktionen in Hinblick auf die globalen

(59)

Global Similarity Estimation

„Document Fetching“ (1)

Dokument wird normalerweise nicht

„mitgeliefert“

URL

höchstens eine Zusammenfassung

Download der KSM-Dokumente

Errechnung sämtlicher globaler Vergleichs-

Funktionsparameter möglich (Kosinus-Funktion)

Globale Dokument-Frequenz ist Summe aller lokalen Dokument-Frequenzen (bei wenig

Überlappung)

(60)

Global Similarity Estimation

„Document Fetching“ (2)

Vorteile

Herausfiltern von nicht erreichbaren URLs

Ranking auf Basis aktueller Dokumente

Markierung der Suchwörter möglich

Nachteile

Zeit- und Ressourcenaufwendig

Viele Dokumente (aber paralleles Downloaden)

Große Dokumente (aber nur Download des

Dokumentanfangs)

(61)

Ergebnis-Verschmelzung

„Zusammenfassung“

Lokale Vergleichswert-Anpassung

Globale Vergleichswert-Schätzung

(62)

Übersicht

Vorteile von Metasuchmaschinen

Generelle Probleme durch unterschiedliche Suchmaschinen

Architektur und Aufbau von MSMs

Funktionsweise einzelner MSM- Komponenten

Weitere Herausforderungen

(63)

Weitere Herausforderungen (1)

Integration lokaler Systeme mit

verschiedenen Indexierungsmethoden

Integration lokaler Systeme mit verschiedenen Anfrage-Mustern

Informationsfindung zu Komponenten- Suchmaschinen

Effektivere Ergebnis-Verschmelzung

Zusammenarbeit von MSM und Komponenten-Suchmaschinen

(64)

Weitere Herausforderungen (2)

Neue Indexierungs- und Gewichtungsmethoden

Verbesserung der Effektivität der Metasuche

Verteilung der MSM-Komponenten

Standard-Fälle für Tests von „database

selection“, „document selection“ und „result merging“

(65)

Zusammenfassung

Aufbau einer Metasuchmaschine

MSM-Bauteil-Funktionen

Database Selector

Document Selector

Result Merger

(66)

Quellenangaben

Weiyi Meng, Clement Yu, King-Lup Liu

“Building efficient and effective metasearch engines” (ACM Computing Surveys, Volume 34 Issue 1. March 2002)

www.net-lexikon.de

Referenzen

ÄHNLICHE DOKUMENTE

Errichtung eines Gehölzschutzzauns während der Bauzeit, anschließend Gehölzaufwertung durch Lückenschluss. Wasser- und Schifffahrtsamt

Absuchen der Stämme und Kronen zu fällender Bäume nach Winterquar- tieren von Fledermäusen.. S 03 (6) S

&gt; 100.000 Individuen ( in 2004 bis 2009 nicht festgestellt ).

Anzahl blhender Schachblumen in diesem Bereich Schwerpunktvorkommen in diesem Bereich. &gt;

Anzahl blhender Schachblumen in diesem Bereich Schwerpunktvorkommen in diesem Bereich. &gt;

letzte Aktualisierung: 05.08.2010 nächste Aktualisierung: 09./10.2011. Quelle: Statistisches

Ihre Screening-Krankenschwester wird mit Ihnen besprechen, was Sie vor, während und nach der Einnahme des Abführmittels essen können und was nicht. Wir schicken

Dieser persönliche Sicherheitspass beinhaltet alle wichtigen Daten der Mitarbeiterin oder des Mitarbeiters zu deren Sicherheit und Gesundheit soweit sich diese auf die beruf-