Bau effizienter und effektiver Metasuchmaschinen

(1)

Bau effizienter und effektiver

Metasuchmaschinen

von Daniel Weichert FU-Berlin

WS 03/04

(2)

Definition

„Eine Meta-Suchmaschine ist eine

Suchmaschine, deren wesentliches Merkmal darin besteht, dass sie eine Suchanfrage an mehrere andere Suchmaschinen weiterleitet, die Ergebnisse sammelt und aufbereitet…“

(www.net-lexikon.de)

Global Interface

Search Engine Search Engine Search Engine

(3)

Übersicht (1)

 Vorteile von Metasuchmaschinen

 Generelle Probleme durch unterschiedliche Suchmaschinen

 Architektur und Aufbau von MSMs

 Funktionsweise einzelner MSM- Komponenten

 Weitere Herausforderungen

(4)

Vorteile von

Metasuchmaschinen

 Erreichung höherer Internet-Abdeckung

 Vorteile der Skalierbarkeit durch Nutzung kleinerer (Spezial-)Suchmaschinen

 Einfachere Benutzung bei „verstreuten Daten“

 Effizienteres Aussortieren nicht relevanter Dokumente

(5)

Übersicht (2)

 Vorteile von Metasuchmaschinen

 Generelle Probleme durch

unterschiedliche Suchmaschinen

(6)

Generelle Probleme durch unterschiedliche

Suchmaschinen

 Indexierungsmethode

 Dokument-Term-Gewichtung

 Anfrage-Term-Gewichtung

 Vergleichs-Funktion

 Dokument-Datenbank

 Dokument-Version

 Unvergleichbarkeit untereinander und proprietäres Unwissen

(7)

Übersicht (3)

 Architektur und Aufbau von MSMs

(8)

Aufbau einer

Metasuchmaschine

„Architektur“ (1)

User Interface

Database Selector 1

2

User

Search Engine Search Engine

(9)

Aufbau einer

Metasuchmaschine

„Database Selector“

 Auswahl nur sinnvoller Suchmaschinen

 bei großer Suchmaschinenzahl

 bei geringer Anzahl auszugebender Ergebnisse

 Ressourceneinsparung

 bei Anfrage-Weiterleitung in MSM-Umgebung

 bei Anfrage-Auswertung in Komponenten- Suchmaschine

 durch weniger Netz-Verkehr

 bei Rückgabe-Auswertung in MSM-Umgebung

(10)

Aufbau einer

Metasuchmaschine

„Architektur“ (2)

User Interface

Database Selector

Document Selector 1

2

3

User

3

(11)

Aufbau einer

Metasuchmaschine

„Document Selector“

 Auswahl zurückzugebender Dokumente

 Direkte Beeinflussung der Rückgabe-Anzahl

 Vergleich gegen einen „Ähnlichkeits-Grenzwert“

 Maximale Anzahl sinnvoller Dokumente

 Minimale Anzahl unnützer Dokumente

 Durchführung für jede ausgewählte Suchmaschine

(12)

Aufbau einer

Metasuchmaschine

„Architektur“ (3)

User Interface

Database Selector

Document Selector

Query Dispatcher

1

2

3

4

5

User

3

5

(13)

Aufbau einer

Metasuchmaschine

„Query Dispatcher “

 Verbindungsaufbau zu Komponenten- Suchmaschinen

 HTTP-Anfrage-Methode (GET/POST)

 Suchanfrage-Format

 Verändern der Suchanfrage

 (Relative) Gewichtung der Anfrage-Terme

 Anzahl der zurückzugebenden Dokumente

(14)

Aufbau einer

Metasuchmaschine

„Architektur“ (4)

User Interface

Database Selector

Document Selector

Query Dispatcher

Result Merger 1

2

3

4

5 5

6 7 8

User

3

(15)

Aufbau einer

Metasuchmaschine

„Result Merger “

 Verschmelzung der Rückgabe-Ergebnisse in sinnvoller Weise

 EINE Liste mit Ergebnissen

 Beachtung der Dokument-Rückgabezahl der MSM

 Bewertung (ranking) auf Basis einer globalen Vergleichsfunktion (gegeben durch MSM)

(16)

Aufbau einer

Metasuchmaschine

„Architektur“ (5)

User Interface

Database Selector

Document Selector

Query Dispatcher

Result Merger 1

2

3

4

5 5

6 7 8

User

3

(17)

Übersicht (4)

 Funktionsweise einzelner MSM- Komponenten

(18)

Einzelne MSM-Komponenten

„Übersicht“ (1)

 Suchmaschinen-Auswahl (database selection)

 Dokument-Auswahl (document selection)

 Ergebnis-Verschmelzung (result merging)

(19)

Einzelne MSM-Komponenten

„Database Selection“ (1)

 Auswahl nur nützlicher Datenbanken mit Hilfe von

 einfachen Repräsentanten

 statistischen Repräsentanten

 lern-basierten Methoden

(20)

Database Selection

„Einfache Repräsentanten“ (1)

 Text-Beschreibung des Datenbank-Inhalts

 Oftmals manuell erstellt

 Vergleich Anfrage – Beschreibung

 Verschiedene Techniken

 Beschreibung des DB-Inhalts

 Fachgebiets-Angabe plus Anfrage

 Restrukturierung der Anfrage

 Automatisch erstellte Repräsentanten (Bsp.:

(21)

Database Selection

„Einfache Repräsentanten“ (2)

ALIWEB

Template-Type: DOCUMENT

Title: Perl

URI: /public/perl/perl.html Description: Information on the Perl

Programming

Language. Includes a local Hypertext Perl Manual, and the latest FAQ in Hypertext.

Keywords: perl, perl-faq, language Author-Handle: m.koster@nexor.co.uk

NetSerf

topic: country

synset: [nation,

nationality, land, country,

a_people]

synset: [state, nation, country, land, common-wealth, res_publica,

body_politic]

synset: [country, state, land, nation]

info-type: facts Beispiele:

(22)

Database Selection

„Einfache Repräsentanten“ (3)

 Vorteile

 Einfache Handhabung

 Ressourcenschonend

 Einsetzbar bei hoch spezialisierten Datenbanken

 Nachteile

 Datenbank-Beschreibung unzureichend

 Eventuell Eingriff des Nutzers nötig bei DB- Auswahl

Nicht gut einsetzbar bei umfassenden DB

(23)

Einzelne MSM-Komponenten

„Database Selection“ (2)

 einfachen Repräsentanten

 statistischen Repräsentanten

 lern-basierten Methoden

(24)

Database Selection

„Statistische Repräsentanten“

(1)

 Nutzung detaillierter Informationen einer KSM

 über Dokument-Frequenz jedes Terms

 über Durchschnitts-Gewicht eines Terms über alle Dokumente …

 Vorteil

 Hohe Genauigkeit in Bestimmung der

Ähnlichkeiten von Dokumenten zu einer Anfrage in einer KSM

 Nachteil

Skalierbarkeit nicht immer optimal

(25)

Database Selection

„Statistische Repräsentanten“

(2)

 Methoden

 Relative KSM-Bewertung

 Relativer KSM-Ranking-Wert

 Absolute KSM-Bewertung

 Unabhängiger Ranking-Wert

 Schätzung der Anzahl nützlicher Dokumente

 Schätzung der globalen Ähnlichkeit des der Anfrage am ähnlichsten Dokumentes

(26)

Statistische Repräsentanten

„Ähnlichstes Dokument“ (1)

 Definition:

Eine Menge von M Datenbanken ist optimal gewichtet [D₁, D₂, …, D_M], wenn es ein k gibt, sodass D₁, D₂, …, D_k die m ähnlichsten

Dokumente beinhalten und jede Di (1<= i <= k) mindestens eines der m Dokumente enthält.

 Bedingung: msim(q, D₁) > msim(q, D₂) > …

msim(q, Di) = Globaler Vergleichswert des der Anfrage ähnlichsten Dokumentes

 Auswahl der ersten k KSMs

(27)

Statistische Repräsentanten

„Ähnlichstes Dokument“ (2)

 Bestimmung von msim(q, D):

 Zwei Repräsentanten

 Global: Globales inverses Dokument-Frequenz-Gewicht gidfi für jeden Term ti

 Lokal: Wertepaar (mnwi, anwi) mit

mnw_i = Maximales normalisiertes Gewicht von t_i

anwi = Durchschnittliches normalisiertes Gewicht von ti

Normalisiertes Gewicht = d_i / |d|

di = Gewicht von Term ti in Dokument d

|d| = Länge von Dokument d

(28)

Statistische Repräsentanten

„Ähnlichstes Dokument“ (3)

 Anfrage-Vektor q = (q₁, q₂, …, q_k)

msim(q, D) =

 Links: Anfrage-ähnlichstes Dokument hat Maximumgewicht des i-ten Anfrage-Terms

 / |q|: Normalisierung von msim

 Sortierung der KSMs nach msim(q, D)

(29)

Statistische Repräsentanten

„Ähnlichstes Dokument“ (4)

 Einfache Anpassung bei Wort- zusammenhängen

 Maximales normalisiertes Gewicht dominiert

 üblicherweise um 2 oder mehr Ordnungen

 wegen Einberechnungen der Null-Werte im durchschnittlichen Gewicht

 Einschränkung der Formel für msim(q, D) auf msim(q, D) = max1<=i<=k {q_i * am_i} mit

am_i = gidf_i * mnw_i [Angepasstes normalisiertes Gewicht]

(30)

Einzelne MSM-Komponenten

„Database Selection“ (3)

 einfachen Repräsentanten

 statistischen Repräsentanten

 lern-basierten Methoden

(31)

Database Selection

„Lern-basierte Methoden“

 Nutzenbestimmung einer Datenbank durch Erfahrungswerte

 Verschiedene Techniken

 Statisches Lernen

 MRDD (modeling relevant document distribution)

 Dynamisches Lernen

 Ranking-Wert-Bestimmung u.a. durch „Maus-Klicks“

 Kombination aus statischem und dynamischem Lernen

(32)

Statisches Lernen

„MRDD“ (1)

 Bilden einer Menge von Trainings-Anfragen

 Weiterleitung der T-Anfragen an alle KSM

 Bilden eines Verteilungs-Vektors aus

relevanten Dokumenten pro T-Anfrage und KSM

 Identifikation der relevanten Dokumente aus Rückgabeliste

 Aufbau: Pro VV-Dimension Anzahl zu holender Dokumente für nächstes relevantes Dokument

(33)

Statisches Lernen

„MRDD“ (2)

 Vergleich Benutzer-Anfrage/Trainings- Anfragen

 Bestimmung der k ähnlichsten T-Anfragen

 Pro KSM Errechnung eines Durchschnitts- Verteilungs-Vektors der k T-Anfragen

 Nutzung dieser Durchschnittsvektoren zur KSM-Auswahl mit Blick auf Precision-

Maximierung

(34)

Statisches Lernen

„MRDD“ (3)

 Beispiel (Aufbau eines Verteilungsvektors):

Für T-Anfrage wurden 100 Dokumente in KSM gefunden

(d₁, d₂, …, d₁₀₀) [in dieser Reihenfolge]

Relevante Dokumente: d1, d6, d20, d88

Verteilungsvektor: {1, 6, 20, 88}

(35)

Statisches Lernen

„MRDD“ (4)

 Beispiel-Fortsetzung (KSM-Auswahl):

Durchschnitts-Vektoren:

D1: {1, 4, 6, 7, 10, 12, 17}

D₂: {3, 5, 7, 9, 15, 20}

D3: {2, 3, 6, 9, 11, 16}

Anzahl auszugebender Dokumente:

m = 3

Dokumentzahl pro KSM:

m₁ = 1; m₃ = 3 => Precision = 0,75 KSM-Auswahl:

D , D

(36)

Suchmaschinen-Auswahl

„Zusammenfassung“

 Einfache Repräsentanten

 Statistische Repräsentanten

 „Ähnlichstes Dokument“

 Lern-basierte Methoden

 MRDD

(37)

Einzelne MSM-Komponenten

„Übersicht“ (2)

 Suchmaschinen-Auswahl (database selection)

 Dokument-Auswahl (document selection)

 Ergebnis-Verschmelzung (result merging)

(38)

Einzelne MSM-Komponenten

„Document Selection“

 Einschränkung der Ergebnis-Dokumenten- Anzahl

 Entscheidung durch Benutzer

 (Datenbank-)Gewichtete Auswahl

 Lern-basierte Methoden

 Garantierte Rückgabe (guaranteed retrieval)

(39)

Document Selection

„Benutzer-Entscheidung“

 Benutzer-Entscheidung über Maximalanzahl der Rückgabe-Dokumente pro KSM

 Vorteil

 Einfachst-Implementierung

 Nachteile

 Nur bei kleiner KSM-Zahl und großem Wissen über selbige günstig

 Uneffektiv, wenn Dokument-Anzahl pauschal angegeben (pro KSM Dokumente)

(40)

Document Selection

„Gewichtete Auswahl“

 Mehr Dokumente von gewichtigeren (nach

‚database selection‘) KSM

 Basierend auf ‚ranking score‘ oder ‚db rank‘

 Vorteile

 Einfache Implementierung

 Vernünftige Grundlage

 Nachteil

 Möglicherweise zu wenig nützliche Dokumente

(41)

Document Selection

„Lern-basierte Methoden“

 Rückblick auf Retrieval-Erfahrungen

 MRDD (modeling relevant document distribution)

 QC (query clustering)

(42)

Document Selection

„Lern-basiertes Query Clustering“ (1)

 Trainingsphase mit „Übungs-Anfragen“

 Clustering dieser Anfragen innerhalb jeder KSM

T-Anfrage 1 T-Anfrage 2

T-Anfrage 4 T-Anfrage 3

T-Anfrage 5

Dokument A, Dokument C, Dokument D Dokument B, Dokument C, Dokument D Dokument E, Dokument F, Dokument G Dokument E, Dokument H, Dokument I Dokument E, Dokument F, Dokument I

T-Anfrage 1 T-Anfrage 2 T-Anfrage 3 T-Anfrage 5

Anfragen Rückgabe-Dokumente Cluster

T-Anfrage 4

(43)

Document Selection

„Lern-basiertes Query Clustering“ (2)

 Bilden des Durchschnittsvektors (centroid) der Anfrage-Vektoren pro Cluster

 Gewichtung der Cluster auf Basis

 der Durchschnitts-Anzahl der relevanten Dokumente

 aus den besten T ausgegebenen Dokumenten

 Clustergewicht ~ ‚Precision‘ der Anfragen innerhalb des Clusters

(44)

Document Selection

„Lern-basiertes Query Clustering“ (3)

 Wahl des Clusters pro KSM nach Ähnlichkeit mit Benutzer-Anfrage m.H. des ‚centroid‘

 Nutzung aller ausgewählten Cluster- Gewichtungen zur Dokument-Auswahl

Dokumentanzahl aus KSM D_i=

m = Gesamtzahl zurückzugebender Dokumente w_i = Gewicht des Anfrage-Clusters von D_i

(45)

Document Selection

„Lern-basiertes Query Clustering“ (4)

 Vorteile

 Gute Ergebnisse bei großer Ähnlichkeit von Trainings- und Benutzer-Anfragen

 Nachteile

 Schlechte Anpassungsfähigkeit des Verfahrens

 Schwierige Auswahl der Trainings-Anfragen

 Großer Zeitaufwand beim Filtern der relevanten Dokumente bei hoher Zahl von Trainings-

Anfragen

(46)

Document Selection

„Garantierte Rückgabe“

 Mitbetrachtung der globalen Vergleichsfunktionen

 Umgehung von KSM-Unterschiedlichkeits-Problemen

 Effektivitäts-Steigerung bei Filterung nützlicher und unnützer Dokumente

 Ziel: Rückgabe aller nützlichen bei Minimierung von nutzlosen Dokumenten

 Methoden

 Anfrage-Modifikation

 Berechnung des kleinsten lokalen Grenzwertes

(47)

Garantierte Rückgabe

„Anfrage-Modifikation“

 Veränderung der Anfrage vor Weiterleitung an KSM

 Ziel: Rückgabe der KSM-Dokumente in Reihenfolge der globalen Ähnlichkeiten

 Nachteile

 Nicht jede Kombination von lokalen und globalen Vergleichs-Funktionen möglich

 Wissen über Vergleichs-Funktion und Term- Gewichtungs-Formel nötig

(48)

Garantierte Rückgabe

„Kleinster lokaler Grenzwert“

 Finden eines Ähnlichkeits-Grenzwertes pro KSM, bei dem

 alle relevanten Dokumente ausgegeben werden

 keine unnützen Dokumente zurückgegeben werden

 Nachteile

 Lösungsfindung für jedes Globale-Lokale- Vergleichsfunktions-Paar einzeln

 Lösung existiert nicht immer

(49)

Dokument-Auswahl

„Zusammenfassung“

 Benutzer-Entscheidung

 Gewichtete Auswahl

 Lern-basierte Methoden

 Query Clustering

 Garantierte Rückgabe

(50)

Einzelne MSM-Komponenten

„Übersicht“ (3)

 Suchmaschinen-Auswahl (database selection)

 Dokumenten-Auswahl (document selection)

 Ergebnis-Verschmelzung (result merging)

(51)

Einzelne MSM-Komponenten

„Result Merging“ (1)

 Verschmelzung der Such-Ergebnisse in

 eine Liste

 mit Bewertungen nach globaler Ähnlichkeit

 Schwierigkeiten

 KSM-Ranking mit eigener Vergleichsfunktion

 Ähnlichkeitswert nicht unbedingt öffentlich

 Mehrfache Rückgabe von Dokumenten

(52)

Einzelne MSM-Komponenten

„Result Merging“ (2)

 Lokale Ähnlichkeits-Anpassung

 Nutzung zusätzlicher Informationen (KSM- Bewertung o.ä.)

 Umwandlung von Dokument-Rang in Vergleichswert

 Globale Ähnlichkeits-Schätzung

 Berechnung oder

 Schätzung globaler Vergleichswerte von Dokumenten

(53)

Result Merging

„Local Similarity Adjustment“

(1)

 Überlappungs-Möglichkeiten

 Keine Überlappungen -> KSMs paarweise disjunkt

 Überlappungen, aber KSMs nicht identisch

 KSMs sind identisch

 ‚Data Fusion‘ – Nutzung verschiedener Ranking- Methoden für höhere Rückgabe-Effektivität

 Ergebnis-Findung durch Anwendung einfacher Funktionen (max, Summe, …)

 Tritt nicht in MSMs auf

(54)

Result Merging

„Local Similarity Adjustment“

(2)

 Einfach bei gegebenen lokalen Vergleichswerten

 Normalisierung der Vergleichswerte (0 < s <= 1)

 Bsp.:

sd = Lokaler Vergleichswert von Dokument d wD = Ranking-Wert von KSM D

(55)

Result Merging

„Local Similarity Adjustment“

(3)

 Nutzung des Dokument-Ranges ohne lokalen Vergleichswert

 Direkte Nutzung des Dokument-Ranges

 Umwandlung von Dokument-Rängen in Vergleichswerte

(56)

Result Merging

„Local Similarity Adjustment“

(4)

 Direkte Nutzung des Dokument-Ranges

 Reihum nächst bestes Dokument der nächst besten KSM in Liste einfügen

 „Zufällige“ Auswahl (MRDD KSM-Auswahl)

 Umwandlung von Dokument-Rängen

r = Lokaler Dokument-Rang r_i = Ranking-Wert von KSM D_i

rmin = Niedrigster KSM-Ranking-Wert

(57)

Result Merging

„Local Similarity Adjustment“

(5)

 Problem: Vorhandensein eines Dokumentes in mehreren KSMs

 Lösungen

 Durchführung von LSA-Verfahren

 danach Ergebnis-Behandlung wie in Pro-Fusion

 Nicht unbedingt sinnvoll bei MSM

 KSM sieht Dokument nicht als sinnvoll an

 Dokument eventuell in KSM nicht vorhanden

 Forschungsgebiet

(58)

Result Merging

„Global Similarity Estimation“

 Berechnung oder Schätzung von globalen Vergleichswerten

 Dokument-Download (document fetching)

 Nutzen von „gefundenem Wissen“

 Herausfinden von Indizierungs-Methode und Vergleichs- Funktion möglich

 Wissen über Vergleichbarkeit von Vergleichsfunktionen,

 Anpassungs-Möglichkeiten von Vergleichsfunktionen,

 Bewertung von lokalen Vergleichsfunktionen in Hinblick auf die globalen

(59)

Global Similarity Estimation

„Document Fetching“ (1)

 Dokument wird normalerweise nicht

„mitgeliefert“

 URL

 höchstens eine Zusammenfassung

 Download der KSM-Dokumente

 Errechnung sämtlicher globaler Vergleichs-

Funktionsparameter möglich (Kosinus-Funktion)

 Globale Dokument-Frequenz ist Summe aller lokalen Dokument-Frequenzen (bei wenig

Überlappung)

(60)

Global Similarity Estimation

„Document Fetching“ (2)

 Vorteile

 Herausfiltern von nicht erreichbaren URLs

 Ranking auf Basis aktueller Dokumente

 Markierung der Suchwörter möglich

 Nachteile

 Zeit- und Ressourcenaufwendig

 Viele Dokumente (aber paralleles Downloaden)

 Große Dokumente (aber nur Download des

Dokumentanfangs)

(61)

Ergebnis-Verschmelzung

„Zusammenfassung“

 Lokale Vergleichswert-Anpassung

 Globale Vergleichswert-Schätzung

(62)

Übersicht

 Weitere Herausforderungen

(63)

Weitere Herausforderungen (1)

 Integration lokaler Systeme mit

verschiedenen Indexierungsmethoden

 Integration lokaler Systeme mit verschiedenen Anfrage-Mustern

 Informationsfindung zu Komponenten- Suchmaschinen

 Effektivere Ergebnis-Verschmelzung

 Zusammenarbeit von MSM und Komponenten-Suchmaschinen

(64)

Weitere Herausforderungen (2)

 Neue Indexierungs- und Gewichtungsmethoden

 Verbesserung der Effektivität der Metasuche

 Verteilung der MSM-Komponenten

 Standard-Fälle für Tests von „database

selection“, „document selection“ und „result merging“

(65)

Zusammenfassung

 Aufbau einer Metasuchmaschine

 MSM-Bauteil-Funktionen

 Database Selector

 Document Selector

 Result Merger

(66)

Quellenangaben

 Weiyi Meng, Clement Yu, King-Lup Liu

“Building efficient and effective metasearch engines” (ACM Computing Surveys, Volume 34 Issue 1. March 2002)

 www.net-lexikon.de