• Keine Ergebnisse gefunden

Information Retrieval

N/A
N/A
Protected

Academic year: 2022

Aktie "Information Retrieval"

Copied!
49
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Information Retrieval

IR-Grundlagen von Suchmaschinen im Überblick

Björn Gustavs

(2)

Was ist IR?

„Information Storage and Retrieval”

Das systematische Vorgehen, um Daten zu sammeln und derart zu katalogisieren, dass sie auf Anfrage wieder aufgefunden und

angezeigt werden können.

Für Suchmaschinen  „alle“ Dokumente im Internet aufspüren, analysieren und auf

Abfrage optimal wiedergeben

(3)

Motivation

Einblick: Web Traversierung

IR-Probleme

Methoden der Index-Erstellung

Methoden des IR auf dem Index

Zusammenfassung

Inhalt / Ausblick

(4)

Informationsgehalt im Internet:

Mai 2003 Anzahl der Seiten > 6 Milliarden

verdoppelt sich alle 4-8 Monate

rund 40% des Internets verändert sich monatlich

um dieses Potential zu nutzen gewünschte Inhalte effizient & gezielt finden

Textinformation rechnergestützt auswerten

Motivation

(5)

Dokumentensuche im Web

1. Suchroboter (aka: Web robot, wanderer, worm, walker, spider, knownbot) traversieren das Web pro Anfrage

Nutzer gibt Suchbegriff an

Roboter durchsucht systematisch das Web nach Dokumenten

Relevanzberechnung

Rückgabe einer rang-sortieren Liste

Größe des Netzes & Wachstum machen diesen Ansatz praktisch unmöglich

(6)

2. vorbereiteter Index wird durchsucht

Index ist ein durchsuchbares Archiv mit Referenzen zu Dokumenten im Web

Suche wird auf dem Index ausgeführt

Dokumentensuche im Web

(7)

Der Index (1)

Index ist eine Dokumentenrepräsentation

Dokumente durch Inhaltsbeschreibung und enthaltenen Termen repräsentiert

Terme dienen zu Ermittlung der Relevanz bei Suchanfragen

Terme können automatisch oder von Spezialisten erzeugt werden

(8)

Index-Erzeugung (1)

Seiten sammelnAnalysieren,AufbereitenIndex

Programme (Robots, Crawler) suchen „alle“

Webseiten

Ausgehend von einer Anfangsadresse werden alle URLs in Tiefen- oder Breitensuche verfolgt.

von Menge von Anfangsadressen aus- abhängig von der Popularität der jeweiligen Seite

Partitionierung des WWW- ausgehend von Internetnamen oder Landesgrenzen - wird das WWW rekursiv durchsucht.

Auslesen von Metaangaben (manuell erstellte Beschreibungen)

Textanalyse

Ermitteln von inhaltsrelevanten Termen zum Dokument, Häufigkeit

(9)

Index-Erzeugung (3)-Qualität

Effektivität eines Indexing Systems wird bestimmt über:

Indexing exhaustivity: Erfassungsgrad der Dokumententhemen in den Index

- exhaustive: alle Aspekte der Themen erfassen - nonexhaustive: weniger, aber die Kernthemen

Term specificity: Grad, zu welchem die Menge aller vorhandenen nützlichen Dokumente erfasst werden

allgemeine/umfassende Terme  viele nützliche & viele unnütze Resultate

genaue Terme  weniger Resultate, evtl. auch verpasste gute Ergebnisse

(10)

IR Qualität (1)

Genannte Parameter haben Auswirkung auf das Indexierungssystem:

Resultierende Retrieval Effiziens über 2 Parameter beschrieben:

Recall (Vollständigkeit)

Precision (Trefferquote)

(11)

IR Qualität (2) - Recall

Recall (Vollständigkeit)

Wieviele der relevanten Dokumente werden erfasst?

Verhältnis der

- Anzahl erfasster, relevanter Dokumente zur

- Anzahl relevanter Dokumente

(12)

IR Qualität (3) - Precision

Precision:

wieviele relevante Dokumente werden erfasst

Verhältnis der

- Anzahl erfasster, relevanter Dokumente zur

- Anzahl erfasster Dokumente

(13)

IR Qualität (2)

Optimal: hohe Recall & Precision

Aber gehen jeweils auf Kosten des anderen

Effektivität wird gemessen anhand verschiedenen Precision, bei festen Recall-Werten

Kompromiss:

Recall

Speed

Precision

(14)

Der Index (4)

Suchmaschinen nutzen „inverted index“

besteht aus

durchsuchbares Wörterbuch, mit allen Wörtern im Index, enthält

# Vorkommen

Verweis auf „ inverted list“ des Wortes

„ inverted list“ für jedes Wort im Index, enthält

Verweise auf Dokumente

Häufigkeit des Wortes im Dokument

weitere Optimierungen, z.B. Position/Offset des Wortes im Dokument

(15)

„Inverted Index“, Beispiel

Lexikon inverted index list

(16)

„Index Builder“

„Index Builder“

Sortierung, 1. nach Term, dann nach DocID,…

(17)

Indexierungsmethoden

Automatische Indexierungsmethoden:

Single Term Indexierung

Statistische Methoden

Informationstheoretische Methoden

Probabilistische Methoden

Mutli-Term / Phrasen – Indexierung

Statistische Methoden

Probabilistische Methoden

Linguistische Methoden

(18)

Single Term Indexing (1)

Welche Wörter eines Dokumentes in den Index?

1. alle Worte herauslösen

2. unwichtige Worte herausfiltern („Stoppwörter“, Füllworte,…)

3. evtl. Rückführung auf Wortstamm

4. Häufigkeit im Dokument ermitteln

(19)

Single Term Indexing (2)

pro Dokument wird analysiert

Menge der auftretenden Wörter

deren Häufigkeiten

Ziel: hohes Recall

Vorgehensweisen, Wörter zu gewichten:

Statistisch

informations-theoretisch

probabilistische

(20)

Single Term Indexing(3)-statistisch

Statistische Methode

z.B. basiert rein auf Termhäufigkeit

w

ij

= tf

ij

* log(N / df

j

)

tfij – Term Frequency, des Terms j im Dokument i

dfj – Document Frequency, Häufigkeit des Terms in allen Dokumenten

(21)

Single Term Indexing (4)-inf.th.

Informationstheoretische Methode

basiert auf Aussage:

„Term, dessen Vorkommen am

unwahrscheinlichsten ist, birgt meiste Information“

Methode bevorzugt in einzelnen Dokumenten konzentrierte Terme

(22)

Single Term Indexing(5)-probal.

Probabilistische Methode

basiert auf Relevanz-Wahrscheinlichkeit

erfordert „Training“ für Berechnungsgrundlage

Benutzer bewerten Relevanz von Suchresultaten

aus Trainingsergebnissen wird Termgewichtung basierend auf bedingter Wahrscheinlichkeit des Auftretens eines Terms berechnet

(23)

Multi-Term/Phrase Indexing (1)

„Phrasen“ verhindern Doppeldeutigkeit einzelner Wörter ohne Zusammenhang

Term trägt spezifischere Bedeutung

soll Precision erhöhen

Methoden zur Erzeugung von Phrasen für Index:

statistisch

probabilistisch

sprachtheoretisch

(24)

Multi Term Indexing (2) -statistisch

Statistische Methode

„Phrase“ besteht aus Kopf und Zusätzen

Hier muss der Kopf in weiteren Dokumenten auftreten

und weiteren Komponenten im gleichen Satz

wenn Kombinationen in vielen Dokumenten auftreten, werden diese gruppiert

(dies erzwingt keine semantische Beziehung zwischen den Worten), fehleranfällig

(25)

Multi Term Indexing (3) –lingust.

Linguistische Methode

Einsatz von sprachlicher Analyse für Term- Zusammenhängen

(Adjektive, Substantive, Verben)

verbessert statistischen Methoden, Reduktion falscher Wortzusammenhänge

Einbringen semantischer Faktoren in die Gruppierung

(26)

Multi Term Indexing (4) -probabil.

Probabilistische Methode

erzeugt komplexe Indexstrukturen, basierend auf Abhängigkeiten der Terme

man müsste exponentielle Anzahl von Term- Kombinationen betrachten

daher kaum Anwendung

(27)

Information Retrieval

Rückblick auf Indexerzeugung

Auffinden von Dokumenten im Netz

Analyse des Inhaltes

Metainformationen

Textinformationen (Inhalt) auswerten

Kurzbeschreibung erstellen (Terme)

Single- vs. Multi-term Indexing

jetzt: Retrieval

Suchmechanismen auf dem Index

(28)

Ein IR-Modell wird beschrieben durch:

Repräsentation für Dokumente & Abfragen

Strategien zur Bewertung der Relevanz von Dokumenten bzgl. der Abfrage eines Benutzer

Ranking-Methoden, gewichtete Ordnung der Resultate

Methoden zum Erhalt von nutzerrelevantem-Feedback

4 Verfahren:

Boolesche Verfahren

Statistische Verfahren

Vektorraum Verfahren

Probabilistisches Verfahren

Hybrid Verfahren

Information Retrieval Modelle

(29)

basiert auf Mengenlehre und boolescher Algebra

bekannteste Verfahren, oft von IR Systemen genutzt

Abfragen werden gebildet durch Terme, verbunden durch logische Operatoren

Term aus Query im Dokument enthalten?

Dokument ist Treffer, wenn boolesche Auswertung der Query wahr ist

Boolesches Modell (1)

(30)

Boolesches Modell (2)-Beispiel

DocID Term „A“ Term „B“ Term „C“ Term „D“

1 ٧ ٧

2 ٧ ٧

3 ٧ ٧

4 ٧

Anfrage Ergebnis

A AND (C OR D) Doc1, Doc3

B OR C Doc1, Doc2, Doc4

(31)

Boolesches Verfahren (3)

Vorteile:

leicht implementierbar

effizient in Anwendung (Computer & DB)

Nachteile:

nicht triviale Queries schwierig zu formulieren

„Ganz oder gar nicht“

keine Gewichtung  keine Reihenfolge

(32)

Boolesches Verfahren,erweitert (3)

„Smart Boolean“

Anwender gibt sprachliche Frage ein, wird dann automatisch in ein boolesches Konstrukt

umgewandelt

Techniken, um Abfragen einzuschränken & zu erweitern

(33)

Boolesches Verfahren,erweitert (4)

Fuzzy-Mengen Modell

Ziel: Boolesche Strenge aufweichen & Ranking

Fuzzytheorie

auch Dokumente als Resultat, die wenn Query nur teilweise WAHR ist

Ergebnisstufen zwischen 0 und 1  Aufweichung des GoG

Stufe beschreibt, wie stark Term dem Query entspricht

(34)

Vektorraumverfahren (1)

Wurde in den 60ern in Havard im Laufe des

„Smart“-Projektes entwickelt und in den 80ern überarbeitet

Dokumente & Abfragen als Vektoren in einem mehrdimensionalen Vektorraum aufgefasst

Dimensionen sind die Terme des Dokumentenindexes

Vektoren enthalten Gewichte aller Terme

Terme in Query können gewichtet werden

(35)

Vektorraumverfahren (2)

Dokument 1

Query

Dokument 2

Term2 Dokument 3

Term3

Term1

Jedes Dokument wird anhand des Auftretens &

Gewichtung der Suchterme im Dokument, durch einen Vektor repräsentiert.

Nähe zum Query-Vektor bestimmt Suchresultat &

-Reihenfolge.

(36)

Vektorraumverfahren (3)

im „Smart“-Projekt wurden heuristische

Formeln zur Berechnung von Gewichten für die Indexierung entwickelt

 verbesserte Suchergebnisse

Trefferberechnung: Vergleich von Dokumenten- & Query-Vektoren

Vergleich z.B. cosinus-basiert

(37)

Vektorraumverfahren (4)

Vorteile:

Relevanzabstufungen möglich (durch Termgewichtungen)

Sortierung nach Ähnlichkeitsgrad möglich Rang

Nachteile:

es wird vorausgesetzt, dass Therme wechselseitig unabhängig sind

(38)

Hybrid-Modell (extended boolean)

Verbindung des Booleschen Modells mit dem Vektormodell, für freie Gewichtung

Idee:

Nutzer kann boolesche Anfrage stellen

zusätzlicher Parameter steuert die Interpretation; wie strikt AND,OR ausgewertet werden

von 2 bis unendlich

2  keine Unterscheidung zwischen AND,OR

unendlich  binäres „Ranking“ (Treffer, nicht Treffer)

beste Werte, empirische Untersuchungen: 2 <= p <= 5

(39)

Berechnung der Wahrscheinlichkeit, dass Dokument relevant ist

Training erforderlich

Berechnung stützt sich auf Parameter:

Wahrscheinlichkeit der Relevanz UND

Irrelevanz eines Dokumentes auf die Query

Kostenparameter. Verlust bei

Auffinden eines irrelevanten Dokumentes

Nichtauffinden eines relevanten Dokumentes

Probabilistisches Verfahren (1)

(40)

Probabilistisches Verfahren (2)

Vorteile:

Gefundene Dokumente werden nach

Wahrscheinlichkeit ihrer Relevanz sortiert

Nachteil:

ist so gut, wie die Wahrscheinlichkeitsberechnung eingepegelt ist (Training)

Häufigkeit eines Terms im Dokument ist irrelevant

(41)

IR-Modelle-Zusammenfassung

Boolesches Modell im Vergleich schlechte Ergebnisse, aber verbreitet.

(42)

Relevanz der Ergebnisse

alle relevanten Dokumente gefunden?

Ranking hilfreich?

Relevanz-Feedback vom Anwender gewünscht

Anwender bewertet Dokument des Suchergebnisses

2-Level: brauchbar – nicht brauchbar

Multi-Level: Zwischenstufen & im Bezug zu anderen Dokumenten (weniger relevant als…)

(43)

Relevanz-Feedback-Nutzung

1. Query anpassen

Gewichtungen der Query verändern (Termgewichte des Queryvektors)

Query Erweiterung (Hinzufügen von Termen)

Query Splitting

(44)

Relevanz-Feedback-Nutzung (2)

2. Index verändern

Index manipulieren (Gewichtungen im Index)

(45)

Relevanz-Feedback (4)

kein Suchdienst bietet heute Relevanz- Feedback Techniken!

Gefahren?

(46)

Zusammenfassung

Rückblick:

versch. Methoden zur Bestimmung der Relevanz von Query zu indexierten Dokumenten

damit verbunden, Ranking-Verfahren

Hilfe vom Benutzer wünschenswert

(47)

IR und das WWW

IR viele Einsatzfelder

Besonderheiten im Web:

riesige Datenmengen, dunkle Bereiche im Web (~500x sichtbares Web) , wachsend)

oft nicht-statische Seiten (generierte Seiten, DB)

Dynamik (verdoppelt sich alle 4-8 Monate)

 tote Links

Sprachenvielfalt

Duplikate

hohe Verlinkung (~8Links/Seite)  Indexierungsaufwand

Benutzerverhalten kennen (Geschwindigkeit, Ergebnisseiten)

(48)

Noch Fragen ?

(49)

Literaturangaben

Venkat N. Gudivada, Vijay V. Raghavan, William I. Grosky, Rajesh Kasanagottu.: Information Retrieval on the World Wide Web. IEEE Internet Computing. September-October 1997 (Vol. 1, No. 5). pp. 58-68

Mei Kobayashi, Koichi Takeda. Information Retrieval on the Web. ACM Computing Surveys, Vol. 32, No.

2, June 2000. pp 144-173.

IR und das Web, Interuniversitäres Seminar 2001, Martin Waldburger, PDF

„Building Fast Search Engines“, Hugh E. Williams, http://www.hughwilliams.com/t1.pdf

Datamining im WWW,Knowledge Discovery im Internet, Johann Zehentner, Ausarbeitung 2000

Referenzen

ÄHNLICHE DOKUMENTE

backtrack point, then also the heap pointers in the stack must be updated... Classes and Objects.. Discussion:. • We adopt the C++ perspective on classes

The Media Search system, as shown in Figure 1, is broken into six components: 1) one or more Media Servers, 2) a metadatabase that is a built on a standard relational database, 3)

By far the most demanding component of our system is the indexing and query response service and that component is the one to which we have devoted most of our effort. It can be

A data item is deleted total forensic secure, if absolutely no conclusions on exact or approx- imate values of any of the attributes of the data item can be drawn by using

Using filtering agents to improve prediction quality in the GroupLens research collaborative filtering system. In Proceedings of the ACM Conference on

( Große Anteile der im Netz verfügbaren Informationen sind kein Text und können nicht in einemA. Voll text index

Merih Seran Uysal is a researcher in the data management and data exploration group at RWTH Aachen University, Germany.. Her research interests include similarity search in

Starting from an original database of 60-dimensional feature vectors, we reduce them to different lower dimensional represen- tations using PCA (principle components analysis,