Information Retrieval
IR-Grundlagen von Suchmaschinen im Überblick
Björn Gustavs
Was ist IR?
„Information Storage and Retrieval”
Das systematische Vorgehen, um Daten zu sammeln und derart zu katalogisieren, dass sie auf Anfrage wieder aufgefunden und
angezeigt werden können.
Für Suchmaschinen „alle“ Dokumente im Internet aufspüren, analysieren und auf
Abfrage optimal wiedergeben
Motivation
Einblick: Web Traversierung
IR-Probleme
Methoden der Index-Erstellung
Methoden des IR auf dem Index
Zusammenfassung
Inhalt / Ausblick
Informationsgehalt im Internet:
Mai 2003 Anzahl der Seiten > 6 Milliarden
verdoppelt sich alle 4-8 Monate
rund 40% des Internets verändert sich monatlich
um dieses Potential zu nutzen gewünschte Inhalte effizient & gezielt finden
Textinformation rechnergestützt auswerten
Motivation
Dokumentensuche im Web
1. Suchroboter (aka: Web robot, wanderer, worm, walker, spider, knownbot) traversieren das Web pro Anfrage
Nutzer gibt Suchbegriff an
Roboter durchsucht systematisch das Web nach Dokumenten
Relevanzberechnung
Rückgabe einer rang-sortieren Liste
Größe des Netzes & Wachstum machen diesen Ansatz praktisch unmöglich
2. vorbereiteter Index wird durchsucht
Index ist ein durchsuchbares Archiv mit Referenzen zu Dokumenten im Web
Suche wird auf dem Index ausgeführt
Dokumentensuche im Web
Der Index (1)
Index ist eine Dokumentenrepräsentation
Dokumente durch Inhaltsbeschreibung und enthaltenen Termen repräsentiert
Terme dienen zu Ermittlung der Relevanz bei Suchanfragen
Terme können automatisch oder von Spezialisten erzeugt werden
Index-Erzeugung (1)
Seiten sammelnAnalysieren,AufbereitenIndex
Programme (Robots, Crawler) suchen „alle“
Webseiten
Ausgehend von einer Anfangsadresse werden alle URLs in Tiefen- oder Breitensuche verfolgt.
von Menge von Anfangsadressen aus- abhängig von der Popularität der jeweiligen Seite
Partitionierung des WWW- ausgehend von Internetnamen oder Landesgrenzen - wird das WWW rekursiv durchsucht.
Auslesen von Metaangaben (manuell erstellte Beschreibungen)
Textanalyse
Ermitteln von inhaltsrelevanten Termen zum Dokument, Häufigkeit
Index-Erzeugung (3)-Qualität
Effektivität eines Indexing Systems wird bestimmt über:
Indexing exhaustivity: Erfassungsgrad der Dokumententhemen in den Index
- exhaustive: alle Aspekte der Themen erfassen - nonexhaustive: weniger, aber die Kernthemen
Term specificity: Grad, zu welchem die Menge aller vorhandenen nützlichen Dokumente erfasst werden
allgemeine/umfassende Terme viele nützliche & viele unnütze Resultate
genaue Terme weniger Resultate, evtl. auch verpasste gute Ergebnisse
IR Qualität (1)
Genannte Parameter haben Auswirkung auf das Indexierungssystem:
Resultierende Retrieval Effiziens über 2 Parameter beschrieben:
Recall (Vollständigkeit)
Precision (Trefferquote)
IR Qualität (2) - Recall
Recall (Vollständigkeit)
Wieviele der relevanten Dokumente werden erfasst?
Verhältnis der
- Anzahl erfasster, relevanter Dokumente zur
- Anzahl relevanter Dokumente
IR Qualität (3) - Precision
Precision:
wieviele relevante Dokumente werden erfasst
Verhältnis der
- Anzahl erfasster, relevanter Dokumente zur
- Anzahl erfasster Dokumente
IR Qualität (2)
Optimal: hohe Recall & Precision
Aber gehen jeweils auf Kosten des anderen
Effektivität wird gemessen anhand verschiedenen Precision, bei festen Recall-Werten
Kompromiss:
Recall
Speed
Precision
Der Index (4)
Suchmaschinen nutzen „inverted index“
besteht aus
durchsuchbares Wörterbuch, mit allen Wörtern im Index, enthält
# Vorkommen
Verweis auf „ inverted list“ des Wortes
„ inverted list“ für jedes Wort im Index, enthält
Verweise auf Dokumente
Häufigkeit des Wortes im Dokument
weitere Optimierungen, z.B. Position/Offset des Wortes im Dokument
„Inverted Index“, Beispiel
Lexikon inverted index list
„Index Builder“
„Index Builder“
Sortierung, 1. nach Term, dann nach DocID,…
Indexierungsmethoden
Automatische Indexierungsmethoden:
Single Term Indexierung
Statistische Methoden
Informationstheoretische Methoden
Probabilistische Methoden
Mutli-Term / Phrasen – Indexierung
Statistische Methoden
Probabilistische Methoden
Linguistische Methoden
Single Term Indexing (1)
Welche Wörter eines Dokumentes in den Index?
1. alle Worte herauslösen
2. unwichtige Worte herausfiltern („Stoppwörter“, Füllworte,…)
3. evtl. Rückführung auf Wortstamm
4. Häufigkeit im Dokument ermitteln
Single Term Indexing (2)
pro Dokument wird analysiert
Menge der auftretenden Wörter
deren Häufigkeiten
Ziel: hohes Recall
Vorgehensweisen, Wörter zu gewichten:
Statistisch
informations-theoretisch
probabilistische
Single Term Indexing(3)-statistisch
Statistische Methode
z.B. basiert rein auf Termhäufigkeit
w
ij= tf
ij* log(N / df
j)
tfij – Term Frequency, des Terms j im Dokument i
dfj – Document Frequency, Häufigkeit des Terms in allen Dokumenten
Single Term Indexing (4)-inf.th.
Informationstheoretische Methode
basiert auf Aussage:
„Term, dessen Vorkommen am
unwahrscheinlichsten ist, birgt meiste Information“
Methode bevorzugt in einzelnen Dokumenten konzentrierte Terme
Single Term Indexing(5)-probal.
Probabilistische Methode
basiert auf Relevanz-Wahrscheinlichkeit
erfordert „Training“ für Berechnungsgrundlage
Benutzer bewerten Relevanz von Suchresultaten
aus Trainingsergebnissen wird Termgewichtung basierend auf bedingter Wahrscheinlichkeit des Auftretens eines Terms berechnet
Multi-Term/Phrase Indexing (1)
„Phrasen“ verhindern Doppeldeutigkeit einzelner Wörter ohne Zusammenhang
Term trägt spezifischere Bedeutung
soll Precision erhöhen
Methoden zur Erzeugung von Phrasen für Index:
statistisch
probabilistisch
sprachtheoretisch
Multi Term Indexing (2) -statistisch
Statistische Methode
„Phrase“ besteht aus Kopf und Zusätzen
Hier muss der Kopf in weiteren Dokumenten auftreten
und weiteren Komponenten im gleichen Satz
wenn Kombinationen in vielen Dokumenten auftreten, werden diese gruppiert
(dies erzwingt keine semantische Beziehung zwischen den Worten), fehleranfällig
Multi Term Indexing (3) –lingust.
Linguistische Methode
Einsatz von sprachlicher Analyse für Term- Zusammenhängen
(Adjektive, Substantive, Verben)
verbessert statistischen Methoden, Reduktion falscher Wortzusammenhänge
Einbringen semantischer Faktoren in die Gruppierung
Multi Term Indexing (4) -probabil.
Probabilistische Methode
erzeugt komplexe Indexstrukturen, basierend auf Abhängigkeiten der Terme
man müsste exponentielle Anzahl von Term- Kombinationen betrachten
daher kaum Anwendung
Information Retrieval
Rückblick auf Indexerzeugung
Auffinden von Dokumenten im Netz
Analyse des Inhaltes
Metainformationen
Textinformationen (Inhalt) auswerten
Kurzbeschreibung erstellen (Terme)
Single- vs. Multi-term Indexing
jetzt: Retrieval
Suchmechanismen auf dem Index
Ein IR-Modell wird beschrieben durch:
Repräsentation für Dokumente & Abfragen
Strategien zur Bewertung der Relevanz von Dokumenten bzgl. der Abfrage eines Benutzer
Ranking-Methoden, gewichtete Ordnung der Resultate
Methoden zum Erhalt von nutzerrelevantem-Feedback
4 Verfahren:
Boolesche Verfahren
Statistische Verfahren
Vektorraum Verfahren
Probabilistisches Verfahren
Hybrid Verfahren
Information Retrieval Modelle
basiert auf Mengenlehre und boolescher Algebra
bekannteste Verfahren, oft von IR Systemen genutzt
Abfragen werden gebildet durch Terme, verbunden durch logische Operatoren
Term aus Query im Dokument enthalten?
Dokument ist Treffer, wenn boolesche Auswertung der Query wahr ist
Boolesches Modell (1)
Boolesches Modell (2)-Beispiel
DocID Term „A“ Term „B“ Term „C“ Term „D“
1 ٧ ٧
2 ٧ ٧
3 ٧ ٧
4 ٧
Anfrage Ergebnis
A AND (C OR D) Doc1, Doc3
B OR C Doc1, Doc2, Doc4
Boolesches Verfahren (3)
Vorteile:
leicht implementierbar
effizient in Anwendung (Computer & DB)
Nachteile:
nicht triviale Queries schwierig zu formulieren
„Ganz oder gar nicht“
keine Gewichtung keine Reihenfolge
Boolesches Verfahren,erweitert (3)
„Smart Boolean“
Anwender gibt sprachliche Frage ein, wird dann automatisch in ein boolesches Konstrukt
umgewandelt
Techniken, um Abfragen einzuschränken & zu erweitern
Boolesches Verfahren,erweitert (4)
Fuzzy-Mengen Modell
Ziel: Boolesche Strenge aufweichen & Ranking
Fuzzytheorie
auch Dokumente als Resultat, die wenn Query nur teilweise WAHR ist
Ergebnisstufen zwischen 0 und 1 Aufweichung des GoG
Stufe beschreibt, wie stark Term dem Query entspricht
Vektorraumverfahren (1)
Wurde in den 60ern in Havard im Laufe des
„Smart“-Projektes entwickelt und in den 80ern überarbeitet
Dokumente & Abfragen als Vektoren in einem mehrdimensionalen Vektorraum aufgefasst
Dimensionen sind die Terme des Dokumentenindexes
Vektoren enthalten Gewichte aller Terme
Terme in Query können gewichtet werden
Vektorraumverfahren (2)
Dokument 1
Query
Dokument 2
Term2 Dokument 3
Term3
Term1
Jedes Dokument wird anhand des Auftretens &
Gewichtung der Suchterme im Dokument, durch einen Vektor repräsentiert.
Nähe zum Query-Vektor bestimmt Suchresultat &
-Reihenfolge.
Vektorraumverfahren (3)
im „Smart“-Projekt wurden heuristische
Formeln zur Berechnung von Gewichten für die Indexierung entwickelt
verbesserte Suchergebnisse
Trefferberechnung: Vergleich von Dokumenten- & Query-Vektoren
Vergleich z.B. cosinus-basiert
Vektorraumverfahren (4)
Vorteile:
Relevanzabstufungen möglich (durch Termgewichtungen)
Sortierung nach Ähnlichkeitsgrad möglich Rang
Nachteile:
es wird vorausgesetzt, dass Therme wechselseitig unabhängig sind
Hybrid-Modell (extended boolean)
Verbindung des Booleschen Modells mit dem Vektormodell, für freie Gewichtung
Idee:
Nutzer kann boolesche Anfrage stellen
zusätzlicher Parameter steuert die Interpretation; wie strikt AND,OR ausgewertet werden
von 2 bis unendlich
2 keine Unterscheidung zwischen AND,OR
unendlich binäres „Ranking“ (Treffer, nicht Treffer)
beste Werte, empirische Untersuchungen: 2 <= p <= 5
Berechnung der Wahrscheinlichkeit, dass Dokument relevant ist
Training erforderlich
Berechnung stützt sich auf Parameter:
Wahrscheinlichkeit der Relevanz UND
Irrelevanz eines Dokumentes auf die Query
Kostenparameter. Verlust bei
Auffinden eines irrelevanten Dokumentes
Nichtauffinden eines relevanten Dokumentes
Probabilistisches Verfahren (1)
Probabilistisches Verfahren (2)
Vorteile:
Gefundene Dokumente werden nach
Wahrscheinlichkeit ihrer Relevanz sortiert
Nachteil:
ist so gut, wie die Wahrscheinlichkeitsberechnung eingepegelt ist (Training)
Häufigkeit eines Terms im Dokument ist irrelevant
IR-Modelle-Zusammenfassung
Boolesches Modell im Vergleich schlechte Ergebnisse, aber verbreitet.
Relevanz der Ergebnisse
alle relevanten Dokumente gefunden?
Ranking hilfreich?
Relevanz-Feedback vom Anwender gewünscht
Anwender bewertet Dokument des Suchergebnisses
2-Level: brauchbar – nicht brauchbar
Multi-Level: Zwischenstufen & im Bezug zu anderen Dokumenten (weniger relevant als…)
Relevanz-Feedback-Nutzung
1. Query anpassen
Gewichtungen der Query verändern (Termgewichte des Queryvektors)
Query Erweiterung (Hinzufügen von Termen)
Query Splitting
Relevanz-Feedback-Nutzung (2)
2. Index verändern
Index manipulieren (Gewichtungen im Index)
Relevanz-Feedback (4)
kein Suchdienst bietet heute Relevanz- Feedback Techniken!
Gefahren?
Zusammenfassung
Rückblick:
versch. Methoden zur Bestimmung der Relevanz von Query zu indexierten Dokumenten
damit verbunden, Ranking-Verfahren
Hilfe vom Benutzer wünschenswert
IR und das WWW
IR viele Einsatzfelder
Besonderheiten im Web:
riesige Datenmengen, dunkle Bereiche im Web (~500x sichtbares Web) , wachsend)
oft nicht-statische Seiten (generierte Seiten, DB)
Dynamik (verdoppelt sich alle 4-8 Monate)
tote Links
Sprachenvielfalt
Duplikate
hohe Verlinkung (~8Links/Seite) Indexierungsaufwand
Benutzerverhalten kennen (Geschwindigkeit, Ergebnisseiten)
Noch Fragen ?
Literaturangaben
Venkat N. Gudivada, Vijay V. Raghavan, William I. Grosky, Rajesh Kasanagottu.: Information Retrieval on the World Wide Web. IEEE Internet Computing. September-October 1997 (Vol. 1, No. 5). pp. 58-68
Mei Kobayashi, Koichi Takeda. Information Retrieval on the Web. ACM Computing Surveys, Vol. 32, No.
2, June 2000. pp 144-173.
IR und das Web, Interuniversitäres Seminar 2001, Martin Waldburger, PDF
„Building Fast Search Engines“, Hugh E. Williams, http://www.hughwilliams.com/t1.pdf
Datamining im WWW,Knowledge Discovery im Internet, Johann Zehentner, Ausarbeitung 2000