• Keine Ergebnisse gefunden

Information Retrieval

N/A
N/A
Protected

Academic year: 2023

Aktie "Information Retrieval"

Copied!
139
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Information Retrieval

Klaus U. Schulz

7. Oktober 2004

(2)
(3)

Inhaltsverzeichnis

1 Was ist Information Retrieval? 7

1.1 Typische IR-Suchszenarien . . . 7

1.2 Verwandte Arten der Informationssuche und benachbarte Informati- onssysteme . . . 10

1.3 Verwandte Disziplinen . . . 13

1.4 Teilaufgaben beim Design eines IR-Systems . . . 14

2 Klassische nicht-probabilistische Modelle des IR 15 2.1 Dokumentenrepr¨asentation durch Keyword-Vektoren . . . 15

2.2 Boolesches Retrieval . . . 17

2.3 Fuzzy Retrieval . . . 17

2.4 Das Vektorraum-Modell . . . 17

2.4.1 Grundprinzip des VR-Modells . . . 17

2.4.2 Formen der Termgewichtung . . . 17

2.4.3 Ahnlichkeitsmaße . . . .¨ 19

2.4.4 Ranking-Berechnung . . . 19

2.4.5 Pruning und vereinfachte Berechnung von Ranking-Werten mit thresholding. . . 19

2.4.6 Relevanz-Feedback und Anfrage-Modifikation . . . 22

2.4.7 Feature-Reduktion durch latent semantisches Indexieren . . . 22

2.5 Dokumenten-Clustering . . . 22

2.5.1 Verwendung von Clustern im Information Retrieval . . . 22

2.5.2 Einfache Verfahren zur Cluster-Berechnung . . . 23

3 Probabilistische Modelle des IR 25

3

(4)

4 Evaluierung von IR-Systemen 27

5 Anwendung von Methoden der Sprachverarbeitung im Information

Retrieval 29

5.1 Probleme einer naiven Indexierung . . . 29

5.2 Normalisierung einzelner Wortformen . . . 31

5.2.1 Stemming Algorithmen . . . 31

5.2.2 Regelbasierte Grundformreduktion . . . 33

5.2.3 Lexikonbasierte Grundformreduktion . . . 33

5.3 Komposita-Behandlung . . . 34

5.4 Behandlung von Mehrwortlexemen . . . 34

5.5 Phrasen-Parsing . . . 34

5.6 Thesauri . . . 36

5.7 Wortnetze . . . 37

6 Dokumentation, Meta-Information, Begriffssysteme, Wissensres- sourcen 39 6.1 Versuch eines Orientierungsrahmens . . . 40

6.1.1 Klassifikationshierarchien und Meta-Information . . . 40

6.1.2 Begriffshierarchien . . . 41

6.1.3 Konzepthierarchien und Ontologien . . . 42

6.2 Beispiele f¨ur Klassifikationsschemata . . . 43

6.2.1 Biologische Klassifikation . . . 44

6.2.2 Dezimal-Klassifikation . . . 45

6.2.3 ACM Computing Reviews . . . 46

6.2.4 Yahoo . . . 47

6.2.5 Open Directory Project . . . 48

6.3 Metadaten im Web . . . 48

6.3.1 Dublin-Core . . . 49

6.3.2 PICS . . . 50

6.3.3 RDF und Topic Maps . . . 51

6.4 Begriffshierarchien . . . 52

(5)

INHALTSVERZEICHNIS 5

6.5 Mehr zu Konzepthierarchien und Ontologien . . . 53

6.6 WordNet als Br¨ucke zwischen Ausdr¨ucken und Konzepten . . . 54

6.7 EFGT-Net als Br¨ucke zwischen Ausdr¨ucken und Konzepten . . . 55

7 Methoden der Dokumentenklassifikation 57 7.1 Einleitung . . . 57

7.2 Textvorbereitung und Textrepr¨asentation . . . 57

7.3 Rocchios Algorithmus . . . 57

7.4 Naives Bayessches Verfahren . . . 58

7.5 Ripper . . . 58

8 Structured document retrieval 63 8.1 Introduction . . . 63

8.1.1 Structured documents, XML, and semistructured data . . . . 63

8.1.2 Survey of the module . . . 64

8.2 Using document structure: what, how and why . . . 65

8.2.1 Aspects of document structure . . . 65

8.2.2 Reference to document structure in queries . . . 68

8.2.3 Three retrieval functionalities . . . 69

8.3 Markup languages and structure of XML documents . . . 73

8.3.1 XML, HTML and SGML . . . 73

8.3.2 General structure of XML documents . . . 74

8.4 The PAT system . . . 80

8.4.1 Document model . . . 80

8.4.2 The algebra of PAT operations . . . 81

8.4.3 Search algorithms on PAT trees . . . 83

8.5 Region algebra formalisms . . . 88

8.5.1 Document model . . . 88

8.5.2 Query languages . . . 90

8.5.3 Implementation aspects . . . 96

8.5.4 Bibliographic notes and additional references . . . 99

(6)

8.6 Tree matching with complete answer aggregates . . . 100

8.6.1 Document model . . . 105

8.6.2 Query language . . . 106

8.6.3 Complete answer aggregates . . . 107

8.6.4 Producing answer documents from aggregates . . . 109

8.6.5 Implementation aspects . . . 111

8.6.6 Bibliographic notes and further references . . . 114

8.7 Structured Document Retrieval and Ranking of Answers . . . 115

8.7.1 Ranking in the vectorspace model . . . 115

8.7.2 Two kernel problems . . . 118

8.7.3 The XIRQL model . . . 120

8.7.4 The s-term model . . . 126

8.7.5 Bibliographic notes . . . 130

9 Websuche 133 9.1 Unterschiede zwischen Web-Suche und konventioneller IR-Situation . 133 9.2 Prinzipielle Architektur einer Websuchmaschine . . . 133

9.3 Web-Crawling . . . 134

9.4 Speicherung . . . 135

9.5 Indexierung . . . 135

9.6 Ranking mittels Link-Analyse . . . 136

(7)

Kapitel 1

Was ist Information Retrieval?

[Grundlagen: Ferber Skript Teil 1: Einf¨uhrung]

Arbeitsdefinition: Information Retrieval im traditionellen Sinn untersucht die Frage, wie man einem menschlichen Benutzer mit einem ehervagen Informations- bed¨urfnis aus einer fest gegebenen Dokumentensammlungdie f¨ur ihn interessanten bzw.relevanten Dokumenteautomatisch ermitteln und ausgeben kann. Dokumente im traditionellen Sinn sind Textdokumente. Dokumente immodernen Sinnk¨onnen auch Bilder, Videos, Tonsequenzen u.¨a. sein, oder strukturierte Webseiten. Durch die Internetsuche, die zu einem zentralen Teilgebiet des IR geworden ist, ist das (oh- nehin idealisierte) Bild einer festen Dokumentenkollektion, teilweise zu revidieren.

Problem der Abgrenzung. Da es zahlreiche verwandte Szenarien der mensch- lichen Informationssuche gibt, und da ein Teil der bei der Informationssuche ein- gesetzten Techniken ¨ubergreifend verwendbar ist, gibt es eine Reihe eng verwand- ter Forschungsgebiete, die man bei einer weiteren Auslegung auch dem Bereich IR (mit)zuordnen kann. Eine genau Definition ist daher und aufgrund der sich ver¨andernden M¨oglichkeiten der Informationspr¨asentation und -Suche unm¨oglich.

Weitere Definitionsversuche sind in den Abbildungen 1.1 und 1.2 aufgef¨uhrt.

1.1 Typische IR-Suchszenarien

Der eigentliche Ausgangspunkt des klassischen IR war die bibliographische Suche bzw. die Suche in Literaturdatenbanken.

Beispiel 1.1.1 [Allgemeine bibliographische Suche]

Die gegebene Dokumentensammlung besteht aus der Sammlung aller Artikel, Texte und B¨ucher einer Bibliothek mit Dokumenten zu unterschiedlichen Bereichen. Der Benutzer sucht Informationen zu vagen Inhalten wie

1. Ern¨ahrungsweise von Insekten,

2. Ideen f¨ur die Gestaltung von Kindergeburtstagen, 3. Franz¨osische K¨uche,

7

(8)

"Im Information Retrieval (IR) werden Informationssysteme in Bezug auf ihre Rolle im Prozeß des Wissenstransfers vom menschlichen

Wissensproduzenten zum Informationsnachfragenden betrachtet. Die Fachgruppe Information Retrieval in der Gesellschaft für Informatik beschäftigt sich dabei schwerpunktmäßig mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen. Vage Anfragen sind dadurch gekennzeichnet, daß die Antwort a priori nicht eindeutig definiert ist. Hierzu zählen neben Fragen mit unscharfen Kriterien insbesondere auch solche, die nur im Dialog iterativ durch Reformulierung (in Abhängigkeit von den bisherigen Systemantworten beantwortet werden können; häufig müssen zudem mehrere Datenbasen zur Beantwortung einer einzelnen Anfrage durchgesucht werden. Die Darstellungsform des in einem IR-System gespeicherten Wissens ist im Prinzip nicht beschränkt (z.B. Texte, multimediale Dokumente, Fakten, Regeln, semantische Netze). Die

Unsicherheit (oder die Unvollständigkeit) dieses Wissens resultiert meist aus der begrenzten Repräsentation von dessen Semantik (z.B. bei Texten oder multimedialen Dokumenten); darüberhinaus werden auch solche

Anwendungen betrachtet, bei denen die gespeicherten Daten selbst unsicher oder unvollständig sind (wie z.B. bei vielen technisch-wissenschaftlichen Datensammlungen). Aus dieser Problematik ergibt sich die Notwendigkeit zur Bewertung der Qualität der Antworten eines Informationssystems, wobei in einem weiteren Sinn die Effektivität des Systems in Bezug auf die Unterstützung des Benutzers bei der Lösung eines Anwendungsproblems beurteilt werden sollte."

(Fachgruppe "Information Retrieval" der GI, 1991)

Was ist Information Retrieval?

Abbildung 1.1: Ein weiterer Definitionsversuch.

(9)

1.1. TYPISCHE IR-SUCHSZENARIEN 9

"Information Retrieval ist best understood if one remembers that the information being processed consists of documents. In that context, information retrieval deals with the representation, storage, and access to documents or representatives of documents. The input information is likely to include the natural language text of the documents or of document excerpts and abstracts. The output of an information retrieval system in response to a search request consists of sets of references. These references provide the system users with information about items of potential interest..."

(Aus G. Salton/M.J.McGill: Introduction to Modern Information Retrieval, McGraw-Hill Int. Editions, 1983)

Was ist Information Retrieval?

Abbildung 1.2: Ein weiterer Definitionsversuch.

4. Ursachen und Auswirkungen der Oktoberrevolution, 5. ...

Beispiel f¨ur konkretere Informationsw¨unsche sind 1. Mendelsche Vererbungsregeln,

2. Fl¨ache von Deutschland,

3. Definition eines mathematischen Begriffs wie ,,Aufl¨osbare Gruppe“, 4. ...

Ein Teil der IR-Forschung besch¨aftigt sich auch mit der Frage, inwiefern das In- formationbed¨urfnis eines Nutzers ¨uberhaupt eindeutig ist. Es wird manchmal zwi- schen unterschiedlichen Arten des Informationsbed¨urfnisses unterschieden (objek- tiv, wahrgenommen,..).

Beispiel 1.1.2 [Suche in Fachdatenbank]

Die gegebene Dokumentensammlung besteht aus einer Sammlung chemischer Facht- exte. Der Benutzer hat ein Verfahren zur Synthese eines Stoffes gefunden und m¨ochte wissen, ob ein ¨ahnliches Verfahren in der Literatur bereits beschreiben ist.

Heute haben IR Techniken u.a. große Bedeutung beim Zugriff auf Texte in Ar- chiven von Firmen und Organisationen.

Beispiel 1.1.3 [Suche in Datenbanken mit Texten einer speziellen Gattung]

(a) Die gegebene Dokumentensammlung besteht aus einer Sammlung von Patenten.

(10)

Es soll f¨ur eine Patentbeschreibung ¨uberpr¨uft werden, ob es ein gleichartiges Patent bereits gibt.

(b) Die gegebene Dokumentensammlung repr¨asentiert das Archiv einer Firma oder Organisation. Es sollen die Namen von Zwangsarbeitern w¨ahrend des 2. Weltkriegs gefunden werden.

Sehr wichtig f¨ur die aktuelle Entwicklung des Gebiets ist die Internetsuche und die Suche in elektronischen Bibliotheken.

Beispiel 1.1.4 [Internet-Suche]

Die Dokumentensammlung besteht aus einer Reihe von Internet-Seiten. Benutzer sind Internet-Nutzer, mit einer geeigneten Anfrage sollen relevante Seiten zu einem bestimmten Thema gefunden werden (Geigenbauer in Deutschland,...).

Weiter Szenarien sind die Suche in Multimedia-Datenbanken und die Anfrage an XML-Datenbanken.

Manchmal werden die Hauptanwendungsgebiete es Information Retrieval da- durch charkterisiert, daß man zwischen “erkl¨arenden (engl. expository)” und “nicht- erkl¨arenden” Textgenres unterscheidet. Zu den erkl¨arenden Texten in diesem Sinn geh¨oren z.B. akademische Schriften, offizielle Dokumente, Bibliographien, Repor- tagen, Gesetzestexte, Zeitungen, medizinische Berichte und andere. Zu den nich- terkl¨arenden geh¨oren H¨orspiele, Diskussionen, Briefe, Feuilleton, Science Fiction, Humor. Die meisten IR-Anwendungen liegen nat¨urlich im Bereich “erkl¨arender”

Texte.

1.2 Verwandte Arten der Informationssuche und benachbarte Informationssysteme

Die folgende Liste geht beschreibt andere Arten der Informationssuche, die nicht dem IR im engeren Sinn zuzuordnen sind. Allerdings ergeben sich fast ¨uberall mehr oder weniger enge Zusammenh¨ange, daher auch ausgew¨ahlte Bereiche, wo es zu einem Zusammenwachsen der Gebiete kommt.

Suche in strukturierten Datenbanken

Die Texte oder Eintr¨age der Datenbasis eines typischen IR-Systems folgen in der Regel keiner einheitlichen Struktur, im Gegensatz etwa zu den Eintr¨agen in einer re- lationalen Datenbank. Eine relationale Datenbank stellt vereinfacht eine Sammlung von Tabellen mit Eintr¨agen einer definierten Form dar. Relationale Datenbanken und verwandte Datenbanken k¨onnen mit speziellen Datenbankabfragesprachen (wie SQL) sehr zielgerichtet zur Ermittlung von Fakten und Beispielen abgefragt werden.

,,Welche Holzschrauben mit einem Durchmesser von 3,5 mm sind vorhanden, und was ist der St¨uckpreis?“

Der Benutzer muß die Art der in der Datenbank kodierten Information genau ken- nen. Unterschiede zu IR sind in Abbildung 1.3 dargestellt.

(11)

1.2. VERWANDTE ARTEN DER INFORMATIONSSUCHE UND BENACHBARTE INFORMATIONSSYSTEME

Datenbankabfrage versus IR

Frage und Ergebnis

Gespeichert Relationen, Fakten Textdokumente

in expliziter Form (Tabellen) implizite Information Oft numerische Information Kaum num. Information Genaue Anfrage

Direkte Antwort (Werte/Einträge/Teile von Tabellen)

u.U. vage Anfrage Wahrscheinlich relevante Dokumente

Indirekte Antwort

Kriterium für erfolgreiche Recherche

Korrektheit/Vollständigkeit Nützlichkeit/Vollständigkeit/

Sauberkeit

(objektiv) (subjektiv)

Zeitaufwand für erfolgreiche Recherche

Im wesentlichen nur von Suchgeschwindigkeit des Systems für geg. Query abhängig

Erfahrung des Rechercheurs, Zahl der logischen Entscheidungen bei Auswertung spielt mit.

Math. Hintergrund Relationale Algebra Statistik

Abbildung 1.3: Unterschiede zwischen Datenbankabfrage und IR.

Ein Zusammenwachsen von IR und Datenbankabfrage ergibt sich im Bereich der Abfrage von XML-Dokumenten, die in Kapitel??diskutiert wird.

Hypertext-Informationssysteme

Zeichnen sich dadurch aus, daß sich von einer dem Benutzer bekannten Startseite alle relevanten Informationen dadurch ergeben, daß man markierten Links im Text folgt.

Beispiel 1.2.1 [Informationen zu deutschen St¨adten]

Im WWW findet man unter Adressen wie ,,http://www.muenchen.de/“ Informa- tionen zu St¨adten. ¨Uberlicherweise sind von der Startseite Seiten zu spezielleren Themen wie

• St¨adtische Einrichtungen

• Kunst und Kultur

• Wirtschaft

etc. durch Anklicken entsprechend benannter Links zu erreichen.

Die Aufgliederung muß einem klar erkennbaren System folgen, damit eine m¨oglichst schnelle Navigation unterst¨utzt wird. Andererseits gibt es immer zahlreiche ortho- gonale Querbeziehungen, die durch Links zwischen unterschiedlichen Bereichen rea- lisiert sind. Einerseits sind Querverbindungen n¨utzlich. Andererseits k¨onnen zu viele Links dazu f¨uhren, daß sich der Benutzer ,,verirrt“.

Expertensysteme

Bereits in den sechziger Jahren wurde der Versuch unternommen, das Wissen menschlicher Experten eines bestimmten Gebiets mit Hilfe geeigneter Wissensre- pr¨asentationsformalismen und logischer Formalismen in abfragbarer Form auf dem

(12)

IR versus DB versus Expert Systems

IR

DB

ES

Antwort: Dokumente und Referenzpunkte Speichert natsprl. Textdokumente

Bearbeitet approximative Anfragen Antwort: mit spezifischen Fakten Speichert Wissen über Domäne Bearbeitet nat.sprl. Fragen

Antwort: (num.) Daten, Teile von Tabellen Speichert Fakten in Tabellenform Bearbeitet exakte Matchanfragen

(Aus G. Salton/M.J.McGill: Introduction to Modern Information Retrieval, McGraw-Hill Int. Editions, 1983)

Abbildung 1.4: Unterschiede zwischen Datenbankabfrage und IR.

Computer zu hinterlegen. Ziel ist es jeweils, aus der damit vorhandenen ,,Wissensba- sis“ in bestimmten Situationen neue Informationen abzuleiten, die als Handlungsan- leitung nutzbar sind. Unterschiede zu IR und DB sind in Abbildung 1.4 dargestellt.

Typisch ist, daß die erw¨unschte Information i.a. nicht explizit vorhanden ist, son- dern durch Deduktionsmechanismen abgeleitet wird.

Beispiel 1.2.2 bei einem komplexen technischen System (Motor, Kraftwerk,...) tritt ein Fehler auf. Aus einer Liste von Symptomen sollen R¨uckschl¨usse auf m¨ogli- che Ursachen gezogen werden, Reparaturanleitungen ausgegeben werden etc.

Beispiel 1.2.3 Fahrplanauskunft.

Managementinformationssysteme bzw. Entscheidungsunterst¨utzungssy- steme

Eng verwandt zu Expertensystemen. Unterst¨utzen das Management großer Firmen und Organisationen. Aufgrund gegebener Daten werden Prognosen ¨uber zuk¨unftige Entwicklungen angeboten, die Auswirkungen (Kosten) unterschiedlicher Entschei- dungen berechnet und vergleichend dargestellt etc.

(13)

1.3. VERWANDTE DISZIPLINEN 13

1.3 Verwandte Disziplinen

Informationsfilterung

Typisches Problem: Aus einer Menge eingehender Nachrichten sollen all diejenigen herausgefiltert werden, die sich um ein fest vorgegebenes Thema (Kriminalit¨at, Akti- enkurse, etc.) drehen. Dokumentenbasis nicht fix. U.U. große Zahl von Nachrichten, schnelle Bearbeitung n¨otig.

Klassifikation von Texten und Dokumenten

Hierbei ist typischerweise eine Menge (i.a.) disjunkter Kategorien fest vorgegeben (z.B. Sport, Politik, Kultur, Wissenschaft). Die Texte einer Dokumentensamm- lung sollen jeweils einer dieser Rubriken zugeordnet werden. Als Variante ist auch die Mehrfachklassifikation m¨oglich. Verfahren zur Textklassifikation werden meist zun¨achst auf einer Trainingsmenge trainiert. F¨ur die Dokumente der Trainingsmen- ge ist die korrekte Kategorie bekannt (,,supervised learning“). Enge Verbindung zum Gebiet des ,,machine learning“.

Clustering von Texten und Dokumenten

Textklassifikation und Textclustering werden manchmal synonym verwendet, ob- wohl eigentlich eine klare Trennung m¨oglich ist. Beim Textclustering versucht man eine gegebene Kollektion von Texten bzw. Dokumenten in Cluster ¨ahnlicher Doku- mente einzuteilen. Die Zahl der Cluster ist hierbei ebensowenig vorgegeben wie die inhaltliche Charakterisierung. Ziel ist es gerade, interessante inhaltliche Kategorien zu ermitteln, die zu einer Gruppierung der Dokumenten verwendet werden k¨onnen.

Es ergibt sich eine enge Verbindung zum nachfolgenden allgemeineren Bereich.

Data Mining und Knowledge Disvovery in Datenbanken

Ziel: Entwicklung automatischer (seltener interaktiver) Verfahren, mit denen Re- gelm¨aßigkeiten in Mengen von Datens¨atzen gefunden und in eine f¨ur Nutzende verst¨andliche Form gebracht werden.

Herausfinden relevanter Attribute. Anwendungsgebiet alle Arten von Datenban- ken (z.B. geographische DB, Firmendatenbanken,...).

Clusteringverfahren sind Beispiel. Enge Verbindung zum maschinellen Lernen.

Beispiel 1.3.1 Aus Verkaufsdaten und Umsatzzahlen sollen Regelm¨aßigkeiten beim Kundenverhalten festgestellt werden.

Beispiel 1.3.2 Aus Kundendaten einer Kreditgesellschaft sollen bessere Kriterien f¨ur die Aufnahme neuer Kunden entwickelt werden.

(14)

Aufgaben/Probleme eines IR Systems

formalisierte Abfrage

Benutzer Frage formales

Ergebnis

rohe Dokumenten- sammlung

Aufbereitete Dokumenten- sammlung Indexierung

z.B. Index

Abgleich Automatische

Indexierung Termklassifikation Dokumentenklassifikation

Schnelle Zugriffstechniken Datenorganisation

Konzeptuelle Modelle für Relevanz/Ähnlichkeit

Abfragesprachen

Ergebnis-Evaluierung Aufbereitung/Ranking

Vereinfachte Inhaltsrepräsentation typisch:

Inhalts repräsentation Geeignete Formen der

Inhaltsrepräsentation

Abbildung 1.5: Unterschiede zwischen Datenbankabfrage und IR.

1.4 Teilaufgaben beim Design eines IR-Systems

Aus der Grobarchitektur eines typischen IR-Systems ergeben sich eine Reihe von Problemen, die man bei der Entwicklung von IR-Systemen zu l¨osen hat. Diese f¨uhren zu verschiedenen Forschungsgebieten innerhalb des IR. Siehe hierzu Abbildung 1.5.

(15)

Kapitel 2

Klassische

nicht-probabilistische Modelle des IR

2.1 Dokumentenrepr¨ asentation durch Keyword- Vektoren

Wir gehen bei den nachfolgend betrachteten Modellen davon aus, daß Dokumente formal repr¨asentiert sind durch einen Vektor, der angibt, welcheKeywords–ggfs. mit welchen Vorkommensh¨aufigkeiten oder Gewichten - im Dokument enthalten sind.

Die Vektoren k¨onnen damit Boolesch oder reellwertig sein. Die Frage der genauen Form und Bestimmung der Vektoren machen einen Teil der Unterschiede zwischen verschiedenen Modellen aus.

Als “Keywords” behandelt werden alle inhaltstragenden W¨orter der Dokumen- tensammlung, auch Terme oder Indexterme genannt. Die Gesamtzahl der Index- terme gibt also die L¨ange der Dokumenten-Vektoren bzw. die Dimensionalit¨at des zugrundeliegenden Vektorraums an.

—– Bild einf¨ugen —–

Bei der konkreten Auswahl und Festlegung der Keywords unterscheidet man unabh¨angig vom verwendeten Modell zwei Grundverfahren.

Beimassigned Indexingwerden m¨ogliche Indexterme von vorneherein festgelegt, unter Verwendung eines Thesaurus oder einer Ontologie. In den Dokumenten werden dann Terme ggfs. durch Vorzugsbenennungen ersetzt. Assigned Indexing wird in der Regel nur bei manueller Indexierung eingesetzt.

Beim derived Indexingwerden die Indexterme automatisch aus der Dokumen- tensammlung extrahiert. Vorher werden oft linguistische Hilfstechniken eingesetzt (vgl. Kapitel ¨uber Textrepr¨asentation). Inhaltslose “Stoppw¨orter” werden meist eli- miniert.

Die gesamte Dokumentenkollektion (di)1≤i≤N, dieN Dokumente enthalten soll, 15

(16)

kann formal durch eineTerm-Dokumenten-MatrixMbeschreiben werden. Der Ein- tragMi,j gibt dann das Gewicht desj-ten Termstj imi-ten Dokumentdi an. Die i-te Zeile Mi, stellt den Keyword-Vektor von Dokument di dar, der angibt, mit welchen Gewicht der Termtj (j ≥1) indi auftritt. Die j-te Spalte M,j gibt das Gewicht des Termstj in den Dokumenten di (1≤i≤N) an.

Die Term-Dokumenten-MatrixMist konzeptuell n¨utzlich, um die nachfolgenden Zusammenh¨ange zu beschreiben. F¨ur kleine Dokumentenkollektionen kann man sie als ein Array abspeichern, und hat damit die gesamte Dokumentenkollektion formal repr¨asentiert. F¨ur gr¨oßere Dokumentenkollektionen mit hunderttausenden oder gar Millionen von Dokumenten ist dies nicht realistisch. Die Zahl der Indexterme kann auch in die Hunderttausende gehen, damit ben¨otigt die Matrix zuviel Speicherplatz.

Die Matrixdarstellung ist auch sehr redundant: da die meisten Keywords nur in wenigen Dokumenten auftreten, ¨uberwiegen Eintr¨age mit dem Gewicht Null.

Als Alternative werden sogenannteinvertierte Listen, auchinvertierte Filesge- nannt, verwendet. Diese geben f¨ur jedes Keywordtj eine Liste aller Dokumente an, in denen tj echt auftritt (Posting-Liste). Das Gewicht des Auftretens wird mitge- speichert.

—- Bild einf¨ugen —-

Es sollte klar sein, daß die invertierte Liste genau dieselbe Information wie die Term-Dokument-Matrix enth¨alt. Die genaue Form und Verwendung der invertierten Liste h¨angt vom betrachteten Modell, weitergehend auch von der Art der Imple- mentierung ab. Hierzu folgen sp¨ater weitere Hinweise.

Zipfsches Gesetz. Zur Auswahl geeigneter Keywords verwendbar. Beschreibung hinzuf¨ugen.

Nachfolgend verwendete Notation und Begriffe:

N Gesamtzahl der Dokumente der Dokumentenkollektion T Gesamtzahl der verwendeten Indexterme

di i-tes Dokument der Dokumentenkollektion tj j-ter Indexterm

tfj,i Zahl der Vorkommen (term frequency) des Indextermtj in di

cfj collection frequency desj-ten Indexterms

= Gesamtzahl aller Vorkommen vontj in der Dokumentensammlung dfj document frequency desj-ten Indexterms

= Zahl der Dokumente, in denentj auftritt

Wenn wir einen Indexterm t und ein Dokument d betrachten, ohne uns auf die Nummerniundj festzulegen, schreiben wir analogtft,d,cft,dft.

(17)

2.2. BOOLESCHES RETRIEVAL 17

2.2 Boolesches Retrieval 2.3 Fuzzy Retrieval

2.4 Das Vektorraum-Modell

2.4.1 Grundprinzip des VR-Modells

Idee des (nicht greifbaren) konzeptuellen Vektorraums.

Ann¨aherung durch Termbasis.

Orthonormalit¨atsannahmen.

Darstellung von Dokumenten und Queries als Vektoren.

Verwendung von ¨Ahnlichkeitsmassen zum Ranking Vorteile und Nachteile

Andere Vektorr¨aume.

2.4.2 Formen der Termgewichtung

Methoden der uniformen Wortgewichtung innerhalb der Dokumenten- kollektion

Wortgewichtung durch Ermittlung der Poisson¨ubersch¨atzung. Die Poisson-Verteilungdient dazu, die zu erwartende Zahl von Vorkommen von Ereig- nissen in Einheiten (oder Folgen von Experimenten) fester Gr¨oße abzusch¨atzen. Bei- spiele f¨ur typische Anwendungen sind: Wieviele Telefonanrufe gehen in der Zentrale X innerhalb einer Minute ein (innerhalb einer l¨angeren Zeitphase mit konstanter Anrufaktivit¨at)? Wieviele Male tritt beim Roulette in einer Serie von 30 Ziehungen eine Zahl unterhalb 5 auf? Voraussetzung der Anwendbarkeit der Poisson-Verteilung ist, das die Wahrscheinlichkeit des Eintreffens eines Ereignisses (Anruf, Zahl unter 5) unabh¨angig von den vorausgegangenen bzw. nachfolgenden Ereignissen ist.

Aus der Zahl cf(w) von Vorkommen des Wortes (cf=collection frequency) in der Dokumentensammlung und der Zahl N aller Dokumente kann man mittels der Poisson-Verteilung absch¨atzen (s.u.), in wievielen Dokumenten w voraussichtlich vorkommt.SeidfP(w) (df=document frequency) dieser Wert. Seidf(w) die tats¨achli- che Zahl von Dokumenten, in denenwauftritt. Dann heißt der Wert

dfP(w) df(w) die Poisson- ¨Ubersch¨atzungvon w.

Die Poisson- ¨Ubersch¨atzung vonwwird in der Regel dann etwa 1 betragen, wenn die Verteilung vonwden Poisson-Annahmen gut entspricht. Dies gilt am ehesten f¨ur Funktionsw¨orter wie “und”, “so”. Je mehr ein Wort einen spezifischen Inhalt tr¨agt,

(18)

Wort Poisson-¨ubersch¨atzung

note 0,9632

previously 0,9773

result 0,9783

says 0,9788

fullerton 9,9501

pentland 9,9501

Tabelle 2.1: Poisson- ¨Ubersch¨atzung von Worten in einem kleinen Experiment.

desto unplausibler ist die Poisson-Annahme: die Vorkommen des Wortes werden sich sehr stark auf diejenigen Dokumente konzentrieren, deren Thematik eng mit dem Inhalt von w verbunden ist. Daher erkannt man an einer großen Poisson- Ubersch¨atzung, welche W¨orter stark themenspezifisch sind. Diese stellen nat¨¨ urlich die besten Indexterme dar.

Absch¨atzung vondfP(w) mittels der Poisson-Verteilung: Es istλ(w) :=cf(w)/N die durchschnittliche Zahl von Vorkommen von w. Die Wahrscheinlichkeit, daßw in einem Dokument genaukmal auftritt, ist durch die Poisson-Verteilung

Pw(k) =e−λ(w)λ(w)k k!

gegeben. Es stelltλ(w) gerade den Erwartungswert (und die Varianz) der Verteilung Pwdar. Die Wahrscheinlichkeit, daß in einem zuf¨allig gew¨ahlten Dokument das Wort wgar nicht auftritt, ist demnachPw(0). Die Wahrscheinlichkeit, daßwauftritt, ist damit 1−Pw(0). Damit ist dfP(w) =N(1−Pw(0)).

Bei einem Versuch mit tausend Dokumenten aus dem Reuters-Korpus (siehe Online-Kurs) wurden die in Tabelle 2.1 dargestellten Werte erzielt: Es wird deutlich, dass “note” weniger inhaltreich ist als die bezeichnung “fullerton”.

In anderen Experimenten wird speziell die Verteilung inhaltstragender W¨orter (content words) durch ein 2-Poisson-Modell beschrieben. Dabei geht man davon aus, daß sich f¨ur ein gegebenes content wordwdie Gesamtmenge der Dokumente in zwei Klassen zerlegen l¨aßt, diejenigen Dokumente die inhaltlich etwas bzw. nichts mit w zu tun haben. Entsprechend ergeben sich zwei Parameter λ1 und λ2 f¨ur die in den beiden Dokumentenklassen zu erwartenden Vorkommensh¨aufigkeiten.

Ein neuer Parameter p gibt die Wahrsceinlichkeit an, daß ein zuf¨allig gew¨ahltes Dokument in der ersten Dokumentenklasse bzgl.wist. Bei diesem Modell zeichnen sich Funktionsw¨orter dadurch aus, daß die abgesch¨atzten Werteλ1undλ2deutlich verschieden sind, die Absch¨atzung der Vorkommensh¨aufigkeit von w mit dem 2- Poisson-Modell abernahe zu den tats¨achlich beobachteten H¨aufigkeiten ist.

Wortgewichtung durch Ermittlung von Discrimination-Values.

Dokumentenabh¨angige Wortgewichtung Hier tf-idf Gewichtung beschreiben.

(19)

2.4. DAS VEKTORRAUM-MODELL 19

2.4.3 Ahnlichkeitsmaße ¨ 2.4.4 Ranking-Berechnung

Bei der effizienten Berechnung der Ranking-Werte macht man sich die Beobach- tung zunutze, daß sich f¨ur viele ¨Ahnlichkeitsmaße die Gesamt¨ahnlichkeit zwischen einem Dokument dund Anfrageq mit kTerment1, . . . , tk additiv als Summe von k Summanden darstellen l¨aßt. Deri-te Summand gibt den Beitrag desi-ten Terms ti zur ¨Ahnlichkeit vonqmitdan. Die einzelnen Summanden h¨angen nicht von der Anfrage ab, sondern nur von den Eigenschaften des betreffenden Terms. Dies sieht man z.B. leicht beim Cosinus-Maß

cosq,d=X

t

wq,t·wd,t

qP

tw2q,t·q P

twd,t2

Verwendet man ein ¨Ahnlichkeitsmaß, das in diesem Sinn additiv ist, so kann man in den invertierten Listen im Posting-File des Terms t beim Dokument d gerade den Gewichtsbeitrag von t zur ¨Ahnlichkeit abspeichern. (Beim Cosinus kann man den Beitrag der Query-L¨ange zum Nenner ignorieren, da sie die Rankingwerte nur linear ver¨andert.)

Zur effizienten Berechnung der ¨Ahnlichkeitswerte kann man damit wie folgt vor- gehen. Man f¨uhrt einen Akkumulator (eine Liste) Akk der L¨ange N, wo Akk[i]

(1 ≤i≤N) einen partiell berechneten Relevanzwert f¨ur Dokumentdi angibt. Zu Beginn initialisiert man alle Werte mit Null. Es werden nun die Termetder Anfrage qder Reihe nach behandelt. F¨ur den Termtaddiert man die in den Posting-Listen gefundenen ¨Ahnlichkeitsbeitr¨age zu den einzelnen Dokumenten zu den betreffenden Akkumulatorpositionen hinzu. Nachdem alle Terme t der Anfrage behandelt sind, stellen die Akkumulatorwerte die ¨Ahnlichkeitswerte dar. Werte ungleich 0 werden sortiert und mit den zugeh¨origen Dokumentenummern ausgegeben.

2.4.5 Pruning und vereinfachte Berechnung von Ranking- Werten mit thresholding.

Bei großen Dokumentenkollektionen hat man mit dem Problem zu k¨ampfen, daß es sehr viele Dokumente gibt, in denen zumindest ein Term aus der Anfrage auf- tritt. Dadurch wird die Liste der zu erfassenden Akkumulatorwerte6= 0 sehr groß.

Dies f¨uhrt zu einem großen Speicherbedarf, auch die Berechnungszeit steigt an. Als Ergebnis erh¨alt man oft eine sehr lange Ranking-Liste, wo sehr viele Dokumente jedoch praktisch irrelevant sind, da sie einen geringen ¨Ahnlichkeitswert haben.

Wenn man nur an der Berechnung derk-besten Ergebnisse interessiert ist, kann man das Verfahren vereinfachen. Buckley und Lewitt 85 gehen wie folgt vor. Die Terme der Anfrage werden nach fallendem Gewichtwq,tsortiert. Man geht ¨ahnlich wie beim einfachen Verfahren vor, beginnend mit dem Term mit dem h¨ochsten Gewicht. ¨Uber diek+ 1 besten aktuellen partiellen ¨Ahnlichkeits-Werte wird Buch gef¨uhrt. Sobald es aufgrund des geringen Gewichtswq,tnicht mehr m¨oglich ist, daß Akk[k+ 1] den WertAkk[k] noch einmal ¨ubersteigt (Details des Tests h¨angen von den verwendeten Gewichten und ¨Ahnlichkeitsmaßen ab), bricht das Verfahren ab und gibt die k besten Dokumente aus. Das Ranking k¨onnte etwas verf¨alscht sein, da nicht notwendig alles Keywords behandelt sind.

(20)

In Frakes und Baeza-Yates ist eine andere Pruning-Methode aus Harman und Candela 1990 dargestellt:

1. Sortierte die Query-Terme nach absteigendem idf-Wert.

2. Hole die invertierte Liste fuer den ersten Termt. F¨uge die dort aufgelisteten Termgewichte f¨ur die Dokumente zu den betreffenden Akkummulatoren hinzu.

3. Pr¨ufe die idf-Wert des n¨achsten Query-Terms. Ist der idf-Wert ≥ zu einem Drittel des maximalen idf-Werts irgendeines Indexterms, dann wiederhole die Schritte 2-3. Andernfalls wiederhole 2,3, aber f¨uge neue Anteile nur zu Akku- mulatorfeldern hinzu, die bereits einen positiven Wert haben.

4. Sortiere am Ende die Akkumulatorfelder mit positivem Gewicht. (Alle Do- kumente, die nur Terme mit kleinem idf-Wert haben, erhalten automatisch Gewicht Null.)

5. Falls die Anfrage nur hoch-frequente Terme mit geringem idf-Wert besitzt, klappt diese Art des Pruning nicht gut.

Die Laufzeitverbesserungen, die sich durch diese Variante ergeben, liegen bei großen Dokumentenkollektionen bei einem Faktor von 2-3. Hierzu vgl. Tabelle S. 387 aus Frakes und Baeza-Yates.

In einer sp¨ateren Arbeit zeigen Persin, Zobel, und Sacks-Davis 1995 wie man im Verlauf der Gewichtsberechnung vermeiden kann, die Posting-Files der Termet vollst¨andig zu inspizieren, und wie man die L¨ange der betrachteten Akkumulatorli- ste reduzieren kann. Sie verwenden die Variante

Cq,d=X

t∈d

wq,t·wd,t

qP

tw2d,t

des Cosinus-Maßes, die zu unver¨anderten Rankingreihenfolgen f¨uhrt. Im Nenner ist die L¨ange der Anfrageqweggelassen. Als Gewicht des Termstin einer Anfrage oder einem Dokumentxwird

wx,t:=tfx,t·log2

N dft

angegeben1. Es ist wt = log2N

dft die inverse Dokumentenh¨aufigkeit von t. Mit simq,d,t:=wq,t·wd,t undWd :=q

P

tw2d,t erh¨alt man die additive Darstellung Cq,d=X

t∈d

simq,d,t

Wd

.

Persin, Zobel, und Sacks-Davis verwenden eine Kandidatenliste, die der Akku- mulatorliste entspricht, im allgemeinen aber nur wenige Dokumente (Kandidaten) ber¨ucksichtigt. Sie ist damit i.a. wesentlich k¨urzer. Wie bei den oben besprochenen Verfahren werden die Query-Terme nach Gewicht sortiert. Bevor ein Termtbehan- delt wird, werden zwei Grenzwertesaddundsins berechnet. F¨ur die Werte gilt stets sadd ≤sins. Wird die Posting-Liste f¨ur t prozessiert, vergleichen wir die partielle Ahnlichkeit¨ simq,d,tmit den Grenzwerten. Ist sins ≤simq,d,t, so wirdd auf jeden Fall in die Kandidatenliste mitaufgenommen (es kann schon darin sein). Die Akku- mulatorzelle f¨urdwird entsprechend (bei Bedarf neu eingerichtet und) erh¨oht. Gilt

1Bei der ersten Angabe auf S. 3 in der Arbeit ist der Werttfx,tlogarithmiert, dies widerspricht allerdings sp¨ateren Umrechnungen.

(21)

2.4. DAS VEKTORRAUM-MODELL 21 sadd ≤simq,d,t< sins, so wird nur dann der Wert addiert, wenn der Akkumulator f¨urdbereits existiert. Andernfalls passiert nichts, ebenso wennsimq,d,t< sadd.

Die Grenzwerte werden in der Form

sins = cins·Smax

sadd = cadd·Smax

definiert, wobei 0 ≤cadd ≤cins Parameter (Konstante) sind, die die Sch¨arfe des Prunings regeln.Smaxist die maximale partielle ¨Ahnlichkeit zwischen einem Doku- ment und der Anfrage nach der Behandlung eines Teils der Anfrageterme, die im Algorithmus mitgef¨uhrt wird (s.u.). Hat die Posting-Liste f¨urtim invertierten File Eintr¨age der Formhd, fd,ti, k¨onnen wir die Grenzwertbedingung auch direkt mit den H¨aufigkeitswertenfd,tausdr¨ucken. Eine kleine Rechnung zeigt, daß die Grenzwerte f¨urfd,t durch

fins = cins·Smax

tfq,t·w2t fadd = cadd·Smax

tfq,t·wt2

gegeben sind. Der Filter-Algorithmus hat denn die folgende Form:

1. Bilde eine leere Akkumulatorliste.

2. Sortiere die Anfrage-Terme nach absteigendem Gewichtwq,t. 3. SetzeSmax:== 0.

4. F¨ur jeden Termt der Anfrage:

(a) Berechne die Grenzwertefins undfadd. (b) Hole das Postings-File f¨ur tvon der Festplatte

(c) F¨ur jeden Eintraghd, tfd,ti:

i. Falls tfd,t ≥ fins, bilde falls notwendig einen Akkumulatoreintrag Akkd f¨urd, setzeAkkd:=Akkd+simq,d,t.

ii. Andernfalls, fallsfd,t≥faddundAdexistiert, setzeAkkd:=Akkd+ simq,d,t.

iii. SetzeSmaxals Maximum vonSmaxund dem neuen WertAkkdfest.

5. Teile jeden Akkumulatorwert durchWd.

6. Identifiziere diekh¨ochsten Werte und gebe die korrespondierenden Dokumen- te aus.

Um den Zugriff auf Posting-Files zu minimieren, sind diese nicht nach Dokumenten- Nummern, sondern nach abfallendem Wert tfd,t gegliedert. Man braucht dann in der Regel nur kurze Anfangsst¨ucke der Listen. Damit wird insgesamt der Transport von der Festplatte zum Arbeitsspeicher minimiert, neben dem Bedarf an Arbeits- speicher.

(22)

2.4.6 Relevanz-Feedback und Anfrage-Modifikation

2.4.7 Feature-Reduktion durch latent semantisches Indexie- ren

Kurzzusammenfassung: Siehe Ferber oder Online-Skript.

Lange Version: Goller-Ausarbeitung.

2.5 Dokumenten-Clustering

Im Prinzip f¨ur jedes IR-Modell m¨oglich, wo man Dokumente oder ihre Repr¨asenta- tionen mittels eines geeigneten ¨Ahnlichkeitsmaßes vergleichen kann. In diesem Sinn eher neue Form der Benutzerinteraktion bei gegebenem Modell als ein eigenst¨andi- ges Modell.

Grundthese: Es gibt charakteristische Gruppen ¨ahnlicher Dokumente (“Clu- ster”). Die Vorberechnung von

• Ahnlichkeitswerten der Dokumente untereinander¨

• der Cluster ¨ahnlicher Dokumente

kann im IR in unterschiedlicher Weise ausgenutzt werden.

Man unterscheidet hierarchische versus nichthierarchische Clusterbildung. Bei der nichthierarchischen Clusterbildung enthalten die Cluster keine Teilcluster. Im Regelfall stellen die Cluster damit eine Partitionierung (disjunkte Zerlegung) des Dokumentenraums dar. Bei der hierarchischen Clusterbildung sind Cluster und Teilcluster weiterunterteilt. Typischerweise hat jeder komplexe Cluster zwei unmit- telbare Teilcluster. Diese Muster ist allerdings durch die unten zu besprechenden Algorithmen bedingt.

2.5.1 Verwendung von Clustern im Information Retrieval

Cluster-Retrieval

F¨ur jeden Cluster wird ein Centroid (Vektor eines “virtuellen” Dokuments, das den Schwerpunkt des Clusters darstellt) als Repr¨asentant berechnet. Beim Retrival wer- den zun¨achst die Retrievalgewichte der Zentroiden der maximalen Cluster relativ zur Anfrage bestimmt. Die Centroiden der Teilcluster (bei hierarchischern Cluster- bildung) bzw. die Dokumente in den am besten gerankten Hauptclustern werden anschließend gerankt. Bei hierarchischen Clustern wird dies wiederholt.

Ahnlichkeitssuche¨

Ist bei gegebener Anfrage bereits ein relevantes Dokument bekannt, so kann man vorberechnete ¨Ahnlichkeiten und/oder Cluster ausnutzen, um dem Benutzer ¨ahnli-

(23)

2.5. DOKUMENTEN-CLUSTERING 23 che Dokumente anzuzeigen. Dies stellt eine sinnvolle Erg¨anzung zu anderen Retrie- valarten bzw. Interaktionsmuster dar. Allerdings k¨onnen gerade beim Vektorraum- modell ¨Ahnlichkeiten auch direkt berechnet werden.

Cluster-Browsing

Ist die Dokumentenmenge hierarchisch in Cluster aufgeteilt, und k¨onnen die Cen- troiden dem Benutzer in einer Form angezeigt werden, die einen guten R¨uckschluss auf die Dokumente im Cluster erlaubt, so kann man auch ohne eine konkrete Anfra- ge in den Clustern Browsen. Man folgt dann den Darstellungen der Centroiden, bis man in einschl¨agigen Clustern landet. Dort erfolgt eine Inspektion der Dokumente.

Das Suchvorgehen entspricht genau der Suche in Web-Directories (s. Hinten) wie Yahoo oder OpenDirectoryProject. Allerdings werden dort statt der Centroiden aussagekr¨aftige Kategorienbezeichner f¨ur die Directories verwendet, die eine kon- zeptuell sinnvolle thematische Hierarchie ergeben. Die Dokumente von Hand oder teilautomatisiert dann den Directories hinzugef¨ugt.

Scatter-Gather-Browsing

Erfolgt durch Wiederholung von zwei Phasen, bis gew¨unschtes Suchergebnis vor- liegt.

• Scatter. Die aktuelle Dokumentenmenge wird in eine vorgegebene Anzahl dis- junkter Cluster unterteilt. Die Centroiden werden dem Benutzer in geeineter Weise angezeigt.

• Gather. Der Benutzer w¨ahlt diejenigen Cluster (nzw. Centroiden) aus, die ihm interessant erscheinen. Die Dokumente in den Clustern werden zusammenge- worfen, die entstehende Dokumentenmenge dient als Eingabe des n¨achsten Scatter-Schritts.

Man kann das Scatter-Gather Browsen als eine Art dynamische Variante des Cluster-Browsings auffassen, da die untergeordneten Cluster nicht vorberechnet sind. Das Problem beim Scatter-Gather-Browsing liegt darin, die entstehenden Clu- ster bzw. ihre Centroiden auf eine Weise dem Benutzer anzuzeigen, daß ein hinrei- chend genaues Bild der im Cluster enthaltenen Dokumentenmenge entsteht.

2.5.2 Einfache Verfahren zur Cluster-Berechnung

Berechnung nicht-hierarchischer Cluster

Grundverfahren.

Single Pass Methods.

Berechnung hierarchischer Cluster Anh¨aufende versus verteilende Clusterbildung

(24)

Single Linkage Clustering.

Complete Linkage Clustering.

(25)

Kapitel 3

Probabilistische Modelle des IR

25

(26)
(27)

Kapitel 4

Evaluierung von IR-Systemen

27

(28)
(29)

Kapitel 5

Anwendung von Methoden der Sprachverarbeitung im Information Retrieval

5.1 Probleme einer naiven Indexierung

Bei einer g¨angigen, naiven Indexierung geht man wie folgt vor

• Zerlege Text ggfs. nach Elimination von Sonderzeichen in Tokens

• Eliminiere Stoppw¨orter (Wichtige Nebenwirkung: Verkleinerung des Index, vgl. zu Pruning, LSI, konzeptuell nahe)

• ¨ubrigbleibende Tokens werden als Einzelw¨orter indexiert.

Praktisches Problem: Kurze Tokens der L¨ange ≤ 4. In diesem L¨angenbereich fin- det man viele Akronyme und Abk¨urzungen, daher sollte man alles, was sich nicht uberzeugend “als wichtiges Wort ausweisen” kann, weglassen.¨

Konzeptuelle Schwachstellen:

• Definition von “Stoppwort” unklar. Zwei Vorstellungen: inhaltslose W¨orter bzw. W¨orter, deren Indexierung keinen Nutzen bringt. Ansichten, welche W¨orter bei der Indexierung Nutzen bringen, gehen auseinander.

• Unterschiedliche Flexionsformen desselben Worts werden als unabh¨angige (Beim VR-Modell orthogonale) Keywords behandelt.

• Dasselbe gilt f¨ur Wortbildungsvarianten (berechnen, Berechnung)

• Synonyme (unterschiedliche W¨orter gleicher Bedeutung)

Homonyme (gleichgeschriebene und gleichlautende W¨orter unterschiedlicher Bedeutung)

Homographen (gleichgeschriebene, anders gesprochene W¨orter verschiedener Bedeutung) bleiben unber¨ucksichtigt.

29

(30)

• Semantische N¨ahe von W¨ortern bleibt unber¨ucksichtigt

• Mehrwortlexeme (wie “semantisches Netz” oder “Information Retrieval”) wer- den nicht erfasst, ebenso andere Phrasen spezifischer Bedeutung (“jemanden den Hals umdrehen”).

Es gab bereits fr¨uh Versuche, IR durch linguistische und verwandte Verfahren der Sprachverarbeitung zu verbessern. Man kann die meisten Verfahren als eine Form der Normalisierung sprachlicher Ausdr¨ucke einer ¨ahnlichen oder gleichen Bedeutung betrachten. Reicht zum Grundproblem zur¨uck: was ist die Bedeutung eines Textes, wie kann man sie erfassen?

LMI Linguistic motivated Indexingversucht, linguistisch sinnvolle Einheiten (in geeigneter Weise normalisiert) zu indexieren

Non-linguistic Indexingbetrachtet nur Zeichenketten.

Hauptzielvon LMI und Techniken der Sprachverarbeitung: historisch: Verbes- serung von Pr¨azision und Recall beim traditionellen IR. Eng verwandt werden lin- guistische Methoden aber auch beim Information Filtering bzw. Message Under- standing (MUC), bei der automatischen Textzusammenfassung und teils bei der Textklassifikation eingesetzt.

Heutiges Resumee: Fr¨uherer naiver Optimismus im Hinblick auf bessere Inde- xierung und besseres Retrieval heute zerst¨ort. Im Bereich des Englischen hat sich Stemming (s.u.) bew¨ahrt, tiefergehende linguistische Techniken bei der Indexierung brachten kaum Verbesserungen, manche Verfahren sogar negative Wirkung. Zu er- wartende Ergebnisse h¨angen allerdings stark von der zugrundegelegten Sprache der Dokumente ab. Bei morphologisch reichen, stark flektierenden Sprachen deutlichere Verbesserungen durch morphologische Normalisierung m¨oglich.

Viele gr¨oßer ist die Rolle beim Information Filtering. Auch bei Formen der Text- zusammenfassung und Textpr¨asentation innerhalb des IR k¨onnen großere zusam- menh¨angende linguistische Einheiten (Phrasen, S¨atze) n¨utzlich sein und bessere Textportraits liefern als bloße Listen einfacher Keywords.

Uberblick¨ ¨uber nachfolgend angesprochene Themen: Zwei Komplexe:

(a) Morphologische und syntaktische Methoden 1. Normalisierung einzelner Wortformen

2. Kompositabehandlung 3. Mehrwortlexeme

4. Phrasen-Parsing und Erkennung von Pr¨adikat-Argument-Strukturen (b) Semantische Techniken

5. Thesauri (Synonymie, Homonymie, semantische ¨Ahnlichkeit) 6. Wortnetze

Mehr in “Natural Language Information Retrieval” (Editor: Tomek Strzalkow- ski).

(31)

5.2. NORMALISIERUNG EINZELNER WORTFORMEN 31 [Noch zu erl¨autern: Pr¨a- versus Postkoordination]

5.2 Normalisierung einzelner Wortformen

Ziel: Identifikation unterschiedlicher Flexionsformen desselben Worts, Identifikation von Wortbildungsvarianten. Wichtige Nebenwirkung: Verkleinerung des Index, vgl.

Stoppwortelimination, Pruning.

Zwei Gruppen von Verfahren

1. “Stemming” bzw. “Konflation”. Verfahren teils nicht reinrassig linguistisch.

Versuchen typischerweise, Wortendungen abzutrennen, um Wort“stamm” zu erhalten. Grundlagen sind Listen h¨aufiger Endungen, Reduktionsregeln. Meist f¨ur Englisch.

2. “Lemmatisierung“ bzw. “Grundformreduktion”. Teils regelbasiert, heute meist mit elektronischen Vollform-W¨orterb¨uchern realisiert. W¨orter werden durch Grundform (“Lemma”, z.B. bei Verben: Infinitiv, bei Nomen: Nomina- tiv Singular) ersetzt. Lemmas zu Vollformen sind fertig im Lexikon kodiert.

Eher bei Deutsch.

5.2.1 Stemming Algorithmen

Konflation: K¨urzen, Kombinieren, auch Zusammenf¨ugen von W¨ortern und Wort- elementen, um unterschiedliche morphologische Varianten eines Worts zu matchen.

Algorithmen zur Konflation: Stemmer.

-Table-Lookup Stemmer -Successor-Variety Stemmer -Affix Removal Stemmer -n-Gramm Stemmer

Kriterien: Korrektheit: kein overstemming, kein understemming, Pr¨azision, Re- call, Indexreduktion.

Table-Lookup Stemmer

M¨ogliche volle Wortformen und zugeh¨orige Stems in Tabelle (“Lexikon”) gespei- chert. ¨Ahnliche Probleme wie bei lexikonbasierter Grundformreduktion (Ambi- guit¨at).

Successor-Variety Stemmer

Grundlage: In großem Hintergrundkorpus stelle f¨ur jedes vorkommende Wortpr¨afix die Zahl unterschiedlicher m¨oglicher Nachfolgebuchstaben (in Worten des Korpus) fest. z.B. “readable”

r: 3 (e,i,o)

(32)

re: 2 (a,d) rea: 1 (d) read: 2 (a,s) reada: 1 (b) ...

readable: 1 (blank)

Aufgrund dieser Info werden W¨orter zun¨achst segmentiert (s.u.). Danach erfolgt die Stem-Bestimmung: Faustregel: falls erstes Segment in<12 W¨orter im Korpus auftritt, nimm dieses, sonst nimm zweites Segment (erstes ist Pr¨afix, im englischen sind Doppelpr¨afixe sehr selten).

Segmentierung: Mehrere Verfahren, teils kombinierbar Complete word method:

trenne nach Segment, das als vollst¨andiges Wort im Korpus Peak & Plateau: trenne nach Buchstaben, wo NFZ h¨oher als beim Vorg¨anger und Nachfolger (read)

Affix Removal Stemmer

Entfernen Pr¨afixe und Suffixe von Termen, manchmal unter Anwendung von Zu- satztransformationen. ¨Ubrig bleibt das Stem. Oft wird wiederholt nach bestimmten Regeln die l¨angste m¨ogliche Sequenz entfernt, das Verfahren wiederholt bis kei- ne Charaktre mehr abtrennbar sind (“iterative longest match”). Zur Korrektur der Ergebnisse werden ggfs. bestimmte Transformationen angewandt. Bekanntestes Bei- spiel ist

Porter Stemmer (1980) Anwendung von Regeln, in Schritte eingeteilt. Regelan- wendungen haben teils Pr¨amissen (Conditions). Zur Formulierung von Konditions folgende Begriffe/Notationen

1. Maß m eines Stems: Zahl alternierender Vokal-Konsonant (V-C) Folgen. Als Vokale gelten a,e,i,o,u sowie y nach Konsonant [..] deutet Optionalit¨at an.

Form [C](V −C)m[V] z.B. tree, by habenm= 0 trouble, trees habenm= 1 troubles, private haben m= 2

2. ∗hXiStem endet mit BuchstabenX 3. ∗V∗Stem enth¨alt Vokal

4. ∗dStem endet mit Doppelkonsonant

5. ∗oStem endet mit Sequenz der FormC−V−Cwobei letzter Konsonantw, x odery ist.

Algorithmus:

Wende die den nachfolgenden Schritten zugeordneten Regelmengen von oben nach unten an. Es darf auf den Eingabestring jeweils nur die oberste m¨ogliche Regel angewandt werden. Dabei wird Regelmenge von Schritt 1 auf das Eingabewort an- gewandt, die nachfolgenden Regeln auf die in den Zwischenschritten entstandenen Strings.

Step 1a Step 1b

If second or third rule of Step 1b was used Step 1b1;

(33)

5.2. NORMALISIERUNG EINZELNER WORTFORMEN 33 Eingabe instantiation offered computation

m 4 3 4

1a instantiation offered computation 1b instantiation offer computation

1b1 - offer computation

1c instantiation offer computation 2 instantiate offer computate 3 instantiate offer computate

4 instantiate off comput

5a instantiate off comput

5b instanti off comput

Tabelle 5.1: Beispiele Porter Stemmer Step 1c

Step 2 Step 3 Step 4 Step 5a Step 5b

Folien aus Adela Filzmayer Margetic Referat.

Beispiele

Ergebnisse von Stemming-Verfahren und ihrer Verwendung teils etwas wider- spr¨uchlich. Kein Verfahren funktioniert 100-prozentig fehlerfrei. Stemming bei eng- lischen Texten heute allgemein ¨ublich. F¨ur stark flektierende Sprachen lexikalische Lemmatisierung besser.

5.2.2 Regelbasierte Grundformreduktion

F¨ur das Englische nach Kuhlen 77. Fuhr S. 53-55. Folien hinten.

5.2.3 Lexikonbasierte Grundformreduktion

Flektierte Wortformen werden im Vollformenlexikon nachgeschlagen. Dort ist zu jeder Form das Lemma notiert. Im Text werden Vollformen durch Lemmas ersetzt.

• Leistet nur Erkennung unterschiedlicher Flexionsformen (im Gegensatz zu De- rivationsformen).

• Indexverkleinerung bis zu 50% bei morphologisch reichen Sprachen.

• Erkennung des Lemmas teils schwierig wegen Ambiguit¨aten (“heute” von heu- en). Zur Aufl¨osung von Ambiguit¨aten sind syntaktische bzw. statistische Ver- fahren notwendig, die aber enge Grenzen haben. Desambiguierungstechniken umfassen: Gross-Kleinfilter: Kleingeschreibene W¨orter sind keine Nomen (bis auf Sonderf¨alle) Eigennamen (Blau) m¨ussen gross sein. Statistische oder lin- guistische Kontextanalyse. Z.B. Tagging.

(34)

• Probleme durch mangelnde Abdeckung des Lexikons (Abk¨urzungen, Akrony- me, fremdsprachliche, veraltete, mundartliche Ausdr¨ucke, Slang, Eigennamen, Geos, Fachbegriffe etc.)

5.3 Komposita-Behandlung

Wichtig f¨ur das Deutsche: jedes 6. Nomen ist zusammengesetzt. Komposita (wie

“Wortendung”) k¨onnen in Anfrage und im Text und in Anfrage auftreten. Weder eine regelbasierte noch eine lexikonbasierte Kompositazerlegung funktioniert wirk- lich gut. Bei lexikonbasierter Zerlegung braucht man Millionen von Eintr¨agen, alle Komposita abzudecken bleibt unm¨oglich (zu produktiv). Regelbasierte Verfahren haben mit ambigen Zerlegungen (Staatsexamen, Arbeitsamt) zu k¨ampfen. Zul¨assi- ge Fugen (Schweinsbraten, aber nicht Lammsbraten) kaum mit Regeln zu erfassen.

Zerlegung macht nur bei Komposita mit kompositionaller Semantik Sinn (vor- schlagen, Milchstraße, Ziegenmelker).

Notorisch schwieriges Problem. Große Kompositalexika schwer zu erstellen, k¨onnen dann aber einen signifikanten Teil der vorkommenden Komposita korrekt abdecken.

5.4 Behandlung von Mehrwortlexemen

Der Begriff des Mehrwortlexems ist nicht genau gekl¨art. Linguisten reden von “fro- zen expressions”, “idiomatischen Wendungen”, eine genaue Definition liegt aber nicht vor. F¨ur IR wichtig sind vor allem zusammengesetzte terminologische Aus- dr¨ucke bei der Suche in Fachdatenbanken. computational linguistics, abelsche Grup- pe, Top-down Parser, chemisches Element. Liegt keine Indexierung vor, teils mit nachgeordneter Mehrwortsuche auffindbar.

Man kann auch einen kleinen Teil wichtiger Mehrwortlexeme indexieren, bis hin zu kompletten NPs.

Multindexierungsans¨atze: Verwende nicht einen Index, sondern mehrere (f¨ur Einzelw¨orter, Komposita, MWL). Jeder Index kann mit eigener Retrievalmetho- de und eigenem Rankingwert kommen. Bei der Gesamtgewichtung setze lernende Verfahren ein, um relative Wichtigkeit der einzelnen Rankingwerte einzustellen.

5.5 Phrasen-Parsing

Das Erkennen komplexer Phrasen ist weniger beim Indexieren und Retrieval wichtig:

komplexe NPs sind meist zu speziell, treten zu selten auf. K¨onnte einen Beitrag zur aussagekr¨aftigen Repr¨asentation des Dokumenteninhalts von Dokumenten in der Antwortmenge bieten. Verwandt werden Techniken der Dokumentenzusammenfas- sung und des “Abstracting” untersucht.

Wichtig ist Phrasenparsing bei Methoden des Information Filtering, wo Infor- mationen einer ganz speziellen Art erkannt werden. In diesem Zusammenhang wird

(35)

5.5. PHRASEN-PARSING 35

“flaches” Parsing eingesetzt (Parsing ganzer S¨atze beliebiger Texte ist auch heute kaum m¨oglich, wenn man an großer Abdeckung interessiert ist). Man setzt dann oft kaskadierende Automaten oder Transducer ein, um komplexe Pr¨adikat-Argument- Strukturen (z.B. Filtering von Firmenzusammenschl¨ussen: wer hat wenn wann zu welchem Preis aufgekauft?) zu erfassen.

Geht eigentlich schon in den Bereich Semantik, wie auch Textzusammenfassung letztlich semantische Aufgabe ist.

(36)

5.6 Thesauri

(Synonymie, Homonymie, semantische ¨Ahnlichkeit)

(37)

5.7. WORTNETZE 37

5.7 Wortnetze

(38)
(39)

Kapitel 6

Dokumentation, Meta-Information, Begriffssysteme, Wissensressourcen

Die in diesem Abschnitt dargestellten Techniken der Dokumentation dienen inner- halb des Information Retrieval dazu, Dokumente leichter auffindbar zu machen, indem ihr Inhalt von einem ¨ubergeordneten Standpunkt beschreiben wird.

Da ¨ahnliche Techniken in viele Gebieten zur Strukturierung von Wissen allge- mein eingesetzt werden, geht die nachfolgende Diskussion teils ¨uber den Rahmen des IR hinaus. Wollen kl¨aren:

• Was sind Taxonomien, Konzepthierarchien, Ontologien, Systematiken, Klassi- fikationsschemata, Metadaten,... ? Was hebt sie von Thesauri und von seman- tischen Netzen wie WordNet ab, wie passen die Begriffe in ein ¨ubergeordnetes Gesamtbild?

• Welcher Zusammenhang ergibt sich zur Suche im Web und zu Formalismen im Umfeld des semantischen Webs wie RDF, Topic Maps, OWL? W¨ahrend “klas- sische Dokumentations-Techniken” das Auffinden von Dokumenten durch den menschlichen Benutzer unterst¨utzen, addressieren aktuelle Forschungen im Bereich des semantischen Webs das Problem, Dokumente, Programme und Webressourcen einer bestimmten Fuktionalit¨at automatisch auffindbar zu ma- chen.

Schließlich wollen wir einige Techniken, Beispielanwendungen und Formalismen et- was n¨aher betrachten.

39

(40)

6.1 Versuch eines Orientierungsrahmens

Parallel zu den oben beschriebenen allgemeinenAufgabenunterscheiden wir nachfol- genddrei Arten von Wissensressourcen mit konzeptuell verschiedener Ausrichtung als Pole, Mischformen m¨oglich. Die nachfolgenden drei Begriffe sind nicht etablierter Standard, werden teils auch anderes verwendet.

6.1.1 Klassifikationshierarchien und Meta-Information

Intuitiv vorstellbar als eine Art Schubladensystem (meist verschachtelt) zum Ein- sortieren von Dokumenten, allgemeiner informationstragenden Einheiten, ggfs. auch andere Dinge (Pflanzen,Tiere,Produkte). Die Schubladen haben Bezeichner, die andeuten, was in der Schublade gesammelt bzw. einsortiert wird. Die Bezeichner k¨onnen recht komplexe Konzepte darstellen (spanische Literatur des ausgehenden 20. Jahrhunderts,ausgestorbene S¨augetierarten,Luxuskosmetika,..). Die Wahl dieser Schubladenbezeichner ist dem Ziel untergeordnet, dasAuffinden der informations- tragenden Einheiten zu erleichternund ist insofern starkanwendungsabh¨angigund nicht notwendig analytischer Natur. Die verwendeten Konzepte bzw. Begriffe brau- chen damit im allgemeinen keine besondere Relevanz zu haben.

Hierarchie-Begriff. Oft baumartige Struktur der “Schubladen” (z.B. Directo- ries). D.h. genau eine direkt ¨ubergeordnete Schublade. Auch Mono-Hierarchie ge- nannt. Da eine rein baumartige Gliederung oft an manchen Stellen willk¨urlich ist, werden auch DAGs (Poly-Hierachie, mehrere direkt ¨ubergeordnete Schubladen) ver- wendet oder Querverweise zugelassen.

Unterschieden werden nach Art des Entstehens der Schubladen auchanalytische Klassifikation (top-down Unterteilung vorhandener Klassen in Teilklassen) versus synthetische Klassifikation. Letztere geht von Eigenschaften der zu klassifizierenden Objekte aus. Klassen werden durch Kombination der Merkmale gebildet. Bild Fuhr S.62. Vorsicht: W¨ahrend im Wissenschaftsbereich die “analytische” Aufteilung der Klassen in der Regel echt analytisch ist, folgt sie in anderen Bereichen oft stark den Anwendungsinteressen.

Zusammenh¨ange zum IR:

• Klassifikationsschemata bei Bibliotheken. Gliedern Buchbestand nach Sach- gebieten (Sprache,Alter,..).

• Web-Directories. Gliedern Bestand n¨utzlicher Webseiten in ¨ahnlicher Weise.

• Klassifikationsschemata f¨ur wissenschaftliche Literatur (ACM).

• Universelle Klassifikationsschemata (UDC). Zum Einordnen beliebiger Lite- ratur.

Systematiken. W¨ahrend die Klassifikationsschemata von Web-directories oft keinem vorgegeben ¨ubergeordneten Einteilungsprinzip folgen (keine definierte Re- lation zwischen Schubladen und Teilschubladen, Aufteilung nach Intuition), folgen die anderen Gliederung stets einer vorgegebenen Systematik, d.h. einem ¨uberge- ordneten Prinzip, nach welchem Muster Teilschubladen eingerichtet werden. Die nat¨urlichsprachlichen Bezeichnungen der Schubladen und sind dann erg¨anzt durch

(41)

6.1. VERSUCH EINES ORIENTIERUNGSRAHMENS 41 formale Bezeichner (meist Kombinationen von Buchstaben und Ziffern). Die Syste- matik folgt in der Regel semi-formalen Gesichtspunkten. Ein spezieller Sonderfall ist die Facettenklassifikation, wo eine Menge von Features vorgegeben ist, wo je- des Feature eine endliche Menge erlaubter Werte hat. Ein Dokument wird dann durch die Angabe der Werte mehrerer (oder aller) Features charakterisiert, und diese Charakterisierung wird zur Einordnung verwendet. Bei allgemeinere Facet- tenklassifikationen ergeben sich die Schubladen bzw. Klassen durch Komposition (im Sinn eines Durchschnitts) von Klassen aus Teilhierarchien, die komplement¨are Aspekte abdecken (Nohr S. 35).

Metadaten. Das einfache Bild einer Klassifikationshierachie geht davon aus, daß die Dokumente bzw. einzusortierenden Objekte durch genau ein Label (Schub- ladenbezeichner der Schublade, wo wir das Objekt ablegen) charakterisiert sind.

Diese einfachste Art derMetainformation kann aber leicht verallgemeinert werden.

Einfachster Fall: Mehrfachlabels, die unterschiedliche Metainformationen darstellen (Thema, Autor, Datum). Dies geht hin bis zur komplexen ggfs. intern strukturierten Auszeichnung von Dokumenten mittels einesAuszeichungsformalismus f¨ur Metain- formationen. Werden Dokumente mit komplexen Metadaten charakterisiert, kann man auf ein starres Schubladensystem verzichten und kann geeignete Dokumentedy- namisch mittels speziellerAnfragemechanismen f¨ur Metainformationen aussuchen.

Sind die Beschreibungen in den Metadaten informell, ergibt sich ein IR-Problem auf der h¨oheren Ebene der Metadaten. Sind die Beschreibungen innerhalb der Metada- ten strikt formalisiert, ist eine formale Abfrage mit logischen Sprachen m¨oglich.

6.1.2 Begriffshierarchien

W¨ahrend Klassifikationhierarchien die Vielfalt sprachlicher Ausdr¨ucke nicht beach- ten, ordnen Begriffshierarchien sprachliche Ausdr¨ucke (W¨orter, Phrasen). Decken wenn m¨oglich alle Ausdr¨ucke eines Gebiets ab. Maßstab ist das Auftreten und die Verwendung der Ausdr¨ucke in nat¨urlich-sprachlichen Texten. Da die sprachliche Realit¨at durch Ambiguit¨aten und mangelnde Formalit¨at gekennzeichnet ist, muss eine Begriffshierarchie versuchen, die verschiedenen Bedeutungen und Verwendungs- weisen zu erfassen. Unterschiedliche Formen desselben Konzepts sind abzudecken.

Ph¨anomene derSynonymie, Polysemiesind zentral. Begriffshierachien k¨onnen dazu dienen, Vorzugsbezeichnungen f¨ur ¨aquivalente sprachliche Ausdr¨ucke festzulegen, und damit zu einer Normalisierung ¨aquivalenter oder sehr ¨ahnlicher sprachlicher Ausdr¨ucke zu kommen. Diese Normalisierungsproblematik betrifft von einem ver- allgemeinerten Standpunkt u.U. sehr komplexe Ausdr¨ucke (bis hin zu 15.10.2004, 15. Okt. 2004, “x hat y z gegeben” f¨ur “y hat z von x erhalten”).

Zwischen den Begriffen sind neben Synonymie oft weitere semantische Beziehun- gen erfasst (Oberbegriff-Unterbegriff, Teil-Ganzes Beziehung, auch andere). Je wei- ter die Normalisierung und Standardisierung der Begriffe geht, desto mehr n¨ahern sich die “Begriffe” abstrakten “Konzepten” an. Standardvertreter f¨ur Begriffshier- archien sind klassische Thesauri, wobei der Begriff “Thesaurus” heute teils in einem sehr weiten Sinn verwendet wird.

Hierarchie-Begriff. Oberbegriff-Unterbegriff ist DAG-artig. Andere Relationen (¨ahnlicher Begriff, Synonymie) f¨uhren auf allgemeine Graphen mit hierarchischen Skelett.

Zusammenh¨ange zu IR und Umfeld:

(42)

• Hilfe bei Indexierung (auch Normalisierung nat.sprachlicher Datenbankein- tr¨age.)

• Hilfe bei Anfrage-Modifikation.

• Einsatzm¨oglichkeiten bei komplexen Analyseproblemen bei nat¨urlichsprachli- chen Texten.

6.1.3 Konzepthierarchien und Ontologien

Erfasst werdenabstrakte Konzepte und ggfs. Individuen, derenBedeutung eindeutig sein sollte. Die Konzepte k¨onnen sprachlichen Ursprungs sein, sind dann aber pr¨azise gemacht, um Vagheiten und Ambiguit¨aten auszuschliessen. Nicht die sprachliche Realit¨at ist Maßstab, sondern die saubere gedankliche Gliederung eines Bereichs.

Unterschiede im Hinblick auf die Art der Relationen, die zwischen Konzepten und Individuen erfasst sind. Im einfachsten Fall k¨onnen diese naiv sein (allgemeineres Konzept, spezifischeres Konzept), meist werden aber spezifischere Relationen wie

• Teilmengen-Relation

• Element-Beziehung

• Teil-Ganzes-Beziehung

verwendet. Ziel ist es, dass auch die Relationen eine genau definierte Bedeutung haben. Schwierig beispielsweise bei Teil-Ganzes. Speziell bei Ontologien geht man davon aus, daß eine Reihe von Relationen mit formalisierter Bedeutung erfasst sind.

Zentral sind dann Vererbungsmechanismen f¨ur Eigenschaften von Konzepten und Individuen und allgemeiner logische Schl¨usse.

Hierarchie-Begriff. Nur bei Einschr¨ankung auf einen Teil der Relationen Baum oder DAG. Ansonsten hat man oft reich strukturierte echte Graphen.

Zusammenh¨ange zu IR und Umfeld:

• Maschinelle Bearbeitung von Meta-Daten (Semantic Web), beide oben ge- nannte Aufgaben 1 und 2.

• M¨ogliches Zukunftszenario: Neue Visualisierungsformen bei der Benutzerin- teraktion.

• Ziele: Einsatz bei semantischer Textanalyse (bei Anbindung an Begriffshiera- chien). Verbesserte logische Textrepr¨asentation.

(43)

6.2. BEISPIELE F ¨UR KLASSIFIKATIONSSCHEMATA 43

6.2 Beispiele f¨ ur Klassifikationsschemata

(44)

6.2.1 Biologische Klassifikation

(45)

6.2. BEISPIELE F ¨UR KLASSIFIKATIONSSCHEMATA 45

6.2.2 Dezimal-Klassifikation

(46)

6.2.3 ACM Computing Reviews

(47)

6.2. BEISPIELE F ¨UR KLASSIFIKATIONSSCHEMATA 47

6.2.4 Yahoo

(48)

6.2.5 Open Directory Project

6.3 Metadaten im Web

Vgl. hier Ferber Kapitel 15.

(49)

6.3. METADATEN IM WEB 49

6.3.1 Dublin-Core

(50)

6.3.2 PICS

(51)

6.3. METADATEN IM WEB 51

6.3.3 RDF und Topic Maps

(52)

6.4 Begriffshierarchien

(53)

6.5. MEHR ZU KONZEPTHIERARCHIEN UND ONTOLOGIEN 53

6.5 Mehr zu Konzepthierarchien und Ontologien

Begriff “Ontologie” in Philosophie und in vielen Gebieten der Informatik (Wissens- repr¨asentation, Natural Language Processing, Database Design, IR, Wissensmana- gement,...) verwendet.

Philosophischer Ontologie-Begriff: Lehre vom Sein und Seienden. Eng verwandt mit “Metaphysik”. Geht zur¨uck auf Aristoteles. Sp¨ater Platos Theorie der Formen.

Leibniz (1646-1716): Ontologie als Wissenschaft von Etwas und Nichts, vom Sein und Nichtsein.

Mit der Logik gemeinsam: der Versuch, die Welt in formale Strukturen abzubil- den. Dieser Aspekt in Informatik dominant.

Informatik: (Tom Gruber); “a specification of a conceptualization” (collection of objects, concepts and entities that are presumed to exist in some domain and that are tied together with some relationships). Gemeint ist meist eine formale und explizite Spezifikation.

Ziel: Versuch der standardisierten formalen Darstellung von Wissen zu bestimm- ten Bereichen. Konsistenz, keine Ambiguit¨aten.

Anwendungen: Ontologien sollen damit helfen bei der pr¨azisen Kommunikation zwischen Menschen, zur Interoperabilit¨at zwischen unterschiedlichen Computersy- stemen und zur vielseitigen Verwendung (re-usability) und zum Sharing von Wissen zwischen Systemen. Verbindung zu Ziel 2 aus Kapiteleinleitung: Kollaboration un- terschiedlicher Programme.

Probleme

• Welt ist nicht formal. Wie die echte Welt mit strikt formalisiertem Bild zu- sammenbringen? F¨uhrt teils zu Ontologien mit semi-formalem Charakter.

• Oft wird versucht, die Dom¨ane mit Hilfe einer kleinen Menge von Grund- konzepten und Relationen zu beschreiben. Deren Natur aber kaum zu kl¨aren.

(Was ist ein Individuum? Ein Prozess?)

• Ontologien meist zu kleinen speziellen Dom¨anen. Nicht leicht zu verbinden, zu integrieren.

• Unterschiedliche Ontologien zu ¨ahnlichen Dom¨anen erschweren erstrebte Stan- dardisierung. Vereinheitlichung unterschiedlicher Ontologien zum selben Ge- biet kann schwierig sein.

Arten von Ontologien

Meta-Level Ontologien.Dienen der Behandlung vom Meta-Daten wie Dublin Core.

Common-Sense Ontologien. Erfassung nicht n¨aher reflektierten (aber gesun- den) Alltagswissens auf einer allgemeinen Ebene. Top-Level Ontologies, General Ontologies. Beispiele: (1) Standard Upper Model Ontology SUO (IEEE). (2) CYC- Ontology: Versuch, gesamtes Common-Sense Wissen in formalisierter logischer Wei- se darzustellen und f¨ur Computer anwendbar zu machen.

Ontologien f¨ur spezielle Bereiche.Viele im Bereich der Medizin.

(54)

6.6 WordNet als Br¨ ucke zwischen Ausdr¨ ucken und Konzepten

Semantische Klassen-Konzepte ergeben sich aus ¨Aquivalenzklassenbildung ¨uber

“einfachem” sprachliches Material. Ergibt eingeschr¨ankte Auswahl, da sprachlich komplexe Konzepte nicht erfasst, sind. Auch Auswahl an Relationen durch sprach- liches Material induziert. Kleine Auswahl an Relationen. Es ergibt sich auf der semantischen Ebene nur ein schwaches Abbild von Zusammenh¨angen der realen Welt.

Referenzen

ÄHNLICHE DOKUMENTE

 Effektivität eines Indexing Systems wird bestimmt über:..  Indexing exhaustivity: Erfassungsgrad der Dokumententhemen in

Vocabulary for the specification of thematic, spatial and temporal references of information resources. Techniques for the automated processing of thematic, spatial and

Google revolutionized the field by deploying the PageRank technology - an eigenvector-based analysis of the hyperlink structure - to analyze the web in order to produce

In order to eliminate the difference in document length and average number of query term instances between the relevant and non-relevant sets, we normalized all values, except for

The visual views used in INSYDER support the interaction of the user with the system during the formulation of the query (e.g. visualis ation of related terms of the query terms

The visual views used in INSYDER supports the interaction of the user with the system during the formulation of the query (e.g. visualization of related terms of the query terms

The SuperTable + Scatterplot will be introduced in a 3D GeoLibrary [5] as one new information visualization technique to support users during the different information

20.12.2012 Institut für Sprache und Information, Heinrich-Heine-Universität, Düsseldorf.. Die Autoren: