Information Retrieval

(1)

Information Retrieval

Klaus U. Schulz

7. Oktober 2004

(2)

(3)

Inhaltsverzeichnis

1 Was ist Information Retrieval? 7

1.1 Typische IR-Suchszenarien . . . 7

1.2 Verwandte Arten der Informationssuche und benachbarte Informati- onssysteme . . . 10

1.3 Verwandte Disziplinen . . . 13

1.4 Teilaufgaben beim Design eines IR-Systems . . . 14

2 Klassische nicht-probabilistische Modelle des IR 15 2.1 Dokumentenrepr¨asentation durch Keyword-Vektoren . . . 15

2.2 Boolesches Retrieval . . . 17

2.3 Fuzzy Retrieval . . . 17

2.4 Das Vektorraum-Modell . . . 17

2.4.1 Grundprinzip des VR-Modells . . . 17

2.4.2 Formen der Termgewichtung . . . 17

2.4.3 Ahnlichkeitsmaße . . . .¨ 19

2.4.4 Ranking-Berechnung . . . 19

2.4.5 Pruning und vereinfachte Berechnung von Ranking-Werten mit thresholding. . . 19

2.4.6 Relevanz-Feedback und Anfrage-Modifikation . . . 22

2.4.7 Feature-Reduktion durch latent semantisches Indexieren . . . 22

2.5 Dokumenten-Clustering . . . 22

2.5.1 Verwendung von Clustern im Information Retrieval . . . 22

2.5.2 Einfache Verfahren zur Cluster-Berechnung . . . 23

3 Probabilistische Modelle des IR 25

3

(4)

4 Evaluierung von IR-Systemen 27

5 Anwendung von Methoden der Sprachverarbeitung im Information

Retrieval 29

5.1 Probleme einer naiven Indexierung . . . 29

5.2 Normalisierung einzelner Wortformen . . . 31

5.2.1 Stemming Algorithmen . . . 31

5.2.2 Regelbasierte Grundformreduktion . . . 33

5.2.3 Lexikonbasierte Grundformreduktion . . . 33

5.3 Komposita-Behandlung . . . 34

5.4 Behandlung von Mehrwortlexemen . . . 34

5.5 Phrasen-Parsing . . . 34

5.6 Thesauri . . . 36

5.7 Wortnetze . . . 37

6 Dokumentation, Meta-Information, Begriffssysteme, Wissensres- sourcen 39 6.1 Versuch eines Orientierungsrahmens . . . 40

6.1.1 Klassifikationshierarchien und Meta-Information . . . 40

6.1.2 Begriffshierarchien . . . 41

6.1.3 Konzepthierarchien und Ontologien . . . 42

6.2 Beispiele f¨ur Klassifikationsschemata . . . 43

6.2.1 Biologische Klassifikation . . . 44

6.2.2 Dezimal-Klassifikation . . . 45

6.2.3 ACM Computing Reviews . . . 46

6.2.4 Yahoo . . . 47

6.2.5 Open Directory Project . . . 48

6.3 Metadaten im Web . . . 48

6.3.1 Dublin-Core . . . 49

6.3.2 PICS . . . 50

6.3.3 RDF und Topic Maps . . . 51

6.4 Begriffshierarchien . . . 52

(5)

INHALTSVERZEICHNIS 5

6.5 Mehr zu Konzepthierarchien und Ontologien . . . 53

6.6 WordNet als Br¨ucke zwischen Ausdr¨ucken und Konzepten . . . 54

6.7 EFGT-Net als Br¨ucke zwischen Ausdr¨ucken und Konzepten . . . 55

7 Methoden der Dokumentenklassifikation 57 7.1 Einleitung . . . 57

7.2 Textvorbereitung und Textrepr¨asentation . . . 57

7.3 Rocchios Algorithmus . . . 57

7.4 Naives Bayessches Verfahren . . . 58

7.5 Ripper . . . 58

8 Structured document retrieval 63 8.1 Introduction . . . 63

8.1.1 Structured documents, XML, and semistructured data . . . . 63

8.1.2 Survey of the module . . . 64

8.2 Using document structure: what, how and why . . . 65

8.2.1 Aspects of document structure . . . 65

8.2.2 Reference to document structure in queries . . . 68

8.2.3 Three retrieval functionalities . . . 69

8.3 Markup languages and structure of XML documents . . . 73

8.3.1 XML, HTML and SGML . . . 73

8.3.2 General structure of XML documents . . . 74

8.4 The PAT system . . . 80

8.4.1 Document model . . . 80

8.4.2 The algebra of PAT operations . . . 81

8.4.3 Search algorithms on PAT trees . . . 83

8.5 Region algebra formalisms . . . 88

8.5.2 Query languages . . . 90

8.5.3 Implementation aspects . . . 96

8.5.4 Bibliographic notes and additional references . . . 99

(6)

8.6 Tree matching with complete answer aggregates . . . 100

8.6.2 Query language . . . 106

8.6.3 Complete answer aggregates . . . 107

8.6.4 Producing answer documents from aggregates . . . 109

8.6.5 Implementation aspects . . . 111

8.6.6 Bibliographic notes and further references . . . 114

8.7 Structured Document Retrieval and Ranking of Answers . . . 115

8.7.1 Ranking in the vectorspace model . . . 115

8.7.2 Two kernel problems . . . 118

8.7.3 The XIRQL model . . . 120

8.7.4 The s-term model . . . 126

8.7.5 Bibliographic notes . . . 130

9 Websuche 133 9.1 Unterschiede zwischen Web-Suche und konventioneller IR-Situation . 133 9.2 Prinzipielle Architektur einer Websuchmaschine . . . 133

9.3 Web-Crawling . . . 134

9.4 Speicherung . . . 135

9.5 Indexierung . . . 135

9.6 Ranking mittels Link-Analyse . . . 136

(7)

Kapitel 1

Was ist Information Retrieval?

[Grundlagen: Ferber Skript Teil 1: Einf¨uhrung]

Arbeitsdefinition: Information Retrieval im traditionellen Sinn untersucht die Frage, wie man einem menschlichen Benutzer mit einem ehervagen Informations- bedürfnis aus einer fest gegebenen Dokumentensammlungdie für ihn interessanten bzw.relevanten Dokumenteautomatisch ermitteln und ausgeben kann. Dokumente im traditionellen Sinn sind Textdokumente. Dokumente immodernen Sinnkönnen auch Bilder, Videos, Tonsequenzen u.ä. sein, oder strukturierte Webseiten. Durch die Internetsuche, die zu einem zentralen Teilgebiet des IR geworden ist, ist das (oh- nehin idealisierte) Bild einer festen Dokumentenkollektion, teilweise zu revidieren.

Problem der Abgrenzung. Da es zahlreiche verwandte Szenarien der menschlichen Informationssuche gibt, und da ein Teil der bei der Informationssuche ein- gesetzten Techniken übergreifend verwendbar ist, gibt es eine Reihe eng verwand- ter Forschungsgebiete, die man bei einer weiteren Auslegung auch dem Bereich IR (mit)zuordnen kann. Eine genau Definition ist daher und aufgrund der sich verändernden Möglichkeiten der Informationspräsentation und -Suche unmöglich.

Weitere Definitionsversuche sind in den Abbildungen 1.1 und 1.2 aufgef¨uhrt.

1.1 Typische IR-Suchszenarien

Der eigentliche Ausgangspunkt des klassischen IR war die bibliographische Suche bzw. die Suche in Literaturdatenbanken.

Beispiel 1.1.1 [Allgemeine bibliographische Suche]

Die gegebene Dokumentensammlung besteht aus der Sammlung aller Artikel, Texte und B¨ucher einer Bibliothek mit Dokumenten zu unterschiedlichen Bereichen. Der Benutzer sucht Informationen zu vagen Inhalten wie

1. Ern¨ahrungsweise von Insekten,

2. Ideen für die Gestaltung von Kindergeburtstagen, 3. Französische Küche,

7

(8)

"Im Information Retrieval (IR) werden Informationssysteme in Bezug auf ihre Rolle im Prozeß des Wissenstransfers vom menschlichen

Wissensproduzenten zum Informationsnachfragenden betrachtet. Die Fachgruppe Information Retrieval in der Gesellschaft für Informatik beschäftigt sich dabei schwerpunktmäßig mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen. Vage Anfragen sind dadurch gekennzeichnet, daß die Antwort a priori nicht eindeutig definiert ist. Hierzu zählen neben Fragen mit unscharfen Kriterien insbesondere auch solche, die nur im Dialog iterativ durch Reformulierung (in Abhängigkeit von den bisherigen Systemantworten beantwortet werden können; häufig müssen zudem mehrere Datenbasen zur Beantwortung einer einzelnen Anfrage durchgesucht werden. Die Darstellungsform des in einem IR-System gespeicherten Wissens ist im Prinzip nicht beschränkt (z.B. Texte, multimediale Dokumente, Fakten, Regeln, semantische Netze). Die

Unsicherheit (oder die Unvollständigkeit) dieses Wissens resultiert meist aus der begrenzten Repräsentation von dessen Semantik (z.B. bei Texten oder multimedialen Dokumenten); darüberhinaus werden auch solche

Anwendungen betrachtet, bei denen die gespeicherten Daten selbst unsicher oder unvollständig sind (wie z.B. bei vielen technisch-wissenschaftlichen Datensammlungen). Aus dieser Problematik ergibt sich die Notwendigkeit zur Bewertung der Qualität der Antworten eines Informationssystems, wobei in einem weiteren Sinn die Effektivität des Systems in Bezug auf die Unterstützung des Benutzers bei der Lösung eines Anwendungsproblems beurteilt werden sollte."

(Fachgruppe "Information Retrieval" der GI, 1991)

Was ist Information Retrieval?

Abbildung 1.1: Ein weiterer Definitionsversuch.

(9)

1.1. TYPISCHE IR-SUCHSZENARIEN 9

"Information Retrieval ist best understood if one remembers that the information being processed consists of documents. In that context, information retrieval deals with the representation, storage, and access to documents or representatives of documents. The input information is likely to include the natural language text of the documents or of document excerpts and abstracts. The output of an information retrieval system in response to a search request consists of sets of references. These references provide the system users with information about items of potential interest..."

(Aus G. Salton/M.J.McGill: Introduction to Modern Information Retrieval, McGraw-Hill Int. Editions, 1983)

Was ist Information Retrieval?

Abbildung 1.2: Ein weiterer Definitionsversuch.

4. Ursachen und Auswirkungen der Oktoberrevolution, 5. ...

Beispiel f¨ur konkretere Informationsw¨unsche sind 1. Mendelsche Vererbungsregeln,

2. Fl¨ache von Deutschland,

3. Definition eines mathematischen Begriffs wie ,,Aufl¨osbare Gruppe“, 4. ...

Ein Teil der IR-Forschung beschäftigt sich auch mit der Frage, inwiefern das In- formationbedürfnis eines Nutzers überhaupt eindeutig ist. Es wird manchmal zwischen unterschiedlichen Arten des Informationsbedürfnisses unterschieden (objektiv, wahrgenommen,..).

Beispiel 1.1.2 [Suche in Fachdatenbank]

Die gegebene Dokumentensammlung besteht aus einer Sammlung chemischer Facht- exte. Der Benutzer hat ein Verfahren zur Synthese eines Stoffes gefunden und m¨ochte wissen, ob ein ¨ahnliches Verfahren in der Literatur bereits beschreiben ist.

Heute haben IR Techniken u.a. große Bedeutung beim Zugriff auf Texte in Ar- chiven von Firmen und Organisationen.

Beispiel 1.1.3 [Suche in Datenbanken mit Texten einer speziellen Gattung]

(a) Die gegebene Dokumentensammlung besteht aus einer Sammlung von Patenten.

(10)

Es soll für eine Patentbeschreibung überprüft werden, ob es ein gleichartiges Patent bereits gibt.

(b) Die gegebene Dokumentensammlung repr¨asentiert das Archiv einer Firma oder Organisation. Es sollen die Namen von Zwangsarbeitern w¨ahrend des 2. Weltkriegs gefunden werden.

Sehr wichtig f¨ur die aktuelle Entwicklung des Gebiets ist die Internetsuche und die Suche in elektronischen Bibliotheken.

Beispiel 1.1.4 [Internet-Suche]

Die Dokumentensammlung besteht aus einer Reihe von Internet-Seiten. Benutzer sind Internet-Nutzer, mit einer geeigneten Anfrage sollen relevante Seiten zu einem bestimmten Thema gefunden werden (Geigenbauer in Deutschland,...).

Weiter Szenarien sind die Suche in Multimedia-Datenbanken und die Anfrage an XML-Datenbanken.

Manchmal werden die Hauptanwendungsgebiete es Information Retrieval dadurch charkterisiert, daß man zwischen “erklärenden (engl. expository)” und “nicht- erklärenden” Textgenres unterscheidet. Zu den erklärenden Texten in diesem Sinn gehören z.B. akademische Schriften, offizielle Dokumente, Bibliographien, Repor- tagen, Gesetzestexte, Zeitungen, medizinische Berichte und andere. Zu den nich- terklärenden gehören Hörspiele, Diskussionen, Briefe, Feuilleton, Science Fiction, Humor. Die meisten IR-Anwendungen liegen natürlich im Bereich “erklärender”

Texte.

1.2 Verwandte Arten der Informationssuche und benachbarte Informationssysteme

Die folgende Liste geht beschreibt andere Arten der Informationssuche, die nicht dem IR im engeren Sinn zuzuordnen sind. Allerdings ergeben sich fast überall mehr oder weniger enge Zusammenhänge, daher auch ausgewählte Bereiche, wo es zu einem Zusammenwachsen der Gebiete kommt.

Suche in strukturierten Datenbanken

Die Texte oder Einträge der Datenbasis eines typischen IR-Systems folgen in der Regel keiner einheitlichen Struktur, im Gegensatz etwa zu den Einträgen in einer re- lationalen Datenbank. Eine relationale Datenbank stellt vereinfacht eine Sammlung von Tabellen mit Einträgen einer definierten Form dar. Relationale Datenbanken und verwandte Datenbanken können mit speziellen Datenbankabfragesprachen (wie SQL) sehr zielgerichtet zur Ermittlung von Fakten und Beispielen abgefragt werden.

,,Welche Holzschrauben mit einem Durchmesser von 3,5 mm sind vorhanden, und was ist der St¨uckpreis?“

Der Benutzer muß die Art der in der Datenbank kodierten Information genau ken- nen. Unterschiede zu IR sind in Abbildung 1.3 dargestellt.

(11)

1.2. VERWANDTE ARTEN DER INFORMATIONSSUCHE UND BENACHBARTE INFORMATIONSSYSTEME

Datenbankabfrage versus IR

Frage und Ergebnis

Gespeichert Relationen, Fakten Textdokumente

in expliziter Form (Tabellen) implizite Information Oft numerische Information Kaum num. Information Genaue Anfrage

Direkte Antwort (Werte/Einträge/Teile von Tabellen)

u.U. vage Anfrage Wahrscheinlich relevante Dokumente

Indirekte Antwort

Kriterium für erfolgreiche Recherche

Korrektheit/Vollständigkeit Nützlichkeit/Vollständigkeit/

Sauberkeit

(objektiv) (subjektiv)

Zeitaufwand für erfolgreiche Recherche

Im wesentlichen nur von Suchgeschwindigkeit des Systems für geg. Query abhängig

Erfahrung des Rechercheurs, Zahl der logischen Entscheidungen bei Auswertung spielt mit.

Math. Hintergrund Relationale Algebra Statistik

Abbildung 1.3: Unterschiede zwischen Datenbankabfrage und IR.

Ein Zusammenwachsen von IR und Datenbankabfrage ergibt sich im Bereich der Abfrage von XML-Dokumenten, die in Kapitel??diskutiert wird.

Hypertext-Informationssysteme

Zeichnen sich dadurch aus, daß sich von einer dem Benutzer bekannten Startseite alle relevanten Informationen dadurch ergeben, daß man markierten Links im Text folgt.

Beispiel 1.2.1 [Informationen zu deutschen St¨adten]

Im WWW findet man unter Adressen wie ,,http://www.muenchen.de/“ Informa- tionen zu St¨adten. ¨Uberlicherweise sind von der Startseite Seiten zu spezielleren Themen wie

• St¨adtische Einrichtungen

• Kunst und Kultur

• Wirtschaft

etc. durch Anklicken entsprechend benannter Links zu erreichen.

Die Aufgliederung muß einem klar erkennbaren System folgen, damit eine möglichst schnelle Navigation unterstützt wird. Andererseits gibt es immer zahlreiche orthogonale Querbeziehungen, die durch Links zwischen unterschiedlichen Bereichen realisiert sind. Einerseits sind Querverbindungen nützlich. Andererseits können zu viele Links dazu führen, daß sich der Benutzer ,,verirrt“.

Expertensysteme

Bereits in den sechziger Jahren wurde der Versuch unternommen, das Wissen menschlicher Experten eines bestimmten Gebiets mit Hilfe geeigneter Wissensre- pr¨asentationsformalismen und logischer Formalismen in abfragbarer Form auf dem

(12)

IR versus DB versus Expert Systems

IR

DB

ES

Antwort: Dokumente und Referenzpunkte Speichert natsprl. Textdokumente

Bearbeitet approximative Anfragen Antwort: mit spezifischen Fakten Speichert Wissen über Domäne Bearbeitet nat.sprl. Fragen

Antwort: (num.) Daten, Teile von Tabellen Speichert Fakten in Tabellenform Bearbeitet exakte Matchanfragen

(Aus G. Salton/M.J.McGill: Introduction to Modern Information Retrieval, McGraw-Hill Int. Editions, 1983)

Computer zu hinterlegen. Ziel ist es jeweils, aus der damit vorhandenen ,,Wissensba- sis“ in bestimmten Situationen neue Informationen abzuleiten, die als Handlungsan- leitung nutzbar sind. Unterschiede zu IR und DB sind in Abbildung 1.4 dargestellt.

Typisch ist, daß die erw¨unschte Information i.a. nicht explizit vorhanden ist, sondern durch Deduktionsmechanismen abgeleitet wird.

Beispiel 1.2.2 bei einem komplexen technischen System (Motor, Kraftwerk,...) tritt ein Fehler auf. Aus einer Liste von Symptomen sollen Rückschlüsse auf mögli- che Ursachen gezogen werden, Reparaturanleitungen ausgegeben werden etc.

Beispiel 1.2.3 Fahrplanauskunft.

Managementinformationssysteme bzw. Entscheidungsunterst¨utzungssy- steme

Eng verwandt zu Expertensystemen. Unterstützen das Management großer Firmen und Organisationen. Aufgrund gegebener Daten werden Prognosen über zukünftige Entwicklungen angeboten, die Auswirkungen (Kosten) unterschiedlicher Entschei- dungen berechnet und vergleichend dargestellt etc.

(13)

1.3. VERWANDTE DISZIPLINEN 13

1.3 Verwandte Disziplinen

Informationsfilterung

Typisches Problem: Aus einer Menge eingehender Nachrichten sollen all diejenigen herausgefiltert werden, die sich um ein fest vorgegebenes Thema (Kriminalit¨at, Akti- enkurse, etc.) drehen. Dokumentenbasis nicht fix. U.U. große Zahl von Nachrichten, schnelle Bearbeitung n¨otig.

Klassifikation von Texten und Dokumenten

Hierbei ist typischerweise eine Menge (i.a.) disjunkter Kategorien fest vorgegeben (z.B. Sport, Politik, Kultur, Wissenschaft). Die Texte einer Dokumentensamm- lung sollen jeweils einer dieser Rubriken zugeordnet werden. Als Variante ist auch die Mehrfachklassifikation möglich. Verfahren zur Textklassifikation werden meist zunächst auf einer Trainingsmenge trainiert. Für die Dokumente der Trainingsmen- ge ist die korrekte Kategorie bekannt (,,supervised learning“). Enge Verbindung zum Gebiet des ,,machine learning“.

Clustering von Texten und Dokumenten

Textklassifikation und Textclustering werden manchmal synonym verwendet, ob- wohl eigentlich eine klare Trennung möglich ist. Beim Textclustering versucht man eine gegebene Kollektion von Texten bzw. Dokumenten in Cluster ähnlicher Doku- mente einzuteilen. Die Zahl der Cluster ist hierbei ebensowenig vorgegeben wie die inhaltliche Charakterisierung. Ziel ist es gerade, interessante inhaltliche Kategorien zu ermitteln, die zu einer Gruppierung der Dokumenten verwendet werden können.

Es ergibt sich eine enge Verbindung zum nachfolgenden allgemeineren Bereich.

Data Mining und Knowledge Disvovery in Datenbanken

Ziel: Entwicklung automatischer (seltener interaktiver) Verfahren, mit denen Re- gelmäßigkeiten in Mengen von Datensätzen gefunden und in eine für Nutzende verständliche Form gebracht werden.

Herausfinden relevanter Attribute. Anwendungsgebiet alle Arten von Datenban- ken (z.B. geographische DB, Firmendatenbanken,...).

Clusteringverfahren sind Beispiel. Enge Verbindung zum maschinellen Lernen.

Beispiel 1.3.1 Aus Verkaufsdaten und Umsatzzahlen sollen Regelm¨aßigkeiten beim Kundenverhalten festgestellt werden.

Beispiel 1.3.2 Aus Kundendaten einer Kreditgesellschaft sollen bessere Kriterien f¨ur die Aufnahme neuer Kunden entwickelt werden.

(14)

Aufgaben/Probleme eines IR Systems

formalisierte Abfrage

Benutzer Frage formales

Ergebnis

rohe Dokumenten- sammlung

Aufbereitete Dokumenten- sammlung Indexierung

z.B. Index

Abgleich Automatische

Indexierung Termklassifikation Dokumentenklassifikation

Schnelle Zugriffstechniken Datenorganisation

Konzeptuelle Modelle für Relevanz/Ähnlichkeit

Abfragesprachen

Ergebnis-Evaluierung Aufbereitung/Ranking

Vereinfachte Inhaltsrepräsentation typisch:

Inhalts repräsentation Geeignete Formen der

Inhaltsrepräsentation

1.4 Teilaufgaben beim Design eines IR-Systems

Aus der Grobarchitektur eines typischen IR-Systems ergeben sich eine Reihe von Problemen, die man bei der Entwicklung von IR-Systemen zu l¨osen hat. Diese f¨uhren zu verschiedenen Forschungsgebieten innerhalb des IR. Siehe hierzu Abbildung 1.5.

(15)

Kapitel 2

Klassische

nicht-probabilistische Modelle des IR

2.1 Dokumentenrepr¨ asentation durch Keyword- Vektoren

Wir gehen bei den nachfolgend betrachteten Modellen davon aus, daß Dokumente formal repr¨asentiert sind durch einen Vektor, der angibt, welcheKeywords–ggfs. mit welchen Vorkommensh¨aufigkeiten oder Gewichten - im Dokument enthalten sind.

Die Vektoren k¨onnen damit Boolesch oder reellwertig sein. Die Frage der genauen Form und Bestimmung der Vektoren machen einen Teil der Unterschiede zwischen verschiedenen Modellen aus.

Als “Keywords” behandelt werden alle inhaltstragenden Wörter der Dokumen- tensammlung, auch Terme oder Indexterme genannt. Die Gesamtzahl der Index- terme gibt also die Länge der Dokumenten-Vektoren bzw. die Dimensionalität des zugrundeliegenden Vektorraums an.

—– Bild einf¨ugen —–

Bei der konkreten Auswahl und Festlegung der Keywords unterscheidet man unabh¨angig vom verwendeten Modell zwei Grundverfahren.

Beimassigned Indexingwerden m¨ogliche Indexterme von vorneherein festgelegt, unter Verwendung eines Thesaurus oder einer Ontologie. In den Dokumenten werden dann Terme ggfs. durch Vorzugsbenennungen ersetzt. Assigned Indexing wird in der Regel nur bei manueller Indexierung eingesetzt.

Beim derived Indexingwerden die Indexterme automatisch aus der Dokumen- tensammlung extrahiert. Vorher werden oft linguistische Hilfstechniken eingesetzt (vgl. Kapitel über Textrepräsentation). Inhaltslose “Stoppwörter” werden meist eli- miniert.

Die gesamte Dokumentenkollektion (di)1≤i≤N, dieN Dokumente enthalten soll, 15

(16)

kann formal durch eineTerm-Dokumenten-MatrixMbeschreiben werden. Der Ein- tragM^i,j gibt dann das Gewicht desj-ten Termstj imi-ten Dokumentdi an. Die i-te Zeile M^i, stellt den Keyword-Vektor von Dokument di dar, der angibt, mit welchen Gewicht der Termtj (j ≥1) indi auftritt. Die j-te Spalte M^,j gibt das Gewicht des Termstj in den Dokumenten di (1≤i≤N) an.

Die Term-Dokumenten-MatrixMist konzeptuell nützlich, um die nachfolgenden Zusammenhänge zu beschreiben. Für kleine Dokumentenkollektionen kann man sie als ein Array abspeichern, und hat damit die gesamte Dokumentenkollektion formal repräsentiert. Für größere Dokumentenkollektionen mit hunderttausenden oder gar Millionen von Dokumenten ist dies nicht realistisch. Die Zahl der Indexterme kann auch in die Hunderttausende gehen, damit benötigt die Matrix zuviel Speicherplatz.

Die Matrixdarstellung ist auch sehr redundant: da die meisten Keywords nur in wenigen Dokumenten auftreten, ¨uberwiegen Eintr¨age mit dem Gewicht Null.

Als Alternative werden sogenannteinvertierte Listen, auchinvertierte Filesge- nannt, verwendet. Diese geben f¨ur jedes Keywordtj eine Liste aller Dokumente an, in denen tj echt auftritt (Posting-Liste). Das Gewicht des Auftretens wird mitge- speichert.

—- Bild einf¨ugen —-

Es sollte klar sein, daß die invertierte Liste genau dieselbe Information wie die Term-Dokument-Matrix enthält. Die genaue Form und Verwendung der invertierten Liste hängt vom betrachteten Modell, weitergehend auch von der Art der Imple- mentierung ab. Hierzu folgen später weitere Hinweise.

Zipfsches Gesetz. Zur Auswahl geeigneter Keywords verwendbar. Beschreibung hinzuf¨ugen.

Nachfolgend verwendete Notation und Begriffe:

N Gesamtzahl der Dokumente der Dokumentenkollektion T Gesamtzahl der verwendeten Indexterme

di i-tes Dokument der Dokumentenkollektion tj j-ter Indexterm

tfj,i Zahl der Vorkommen (term frequency) des Indextermtj in di

cfj collection frequency desj-ten Indexterms

= Gesamtzahl aller Vorkommen vontj in der Dokumentensammlung dfj document frequency desj-ten Indexterms

= Zahl der Dokumente, in denentj auftritt

Wenn wir einen Indexterm t und ein Dokument d betrachten, ohne uns auf die Nummerniundj festzulegen, schreiben wir analogtft,d,cft,dft.

(17)

2.2. BOOLESCHES RETRIEVAL 17

2.2 Boolesches Retrieval 2.3 Fuzzy Retrieval

2.4 Das Vektorraum-Modell

2.4.1 Grundprinzip des VR-Modells

Idee des (nicht greifbaren) konzeptuellen Vektorraums.

Ann¨aherung durch Termbasis.

Orthonormalit¨atsannahmen.

Darstellung von Dokumenten und Queries als Vektoren.

Verwendung von ¨Ahnlichkeitsmassen zum Ranking Vorteile und Nachteile

Andere Vektorr¨aume.

2.4.2 Formen der Termgewichtung

Methoden der uniformen Wortgewichtung innerhalb der Dokumenten- kollektion

Wortgewichtung durch Ermittlung der Poissonüberschätzung. Die Poisson-Verteilungdient dazu, die zu erwartende Zahl von Vorkommen von Ereig- nissen in Einheiten (oder Folgen von Experimenten) fester Größe abzuschätzen. Bei- spiele für typische Anwendungen sind: Wieviele Telefonanrufe gehen in der Zentrale X innerhalb einer Minute ein (innerhalb einer längeren Zeitphase mit konstanter Anrufaktivität)? Wieviele Male tritt beim Roulette in einer Serie von 30 Ziehungen eine Zahl unterhalb 5 auf? Voraussetzung der Anwendbarkeit der Poisson-Verteilung ist, das die Wahrscheinlichkeit des Eintreffens eines Ereignisses (Anruf, Zahl unter 5) unabhängig von den vorausgegangenen bzw. nachfolgenden Ereignissen ist.

Aus der Zahl cf(w) von Vorkommen des Wortes (cf=collection frequency) in der Dokumentensammlung und der Zahl N aller Dokumente kann man mittels der Poisson-Verteilung absch¨atzen (s.u.), in wievielen Dokumenten w voraussichtlich vorkommt.SeidfP(w) (df=document frequency) dieser Wert. Seidf(w) die tats¨achli- che Zahl von Dokumenten, in denenwauftritt. Dann heißt der Wert

dfP(w) df(w) die Poisson- ¨Ubersch¨atzungvon w.

Die Poisson- Überschätzung vonwwird in der Regel dann etwa 1 betragen, wenn die Verteilung vonwden Poisson-Annahmen gut entspricht. Dies gilt am ehesten für Funktionswörter wie “und”, “so”. Je mehr ein Wort einen spezifischen Inhalt trägt,

(18)

Wort Poisson-¨ubersch¨atzung

note 0,9632

previously 0,9773

result 0,9783

says 0,9788

fullerton 9,9501

pentland 9,9501

Tabelle 2.1: Poisson- ¨Ubersch¨atzung von Worten in einem kleinen Experiment.

desto unplausibler ist die Poisson-Annahme: die Vorkommen des Wortes werden sich sehr stark auf diejenigen Dokumente konzentrieren, deren Thematik eng mit dem Inhalt von w verbunden ist. Daher erkannt man an einer großen Poisson- Ubersch¨atzung, welche W¨orter stark themenspezifisch sind. Diese stellen nat¨¨ urlich die besten Indexterme dar.

Absch¨atzung vondfP(w) mittels der Poisson-Verteilung: Es istλ(w) :=cf(w)/N die durchschnittliche Zahl von Vorkommen von w. Die Wahrscheinlichkeit, daßw in einem Dokument genaukmal auftritt, ist durch die Poisson-Verteilung

Pw(k) =e^−λ(w)λ(w)^k k!

gegeben. Es stelltλ(w) gerade den Erwartungswert (und die Varianz) der Verteilung Pwdar. Die Wahrscheinlichkeit, daß in einem zuf¨allig gew¨ahlten Dokument das Wort wgar nicht auftritt, ist demnachPw(0). Die Wahrscheinlichkeit, daßwauftritt, ist damit 1−Pw(0). Damit ist dfP(w) =N(1−Pw(0)).

Bei einem Versuch mit tausend Dokumenten aus dem Reuters-Korpus (siehe Online-Kurs) wurden die in Tabelle 2.1 dargestellten Werte erzielt: Es wird deutlich, dass “note” weniger inhaltreich ist als die bezeichnung “fullerton”.

In anderen Experimenten wird speziell die Verteilung inhaltstragender Wörter (content words) durch ein 2-Poisson-Modell beschrieben. Dabei geht man davon aus, daß sich für ein gegebenes content wordwdie Gesamtmenge der Dokumente in zwei Klassen zerlegen läßt, diejenigen Dokumente die inhaltlich etwas bzw. nichts mit w zu tun haben. Entsprechend ergeben sich zwei Parameter λ1 und λ2 für die in den beiden Dokumentenklassen zu erwartenden Vorkommenshäufigkeiten.

Ein neuer Parameter p gibt die Wahrsceinlichkeit an, daß ein zufällig gewähltes Dokument in der ersten Dokumentenklasse bzgl.wist. Bei diesem Modell zeichnen sich Funktionswörter dadurch aus, daß die abgeschätzten Werteλ1undλ2deutlich verschieden sind, die Abschätzung der Vorkommenshäufigkeit von w mit dem 2- Poisson-Modell abernahe zu den tatsächlich beobachteten Häufigkeiten ist.

Wortgewichtung durch Ermittlung von Discrimination-Values.

Dokumentenabh¨angige Wortgewichtung Hier tf-idf Gewichtung beschreiben.

(19)

2.4. DAS VEKTORRAUM-MODELL 19

2.4.3 Ahnlichkeitsmaße ¨ 2.4.4 Ranking-Berechnung

Bei der effizienten Berechnung der Ranking-Werte macht man sich die Beobach- tung zunutze, daß sich für viele Ähnlichkeitsmaße die Gesamtähnlichkeit zwischen einem Dokument dund Anfrageq mit kTerment1, . . . , tk additiv als Summe von k Summanden darstellen läßt. Deri-te Summand gibt den Beitrag desi-ten Terms ti zur Ähnlichkeit vonqmitdan. Die einzelnen Summanden hängen nicht von der Anfrage ab, sondern nur von den Eigenschaften des betreffenden Terms. Dies sieht man z.B. leicht beim Cosinus-Maß

cosq,d=X

t

wq,t·wd,t

qP

tw²q,t·q P

tw_d,t²

Verwendet man ein Ähnlichkeitsmaß, das in diesem Sinn additiv ist, so kann man in den invertierten Listen im Posting-File des Terms t beim Dokument d gerade den Gewichtsbeitrag von t zur Ähnlichkeit abspeichern. (Beim Cosinus kann man den Beitrag der Query-Länge zum Nenner ignorieren, da sie die Rankingwerte nur linear verändert.)

Zur effizienten Berechnung der Ähnlichkeitswerte kann man damit wie folgt vor- gehen. Man führt einen Akkumulator (eine Liste) Akk der Länge N, wo Akk[i]

(1 ≤i≤N) einen partiell berechneten Relevanzwert für Dokumentdi angibt. Zu Beginn initialisiert man alle Werte mit Null. Es werden nun die Termetder Anfrage qder Reihe nach behandelt. Für den Termtaddiert man die in den Posting-Listen gefundenen Ähnlichkeitsbeiträge zu den einzelnen Dokumenten zu den betreffenden Akkumulatorpositionen hinzu. Nachdem alle Terme t der Anfrage behandelt sind, stellen die Akkumulatorwerte die Ähnlichkeitswerte dar. Werte ungleich 0 werden sortiert und mit den zugehörigen Dokumentenummern ausgegeben.

2.4.5 Pruning und vereinfachte Berechnung von Ranking- Werten mit thresholding.

Bei großen Dokumentenkollektionen hat man mit dem Problem zu k¨ampfen, daß es sehr viele Dokumente gibt, in denen zumindest ein Term aus der Anfrage auftritt. Dadurch wird die Liste der zu erfassenden Akkumulatorwerte6= 0 sehr groß.

Dies führt zu einem großen Speicherbedarf, auch die Berechnungszeit steigt an. Als Ergebnis erhält man oft eine sehr lange Ranking-Liste, wo sehr viele Dokumente jedoch praktisch irrelevant sind, da sie einen geringen Ähnlichkeitswert haben.

Wenn man nur an der Berechnung derk-besten Ergebnisse interessiert ist, kann man das Verfahren vereinfachen. Buckley und Lewitt 85 gehen wie folgt vor. Die Terme der Anfrage werden nach fallendem Gewichtwq,tsortiert. Man geht ähnlich wie beim einfachen Verfahren vor, beginnend mit dem Term mit dem höchsten Gewicht. Über diek+ 1 besten aktuellen partiellen Ähnlichkeits-Werte wird Buch geführt. Sobald es aufgrund des geringen Gewichtswq,tnicht mehr möglich ist, daß Akk[k+ 1] den WertAkk[k] noch einmal übersteigt (Details des Tests hängen von den verwendeten Gewichten und Ähnlichkeitsmaßen ab), bricht das Verfahren ab und gibt die k besten Dokumente aus. Das Ranking könnte etwas verfälscht sein, da nicht notwendig alles Keywords behandelt sind.

(20)

In Frakes und Baeza-Yates ist eine andere Pruning-Methode aus Harman und Candela 1990 dargestellt:

1. Sortierte die Query-Terme nach absteigendem idf-Wert.

2. Hole die invertierte Liste fuer den ersten Termt. F¨uge die dort aufgelisteten Termgewichte f¨ur die Dokumente zu den betreffenden Akkummulatoren hinzu.

3. Prüfe die idf-Wert des nächsten Query-Terms. Ist der idf-Wert ≥ zu einem Drittel des maximalen idf-Werts irgendeines Indexterms, dann wiederhole die Schritte 2-3. Andernfalls wiederhole 2,3, aber füge neue Anteile nur zu Akku- mulatorfeldern hinzu, die bereits einen positiven Wert haben.

4. Sortiere am Ende die Akkumulatorfelder mit positivem Gewicht. (Alle Do- kumente, die nur Terme mit kleinem idf-Wert haben, erhalten automatisch Gewicht Null.)

5. Falls die Anfrage nur hoch-frequente Terme mit geringem idf-Wert besitzt, klappt diese Art des Pruning nicht gut.

Die Laufzeitverbesserungen, die sich durch diese Variante ergeben, liegen bei großen Dokumentenkollektionen bei einem Faktor von 2-3. Hierzu vgl. Tabelle S. 387 aus Frakes und Baeza-Yates.

In einer späteren Arbeit zeigen Persin, Zobel, und Sacks-Davis 1995 wie man im Verlauf der Gewichtsberechnung vermeiden kann, die Posting-Files der Termet vollständig zu inspizieren, und wie man die Länge der betrachteten Akkumulatorli- ste reduzieren kann. Sie verwenden die Variante

Cq,d=X

t∈d

wq,t·wd,t

qP

tw²_d,t

des Cosinus-Maßes, die zu unveränderten Rankingreihenfolgen führt. Im Nenner ist die Länge der Anfrageqweggelassen. Als Gewicht des Termstin einer Anfrage oder einem Dokumentxwird

wx,t:=tfx,t·log2

N dft

angegeben¹. Es ist wt = log2N

dft die inverse Dokumentenh¨aufigkeit von t. Mit simq,d,t:=wq,t·wd,t undWd :=q

P

tw²_d,t erh¨alt man die additive Darstellung Cq,d=X

t∈d

simq,d,t

Wd

.

Persin, Zobel, und Sacks-Davis verwenden eine Kandidatenliste, die der Akku- mulatorliste entspricht, im allgemeinen aber nur wenige Dokumente (Kandidaten) berücksichtigt. Sie ist damit i.a. wesentlich kürzer. Wie bei den oben besprochenen Verfahren werden die Query-Terme nach Gewicht sortiert. Bevor ein Termtbehan- delt wird, werden zwei Grenzwertesaddundsins berechnet. Für die Werte gilt stets sadd ≤sins. Wird die Posting-Liste für t prozessiert, vergleichen wir die partielle Ahnlichkeit¨ simq,d,tmit den Grenzwerten. Ist sins ≤simq,d,t, so wirdd auf jeden Fall in die Kandidatenliste mitaufgenommen (es kann schon darin sein). Die Akku- mulatorzelle fürdwird entsprechend (bei Bedarf neu eingerichtet und) erhöht. Gilt

1Bei der ersten Angabe auf S. 3 in der Arbeit ist der Werttfx,tlogarithmiert, dies widerspricht allerdings sp¨ateren Umrechnungen.

(21)

2.4. DAS VEKTORRAUM-MODELL 21 sadd ≤simq,d,t< sins, so wird nur dann der Wert addiert, wenn der Akkumulator f¨urdbereits existiert. Andernfalls passiert nichts, ebenso wennsimq,d,t< sadd.

Die Grenzwerte werden in der Form

sins = cins·Smax

sadd = cadd·Smax

definiert, wobei 0 ≤cadd ≤cins Parameter (Konstante) sind, die die Schärfe des Prunings regeln.Smaxist die maximale partielle Ähnlichkeit zwischen einem Doku- ment und der Anfrage nach der Behandlung eines Teils der Anfrageterme, die im Algorithmus mitgeführt wird (s.u.). Hat die Posting-Liste fürtim invertierten File Einträge der Formhd, fd,ti, können wir die Grenzwertbedingung auch direkt mit den Häufigkeitswertenfd,tausdrücken. Eine kleine Rechnung zeigt, daß die Grenzwerte fürfd,t durch

fins = cins·Smax

tfq,t·w²_t fadd = cadd·Smax

tfq,t·wt²

gegeben sind. Der Filter-Algorithmus hat denn die folgende Form:

1. Bilde eine leere Akkumulatorliste.

2. Sortiere die Anfrage-Terme nach absteigendem Gewichtwq,t. 3. SetzeSmax:== 0.

4. F¨ur jeden Termt der Anfrage:

(a) Berechne die Grenzwertefins undfadd. (b) Hole das Postings-File f¨ur tvon der Festplatte

(c) F¨ur jeden Eintraghd, tfd,ti:

i. Falls tfd,t ≥ fins, bilde falls notwendig einen Akkumulatoreintrag Akkd f¨urd, setzeAkkd:=Akkd+simq,d,t.

ii. Andernfalls, fallsfd,t≥faddundAdexistiert, setzeAkkd:=Akkd+ simq,d,t.

iii. SetzeSmaxals Maximum vonSmaxund dem neuen WertAkkdfest.

5. Teile jeden Akkumulatorwert durchWd.

6. Identifiziere diekh¨ochsten Werte und gebe die korrespondierenden Dokumen- te aus.

Um den Zugriff auf Posting-Files zu minimieren, sind diese nicht nach Dokumenten- Nummern, sondern nach abfallendem Wert tfd,t gegliedert. Man braucht dann in der Regel nur kurze Anfangsst¨ucke der Listen. Damit wird insgesamt der Transport von der Festplatte zum Arbeitsspeicher minimiert, neben dem Bedarf an Arbeits- speicher.

(22)

2.4.6 Relevanz-Feedback und Anfrage-Modifikation

2.4.7 Feature-Reduktion durch latent semantisches Indexie- ren

Kurzzusammenfassung: Siehe Ferber oder Online-Skript.

Lange Version: Goller-Ausarbeitung.

2.5 Dokumenten-Clustering

Im Prinzip für jedes IR-Modell möglich, wo man Dokumente oder ihre Repräsenta- tionen mittels eines geeigneten Ähnlichkeitsmaßes vergleichen kann. In diesem Sinn eher neue Form der Benutzerinteraktion bei gegebenem Modell als ein eigenständi- ges Modell.

Grundthese: Es gibt charakteristische Gruppen ¨ahnlicher Dokumente (“Clu- ster”). Die Vorberechnung von

• Ahnlichkeitswerten der Dokumente untereinander¨

• der Cluster ¨ahnlicher Dokumente

kann im IR in unterschiedlicher Weise ausgenutzt werden.

Man unterscheidet hierarchische versus nichthierarchische Clusterbildung. Bei der nichthierarchischen Clusterbildung enthalten die Cluster keine Teilcluster. Im Regelfall stellen die Cluster damit eine Partitionierung (disjunkte Zerlegung) des Dokumentenraums dar. Bei der hierarchischen Clusterbildung sind Cluster und Teilcluster weiterunterteilt. Typischerweise hat jeder komplexe Cluster zwei unmit- telbare Teilcluster. Diese Muster ist allerdings durch die unten zu besprechenden Algorithmen bedingt.

2.5.1 Verwendung von Clustern im Information Retrieval

Cluster-Retrieval

Für jeden Cluster wird ein Centroid (Vektor eines “virtuellen” Dokuments, das den Schwerpunkt des Clusters darstellt) als Repräsentant berechnet. Beim Retrival werden zunächst die Retrievalgewichte der Zentroiden der maximalen Cluster relativ zur Anfrage bestimmt. Die Centroiden der Teilcluster (bei hierarchischern Cluster- bildung) bzw. die Dokumente in den am besten gerankten Hauptclustern werden anschließend gerankt. Bei hierarchischen Clustern wird dies wiederholt.

Ahnlichkeitssuche¨

Ist bei gegebener Anfrage bereits ein relevantes Dokument bekannt, so kann man vorberechnete ¨Ahnlichkeiten und/oder Cluster ausnutzen, um dem Benutzer ¨ahnli-

(23)

2.5. DOKUMENTEN-CLUSTERING 23 che Dokumente anzuzeigen. Dies stellt eine sinnvolle Ergänzung zu anderen Retrie- valarten bzw. Interaktionsmuster dar. Allerdings können gerade beim Vektorraum- modell Ähnlichkeiten auch direkt berechnet werden.

Cluster-Browsing

Ist die Dokumentenmenge hierarchisch in Cluster aufgeteilt, und können die Cen- troiden dem Benutzer in einer Form angezeigt werden, die einen guten Rückschluss auf die Dokumente im Cluster erlaubt, so kann man auch ohne eine konkrete Anfra- ge in den Clustern Browsen. Man folgt dann den Darstellungen der Centroiden, bis man in einschlägigen Clustern landet. Dort erfolgt eine Inspektion der Dokumente.

Das Suchvorgehen entspricht genau der Suche in Web-Directories (s. Hinten) wie Yahoo oder OpenDirectoryProject. Allerdings werden dort statt der Centroiden aussagekräftige Kategorienbezeichner für die Directories verwendet, die eine konzeptuell sinnvolle thematische Hierarchie ergeben. Die Dokumente von Hand oder teilautomatisiert dann den Directories hinzugefügt.

Scatter-Gather-Browsing

Erfolgt durch Wiederholung von zwei Phasen, bis gew¨unschtes Suchergebnis vor- liegt.

• Scatter. Die aktuelle Dokumentenmenge wird in eine vorgegebene Anzahl disjunkter Cluster unterteilt. Die Centroiden werden dem Benutzer in geeineter Weise angezeigt.

• Gather. Der Benutzer w¨ahlt diejenigen Cluster (nzw. Centroiden) aus, die ihm interessant erscheinen. Die Dokumente in den Clustern werden zusammenge- worfen, die entstehende Dokumentenmenge dient als Eingabe des n¨achsten Scatter-Schritts.

Man kann das Scatter-Gather Browsen als eine Art dynamische Variante des Cluster-Browsings auffassen, da die untergeordneten Cluster nicht vorberechnet sind. Das Problem beim Scatter-Gather-Browsing liegt darin, die entstehenden Clu- ster bzw. ihre Centroiden auf eine Weise dem Benutzer anzuzeigen, daß ein hinrei- chend genaues Bild der im Cluster enthaltenen Dokumentenmenge entsteht.

2.5.2 Einfache Verfahren zur Cluster-Berechnung

Berechnung nicht-hierarchischer Cluster

Grundverfahren.

Single Pass Methods.

Berechnung hierarchischer Cluster Anh¨aufende versus verteilende Clusterbildung

(24)

Single Linkage Clustering.

Complete Linkage Clustering.

(25)

Kapitel 3

Probabilistische Modelle des IR

25

(26)

(27)

Kapitel 4

Evaluierung von IR-Systemen

27

(28)

(29)

Kapitel 5

Anwendung von Methoden der Sprachverarbeitung im Information Retrieval

5.1 Probleme einer naiven Indexierung

Bei einer g¨angigen, naiven Indexierung geht man wie folgt vor

• Zerlege Text ggfs. nach Elimination von Sonderzeichen in Tokens

• Eliminiere Stoppw¨orter (Wichtige Nebenwirkung: Verkleinerung des Index, vgl. zu Pruning, LSI, konzeptuell nahe)

• ¨ubrigbleibende Tokens werden als Einzelw¨orter indexiert.

Praktisches Problem: Kurze Tokens der Länge ≤ 4. In diesem Längenbereich findet man viele Akronyme und Abkürzungen, daher sollte man alles, was sich nicht uberzeugend “als wichtiges Wort ausweisen” kann, weglassen.¨

Konzeptuelle Schwachstellen:

• Definition von “Stoppwort” unklar. Zwei Vorstellungen: inhaltslose Wörter bzw. Wörter, deren Indexierung keinen Nutzen bringt. Ansichten, welche Wörter bei der Indexierung Nutzen bringen, gehen auseinander.

• Unterschiedliche Flexionsformen desselben Worts werden als unabh¨angige (Beim VR-Modell orthogonale) Keywords behandelt.

• Dasselbe gilt f¨ur Wortbildungsvarianten (berechnen, Berechnung)

• Synonyme (unterschiedliche W¨orter gleicher Bedeutung)

Homonyme (gleichgeschriebene und gleichlautende W¨orter unterschiedlicher Bedeutung)

Homographen (gleichgeschriebene, anders gesprochene W¨orter verschiedener Bedeutung) bleiben unber¨ucksichtigt.

29

(30)

• Semantische Nähe von Wörtern bleibt unberücksichtigt

• Mehrwortlexeme (wie “semantisches Netz” oder “Information Retrieval”) werden nicht erfasst, ebenso andere Phrasen spezifischer Bedeutung (“jemanden den Hals umdrehen”).

Es gab bereits früh Versuche, IR durch linguistische und verwandte Verfahren der Sprachverarbeitung zu verbessern. Man kann die meisten Verfahren als eine Form der Normalisierung sprachlicher Ausdrücke einer ähnlichen oder gleichen Bedeutung betrachten. Reicht zum Grundproblem zurück: was ist die Bedeutung eines Textes, wie kann man sie erfassen?

LMI Linguistic motivated Indexingversucht, linguistisch sinnvolle Einheiten (in geeigneter Weise normalisiert) zu indexieren

Non-linguistic Indexingbetrachtet nur Zeichenketten.

Hauptzielvon LMI und Techniken der Sprachverarbeitung: historisch: Verbes- serung von Pr¨azision und Recall beim traditionellen IR. Eng verwandt werden linguistische Methoden aber auch beim Information Filtering bzw. Message Under- standing (MUC), bei der automatischen Textzusammenfassung und teils bei der Textklassifikation eingesetzt.

Heutiges Resumee: Früherer naiver Optimismus im Hinblick auf bessere Inde- xierung und besseres Retrieval heute zerstört. Im Bereich des Englischen hat sich Stemming (s.u.) bewährt, tiefergehende linguistische Techniken bei der Indexierung brachten kaum Verbesserungen, manche Verfahren sogar negative Wirkung. Zu erwartende Ergebnisse hängen allerdings stark von der zugrundegelegten Sprache der Dokumente ab. Bei morphologisch reichen, stark flektierenden Sprachen deutlichere Verbesserungen durch morphologische Normalisierung möglich.

Viele größer ist die Rolle beim Information Filtering. Auch bei Formen der Text- zusammenfassung und Textpräsentation innerhalb des IR können großere zusam- menhängende linguistische Einheiten (Phrasen, Sätze) nützlich sein und bessere Textportraits liefern als bloße Listen einfacher Keywords.

Uberblick¨ ¨uber nachfolgend angesprochene Themen: Zwei Komplexe:

(a) Morphologische und syntaktische Methoden 1. Normalisierung einzelner Wortformen

2. Kompositabehandlung 3. Mehrwortlexeme

4. Phrasen-Parsing und Erkennung von Pr¨adikat-Argument-Strukturen (b) Semantische Techniken

5. Thesauri (Synonymie, Homonymie, semantische ¨Ahnlichkeit) 6. Wortnetze

Mehr in “Natural Language Information Retrieval” (Editor: Tomek Strzalkow- ski).

(31)

5.2. NORMALISIERUNG EINZELNER WORTFORMEN 31 [Noch zu erl¨autern: Pr¨a- versus Postkoordination]

5.2 Normalisierung einzelner Wortformen

Ziel: Identifikation unterschiedlicher Flexionsformen desselben Worts, Identifikation von Wortbildungsvarianten. Wichtige Nebenwirkung: Verkleinerung des Index, vgl.

Stoppwortelimination, Pruning.

Zwei Gruppen von Verfahren

1. “Stemming” bzw. “Konflation”. Verfahren teils nicht reinrassig linguistisch.

Versuchen typischerweise, Wortendungen abzutrennen, um Wort“stamm” zu erhalten. Grundlagen sind Listen h¨aufiger Endungen, Reduktionsregeln. Meist f¨ur Englisch.

2. “Lemmatisierung“ bzw. “Grundformreduktion”. Teils regelbasiert, heute meist mit elektronischen Vollform-Wörterbüchern realisiert. Wörter werden durch Grundform (“Lemma”, z.B. bei Verben: Infinitiv, bei Nomen: Nomina- tiv Singular) ersetzt. Lemmas zu Vollformen sind fertig im Lexikon kodiert.

Eher bei Deutsch.

5.2.1 Stemming Algorithmen

Konflation: Kürzen, Kombinieren, auch Zusammenfügen von Wörtern und Wort- elementen, um unterschiedliche morphologische Varianten eines Worts zu matchen.

Algorithmen zur Konflation: Stemmer.

-Table-Lookup Stemmer -Successor-Variety Stemmer -Affix Removal Stemmer -n-Gramm Stemmer

Kriterien: Korrektheit: kein overstemming, kein understemming, Pr¨azision, Re- call, Indexreduktion.

Table-Lookup Stemmer

Mögliche volle Wortformen und zugehörige Stems in Tabelle (“Lexikon”) gespeichert. Ähnliche Probleme wie bei lexikonbasierter Grundformreduktion (Ambi- guität).

Successor-Variety Stemmer

Grundlage: In großem Hintergrundkorpus stelle für jedes vorkommende Wortpräfix die Zahl unterschiedlicher möglicher Nachfolgebuchstaben (in Worten des Korpus) fest. z.B. “readable”

r: 3 (e,i,o)

(32)

re: 2 (a,d) rea: 1 (d) read: 2 (a,s) reada: 1 (b) ...

readable: 1 (blank)

Aufgrund dieser Info werden Wörter zunächst segmentiert (s.u.). Danach erfolgt die Stem-Bestimmung: Faustregel: falls erstes Segment in<12 Wörter im Korpus auftritt, nimm dieses, sonst nimm zweites Segment (erstes ist Präfix, im englischen sind Doppelpräfixe sehr selten).

Segmentierung: Mehrere Verfahren, teils kombinierbar Complete word method:

trenne nach Segment, das als vollständiges Wort im Korpus Peak & Plateau: trenne nach Buchstaben, wo NFZ höher als beim Vorgänger und Nachfolger (read)

Affix Removal Stemmer

Entfernen Präfixe und Suffixe von Termen, manchmal unter Anwendung von Zu- satztransformationen. Übrig bleibt das Stem. Oft wird wiederholt nach bestimmten Regeln die längste mögliche Sequenz entfernt, das Verfahren wiederholt bis keine Charaktre mehr abtrennbar sind (“iterative longest match”). Zur Korrektur der Ergebnisse werden ggfs. bestimmte Transformationen angewandt. Bekanntestes Bei- spiel ist

Porter Stemmer (1980) Anwendung von Regeln, in Schritte eingeteilt. Regelan- wendungen haben teils Pr¨amissen (Conditions). Zur Formulierung von Konditions folgende Begriffe/Notationen

1. Maß m eines Stems: Zahl alternierender Vokal-Konsonant (V-C) Folgen. Als Vokale gelten a,e,i,o,u sowie y nach Konsonant [..] deutet Optionalit¨at an.

Form [C](V −C)^m[V] z.B. tree, by habenm= 0 trouble, trees habenm= 1 troubles, private haben m= 2

2. ∗hXiStem endet mit BuchstabenX 3. ∗V∗Stem enth¨alt Vokal

4. ∗dStem endet mit Doppelkonsonant

5. ∗oStem endet mit Sequenz der FormC−V−Cwobei letzter Konsonantw, x odery ist.

Algorithmus:

Wende die den nachfolgenden Schritten zugeordneten Regelmengen von oben nach unten an. Es darf auf den Eingabestring jeweils nur die oberste m¨ogliche Regel angewandt werden. Dabei wird Regelmenge von Schritt 1 auf das Eingabewort angewandt, die nachfolgenden Regeln auf die in den Zwischenschritten entstandenen Strings.

Step 1a Step 1b

If second or third rule of Step 1b was used Step 1b1;

(33)

5.2. NORMALISIERUNG EINZELNER WORTFORMEN 33 Eingabe instantiation offered computation

m 4 3 4

1a instantiation offered computation 1b instantiation offer computation

1b1 - offer computation

1c instantiation offer computation 2 instantiate offer computate 3 instantiate offer computate

4 instantiate off comput

5a instantiate off comput

5b instanti off comput

Tabelle 5.1: Beispiele Porter Stemmer Step 1c

Step 2 Step 3 Step 4 Step 5a Step 5b

Folien aus Adela Filzmayer Margetic Referat.

Beispiele

Ergebnisse von Stemming-Verfahren und ihrer Verwendung teils etwas wider- sprüchlich. Kein Verfahren funktioniert 100-prozentig fehlerfrei. Stemming bei englischen Texten heute allgemein üblich. Für stark flektierende Sprachen lexikalische Lemmatisierung besser.

5.2.2 Regelbasierte Grundformreduktion

F¨ur das Englische nach Kuhlen 77. Fuhr S. 53-55. Folien hinten.

5.2.3 Lexikonbasierte Grundformreduktion

Flektierte Wortformen werden im Vollformenlexikon nachgeschlagen. Dort ist zu jeder Form das Lemma notiert. Im Text werden Vollformen durch Lemmas ersetzt.

• Leistet nur Erkennung unterschiedlicher Flexionsformen (im Gegensatz zu De- rivationsformen).

• Indexverkleinerung bis zu 50% bei morphologisch reichen Sprachen.

• Erkennung des Lemmas teils schwierig wegen Ambiguitäten (“heute” von heu- en). Zur Auflösung von Ambiguitäten sind syntaktische bzw. statistische Ver- fahren notwendig, die aber enge Grenzen haben. Desambiguierungstechniken umfassen: Gross-Kleinfilter: Kleingeschreibene Wörter sind keine Nomen (bis auf Sonderfälle) Eigennamen (Blau) müssen gross sein. Statistische oder linguistische Kontextanalyse. Z.B. Tagging.

(34)

• Probleme durch mangelnde Abdeckung des Lexikons (Abk¨urzungen, Akrony- me, fremdsprachliche, veraltete, mundartliche Ausdr¨ucke, Slang, Eigennamen, Geos, Fachbegriffe etc.)

5.3 Komposita-Behandlung

Wichtig f¨ur das Deutsche: jedes 6. Nomen ist zusammengesetzt. Komposita (wie

“Wortendung”) können in Anfrage und im Text und in Anfrage auftreten. Weder eine regelbasierte noch eine lexikonbasierte Kompositazerlegung funktioniert wirk- lich gut. Bei lexikonbasierter Zerlegung braucht man Millionen von Einträgen, alle Komposita abzudecken bleibt unmöglich (zu produktiv). Regelbasierte Verfahren haben mit ambigen Zerlegungen (Staatsexamen, Arbeitsamt) zu kämpfen. Zulässi- ge Fugen (Schweinsbraten, aber nicht Lammsbraten) kaum mit Regeln zu erfassen.

Zerlegung macht nur bei Komposita mit kompositionaller Semantik Sinn (vor- schlagen, Milchstraße, Ziegenmelker).

Notorisch schwieriges Problem. Große Kompositalexika schwer zu erstellen, k¨onnen dann aber einen signifikanten Teil der vorkommenden Komposita korrekt abdecken.

5.4 Behandlung von Mehrwortlexemen

Der Begriff des Mehrwortlexems ist nicht genau geklärt. Linguisten reden von “fro- zen expressions”, “idiomatischen Wendungen”, eine genaue Definition liegt aber nicht vor. Für IR wichtig sind vor allem zusammengesetzte terminologische Aus- drücke bei der Suche in Fachdatenbanken. computational linguistics, abelsche Grup- pe, Top-down Parser, chemisches Element. Liegt keine Indexierung vor, teils mit nachgeordneter Mehrwortsuche auffindbar.

Man kann auch einen kleinen Teil wichtiger Mehrwortlexeme indexieren, bis hin zu kompletten NPs.

Multindexierungsansätze: Verwende nicht einen Index, sondern mehrere (für Einzelwörter, Komposita, MWL). Jeder Index kann mit eigener Retrievalmetho- de und eigenem Rankingwert kommen. Bei der Gesamtgewichtung setze lernende Verfahren ein, um relative Wichtigkeit der einzelnen Rankingwerte einzustellen.

5.5 Phrasen-Parsing

Das Erkennen komplexer Phrasen ist weniger beim Indexieren und Retrieval wichtig:

komplexe NPs sind meist zu speziell, treten zu selten auf. Könnte einen Beitrag zur aussagekräftigen Repräsentation des Dokumenteninhalts von Dokumenten in der Antwortmenge bieten. Verwandt werden Techniken der Dokumentenzusammenfas- sung und des “Abstracting” untersucht.

Wichtig ist Phrasenparsing bei Methoden des Information Filtering, wo Infor- mationen einer ganz speziellen Art erkannt werden. In diesem Zusammenhang wird

(35)

5.5. PHRASEN-PARSING 35

“flaches” Parsing eingesetzt (Parsing ganzer Sätze beliebiger Texte ist auch heute kaum möglich, wenn man an großer Abdeckung interessiert ist). Man setzt dann oft kaskadierende Automaten oder Transducer ein, um komplexe Prädikat-Argument- Strukturen (z.B. Filtering von Firmenzusammenschlüssen: wer hat wenn wann zu welchem Preis aufgekauft?) zu erfassen.

Geht eigentlich schon in den Bereich Semantik, wie auch Textzusammenfassung letztlich semantische Aufgabe ist.

(36)

5.6 Thesauri

(Synonymie, Homonymie, semantische ¨Ahnlichkeit)

(37)

5.7. WORTNETZE 37

5.7 Wortnetze

(38)

(39)

Kapitel 6

Dokumentation, Meta-Information, Begriffssysteme, Wissensressourcen

Die in diesem Abschnitt dargestellten Techniken der Dokumentation dienen innerhalb des Information Retrieval dazu, Dokumente leichter auffindbar zu machen, indem ihr Inhalt von einem ¨ubergeordneten Standpunkt beschreiben wird.

Da ähnliche Techniken in viele Gebieten zur Strukturierung von Wissen allgemein eingesetzt werden, geht die nachfolgende Diskussion teils über den Rahmen des IR hinaus. Wollen klären:

• Was sind Taxonomien, Konzepthierarchien, Ontologien, Systematiken, Klassi- fikationsschemata, Metadaten,... ? Was hebt sie von Thesauri und von semantischen Netzen wie WordNet ab, wie passen die Begriffe in ein ¨ubergeordnetes Gesamtbild?

• Welcher Zusammenhang ergibt sich zur Suche im Web und zu Formalismen im Umfeld des semantischen Webs wie RDF, Topic Maps, OWL? Während “klassische Dokumentations-Techniken” das Auffinden von Dokumenten durch den menschlichen Benutzer unterstützen, addressieren aktuelle Forschungen im Bereich des semantischen Webs das Problem, Dokumente, Programme und Webressourcen einer bestimmten Fuktionalität automatisch auffindbar zu machen.

Schließlich wollen wir einige Techniken, Beispielanwendungen und Formalismen etwas n¨aher betrachten.

39

(40)

6.1 Versuch eines Orientierungsrahmens

Parallel zu den oben beschriebenen allgemeinenAufgabenunterscheiden wir nachfol- genddrei Arten von Wissensressourcen mit konzeptuell verschiedener Ausrichtung als Pole, Mischformen m¨oglich. Die nachfolgenden drei Begriffe sind nicht etablierter Standard, werden teils auch anderes verwendet.

6.1.1 Klassifikationshierarchien und Meta-Information

Intuitiv vorstellbar als eine Art Schubladensystem (meist verschachtelt) zum Ein- sortieren von Dokumenten, allgemeiner informationstragenden Einheiten, ggfs. auch andere Dinge (Pflanzen,Tiere,Produkte). Die Schubladen haben Bezeichner, die andeuten, was in der Schublade gesammelt bzw. einsortiert wird. Die Bezeichner können recht komplexe Konzepte darstellen (spanische Literatur des ausgehenden 20. Jahrhunderts,ausgestorbene Säugetierarten,Luxuskosmetika,..). Die Wahl dieser Schubladenbezeichner ist dem Ziel untergeordnet, dasAuffinden der informationstragenden Einheiten zu erleichternund ist insofern starkanwendungsabhängigund nicht notwendig analytischer Natur. Die verwendeten Konzepte bzw. Begriffe brau- chen damit im allgemeinen keine besondere Relevanz zu haben.

Hierarchie-Begriff. Oft baumartige Struktur der “Schubladen” (z.B. Directo- ries). D.h. genau eine direkt übergeordnete Schublade. Auch Mono-Hierarchie genannt. Da eine rein baumartige Gliederung oft an manchen Stellen willkürlich ist, werden auch DAGs (Poly-Hierachie, mehrere direkt übergeordnete Schubladen) verwendet oder Querverweise zugelassen.

Unterschieden werden nach Art des Entstehens der Schubladen auchanalytische Klassifikation (top-down Unterteilung vorhandener Klassen in Teilklassen) versus synthetische Klassifikation. Letztere geht von Eigenschaften der zu klassifizierenden Objekte aus. Klassen werden durch Kombination der Merkmale gebildet. Bild Fuhr S.62. Vorsicht: W¨ahrend im Wissenschaftsbereich die “analytische” Aufteilung der Klassen in der Regel echt analytisch ist, folgt sie in anderen Bereichen oft stark den Anwendungsinteressen.

Zusammenh¨ange zum IR:

• Klassifikationsschemata bei Bibliotheken. Gliedern Buchbestand nach Sach- gebieten (Sprache,Alter,..).

• Web-Directories. Gliedern Bestand n¨utzlicher Webseiten in ¨ahnlicher Weise.

• Klassifikationsschemata f¨ur wissenschaftliche Literatur (ACM).

• Universelle Klassifikationsschemata (UDC). Zum Einordnen beliebiger Lite- ratur.

Systematiken. Während die Klassifikationsschemata von Web-directories oft keinem vorgegeben übergeordneten Einteilungsprinzip folgen (keine definierte Re- lation zwischen Schubladen und Teilschubladen, Aufteilung nach Intuition), folgen die anderen Gliederung stets einer vorgegebenen Systematik, d.h. einem überge- ordneten Prinzip, nach welchem Muster Teilschubladen eingerichtet werden. Die natürlichsprachlichen Bezeichnungen der Schubladen und sind dann ergänzt durch

(41)

6.1. VERSUCH EINES ORIENTIERUNGSRAHMENS 41 formale Bezeichner (meist Kombinationen von Buchstaben und Ziffern). Die Syste- matik folgt in der Regel semi-formalen Gesichtspunkten. Ein spezieller Sonderfall ist die Facettenklassifikation, wo eine Menge von Features vorgegeben ist, wo jedes Feature eine endliche Menge erlaubter Werte hat. Ein Dokument wird dann durch die Angabe der Werte mehrerer (oder aller) Features charakterisiert, und diese Charakterisierung wird zur Einordnung verwendet. Bei allgemeinere Facet- tenklassifikationen ergeben sich die Schubladen bzw. Klassen durch Komposition (im Sinn eines Durchschnitts) von Klassen aus Teilhierarchien, die komplement¨are Aspekte abdecken (Nohr S. 35).

Metadaten. Das einfache Bild einer Klassifikationshierachie geht davon aus, daß die Dokumente bzw. einzusortierenden Objekte durch genau ein Label (Schub- ladenbezeichner der Schublade, wo wir das Objekt ablegen) charakterisiert sind.

Diese einfachste Art derMetainformation kann aber leicht verallgemeinert werden.

Einfachster Fall: Mehrfachlabels, die unterschiedliche Metainformationen darstellen (Thema, Autor, Datum). Dies geht hin bis zur komplexen ggfs. intern strukturierten Auszeichnung von Dokumenten mittels einesAuszeichungsformalismus f¨ur Metain- formationen. Werden Dokumente mit komplexen Metadaten charakterisiert, kann man auf ein starres Schubladensystem verzichten und kann geeignete Dokumentedy- namisch mittels speziellerAnfragemechanismen f¨ur Metainformationen aussuchen.

Sind die Beschreibungen in den Metadaten informell, ergibt sich ein IR-Problem auf der h¨oheren Ebene der Metadaten. Sind die Beschreibungen innerhalb der Metada- ten strikt formalisiert, ist eine formale Abfrage mit logischen Sprachen m¨oglich.

6.1.2 Begriffshierarchien

Während Klassifikationhierarchien die Vielfalt sprachlicher Ausdrücke nicht beach- ten, ordnen Begriffshierarchien sprachliche Ausdrücke (Wörter, Phrasen). Decken wenn möglich alle Ausdrücke eines Gebiets ab. Maßstab ist das Auftreten und die Verwendung der Ausdrücke in natürlich-sprachlichen Texten. Da die sprachliche Realität durch Ambiguitäten und mangelnde Formalität gekennzeichnet ist, muss eine Begriffshierarchie versuchen, die verschiedenen Bedeutungen und Verwendungs- weisen zu erfassen. Unterschiedliche Formen desselben Konzepts sind abzudecken.

Phänomene derSynonymie, Polysemiesind zentral. Begriffshierachien können dazu dienen, Vorzugsbezeichnungen für äquivalente sprachliche Ausdrücke festzulegen, und damit zu einer Normalisierung äquivalenter oder sehr ähnlicher sprachlicher Ausdrücke zu kommen. Diese Normalisierungsproblematik betrifft von einem ver- allgemeinerten Standpunkt u.U. sehr komplexe Ausdrücke (bis hin zu 15.10.2004, 15. Okt. 2004, “x hat y z gegeben” für “y hat z von x erhalten”).

Zwischen den Begriffen sind neben Synonymie oft weitere semantische Beziehun- gen erfasst (Oberbegriff-Unterbegriff, Teil-Ganzes Beziehung, auch andere). Je weiter die Normalisierung und Standardisierung der Begriffe geht, desto mehr n¨ahern sich die “Begriffe” abstrakten “Konzepten” an. Standardvertreter f¨ur Begriffshier- archien sind klassische Thesauri, wobei der Begriff “Thesaurus” heute teils in einem sehr weiten Sinn verwendet wird.

Hierarchie-Begriff. Oberbegriff-Unterbegriff ist DAG-artig. Andere Relationen (¨ahnlicher Begriff, Synonymie) f¨uhren auf allgemeine Graphen mit hierarchischen Skelett.

Zusammenh¨ange zu IR und Umfeld:

(42)

• Hilfe bei Indexierung (auch Normalisierung nat.sprachlicher Datenbankein- tr¨age.)

• Hilfe bei Anfrage-Modifikation.

• Einsatzm¨oglichkeiten bei komplexen Analyseproblemen bei nat¨urlichsprachli- chen Texten.

6.1.3 Konzepthierarchien und Ontologien

Erfasst werdenabstrakte Konzepte und ggfs. Individuen, derenBedeutung eindeutig sein sollte. Die Konzepte können sprachlichen Ursprungs sein, sind dann aber präzise gemacht, um Vagheiten und Ambiguitäten auszuschliessen. Nicht die sprachliche Realität ist Maßstab, sondern die saubere gedankliche Gliederung eines Bereichs.

Unterschiede im Hinblick auf die Art der Relationen, die zwischen Konzepten und Individuen erfasst sind. Im einfachsten Fall k¨onnen diese naiv sein (allgemeineres Konzept, spezifischeres Konzept), meist werden aber spezifischere Relationen wie

• Teilmengen-Relation

• Element-Beziehung

• Teil-Ganzes-Beziehung

verwendet. Ziel ist es, dass auch die Relationen eine genau definierte Bedeutung haben. Schwierig beispielsweise bei Teil-Ganzes. Speziell bei Ontologien geht man davon aus, daß eine Reihe von Relationen mit formalisierter Bedeutung erfasst sind.

Zentral sind dann Vererbungsmechanismen f¨ur Eigenschaften von Konzepten und Individuen und allgemeiner logische Schl¨usse.

Hierarchie-Begriff. Nur bei Einschr¨ankung auf einen Teil der Relationen Baum oder DAG. Ansonsten hat man oft reich strukturierte echte Graphen.

Zusammenh¨ange zu IR und Umfeld:

• Maschinelle Bearbeitung von Meta-Daten (Semantic Web), beide oben ge- nannte Aufgaben 1 und 2.

• M¨ogliches Zukunftszenario: Neue Visualisierungsformen bei der Benutzerin- teraktion.

• Ziele: Einsatz bei semantischer Textanalyse (bei Anbindung an Begriffshiera- chien). Verbesserte logische Textrepr¨asentation.

(43)

6.2. BEISPIELE F ¨UR KLASSIFIKATIONSSCHEMATA 43

6.2 Beispiele f¨ ur Klassifikationsschemata

(44)

6.2.1 Biologische Klassifikation

(45)

6.2.2 Dezimal-Klassifikation

(46)

6.2.3 ACM Computing Reviews

(47)

6.2.4 Yahoo

(48)

6.2.5 Open Directory Project

6.3 Metadaten im Web

Vgl. hier Ferber Kapitel 15.

(49)

6.3. METADATEN IM WEB 49

6.3.1 Dublin-Core

(50)

6.3.2 PICS

(51)

6.3. METADATEN IM WEB 51

6.3.3 RDF und Topic Maps

(52)

6.4 Begriffshierarchien

(53)

6.5. MEHR ZU KONZEPTHIERARCHIEN UND ONTOLOGIEN 53

6.5 Mehr zu Konzepthierarchien und Ontologien

Begriff “Ontologie” in Philosophie und in vielen Gebieten der Informatik (Wissens- repr¨asentation, Natural Language Processing, Database Design, IR, Wissensmana- gement,...) verwendet.

Philosophischer Ontologie-Begriff: Lehre vom Sein und Seienden. Eng verwandt mit “Metaphysik”. Geht zur¨uck auf Aristoteles. Sp¨ater Platos Theorie der Formen.

Leibniz (1646-1716): Ontologie als Wissenschaft von Etwas und Nichts, vom Sein und Nichtsein.

Mit der Logik gemeinsam: der Versuch, die Welt in formale Strukturen abzubil- den. Dieser Aspekt in Informatik dominant.

Informatik: (Tom Gruber); “a specification of a conceptualization” (collection of objects, concepts and entities that are presumed to exist in some domain and that are tied together with some relationships). Gemeint ist meist eine formale und explizite Spezifikation.

Ziel: Versuch der standardisierten formalen Darstellung von Wissen zu bestimmten Bereichen. Konsistenz, keine Ambiguit¨aten.

Anwendungen: Ontologien sollen damit helfen bei der pr¨azisen Kommunikation zwischen Menschen, zur Interoperabilit¨at zwischen unterschiedlichen Computersy- stemen und zur vielseitigen Verwendung (re-usability) und zum Sharing von Wissen zwischen Systemen. Verbindung zu Ziel 2 aus Kapiteleinleitung: Kollaboration unterschiedlicher Programme.

Probleme

• Welt ist nicht formal. Wie die echte Welt mit strikt formalisiertem Bild zu- sammenbringen? F¨uhrt teils zu Ontologien mit semi-formalem Charakter.

• Oft wird versucht, die Dom¨ane mit Hilfe einer kleinen Menge von Grund- konzepten und Relationen zu beschreiben. Deren Natur aber kaum zu kl¨aren.

(Was ist ein Individuum? Ein Prozess?)

• Ontologien meist zu kleinen speziellen Dom¨anen. Nicht leicht zu verbinden, zu integrieren.

• Unterschiedliche Ontologien zu ¨ahnlichen Dom¨anen erschweren erstrebte Stan- dardisierung. Vereinheitlichung unterschiedlicher Ontologien zum selben Ge- biet kann schwierig sein.

Arten von Ontologien

Meta-Level Ontologien.Dienen der Behandlung vom Meta-Daten wie Dublin Core.

Common-Sense Ontologien. Erfassung nicht n¨aher reflektierten (aber gesun- den) Alltagswissens auf einer allgemeinen Ebene. Top-Level Ontologies, General Ontologies. Beispiele: (1) Standard Upper Model Ontology SUO (IEEE). (2) CYC- Ontology: Versuch, gesamtes Common-Sense Wissen in formalisierter logischer Wei- se darzustellen und f¨ur Computer anwendbar zu machen.

Ontologien f¨ur spezielle Bereiche.Viele im Bereich der Medizin.

(54)

6.6 WordNet als Br¨ ucke zwischen Ausdr¨ ucken und Konzepten

Semantische Klassen-Konzepte ergeben sich aus ¨Aquivalenzklassenbildung ¨uber

“einfachem” sprachliches Material. Ergibt eingeschr¨ankte Auswahl, da sprachlich komplexe Konzepte nicht erfasst, sind. Auch Auswahl an Relationen durch sprachliches Material induziert. Kleine Auswahl an Relationen. Es ergibt sich auf der semantischen Ebene nur ein schwaches Abbild von Zusammenh¨angen der realen Welt.