Automatische Indexierung und ihre Anwendung im DFG-Projekt 'Gemeinsames Portal für Bibliotheken, Archive und Museen (BAM)'

(1)

Fachbereich Informatik und Informationswissenschaft Studiengang Information Engineering (Master of Science)

___________________________________________________________________

Masterarbeit

Automatische Indexierung und ihre Anwendung im DFG- Projekt „Gemeinsames Portal für Bibliotheken, Archive und

Museen (BAM)“

Vorgelegt von

Birgit Scherer

Zur Erlangung des Grades eines Master of Science in

Information Science

Konstanz, im Januar 2003 Gutachter: Prof. Dr. Rainer Kuhlen

Prof. Dr. Harald Reiterer

(2)

Abstract (Deutsch):

Automatische Indexierung verzeichnet schon seit einigen Jahren aufgrund steigender Informationsflut ein wachsendes Interesse. Allerdings gibt es immer noch Vorbehalte gegenüber der intellektuellen Indexierung in Bezug auf Qualität und größerem Auf- wand der Systemimplementierung bzw. –pflege.

Neuere Entwicklungen aus dem Bereich des Wissensmanagements, wie beispielsweise Verfahren aus der Künstlichen Intelligenz, der Informationsextraktion, dem Text Mining bzw. der automatischen Klassifikation sollen die automatische Indexie- rung aufwerten und verbessern. Damit soll eine intelligentere und mehr inhaltsbasier- te Erschließung geleistet werden.

In dieser Masterarbeit wird außerhalb der Darstellung von Grundlagen und Verfahren der automatischen Indexierung sowie neueren Entwicklungen auch Möglichkeiten der Evaluation dargestellt.

Die mögliche Anwendung der automatischen Indexierung im DFG-Projekt „Gemein- sames Portal für Bibliotheken, Archive und Museen (BAM)“ bilden den Schwerpunkt der Arbeit. Im Portal steht die bibliothekarische Erschließung von Texten im Vorder- grund. In einem umfangreichen Test werden drei deutsche, linguistische Systeme mit statistischen Verfahren kombiniert (die aber teilweise im System bereits integriert ist) und evaluiert, allerdings nur auf der Basis der ausgegebenen Indexate.

Abschließend kann festgestellt werden, dass die Ergebnisse und damit die Qualität (bezogen auf die Indexate) von intellektueller und automatischer Indexierung noch signifikant unterschiedlich sind. Die Gründe liegen in noch zu lösenden semantischen Problemen bzw. in der Übereinstimmung mit Worten aus einem Thesaurus, die von einem automatischen Indexierungssystem nicht immer nachvollzogen werden kann.

Eine Inhaltsanreicherung mit den Indexaten zum Vorteil beim Retrieval kann, je nach System oder auch über die Einbindung durch einen Thesaurus, erreicht werden.

Abstract (Englisch)

Automatic indexing has been getting more and more attention over the last few years due to increasing amounts of information on the subject. But many people still have reservations because of quality issues and because of the increased expenditure re- quired for the implementation of the system and support.

New developments in the area of knowledge management, such as methods from Artificial Intelligence, Information Extraction, Text Mining and automatic classification, should enhance and improve automatic indexing. Therefore, it should be possible to achieve an intelligent and content-based document representation.

This master thesis demonstrates the basics and methods of future developments in automatic indexing and possibilities for evaluation.

The main focus will be on possible uses of automatic indexing in the DFG-Project:

“The joint internet portal for libraries, archives and museums (BAM)”. In this portal, the emphasis is on the document representation of the libraries. In an extensive test, three German linguistic systems are combined with statistical methods (which may

(3)

be already part of the system itself) and evaluated against each other, but only on the basis of the index terms.

To conclude, there are still significant differences between the results (and therefore the quality) for human indexing and for automatic indexing. This is due to semantic problems and problems in the word consistency in comparison to a controlled vo- cabulary, which causes problems for automatic indexing in catching the “right” word.

A content enrichment with the index terms, which is good for the retrieval process, is possible depending on the used system and the integration of a controlled vocabu- lary.

(4)

Inhaltsverzeichnis

Inhaltsverzeichnis... III Abkürzungsverzeichnis:...VI

1. Einleitung ... 1

2. Einführung in die Indexierung ... 4

2.1 Grundlagen der Indexierung...4

2.2 Intellektuelle vs. automatische Indexierung...8

3. Automatische Indexierung: ... 11

3.1 Übersicht der Verfahren ...11

3.1.1 Linguistische Verfahren...11

3.1.1.1 Methoden der Linguistik ...12

3.1.1.2 Deskriptorenermittlung...16

3.1.1.3 Stemmingverfahren...18

3.1.1.4 Deutsche Kritik an linguistischen Verfahren ...22

3.1.2 Statistische Verfahren ...22

3.1.2.1 Vektorraummodell...26

3.1.2.2 Probabilistische Modelle ...28

3.1.3 Begriffsorientierter Ansatz bzw. Verfahren...30

3.2 Automatische Indexierung im Zeichen von Wissensmanagement...32

3.2.1 Semantische Netze ...33

3.2.2 Künstliche Neuronale Netzwerke (KNN) ...37

3.2.3 Informationsextraktion (IE) ...39

3.2.4 Key Phrase Extraction...41

3.2.5 Text Mining ...42

3.2.6 Klassifikation ...44

3.2.7 Andere beispielhafte Ansätze: ...46

(5)

3.3 Evaluation von Indexierungssystemen...47

3.3.1 Qualität im Allgemeinen ...48

3.3.2 Pflichtenheft ...50

3.3.3 Informationsqualität...51

3.3.4 Qualitätskriterien für die Indexierung...52

3.3.5 Bewertung von Retrievalqualität ...56

3.4 Text REtrieval Conference (TREC) ...57

3.4.1 Filtering Track ...61

3.4.2 Question Answering (QA) Track ...62

3.4.3 Web Track...64

3.4.4 Fazit über TREC ...65

4. Anwendung der automatischen Indexierung im DFG-Projekt “Gemeinsames Portal für Bibliotheken, Archive und Museen (BAM)“ ... 67

4.1 Beschreibung des Projekts...67

4.2 Bibliothekarische Erschließung ...68

4.3 Bereits eingesetzte Automatische Indexierung auf dem Prüfstand...72

4.3.1 MILOS...72

4.3.2 KASCADE:...75

4.3.3 Weitere Tests aus dem dokumentarischen Bereich...79

4.4 Testvorbereitung ...81

4.4.1 Deutsche Indexierungssysteme ...81

4.4.2 Evaluierung der Indexierung ...84

4.4.2.1 Pflichtenheft ...86

4.4.3 Testkonstellation ...93

(6)

4.5 Ergebnisse der Tests ...100

4.5.1 Die einzelnen Systeme: ...100

4.5.2 Einzelne Datenarten...103

4.5.3 Probleme mit der SWD: ...107

4.5.4 Vergleich Schlagwörter und Deskriptoren ...108

4.5.5 Unterschiede der beiden Gewichtungen ...111

4.6 Fazit über den Test ...112

5. Resümee... 115

Glossar: ... 116

Literatur:... 121

Anhang A: Indexierungssysteme ... 133

[Anlage : Diskette mit den Indexierungsergebnissen - nicht zur Publikation freigegeben]

Außerdem die intellektuell vergebenen Schlagwörter für die Wochenmeldungen

(7)

Abkürzungsverzeichnis:

BAM Gemeinsames Portal für Bibliotheken, Archive und Museen.

BSZ Bibliotheksservice-Zentrum Baden-Württemberg CLEF Cross-Language Evaluation Forum

CLIR Cross-Language Information Retrieval DDB Die Deutsche Bibliothek

DFG Deutsche Forschungsgemeinschaft FIZ Fachinformationszentrum

GI Gesellschaft für Informatik GKD Gemeinsame Körperschaftsdatei

IAI Institut der Gesellschaft zur Förderung der Angewandten Infor- mationsforschung

IQ Informationsqualität bzw, Information Quality

IR Information Retrieval

KASCADE Katalogerweiterung durch Scanning und Automatische Doku- menterschließung

KI Künstliche Intelligenz

KNN Künstliche Neuronale Netze

KOPS Konstanzer Online Publikations-System LAD Landesarchivdirektion Baden-Württemberg LCC Language Computer Corporation LSI Latent Semantic Indexing

LTA Landesmuseum für Technik und Arbeit

MILOS Maschinelle Unterstützung zur verbesserten Literaturerschlie- ßung in Online-Systemen

NLP Natural Language Processing OPAC Online Public Access Catalogue

(8)

OSWD Online-SWD

PND Personennamen-Datei

QA Question Answering

RAK-WB Regeln für die alphabetische Katalogisierung in wissenschaftlichen Bibliotheken

RSWK Regeln für den Schlagwortkatalog SVD Singular Value Decompostion

SVM Support-Vector-Machine

SW Schlagwort

SWB Südwestverbund SWD Schlagwortnormdatei

TREC Text REtrieval Conference

UDK Universelle Dezimalklassifikation URL United Resource Locator

WWW World Wide Web

(9)

1. Einleitung

Diese Masterarbeit befasst sich mit der automatischen Indexierung als einem Teilge- biet des Information Retrieval. Information Retrieval definiert sich nach Salton/McGill (1987, S. 1) folgendermaßen:

„Gegenstand des Information Retrieval (IR) ist die Repräsentation, Speicherung und Organisation von Informationen und der Zugriff zu Informationen“ (Salton/McGill, 1987, S. 1).

Das Grundmodell für Dokumenten-Retrieval nach Kuhlen (1995, S. 277) veranschau- licht dies:

Information Retrieval als Dokument- retrieval

operieren über Ergebnisse abgelegt in

durch Anwendung von durch Anwendung von

mit dem Ziel

Datei- Datenbank- Management- Systemen

Retrievalfunktionen Analyse von do-

kumentarischen Bezugseinheiten (DBE)

Indexieren, Klassifizieren, Referieren

Nachweis von Dokumen- tationseinheiten (DE), bibliografische Referen- zen, Volltexte

beruht auf

Abbildung 1: Grundmodell für Dokumenten-Retrieval (Kuhlen, 1995, S. 277)

Einen anderen Aspekt betont die Definition der 1991 innerhalb der „Gesellschaft für Informatik (GI)“ gegründete Fachgruppe „Information Retrieval“. Information Retrieval zeichnet sich dabei ab durch:

[...] vage Anfragen und unsicherem Wissen „ aus. „Vage Anfragen sind dadurch gekennzeichnet, dass die Antwort a priori nicht eindeutig definiert ist. Hierzu zäh- len neben Fragen mit unscharfen Kriterien insbesondere auch solche, die nur im Dialog iterativ durch Reformulierung (in Abhängigkeit von den bisherigen Sys- temantworten) beantwortet werden können. [...] Die Unsicherheit (oder die Un- vollständigkeit) dieses Wissens resultiert meist aus der begrenzten Repräsentati- on von dessen Semantik [...]; darüber hinaus werden auch solche Anwendungen betrachtet, bei denen die gespeicherten Daten selbst unsicher oder unvollständig sind.

(10)

Es stellt sich aufgrund der Definitionen die Frage des Ziels von Information Retrieval- Systemen:

Das Ziel von Information Retrieval-Systemen ist es, wenig oder unstrukturierte¹ Informationen so aufzubereiten, dass sie bei einem aktuellen Informationsbedarf mit entsprechenden Such- strategien und –techniken möglichst präzise und vollständig wiederaufgefunden werden kön- nen (Nohr, 2001, S. 13).

Die Indexierung übernimmt die Aufbereitung des Dokumenteninhalts und ist damit der wichtige Eingangsschritt des Information Retrieval. Nach DIN 31 623 (Teil 1, 1996 [1988], S. 181) erfüllt die Indexierung folgende Zielsetzung:

Indexierung ist die Gesamtheit der Methoden und Verfahren sowie deren Anwendungen, die zur Zuordnung von Deskriptoren oder Notationen² zu dokumentarischen Bezugseinheiten füh- ren mit dem Ziel der inhaltlichen Erschließung sowie der gezielten Wiederauffindung.

Deskriptoren erfüllen die Funktionen der Inhaltsrepräsentation mit einer

schlagwortartigen Kurzbeschreibung. Somit werden Dokumente mit ähnlichem oder gleichem Inhalt miteinander verknüpft. Die Bestimmung der Relevanz der

Dokumente ist das Ziel beim Retrieval (Keen, 1977).

In dieser Masterarbeit sollen die Grundlagen bzw. verschiedenen Ansätze und Ver- fahren der automatischen Indexierung dargestellt werden. Eine konkrete Anwendung im DFG-Projekt „Gemeinsames Portal für Bibliotheken, Archive und Museen (BAM)“

bildet den praktischen Teil. Da es in diesem Projekt um deutschsprachige Textinde- xierung geht, beschränkt sich die automatische Indexierung in diesem Projekt auf monolinguale Verfahren. Im theoretischen Teil werden neben der Indexierung für die deutsche Sprache auch die Grundlagen für die englische Sprache behandelt, da ein Großteil der Forschung im angloamerikanischen Bereich stattfindet. Die zeigt sich z.B. bei den Text REtrieval Conference(s) (TREC).

Diese Masterarbeit baut sich darum folgendermaßen auf:

Zuerst werden generelle Grundlagen der Indexierung vermittelt. Hier sind Grundla- gen zur Auswahl einer Indexierungsmethode sowie Grundlegendes zur Deskriptore- nermittlung, dem Indexierungsvokabular und der Deskriptorenkoordination dargestellt. Ein Vergleich der intellektuellen mit der automatischen Indexierung beendet dieses Kapitel.

Das eigentliche Thema, die automatische Indexierung, wird mit seinen Verfahren vorgestellt. Dabei wird zwischen linguistischen, statistischen und begriffsorientierten Verfahren unterschieden. Zur besseren Anschauung und Verständlichkeit werden einige Beispiele vorgestellt.

Das Kapitel „Automatische Indexierung im Zeichen von Wissensmanagement“ fasst Wichtiges in der Forschung aus den letzten Jahren zusammen. Themen sind dabei Semantische und Neuronale Netzwerke, Informations- und Schlüsselphrasenextrak- tion (Key phrase extraction) als auch Text Mining und Klassifikation. Andere beispielhafte Ansätze bilden den Schluss.

1 Unstrukturierte Informationen sind Texte, strukturierte Informationen sind z.B. abgelegte Personen- namen in einer Datenbank.

2 Notationen spielen erst im Kapitel 3.2.6 „Klassifikationen“ eine Rolle

(11)

Der Aspekt „Evaluierung von Indexierungssystemen“ wird im nächsten Kapitel dargestellt. Dabei wird die Anwendung von allgemeinen Qualitätskriterien untersucht.

Eine Möglichkeit, verschiedene Systeme im Sinne von Qualität zu unterscheiden und zu vergleichen, ist ein Pflichtenheft. Ob Kriterien aus der Informationsqualität, einem Teilbereich der Qualität, eine Rolle spielen können, ist ein weiteres Thema. Aus diesen Überlegungen heraus sowie unter dem Einbezug von Normen und sonstigen Ansätzen werden dann Qualitätskriterien für die Indexierung aufgestellt. Die Bewer- tung von Retrievalqualität bildet den Schluss.

Retrievalverfahren und -systeme zu bewerten ist das Merkmal der Text REtrieval Conference(s) (TREC), die seit 1992 jedes Jahr stattfinden. Hierbei stehen fast aus- schließlich englische Systeme, v.a. aus dem Wissenschaftsbereich, im Vordergrund.

Daraus einen Schluss für die Indexierung (v.a. auch für Deutsche Systeme) zu zie- hen ist schwierig.

Es folgt die praktische Anwendung der automatischen Indexierung im Rahmen eines Tests für das DFG-Projekt „Gemeinsames Portal für Bibliotheken, Archive und Mu- seen (BAM)“. Dieses Projekt wird gemeinsam vom Bibliotheksservice-Zentrum Ba- den-Württemberg (BSZ) in Konstanz, der Landesarchivdirektion Baden-Württemberg (LAD) in Stuttgart sowie dem Landesmuseum für Technik und Arbeit (LTA) in Mann- heim durchgeführt. Da die bibliothekarische Erschließung für die Indexierung eine gewichtige Rolle spielen wird, wird diese näher erläutert. Um Anhaltspunkte für die Durchführung dieses Tests zu haben, folgen Beschreibungen von bereits durchge- führten Tests aus dem bibliothekarischen Bereich sowie kurz weitere Wichtige im dokumentarischen Bereich. Für den eigentlichen Test musste natürlich der deutsche Markt an Textretrievalsystemen angesehen und beurteilt werden. Welche Evaluie- rung dann möglich war, ist das nächste Thema. Es folgt die Vorstellung der Test- konstellation, d.h. welche Datenarten stehen zur Verfügung, wie können die Systeme getestet werden etc. Die Ergebnisse des Tests sowie deren Bewertung im Rahmen eines Fazits bilden den Rest des Kapitels.

Ein Fazit über die Automatische Indexierung im Allgemeinen schließt die Arbeit ab.

Im Anhang A finden sich noch eine Auflistung von Indexierungssystemen der letzten 20 Jahre, die aber nur eine Auswahl darstellen können.

___________________________________________________________________

Ich möchte noch dem Bibliotheksservice-Zentrum Konstanz für die Ermöglichung und Unterstützung bei dieser Masterarbeit danken. Außerdem den 3 Firmen, die ihre In- dexierungssysteme für diesen Test zur Verfügung stellten. Ein weiterer Dank geht an Prof. Dr. Marc Rittberger (Universität Genf) für seine fachliche Hilfe.

(12)

2. Einführung in die Indexierung

Es können drei Indexierungsmethoden unterschieden werden: die intellektuelle, die computerunterstützte und die automatische Indexierung. Um sich für eine Indexie- rungsmethode entscheiden zu können, müssen verschiedene Gesichtspunkte sowie die Ressourcen betrachtet werden. Der Grad der Auslegung eines Indexierungssys- tems wird bestimmt durch die Deskriptorenermittlung, das Indexierungsvokabular und die Deskriptorenkoordination. Ein Vergleich von intellektueller und der automatischen Indexierung zur Entscheidungsfindung bzw. Auswahl einer der drei Methoden schließt sich an.

2.1 Grundlagen der Indexierung

Nach DIN 31 623 (Teil 1, 1996 [1988], S. 181) können drei Indexierungsmethoden unterschieden werden:

Intellektuelle Indexierung ist die Indexierungsmethode, bei der die Deskriptoren oder Notati- onen³ aufgrund einer intellektuellen Inhaltsanalyse des Dokuments ohne maschinelle Hilfe zugeteilt werden.

Computerunterstützte Indexierung ist die Indexierungsmethode, nach der dem Indexierer mit Hilfe einer Datenverarbeitungsanlage Deskriptoren oder Notationen vorgeschlagen werden

Automatische Indexierung ist die Indexierungsmethode, nach der zu einem Dokument De- skriptoren oder Notationen von einem Computer ermittelt werden.

Klassisch erfolgt die Indexierung intellektuell. Der Einsatz von Maschinen, damit ver- bundene zunehmende Speicherkapazitäten und stetige Zunahme an elektronischen Dokumenten ließen den Einsatz von automatischen Indexierungsverfahren zur Be- wältigung der Dokumentenmengen notwendig werden (Vgl. Nohr, 2001, S. 15/16).

Nach Knorz (1997⁴, S. 123) müssen bei der Wahl zugunsten einer bestimmten Inde- xierungsmethode (hier bezogen auf das Textretrieval) verschiedene Gesichtspunkte sowie die Ressourcen betrachtet werden:

· Wie groß bzw. inhaltlich heterogen ist die Sammlung? Dies hat Auswirkungen auf die Trennschärfe bei der Indexierung

· Welchen Stellenwert haben sprachliche Probleme wie Polysemie, Homonymie, Abkürzungen, aber auch Varianten der Wortformen bzw. Formulierung oder verschiedene Darstellungen je nach Fachbereich?

Außerdem spielen die zur Verfügung stehenden Ressourcen eine wichtige Rolle:

· Wie ist die Qualifikation der Indexierer bei intellektueller Indexierung? Wie ist der Pflegeaufwand bei automatischer Indexierung?

· Intellektuelle Indexierung: ist der Zeitaufwand zu leisten bzw. organisatorisch ein- bindbar?

· Ist maschinelle Unterstützung möglich (z. B. Zugreifen auf Wörterbücher, Eingabe an sich, Kontrolle der Ergebnisse, vorbereitende Indexierung)?

· Welche Werkzeuge stehen zur Verfügung, z. B. Thesauri, Wortlisten etc.

3 Notationen werden erst im Kapitel 3.2.6 „Klassifikationen“ eine Rolle spielen.

(13)

· Welches Teil der Dokumente stehen bei der Indexierung zur Verfügung, z. B. nur Titel, Volltext etc. (Vgl. Knorz, 1997, S. 123)

Aufgrund dieser zu prüfenden Ausgangsbedingungen sind Entscheidungen über den Grad der Auslegung eines Indexierungsverfahren für eine Dokumentensammlung zu treffen. Das betrifft die Punkte Deskriptorenermittlung, das Indexierungsvokabu- lar sowie die Deskriptorenkoordination.

Bei der Deskriptorenermittlung kann lt. DIN 31 623 (Teil 1, 1996 [1988], S. 181 ff).

zwischen dem Extraktions- und dem Additionsverfahren unterschieden werden:

Beim Extraktionsverfahren werden Begriffe aus dem Dokument als Deskriptoren ausgewählt. Allerdings kann es bessere Wörter als die extrahierten Begriffe geben, um einen Sachverhalt auszudrücken (aufgrund Uneindeutigkeit, einem mehr um- schriebenen Zusammenhang oder dass die Bedeutung der Sachverhalte nur aus dem Zusammenhang hervorgeht (Ebd.).

Beim Additionsverfahren müssen die Deskriptoren nicht im Text enthalten sein, sie können frei gewählt werden. Das hat zum Vorteil, dass Sachverhalte adäquat ausge- drückt werden können. Allerdings ist die Indexierungskonsistenz schwerer zu erreichen, da Indexierer höchst unterschiedliche Deskriptoren vergeben können (Ebd.).

Bezogen auf die Verbindlichkeit der Dokumentationssprache wird unterschieden zwischen freiem Vokabular oder verbindlichem Vokabular für die Indexierung. (Vgl.

DIN 31623, Teil 2 1996 [1988], S. 192).

Nach Fugmann (1992, S. 118 – 136) hat Indexieren mit freiem bzw. verbindlichem Vokabular jeweils Vor- und Nachteile. Ein Vorteil bei der Indexierung mit freiem Vokabular ist, dass der Inhalt schnell erfasst ist und demgemäss spezifisch umsetzt werden kann in Deskriptoren. Da keine Umsetzung in kontrolliertes Vokabular erfolgt, kann eventueller Informationsverlust vermieden werden, da stets der adäquateste Begriff gewählt werden kann. Aktuelle Fachbegriffe bzw. Bezeichnungen sind sofort verwendbar. Als nachteilig erweist sich die terminologischen Kontrolle bezogen auf Synonyme bzw. die Homonymenkennzeichnung.

Bei der Indexierung mit vorgeschriebenem oder verbindlichem oder kontrollier-

tem Vokabular wird ein Thesaurus wird als kontrolliertes Vokabular benutzt, damit entfallen Bezeichnungsprobleme für z.B. Synonyme. Der Nachteil ist das zeitauf- wendige Nachschlagen, ob ein Deskriptor zugelassen ist bzw. in welcher Form. Neue Begriffe müssen ergänzt werden, damit die Aktualität des Vokabulars gewährleistet ist. Ein Informationsverlust ist durch nicht exakte Wiedergabe mit dem kontrolliertem Vokabular gegeben. Deskriptoren können frei innerhalb des kontrollierten Vokabulars ausgewählt werden, ein Problem könnte aber die Interpretation der Ausdruckswei- se/Handhabung im Sinne des Autors sein. Außerdem sollte sich der Indexierer fragen, wie würde ein Benutzer „suchen“ (Was für einen Suchwortschatz besitzt dieser?) (Ebd.).

Für ein kontrolliertes Vokabular wird ein Thesaurus benötigt, der nach DIN 1463 durch die folgenden Merkmale gekennzeichnet ist:

1. Begriffe und Bezeichnungen werden eindeutig aufeinander bezogen („terminologische Kon- trolle“, indem

(14)

· Synonyme möglichst vollständig erfasst werden,

· Homonyme und Polyseme besonders gekennzeichnet werden,

· Für jeden Begriff eine Bezeichnung (Vorzugsbenennung, Begriffsnummer oder Notation) festgelegt wird, die den Begriff eindeutig vertritt.

2. Beziehungen zwischen Begriffen (repräsentiert durch ihre Bezeichnungen) werden dargestellt (DIN 1463, Teil 1, 1996 [1987], S. 17).

Deskriptoren in einem Thesaurus können „Bezeichnungen von Begriffen“ als auch

„Eigennamen wie Projektnamen, geographische oder geopolitische Bezeichnungen [...], Produktnamen, Namen von Personen und Organisationen“ (DIN 1463, Teil 1, 1996 [1987], S. 17) sein. Außerdem unterscheidet die DIN 1463 Deskriptoren von Nicht-Deskriptoren. Nicht-Deskriptoren sind dann „Unterschiedliche Schreibweisen von Deskriptoren“ oder „Synonyme oder Quasi-Synonyme zu Deskriptoren“ sowie

„Begriffsbenennungen, für die eine Kombination von mehreren Deskriptoren verwendet werden soll“(DIN 1463, Teil 1, 1996 [1987], S. 17).

Wenn ein Thesaurus verwendet wird, kann die Indexierung noch zwischen Indexie- rung mit Vorzugsbenennung bzw. ohne Vorzugsbenennung unterschieden werden.

Indexierung mit Vorzugsbenennung bedeutet, dass nur die Hauptansetzung (= Vor- zugsbenennung) als Deskriptor ausgegeben wird und dementsprechend ist nur die Vorzugsbenennung bei der Suche findbar. Indexierung ohne Vorzugsbenennung heißt, dass alle Bezeichnungen (Vorzugsbenennung, Synonyme etc.) zugelassen sind (Vgl. DIN 31 623, Teil 1, 1996 [1988], S. 181 ff).

In einem Thesaurus wird ein Beziehungs- und Verweisungsnetz aufgebaut, damit ein Benutzer das terminologische Umfeld erkennen und einen maßgeblichen Deskriptor ermitteln kann. Zwei Beispiele für Eintragungen aus einem Thesaurus (hier die Vor- zugsbenennungen „Magnetismus“ und „Magnetkarte“) sowie die zugehörigen Ver- weisformen (Beispiele aus Hacker, 1992⁶, S. 360):

Magnetismus Magnetkarte

BF Ferromagnetismus BF Telefonkärtchen

OB Elektrodynamik OB Datenträger

UB Magnetfeld VB Kartensystem

Die abgekürzten Verweisformen bedeuten das Folgende:

„BF“ steht für „Benutzt für“, d.h. das ist für ein nicht maßgebliches Synonym ein Hin- weis; „OB“ steht für „Oberbegriff“; „UB“ für „Unterbegriff“; „VB“ für „Verwandter Beg- riff“.

Was für Bedingungen stellen sich an das Indexierungsvokabular bzw. die Deskripto- ren im Allgemeinen? Das Vokabular sollte neben der Vorhersehbarkeit auch Wieder- gabetreue besitzen. So wird der Ballast im Retrieval klein gehalten und Dokumente können sicher aufgefunden werden. Ein Indexierer muss diese Indexsprache ausreichend beherrschen um sie sorgfältig und sachkundig einzusetzen. Ebenso muss die Terminologie an sich gut entwickelt sein. (Vgl. Fugmann, 1992, S. 94 ff)

Für Fugmann (1992, S. 111 - 122) müssen bei den Deskriptoren verschiedene Be- dingungen beachtet werden, um die Essenz eines Dokumenteninhaltes zu erhalten.

(15)

· Grad der Spezifität: Bei einem kontrollierten Vokabular ist klar, wie tief die Spezifi- tät gehen muss. Spezifität bedeutet, den engeren Begriff zu nehmen (z.B. statt Insekten die genaue Insektbezeichnung Ameisen).

· Fachbegriffe und ihre Bedeutungen müssen unterschieden werden, die Fachter- minologie sollte präzise sein, da sie verschiedenen Bedeutungen je nach Autor haben kann. Beispiele aus den Sozialwissenschaften sind Begriffe wie „Frieden“

und „Freiheit“, welche unterschiedlich interpretiert werden können.

· Zeitperioden: wenn ein Begriff wie „Oxyd“ in dieser allgemeinen Form in einer Fachzeitschrift über Aluminium problemlos verwendet wird, muss ein engerer De- skriptor diesen Sachverhalt außerhalb der Fachzeitschrift ausreichend erfassen (hier dann „Aluminiumoxyd“).

· Zeitlicher Wandel: Begriffe unterliegen einem zeitlichen Wandel, je nach Zusam- menhang. Beispielsweise ist eine bestimmte Nachweismethode zuerst als we- sentlich anzusehen, später wird sie trivial und hat keine Bedeutung mehr.

Im Allgemeinen werden als Deskriptoren Substantive verwendet, ihre Wortbedeutung ist „easier to identify and to grasp“. (Vgl. Baeza-Yates/Ribeiro-Neto, 1999, S. 24) Verben, Adjektive, Adverbien und Verbindungswörter sind weniger nützlich.

Laut DIN 1463 (Teil 1, S. 18/19) sollten die in einer Fachterminologie üblichen fremd- sprachigen Begriffe in den Thesaurus aufgenommen werden. Wenn nicht, stehen diese als Synonyme neben den deutschen Bezeichnungen. Die bevorzugten Sub- stantive sollten im Nominativ Singular angegeben werden. Pluralform sind nur zu verwenden, wenn diese gebräuchlicher sind bzw. wenn eine andere Bedeutung im Plural vorliegt.

Von Deskriptoren wird, wie bereits gesagt, eine gewisse Spezifität erwartet. Im Deut- schen erreichen Einwort-Nominalkomposita eine ausgeprägtere Spezifität gegenüber ihren einzelnen Bestandteilen (Vgl. Hahn/Sonnenberger, 1991, S. 13).

Salton (1983, S. 59/60) trennt das Vokabular nach „singulären Deskriptoren und

„kontextbezogenen Deskriptoren“. Kontextbezogene Deskriptoren sind singuläre De- skriptoren, die durch spezielle Relationen miteinander verbunden sind. Ein kontext- bezogener Deskriptor kann aus Einzelbegriffen oder Mehrwortbegriffen bestehen.

Einzelbegriffe werden beim Retrieval „koordiniert“ d.h. kombiniert (= Postkoordinati- on). Eine Präkoordination liegt durch die kontextbezogenen Deskriptoren vor (Bei- spiel: „computergestütztes Information Retrieval“) (Salton, 1983. S. 59/60).

Die DIN 31 623 (Teil 1, 1996 [1988], S. 181 ff) unterscheidet bei der Deskriptoren- koordination zwei Methoden und zwar die gleichordnende Indexierung und die syn- taktische Indexierung. Bei der gleichordnenden Indexierung stehen die Deskriptoren gleichrangig nebeneinander. Jeder Deskriptor kann beim Retrieval somit einzeln oder logisch verknüpft abgefragt werden. Bei der syntaktischen Indexierung sind die De- skriptoren syntaktisch miteinander verknüpft (Beispielsweise die bibliothekarische Schlagwortvergabe nach RSWK, siehe Kapitel 4.2)

(16)

2.2 Intellektuelle vs. automatische Indexierung

Beide Methoden gehen von unterschiedlichen Ausgangspositionen aus. Die intellektuelle Indexierung analysiert den Inhalt des Dokuments bedeutungsorientiert. Die Textanalyse der automatischen Indexierung arbeitet meist nur mit der sprachlichen Oberfläche. Beide Verfahren haben ihre Vor- und Nachteile, die abgewogen werden müssen.

Intellektuelle Indexierung Automatische Indexierung

Vorteile · Verstehen der Bedeutung des Textinhaltes (aufgrund der sprachlichen Vielfalt)

· Hohe bzw. bessere Qualität der Indexate

· Große Dokumentenmengen können besser bearbeitet werden

· Zeitersparnis, da schneller

· Bessere Technik, mehr Spei- cherkapazitäten sowie Ver- netzung ermöglichen ein effi- zienteres Zugriffsverfahren Nachteile · Zeitaufwendig

· Kosten für hohe Qualität des Fachpersonal bzw. hohe fachliche Anforderungen sind nötig

· Thesauri u.ä.: Kosten für die Erstellung und Pflege, schwerfälliger Umgang, Veralterungsrisiko

· Evtl. Inkonsistenzprobleme:

Thema wird nicht immer gleich indexiert

· Die Anzahl der Deskriptoren kann sehr variieren gegen- über anderen Indexierern.

· Anwendergruppen können sich abspalten aufgrund neuer Themen bzw. ande- rem Sprachverständnis (Hauer, 2000, S. 203)

· Zeitverzögerung aufgrund größerer Datenmengen von der Veröffentlichung eines Dokuments und Bereitstel- lung des indexierten Doku- ments innerhalb einer Da- tenbank (Kaiser, 1993)

· Meist immer noch fehlendes Textverstehen (Probleme deshalb bei metaphernrei- chen Sachgebieten wie den Geistes- bzw. Sozialwissen- schaften

· Kosten für das System bzw.

Nachfolgekosten für Pflege

· Thesauri u.ä. Kosten für die Pflege (evtl. auch für Erstel- lung sowie Einbindung)

· Inkonsistenzprobleme aufgrund des Nicht-Verstehens des Dokuments

(Ähnliche Sachverhalte müss- ten gleich indexiert werden).

Tabelle 1: Vergleich intellektuelle und automatische Indexierung

Ein Vergleich der Kosten für die jeweiligen Indexierungsverfahren ergibt das Folgen- de:

(17)

Intellektuelle Indexierung: Im Datenbankbereich sind unterschiedliche Summen für die intellektuelle Indexierung zu verzeichnen. Nach Krause/Mutschke (1999, S. 10) fallen im InformationsZentrum Sozialwissenschaften im Durchschnitt ca. 11 Euro (22,- DM) für eine intellektuelle Indexierung auf der Basis von Volltexten an. Das FIZ Karlsruhe⁴ bezahlt für Indexierung und Klassifikation derzeit 5,- Euro (pro Volltext), es wird dort gerechnet, dass pro Stunde 6 Indexate von einem geübten Indexierer erstellt werden können.

Für den Bereich der wissenschaftlichen Bibliotheken konnten bei der Deutschen Bib- liothek in Frankfurt/Main keine aktuellen Zahlen in Erfahrung gebracht werden. Bei der Bayerischen Staatsbibliothek München⁵ konnte für die intellektuelle Sacher- schließung aufgrund einer Betriebsuntersuchung ein Zeitbedarf pro Buch von 9 Minu- ten ermittelt werden. Zu beachten ist, dass dieser Wert stark schwanken kann; dafür verantwortlich können Fremdsprachigkeit des Textes, hoher Komplexitätsgrad der behandelten Gegenstände, zahlreiche unterschiedliche Aspekte sein. In dem Durch- schnittswert von 9 Minuten sind auch bereits redaktionelle Arbeiten am verwendeten Thesaurus, nämlich der Schlagwortnormdatei (Genaueres hierzu im Kapitel 4) einge- schlossen.

Die „Verwaltungsvorschrift Kostenfestlegung“ (2002) verzeichnet für einen Fachrefe- renten des Höheren Dienstes in einer wissenschaftlichen Bibliothek einen Pauschal- lohnsatz von 63,- Euro für eine Arbeitsstunde. Darin enthalten sind außerhalb der Dienstbezüge Zuschläge für Beihilfe, Versorgung, Personalnebenkosten, Hilfsperso- nal, Kosten von Leitung und Aufsicht, Gemeinkosten) sowie Raumkosten, Ausstat- tung und sächlicher Verwaltungsaufwand. Damit können die 9 Minuten Indexie- rungsarbeit mit einem Geldwert von 9,45 Euro angesetzt werden.

Automatische Indexierung: Die Kosten sind je nach der Menge an Funktionen ei- nes Systems (z. B. nur linguistische Bearbeitung oder linguistische kombiniert mit statistischer Bearbeitung etc.) unterschiedlich. Außerdem müssen noch Serviceleis- tungen der Anbieter (z. B. Hotline, Support etc.) und Extras der Anwender wie beispielsweise eine Einbindung eines Thesaurus zu den Kosten des Systems aufge- schlagen werden. Im noch folgenden praktischen Teil (Kapitel 4) lag das teuerste Angebot⁶ für ein Indexierungssystem + Serviceleistungen bei ca. 50.000,- Euro.

Krause/Mutschke (1999, S. 12) zogen den Schluss, dass die intellektuelle Indexie- rung teurer als die automatische Indexierung ist. Insbesondere bei Datenbeständen, die neu aufgebaut werden, sollte wegen der Kosten die automatische Indexierung bevorzugt werden. Mehrkosten müssen allerdings gegenüber der Qualität abgewogen werden. Eine wichtige Rolle in der Abwägung der Vor- und Nachteile spielt das Anwendungsgebiet und die Textgrundlage (z.B. nur Abstracts oder Volltext). Proble- matisch sind bereits für Datenbankanbieter Quellen aus dem Internet, da diese aufgrund der Größenordnung und den fehlenden Geldmittel intellektuell nicht mehr er- schlossen werden können.

Bei der praktischen Anwendung der automatischen Indexierung im BAM-Projekt (Siehe Kapitel 4) wird bei den Kosten von der bibliothekarischen Indexierung ausge-

4 Email vom 14.01.2003

5 Telefonische Auskunft vom 20.01.2003, Angaben aufgrund einer Betriebsuntersuchung

6 Interne Angebote vom September 2002

(18)

gangen, d.h. ca. 10 Euro pro Indexat. Schon bei 5000 Datensätzen hat sich der ein- malige Anschaffungspreis von 50.000,- DM aufgerechnet. Folgekosten sind bei einem automatischen System dann nur noch Wartung, Updates von neuen Versionen, Serviceleistungen etc.

Als Vorgriff auf das Kapitel 4.3 kann gesagt werden, dass die automatische Indexie- rung die intellektuelle Indexierung allerdings nicht ersetzen kann und immer ein nicht unerheblicher Aufwand an intellektueller Nachbearbeitung zu leisten ist, der nicht in Geldwerten ausgedrückt werden kann. Bei AIR/PHYS (Siehe Kapitel 4.3) wird durch die intellektuelle Nachbearbeitung der automatischen Indexierung von Biebricher et al. (1988, S. 141) keine Zeit oder Personalersparnis gegenüber einer reinen intellektuellen Indexierung erwartet. So kann eigentlich keine Aussage gemacht werden, ob intellektuelle Indexierung, wenn deren Qualität erreicht werden soll, wirklich teurer ist wie automatische Indexierung, das kann nur in einem Test überprüft werden.

(19)

3. Automatische Indexierung:

Dieses Kapitel gibt eine Übersicht der Verfahren der automatischen Indexierung, die sich in linguistische, statistische und begriffsorientierte Verfahren einteilen lassen.

Ein Problem bei dieser „klassischen“ Indexierung ist, das meist nur die Sprachober- fläche des Textes analysiert werden kann, nicht der Textinhalt. Dafür werden „intelligentere“ Systeme benötigt. Darum werden in einem weiteren Kapitel Indexierungs- systeme im Zeichen von Wissensmanagement vorgestellt. Die Evaluierung von Inde- xierungssystemen und die Darstellung der Text Retrieval Conference(s) (TREC) als ein Evaluierungsforum sind weitere Aspekte.

3.1 Übersicht der Verfahren

Die automatischen Indexierungsverfahren können, wie gerade schon genannt, wie folgt eingeteilt werden: Linguistische, statistische und begriffsorientierte Verfahren.

Im Kontext der statistischen Verfahren werden auch Modelle wie das Vektorraum- modell und Probabilistische Modelle kurz vorgestellt.

Der Begriffsorientierte Ansatz unterscheidet sich von den anderen (v.a. den statistischen Verfahren) insoweit, dass er nicht als Extraktions- bzw. Stichwortverfahren angesehen wird (Vgl. Knorz, 1994). Beim Extraktionsverfahren (Siehe Kapitel 2) werden die Deskriptoren direkt aus den Stichworten des Titels oder des Dokuments gewonnen. Es erfolgt eine Selektion, Normierung und Gewichtung der Wörter. Mit dem begriffsorientierten Ansatz soll die manuelle Indexierung nachgebildet werden, die Deskriptoren können frei gewählt werden. Dieser Ansatz entspricht einem Additi- onsverfahren (Siehe Kapitel 2).

Bei den kommerziellen Systemen haben sich Kombinationen von linguistischen und statistischen Verfahren als sinnvoll erwiesen, in der Reihenfolge linguistische Bear- beitung vor der statistischen Indexierung (Vgl. Nohr, 2001, S. 25). Aktuell werden linguistische Verfahren benutzt, die sich v.a. auf der morphologischen Ebene der Wort- klasse bewegen (Vgl. Nohr, 2001, S. 44).

3.1.1 Linguistische Verfahren

Linguistische Verfahren reduzieren die extrahierten Terme auf ihre Grund- bzw.

Stammform. Komposita müssen in ihre Einzelteile zerlegt werden, Mehrwortbegriffe sollten erkannt werden. Es erfolgt eine sprachliche Analyse meist ohne Bedeutungs- analyse.

Im Zusammenhang mit dem Bereich der linguistischen Verfahren und Indexierung finden sich im gleichen Kontext die Begriffe Informationslinguistik oder Computer- linguistik.

Schneider ([2001?]) definiert Informationslinguistik wie folgt:

„Informationslinguistik untersucht sprachliche Probleme der Textanalyse, wie sie ty- pischerweise im Kontext von Information Retrieval (IR)-Systemen auftreten“.

Eine Definition für die Computerlinguistik nach Müller (2002):

(20)

Die Computerlinguistik im weiteren Sinne ist ein zwischen Linguistik und Informatik liegendes interdisziplinäres Forschungsgebiet, das sich mit der maschinellen Verarbeitung natürlicher Sprache beschäftigt. Computerlinguistik im engeren Sinne ist ein Teilgebiet der modernen Linguistik, das berechenbare Modelle menschlicher Sprache entwirft, implementiert und untersucht.

3.1.1.1 Methoden der Linguistik

Folgende Methoden der (Computer-)Linguistik können bei der Indexierung eine Rolle spielen (Vgl. Carstensen et al., 2001):

· Morphologie (Formenlehre): Wortbildung bzw. die Struktur des Wortes

· Syntax: Strukturbildung von Sätzen (Problem z.B. mit Nominalphrasen)

· Semantik: Bedeutung von sprachlichen Ausdrücken (Wort, Satz, Text)

· Pragmatik: Welchen Zweck hat eine Äußerung?

Morphologie: Wörter erscheinen in verschiedenen Formen und es gibt Beziehun- gen/Regeln zwischen den Wörtern bzw. Wortformen. Die Computerlinguistik will diese Regeln mit der Möglichkeit der Ergänzung für Vollformenlexika bzw. als Ersatz derselben formal umsetzen (Ebd.).

Die Morphologie in der Linguistik an sich lässt sich in Flexion (lat. für Beugung) und Wortbildung aufteilen. Die Wortbildung wird weiter in Komposition (Zusammenset- zung) und Derivation (Bildung von Wörtern aufgrund einzelner Ausgangswörter) un- terteilt (Ebd.).

In der Morphologie wird zwischen Wortform, Grundform und Stammform unterschieden:

· Die Wortform ist eine Zeichenkette zwischen zwei Trennzeichen, z.B. ein Satz- zeichen, eine Leerstelle etc.

· Die Grundform ist eine Wortform ohne ihre Flexionsendung (z.B. Besprechungen (Wortform), Besprechung (Grundform). Dabei muss beachtet werden, dass bei Wortformen wie „Häuser“ die phonologische Änderung rückgängig gemacht werden muss auf die Grundform: „Haus“

· Die Stammform ist die Grundform ohne Derivate (z.B. Besprechung (Grundform), Sprech (Stammform)) (Vgl. Hahn/Sonnenberger, 1991, S. 39)

Syntax: Bei der Disambiguierung von mehrdeutigen Wörtern spielt die Analyse der Syntax eine wichtige Rolle. Ein Parser (das Parsing erfolgt entweder partiell oder vollständig) wird zur Analyse der grammatischen Struktur der Sätze genutzt⁷. Grundwerkzeuge sind Algorithmen, wie z.B. der Earley-Algorithmus (Earley, 1970).

Syntaktische Strukturen werden als Baumgraphen bzw. Strukturbäume dargestellt (Vgl. Carstensen et al., 2001).

7 Parsen eines Satzes bedeutet „eine Folge von Ableitungen bzw. Regeln zu finden, die von einem (definierten) Startsymbol zum Satz führen. Parser bedienen sich dazu sog. formaler Grammatiken, d.h. Regelwerken, die dem Programm angeben, aus welchen Elementen sich gültige Sätze zusam- mensetzen“ (Lepsky, [2002?])

(21)

Ein Beispiel für ein Grammatikfragment in Form einer Baumstruktur anhand des Bei- spielsatzes „Der Hund sieht die Katze“ (Carstensen et al., 2001, S. 207):

S

NP VP

DET N V NP

Der Hund sieht DET N die Katze

Abbildung 2: Baumgraph eines Satzes (Carstensen et al., 2001, S. 207)

Die einzelnen Abkürzungen bedeuten: S ist das Startsymbol für den Satz. Dieser Satz besteht aus 2 Teilen: „Der Hund“ ist eine Nominalphrase (NP), „sieht die Katze“

ist eine Verbalphrase (VP). Die Nominalphrase besteht aus einem Determinierer (DET) „der“ sowie dem Nomen (N) „Hund“. Bei der Verbalphrase gibt es außer dem Determinierer und einem Nomen noch ein Verb (V) nämlich „sieht“ (Vgl. Carstensen et al., 2001, S. 207).

Da sich die Semantik nur am Informationsgehalt von Ausdrücken orientiert (d.h. an den Wahrheitsbedingungen), untersucht die Pragmatik das sprachliche Handeln, das über diese Bedingungen hinausgeht (allerdings auch sehr schwierig umsetzbar ist) (Ebd.).

Indexierungsverfahren können aber nur auf drei Ebenen linguistisch in der Analyse ansetzen und zwar mit der morphologischen, syntaktischen und semantischen Ana- lyse. Lösungen für alle drei Ebenen, die somit komplexe sprachliche Analysen er- möglichen, sind jedoch nur sehr aufwendig zu realisieren und bis jetzt können keine erschöpfenden Lösungen durch Indexierungssysteme angeboten werden.

Die Morphologische Analyse wird dagegen den Indexierungsverfahren bereits gut umgesetzt (Mehr dazu im Kapitel 3.1.1.2) (Vgl. Nohr, 2001, S. 42/43).

Die Syntaxanalyse bzw. morphosyntaktische Analyse soll v.a. korrekte Grundfor- men aus dem Kontext erstellen, Homographenerschließung ist eine weitere Anwen- dung (Vgl. Luckhardt, 1996). Wirkliche Syntax erschließen würde bedeuten, über das einzelne Wort hinaus, die Spracheinheiten wie Mehrwortgruppen oder Nominalphra- sen zu identifizieren (Nohr, 2001, S. 42/43).

Ein Beispiel von Luckhardt (1996) für eine Syntaxanalyse: Der Mehrwortbegriff „An- spruch auf Entschädigung“, dessen Komponenten im Satz verteilt sein können wie:

1. Auf Entschädigung hatte der Kläger keinen Anspruch.

2. ... Entschädigung. Einen Anspruch darauf hat der Kläger nicht.

3. Das Gericht verneinte einen Anspruch des Klägers auf Entschädigung.

(22)

Eine Analyse auf der Ebene der Satz- oder sogar Textlinguistik würde die Bezüge realisieren können, z.B. per Dependenz- oder Valenzgrammatik. Als Ausgangspunkt werden dabei Valenzen (bzw. Bindungen) an andere Satzbestandteile angesehen, die v.a. von Verben (aber auch von Substantiven oder Adjektiven) ausgehen können.

Im Beispiel 3 bedeutet dies, dass das Verb „verneinen“ nicht an "auf Entschädigung"

gebunden wird. „Anspruch“ hat eine andere Valenz und zwar

· „Anspruch (des Klägers; auf Entschädigung)“.

Die entsprechenden Mehrwortdeskriptoren wären dann „Anspruch des Klägers" sowie "Anspruch auf Entschädigung" (Ebd.).

Ein weiteres Problem der natürlichen Sprache ist deren Mehrdeutigkeit. Die daraus resultierenden Systeme zur Disambiguierung wären sehr komplex bzw. benötigten sehr umfangreiche Lexika. Außerdem müsste zusätzlich eine semantische Analyse erfolgen (Ebd.).

Für die Semantische Analyse gibt es lt. Luckhardt (1996) einige Ansätze. Er erörtert zwei solche Ansetzungen und zwar Rollenindikatoren und Thesaurusrelationen.

Rollenindikatoren: Je nach Situation wird ein Sachverhalt unterschiedlich formuliert.

Die DIN Norm 31 623 (1996 [1988], Teil 3) definiert Rollenindikatoren wie folgt: „Ein Rollenindikator ist ein unselbständiges Element einer Dokumentationssprache, das die Rolle des Deskriptors in seinem jeweiligen dokumentenspezifischen Zusammen- hang angibt. Rollenindikatoren können z.B. folgende Rollen ausdrücken: Subjekt, Objekt, Teil, Hilfsmittel, Handlung, Aspekt, Ort“.

Deskriptoren werden Rollenindikatoren zugeordnet (voran- oder nachgestellt), wobei einem Deskriptor auch mehrere zugeordnet werden können (max. 20). Eine Reihen- folge muss nicht eingehalten werden (Vgl. Luckhardt, 1996).

Beispiel: „Der Einsatz von Pferden zum Schleppen von Baumstämmen“ (Beispiel von Luckhardt, 1996).

Zuteilung von Rollenindikatoren:

Baumstämme à Objekt Schleppen à Handlung

Pferde à Subjekt

Die Rollenindikatoren fangen somit verschiedene Formulierungen/Ausprägungen eines Sachverhalts ab, die alle dasselbe bedeuten, wie „Pferde schleppen Baum- stämme“ oder „Baumstämme können von Pferden geschleppt werden“ oder „Das Schleppen von Baumstämmen durch Pferde“ (Ebd.).

Thesaurusrelationen: Die Beziehungen der Bezeichnungen eines Thesaurus bilden eine Art semantisches Netz (bezogen auf verschiedene Fachgebiete). Dieses semantische Netz bildet ein Wissen bezogen auf die Texte ab. Mehrdeutige Wörter innerhalb eines Textes könnten durch die Beziehungen eindeutig gemacht werden.

Wenn beispielsweise in einem Text über ein Fliessband öfters das abgekürzte Wort

„Band“ benutzt wird (das allerdings mehrere Bedeutungen hat wie z.B. Armband,

(23)

Tonband), kann eine solche Thesaurusrelation diese Mehrdeutigkeit beseitigen (Ebd.)

Beispiel einer Thesaurusrelation aus dem Automobilbau:

„Herstellungsstrasse (Narrower Term: Fliessband) Fliessband (Used for: Band)

Band (Use: Fliessband)” (Ebd.)

Mit einer solchen Relation könnte ein automatisches System beim Vorkommen des Wortes “Band” den Deskriptor “Fliessband” vergeben (Ebd.).

Eine Variante der Disambiguierung stellt Carstensen et al. (2001, S. 392) dar. Hier liefern sogenannte Synsets an Wortnetzen semantisch disambiguierte Einheiten.

Beispiel für ein Synset mit zwei Bedeutungen:

„{Ton, Laut} bzw. {Ton, Tonerde}“ (Ebd.)

Vorteile ergeben sich für Retrieval, wenn gezielt nach einer bestimmten „Lesart“ (d.h.

konkrete Bedeutung) gesucht werden kann. Eine Erweiterung einer Suchanfrage mit semantisch miteinander bedingenden Konzepten (z.B. Konzepte wie Geldinstitut zur Suchanfrage Bank), würde eine höhere Treffergenauigkeit ergeben (Vgl. Carstensen et al., 2001, S. 392).

Eine andere Form der Disambiguierung stellen Ontologien⁸ dar. Klassisch gesehen ist eine strukturierte Ontologie ein strukturierter Thesaurus, „involving a fair amount of precoordination“ (Bakel/Boon, 1997, S. 1). Strukturierte Ontologien bestehen aus (strukturierten) Konzepten und eindeutig definierten Relationen dazwischen. Konzep- te können über diese Relationen koordiniert werden (Ebd.).

Im Projekt „Condorcet“ der Universität Twente werden solche strukturierten Konzepte als Indexierungsterme verwendet, um damit eine höhere Präzision im Retrieval zu erreichen. Das Konzept ist sprachenunabhängig und nimmt eine Disambiguierung der Wörter vor. Außerdem werden Sachverhalte, die das Gleiche ausdrücken (beispielsweise „Zonisamide affects epilepsy“ oder „Effects of zonisamide in children with epilepsy“), auf ein Konzept abgebildet⁹ (Ebd.).

Suchterme wie „Aspirin“ und „Kopfweh“ ergeben beim Retrieval alle Dokumente, die diese beiden Terme aufweisen. Wenn strukturierte Konzepte verwendet werden, kann zwischen Dokumenten unterschieden werden, die Aspirin als Verursacher von Kopfschmerzen diskutieren (umgesetzt als Konzept: „(causes(aspirin, headache))“) im Gegensatz zu denen, die Aspirin als Heilmittel von Kopfschmerzen betrachten (umgesetzt als Konzept: „(cures(aspirin, headache))“).

Das System erschließt die tiefe Strukturen von Sätzen mit den syntaktischen Prinzi- pien von Chomsky’s „Government & Binding (GB)“-Theorie (Chomsky, 1981). Diese Theorie kann mit vielerlei Sprachphänomen umgehen und erstellt eine autonome

8 Die Thematik kann auch dem Wissensmanagement (Siehe Kapitel 3.2) zugeordnet werden.

9 Themengebiete sind aber nur die Epilepsie und „mechnical properties of engineering ceramics“ (Ba- kel/Boon, 1997)

(24)

Syntax. Der Strukturanalysierer erstellt dann eine Baumstruktur von den einzelnen Satzelementen (Ebd.).

Die semantische Analyse ist bisher noch nicht so erfolgreich entwickelt. Neuere Ent- wicklungen versuchen mit Techniken der Künstlichen Intelligenz, die Semantik zu er- schließen (Siehe Kapitel 3.2).

3.1.1.2 Deskriptorenermittlung

Zur Deskriptorenermittlung muss der Text eines Dokuments verschiedene Prozesse durchlaufen. Diese Prozesse sind nützliche Textoperationen wie

· Lexikalische Analyse (bezogen auf Zeichen/Buchstaben): Wörter werden als solche erkannt

· Entfernung von Stoppwörtern sowie von Wörtern, die Texte nicht diskriminieren oder schlechte Deskriptoren sind wie Adjektive etc.

· Stemming: Reduktion eines Wortes auf seine grammatische Wurzel, z.B. im Eng- lischen per Algorithmen oder N-Gramme (Näheres dazu weiter unten).

·

Selektion der Indexterme zur Deskriptorenbestimmung (Vgl. Baeza- Yates/Ribeiro-Neto, 1999, S. 165 ff).

Für die deutsche Sprache müssen bei der Bearbeitung der Wörter aus dem Text folgende zusätzliche informationslinguistische, morphologische Methoden durchgeführt werden (Vgl. Zimmermann, 1983):

· Reduzierung der verschiedenen Flexionsformen auf die Grundform bzw. Stamm- form (Lemmatisierung, Derivation)

· Sinnvolle Zerlegung der Komposita in Einzelteile

· Erkennung von Mehrwortbegriffen bzw. Phrasierungen

· Korrekte Zuordnung von Pronomina zu Nomen (Ebd.)

· Bindestrichergänzung (Vgl. Stock, 2000, S. 168)

Die Erkennung von Mehrwortbegriffen kann über Wörterbücher erfolgen. Davor kann ein Parser geschaltet sein, „Sobald eine potenzielle Komponente einer Mehrwort- gruppe gefunden wird, folgt eine Überprüfung, ob die restlichen Komponenten innerhalb eines bestimmten Abstands ebenfalls im Dokument vorkommen“ (Nohr, 2001, S. 50). Danach wird die Komponente im Wörterbuch auf Übereinstimmung mit der Grund- bzw. Stammform abgeglichen. Ebenfalls erfolgt eine Prüfung der Reihenfolge der Einzelwörter (Ist sie dieselbe wie im Wörterbuch?) sowie ob die Komponenten im selben Satz sind. Anschließend werden Vorkommensklassen gebildet. Die Wahr- scheinlichkeit, das auch syntaktische Korrektheit vorliegt, erfolgt durch Heuristiken (Vgl. Nohr, 2001, S. 50/51).

Eine andere Lösung ist nach Stock (2000) Textzerlegung in Klumpen. Dafür wird eine ausführliche Stoppwortliste benötigt mit allen Adverbien, Verben und Hilfsverben.

Diese Wortklassen dienen als Begrenzer, um eine Mehrwortgruppe zu identifizieren (bzw. deren Anfang oder Ende). Wenn man dann den Text betrachtet, bleiben zwischen diesen Stoppwörtern aus der Liste die Textklumpen übrig. Bestehen die Text- klumpen aus mehr als einem Wort, sind dies Kandidaten für Mehrwortbegriffe. Aller-

(25)

dings müssen die einzelnen Wörter der Mehrwortbegriffe nebeneinander stehen. So- bald dies nicht der Fall ist, funktioniert dieses System nicht mehr (Ebd.).

Bei der Mehrwortanalyse muss evtl. beachtet werden, dass deren Einzelbegriffe nicht die Bedeutung der Mehrwortbegriffe tragen und daher nicht als Deskriptoren dienen sollten (Beispiel „Hot Dog“). Ev. sind die Einzelbegriffe für sich zu allgemein und unterscheiden z.B. „Junior College“ oder „College Junior“ nicht voneinander (Vgl. Zhai et al., 1997, S. 347/348).

Eine notwendige Pronominaanalyse wird lt. Stock (2000, S. 157) erst experimentell in Systemen getestet. Bisher ermöglicht dies keine kommerzielle Software.

Wichtig vor einer Indexierung sind graphematisch-phonologische Verfahren. Diese erkennen a) lautliche und Schreibvarianten sowie b) Schreibfehler.

Beispiele für a) wären:

· Maier – Meier – Mayer – Meyer - Mayr (Beispiel bei Hahn/Sonnenberger, 1991, S. 24)

· Gorbachow – Gorbachev (Problem: wie gesprochen bzw. geschrieben) (Beispiel von Nohr, 2001, S. 41)

Weitere Problemfelder sind lt. Hahn/Sonnenberger (1991, S. 24) geographische Na- men und zwar das Problem Originalname (Beispiel: München) vs. englischsprachiger Name (Beispiel: Munich). Außerdem Abkürzungen/Akronyme wie NATO und die Voll- form „North Atlantic Treaty Organisation“. Bei Patentämtern können verschiedene Produktbezeichnungen zu Problemen führen (Beispiel: „Cronat“ und „Somat“) (Ebd.) Mögliche Schreibfehler sollten mit einer Rechtschreibprüfung abgefangen werden.

Untersuchungen haben ergeben, dass bis zu 12 % Fehler bei der Eingabe der Such- terme gemacht werden (Vgl. Stock, 2000). Natürlich können auch Fehler bei der Da- teneingabe der Dokumente auftreten.

Hahn/Sonnenberger (1991, S. 30 ff) unterscheiden 4 Klassen von Fehlern in der Schreibweise, die ihn 80 % der Fälle auftreten. Beispielfehler anhand der Ausgangs- form „Chemical“: Auslassung („Chmical“), Einfügung („Chemeical“), Substitution („Chemecal“) und Vertauschung („Chmeical“).

Es gibt 2 Verfahren, solche Fehler zu beheben:

1. Verfahren, die mit Wortlisten/Wörterbüchern arbeiten 2. Verfahren ohne Wortlisten: N-Gramm-Analyse (Ebd.)

Das erste Verfahren benötigt recht umfangreiche Wortlisten oder Wörterbucher, um den Fall „korrekt geschriebene Wörter werden als fehlerhaft angesehen“ (Ebd.) zu eliminieren. Dazu müssen die Wörterbücher alle Wortformen außerhalb der Grund- form enthalten. Alternativ kann das Wort auf seine Grundform vor der Schreibfehler- überprüfung gestemmt werden und in diesem Fall würde ein entsprechendes Grund- formenwörterbuch reichen (Ebd.).

(26)

Bei der N-Gramm-Analyse betrachtet man die Häufigkeit von Buchstaben einer ge- wissen Länge. Die am meisten verwendeten Tupel sind Digramme (für die Länge 2) und Trigramme (für die Länge 3) (Ebd.).

Beispiel für eine Zerlegung: Das Wort „CHEMICAL“ und der Schreibfehler „Chmical zerlegt jeweils als Trigramm:

· -CH, CHE, HEM, EMI, MIC, ICA, CAL, AL-

· -CH, CHM, HMI, MIC, ICA, CAL, AL- (Ebd.)

Ein Schreibfehler wird dann angenommen, wenn in einem untersuchten Wort mehrere seltene N-Gramme auftreten. Jedoch gibt es hier auch Fehlerquellen, z.B. das Trigramm ‚SCH’ ist im Englischen sehr selten. So wird das Wort „Scheme“ bei der N- Gramm-Analyse als nicht korrekt angezeigt (Ebd.).

Eine andere Möglichkeit bietet das SOUNDEX-Verfahren, das bei Suchanfragen An- wendung findet. Der Algorithmus kommt aus der Phonetik und reduziert die Wörter zuerst auf einen Code:

· economics à ergibt den SOUNDEX Code ECMMS

· economic à ergibt den SOUNDEX Code ECMMS

Diese Codes werden dann verglichen, ähnliche Wörter dazu werden ausgegeben.

Codes müssen nicht Buchstabe für Buchstabe genau übereinstimmen, es genügt eine mehr oder mindere Übereinstimmung. Ein Nutzer eines Retrievalssystem be- kommt dann eine Meldung, ob er das Wort mit dem gleichen Code als Suchterm ak- zeptiert und damit auch suchen möchte (Vgl. Stock, 2000, S. 157/158).

3.1.1.3 Stemmingverfahren

Die linguistische Bearbeitung erfolgt also meist ohne sich um die Erschließung der Bedeutung der Wörter. Linguistische Verfahren, die zu den Extraktionsverfahren ge- zählt werden, stützen sich auf 2 verschiedene Methoden ab (eine Kombination der beiden ist ebenfalls möglich):

· Regelbasierte Verfahren, die durch Algorithmen die linguistische Analysen vor- nehmen (Vorhanden v.a. für die englische Sprache)

· Wörterbuchgestützte Verfahren: Aufgrund der meist umfangreichen Wörterbü- cher, Lexika oder Thesauri werden die Terme erkannt und anschließend bearbeitet (Vgl. Nohr, 2001).

Regelbasierte Verfahren für das Stemming sind v.a. für das Englische praktikabel, da hier die Menge an Regeln und Ausnahmefällen niedrig ist. Im Prinzip werden durch die Regeln die verschiedenen Flexionsendungen unterschieden. Nicht erfasste Fälle müssen über eine Ausnahmeliste geregelt werden. Die grammatische Grundform bzw. Wortstämme als Indexterme sind letztendlich das Ziel (Vgl. Lepsky, o.J., S. 35).

Ein bekannter Stemmer ist der Porter-Algorithmus (bzw. „Porter Stemmer“) (Porter, 1980). Er beruht auf einer Reihe von Regeln (8), mit denen die Wörter bearbeitet

(27)

werden. Es werden immer die letzten Buchstaben eines Wortes angesehen. Dabei wird immer die längste Sequenz an Buchstaben betrachtet, auf die eine Regel zutref- fen kann (Prinzip des „Longest Matching“). Es folgt nun ein Beispiel für das Stemmen einer Pluralform auf eine Singularform und zwar mit dem Wort „stresses“. Es gibt zwei mögliche Regeln zur Entfernung des Suffixes:

sses à ss (es wird entfernt)

s à f (der Buchstabe s wird zu ‚nil’, d.h. er wird entfernt) Aufgrund der Betrachtung der längsten Sequenz an Buchstaben wird ein Stemming auf „stress“ anstatt auf „stresse“ durchgeführt (Vgl. Baeza-Yates/Ribeiro-Neto, 1999, S. 24).

Ein weiterer bekannter (und auch der älteste Stemmer) ist der von Lovins (1968). Der Lovins-Algorithmus beruht ebenfalls auf dem „Longest Matching“ eines Suffixes. Er benützt eine Liste von 250 verschiedenen Suffixen und ist damit größer wie der von Porter. Der Vorteil gegenüber dem Porter Stemmer zeigt sich in seiner Schnelligkeit, da er auch nur 2 Schritte zur Suffixentfernung macht (im Gegenteil zum Porter Algo- rithmus, der 8 benötigt). Allerdings muss das zurückgebliebene, gestemmte Wort wenigstens aus 3 Buchstaben bestehen.

Die Algorithmen führen unterschiedlich weite Reduktionen beim Stemmen durch. Bei Kuhlen (1974) kann zwischen der Reduktion auf die formale oder lexikalische Grund- form sowie der Reduktion auf der Stammform unterschieden werden.

Die Reduktion auf die formale Grundform kürzt ein Wort um ihre Flexionsendung. Die lexikalische Grundform beinhaltet bei den Substantiven die Bildung des Nominativ Singular und bei Verben die Infinitivbildung. Außerdem entspricht die Grundform dem Einträgen in konventionellen Lexika.

Um auf die Stammform zu reduzieren, muss die Derivationsendung entfernt werden.

Dabei müssen die Wörter bereits deflektiert sein, d.h. die lexikalische Grundformre- duktion geht der Stammformreduktion voraus (Ebd.).

Beispiel für die Grund- und Stammformen:

Formale Grundform Textwort Lexikalische Grundform Stammform

Absorbanc Absorbencies Absorbancy Absorb

Die Gefahr bei solchen Reduktionsalgorithmen ist nach Knorz (1994), dass die Re- duktionen zu weitgehend (overstemming) sein können oder zu ungenügend (un- derstemming).

Als Beispiel hier ein einfacher Algorithmus von Kuhlen (1977, S. 71), der englische Wörter kontextfrei auf ihre lexikalische Grundform stemmt. Seine Fehlerquote ist unter optimalen Bedingungen nur 3 %.

Erläuterung der Form der Regeln und Abkürzungen:

Beispielregel: „ed“ à „e“ (+ evtl. eine Bedingung)

Bedeutet: Aus der Endung „ed“ wird, je nach Bedingung, die Endung „e“ (bzw.

wird ersetzt durch die Endung)

(28)

Die Abkürzungen bedeuten:

· % steht für alle Vokale und den Buchstaben „Y“

· * steht für die Konsonanten

· # ist ein Leerzeichen

· / bedeutet Oder

Der ganze Algorithmus mit seinen 8 Regeln:

1. IES à Y

2. ES à # nach * O / CH / SH / SS / ZZ / X 3. S à # nach * / E / %Y / %O / OA / EA 4. IES' à Y

ES' à # S' à # 5. 'S à # ' à #

6. ING à # nach ** / % / X ING à E nach %* vorausgehen 7. IED à Y

8. ED à # nach ** / % / X ED à E nach %*

Beispiel für Stemmungen:

· aus „activities“ wird die Grundform „activity“ (Regel 1)

· “processes” à “process” (Regel 4)

· “mother’s” à „mother“ (Regel 5)

· „mixing“ à „mix“ (Regel 6)

· „believed” à „believe“ (Regel 8) (Vgl. Knorz, 1994)

Für das Deutsche sind solche regelbasierten Systeme nicht praktikabel, da die Re- geln an unregelmäßiger Pluralbildung (von „Haus“ auf „Häuser“) aufgrund einer Stammformänderung scheitern. Weitere Problembereiche sind die korrekte Komposi- tazerlegung (z.B. „Staatsexamen“) (Vgl. Nohr, 2001, S. 46).

Beim wörterbuchbasierten Verfahren müssen die Terme oder Mehrwortbegriffe aus einem Dokument in ihren möglichen Stamm- oder Grundformen im Wörterbuch abgelegt sein, um die einzelnen Wörter identifizieren zu können. Das Wörterbuch kann als Vollformenlexikon (mit allen grammatischen Abweichungen bzw. Verweisen der Stamm- oder Grundformen) oder als reines Stamm- bzw. Grundformlexikon (mit den Endungsformen) geführt werden. Beim Vollformenlexikon erfolgt der Abgleich mit dem Wort im Text über ein einfaches Matching, während beim Stamm-

/Grundformlexikon das „Longest-Matching“ (Lange Einträge im Lexikon werden ge- genüber kurzen Einträgen bevorzugt) greift (Vgl. Lepsky, o.J., S. 37).

(29)

Für Wörterbücher muss sehr viel kontinuierliche und umfangreiche Pflege getrieben werden und das erfordert einen hohen Arbeits-, Zeit- und Kostenaufwand. Unregel- mäßigkeiten der Sprache finden entsprechende Berücksichtigung (Vgl. Nohr, 2001, S. 46). Beispiele für umfangreiche Wörterbücher sind die des Morphologiepro- gramms GERTWOL (für das Deutsche) und ENGTWOL (für das Englische) der Fir- ma Lingsoft¹⁰. Von der TU München gibt es ein umfangreiches Lexikon für die deutsche Sprache mit dem Namen Cislex¹¹.

Als kommerzielle lingustische, wörterbuchbasierte deutsche Verfahren sind Autindex (mit statistischer Gewichtungsfunktion), IDX, Extract und Passat zu nennen (Diese werden näher in Kapitel 4 dargestellt)¹².

Als ein beispielhaftes System wird an dieser Stelle das Bibliothekssystem OSIRIS vorgestellt, da es eine Sonderstellung einnimmt. Es verwendet für die Indexierung sowohl einfache, morphologische Regeln an als auch ein Wörterbuch. Hier eine kur- ze Beschreibung:

OSIRIS (Osnabrück Intelligent Research Information System)

Diese multilinguale, natürlichsprachiges Retrievalsystem, angewendet in der Univer- sitätsbibliothek Osnabrück, erfordert keine Kenntnisse in klassischen Recherche- techniken (z.B. Boolsche Verknüpfungen, Trunkierung etc.). Die Benutzereingaben werden durch eine deklarative Grammatik syntaktisch und semantisch (fehlersensiti- ves Parsing, Morphologie (einfach, regelbasiert), Kompositazerlegung) analysiert.

Die erkannten Zusammenhänge werden auf eine Wissensbasis transferiert (Syste- matik in Sinne von einer Klassifikation¹³). Phonetische Algorithmen erkennen

Schreibfehler und korrigieren dieselbe. Nicht exakte Schreibweisen (wichtig bei Per- sonennamen, wenn z.B. auch nur ein Teil des Namens bekannt ist) können trotzdem zugeordnet werden (Vgl. Ronthaler/Zillmann, 1998; OSIRIS, 2000; Ronthaler, 2000)

Der Parser bzw. das Lexikon: Deren semantische Analyse ermöglicht die Anfrage an die Wissensbasis. Die Wissensbasis besteht aus Autor, Titel, Schlagwort, Notation etc. Die Abbildung erfolgt gewichtet auf den Index.

Der Parser kann englische Wörter in deutschen Texten erkennen bzw. umgekehrt.

Annotationen des Lexikons für Länder- oder Personennamen steuern den Parser, der dann bestimmte Regeln anwenden muss. Ein Taskmanager bewertet die Analy- se von Lexikon und Parser (Ebd.)

Das Lexikon selbst enthält mehr als 400.000 Stammformen für das Deutsche und 50.000 für das Englische (Stand 2000), der Wortschatz selbst wird durch Fremdquel- len erweitert. Morphologieprogramme wie das bereits genannte „GERTWOL“ bzw.

„ENGTWOL“ sind im Einsatz. Es gibt ein spezielles Lexikon für Eigennamen (Ebd.).

Recherche: Kein reiner Zeichen- bzw. Musterabgleich, da die Erschließung klassifi- katorisch erfolgt. Dementsprechend werden Klassen als Ergebnis ausgegeben.

10 Demo zum Testen der morphologischen Analyse siehe http://www.lingsoft.fi

11 Kurzbeschreibung im Anhang A

12 An dieser Stelle sei verwiesen, dass sich im Anhang A weitere, auch ältere linguistische Systeme wie ALVEY Natural Language Tool, COPSY, CTX, DETECT, FASIT, MOPS und PRECIS mit Kurzbe- schreibungen zu finden sind. Außerdem die morphologischen Komponenten „Deutsche Malaga- Morphologie“, MONA, MORPHIX, MORPHY sowie das linguistische/statistische System CONDOR.

13 Somit wäre es auch ein Beispiel für das noch folgende Kapitel 3.2.6 „Klassifikationen“.

(30)

Wenn man z.B. den Begriff „Chemie“ eingibt, wird als Antwort die Klasse „Chemie“

geliefert. Die Anfrage kann englisch oder deutsch erfolgen und ergibt jeweils die sel- be Klasse (Ebd.).

3.1.1.4 Deutsche Kritik an linguistischen Verfahren

Linguistische Verfahren sollen sich im Retrieval bewähren und dort zu mehr Effektivi- tät und Benutzerfreundlichkeit führen. Kritiker wie Ruge/Goeser (1998) kommen zu negativen Schlussfolgerungen durch die Auswertung von diversen Untersuchungen bzgl. der Effektivität des linguistischen Einsatzes dergestalt wie:

· Positiv nur bei kurzen Suchanfragen oder Dokumenten

· Kombination von mehreren Techniken der Linguistik erweisen sich als vorteilhaft

· Ohne Disambiguierung bringt Syntaxanalyse eher nichts

· System muss qualitativ hochwertig sein

Die Gegenkritik von Renz (2001) weist darauf hin, dass der Nutzen des Einsatzes von linguistischen Verfahren von den Faktoren Dokumentenart, dem Informationssu- chenden und dessen Bedürfnisse abhängig ist. Die Erkenntnisse in dem Artikel wur- den nach ihrer Ansicht durch Benutzersituationen, die nicht repräsentativ bzw. eher zufällig entstanden sind, verfälscht. Für sie ist MILOS ein Beispiel von einem gelun- genen Einsatz von linguistischen Komponenten.

Nohr (2001, S. 63) leitet aus verschiedenen Positionen her, das eine Einbeziehung aller linguistischen Stufen die besten Retrievalergebnisse erzielen würde.

3.1.2 Statistische Verfahren

Indexieren bedeutet (wie bereits gesagt), man ordnet jedem Dokument diejenigen Deskriptoren zu, die zur Repräsentation des Inhalts dienen. Die potentielle Bedeut- samkeit für das Retrieval wird in der Zuteilung eines Wertes für die Deskriptoren wi- dergespiegelt (Vgl. Salton/McGill, 1987, S. 65 ff).

Wörter kommen nicht gleich häufig in Dokumenten vor (nachgewiesen an Dokumen- ten aus unterschiedlichen Themengebieten), deswegen können Wortklassen aufgrund ihrer Häufigkeit unterschieden werden (Ebd.).

Das Zipfsche Gesetz (1949) beschreibt die Verteilung von Begriffen eines Doku- ments, die nach der Häufigkeit absteigend geordnet werden. Der Rang (aus der Häu- figkeit) wird mit der Häufigkeit eines Wortes multipliziert und ergibt eine Konstante.

Diese Konstante ist bei verschiedenen Wörter gleich.

Zipfsche Gesetz: Häufigkeit * Rangplatz @ Konstant

Erklärt wird dieses Gesetz damit, dass die Wiederholung bestimmter Wörter einfacher ist als die ständige Suche nach neuen („Prinzip des geringsten Aufwandes“) (Ebd.).

Um Faktoren der Wortbedeutsamkeit abzuleiten, benutzte Luhn (1958) das Zipfsche Gesetz als Ausgangspunkt und generierte somit ein automatisches Indexierungsver-