• Keine Ergebnisse gefunden

Diese Masterarbeit befasst sich mit der automatischen Indexierung als einem Teilge-biet des Information Retrieval. Information Retrieval definiert sich nach Salton/McGill (1987, S. 1) folgendermaßen:

„Gegenstand des Information Retrieval (IR) ist die Repräsentation, Speicherung und Organisation von Informationen und der Zugriff zu Informationen“ (Salton/McGill, 1987, S. 1).

Das Grundmodell für Dokumenten-Retrieval nach Kuhlen (1995, S. 277) veranschau-licht dies:

Abbildung 1: Grundmodell für Dokumenten-Retrieval (Kuhlen, 1995, S. 277)

Einen anderen Aspekt betont die Definition der 1991 innerhalb der „Gesellschaft für Informatik (GI)“ gegründete Fachgruppe „Information Retrieval“. Information Retrieval zeichnet sich dabei ab durch:

[...] vage Anfragen und unsicherem Wissen „ aus. „Vage Anfragen sind dadurch gekennzeichnet, dass die Antwort a priori nicht eindeutig definiert ist. Hierzu zäh-len neben Fragen mit unscharfen Kriterien insbesondere auch solche, die nur im Dialog iterativ durch Reformulierung (in Abhängigkeit von den bisherigen Sys-temantworten) beantwortet werden können. [...] Die Unsicherheit (oder die Un-vollständigkeit) dieses Wissens resultiert meist aus der begrenzten Repräsentati-on vRepräsentati-on dessen Semantik [...]; darüber hinaus werden auch solche Anwendungen betrachtet, bei denen die gespeicherten Daten selbst unsicher oder unvollständig sind.

Es stellt sich aufgrund der Definitionen die Frage des Ziels von Information Retrieval-Systemen:

Das Ziel von Information Retrieval-Systemen ist es, wenig oder unstrukturierte1 Informationen so aufzubereiten, dass sie bei einem aktuellen Informationsbedarf mit entsprechenden Such-strategien und –techniken möglichst präzise und vollständig wiederaufgefunden werden kön-nen (Nohr, 2001, S. 13).

Die Indexierung übernimmt die Aufbereitung des Dokumenteninhalts und ist damit der wichtige Eingangsschritt des Information Retrieval. Nach DIN 31 623 (Teil 1, 1996 [1988], S. 181) erfüllt die Indexierung folgende Zielsetzung:

Indexierung ist die Gesamtheit der Methoden und Verfahren sowie deren Anwendungen, die zur Zuordnung von Deskriptoren oder Notationen2 zu dokumentarischen Bezugseinheiten füh-ren mit dem Ziel der inhaltlichen Erschließung sowie der gezielten Wiederauffindung.

Deskriptoren erfüllen die Funktionen der Inhaltsrepräsentation mit einer

schlagwortartigen Kurzbeschreibung. Somit werden Dokumente mit ähnlichem oder gleichem Inhalt miteinander verknüpft. Die Bestimmung der Relevanz der

Dokumente ist das Ziel beim Retrieval (Keen, 1977).

In dieser Masterarbeit sollen die Grundlagen bzw. verschiedenen Ansätze und Ver-fahren der automatischen Indexierung dargestellt werden. Eine konkrete Anwendung im DFG-Projekt „Gemeinsames Portal für Bibliotheken, Archive und Museen (BAM)“

bildet den praktischen Teil. Da es in diesem Projekt um deutschsprachige Textinde-xierung geht, beschränkt sich die automatische IndeTextinde-xierung in diesem Projekt auf monolinguale Verfahren. Im theoretischen Teil werden neben der Indexierung für die deutsche Sprache auch die Grundlagen für die englische Sprache behandelt, da ein Großteil der Forschung im angloamerikanischen Bereich stattfindet. Die zeigt sich z.B. bei den Text REtrieval Conference(s) (TREC).

Diese Masterarbeit baut sich darum folgendermaßen auf:

Zuerst werden generelle Grundlagen der Indexierung vermittelt. Hier sind Grundla-gen zur Auswahl einer Indexierungsmethode sowie GrundleGrundla-gendes zur Deskriptore-nermittlung, dem Indexierungsvokabular und der Deskriptorenkoordination darge-stellt. Ein Vergleich der intellektuellen mit der automatischen Indexierung beendet dieses Kapitel.

Das eigentliche Thema, die automatische Indexierung, wird mit seinen Verfahren vorgestellt. Dabei wird zwischen linguistischen, statistischen und begriffsorientierten Verfahren unterschieden. Zur besseren Anschauung und Verständlichkeit werden einige Beispiele vorgestellt.

Das Kapitel „Automatische Indexierung im Zeichen von Wissensmanagement“ fasst Wichtiges in der Forschung aus den letzten Jahren zusammen. Themen sind dabei Semantische und Neuronale Netzwerke, Informations- und Schlüsselphrasenextrak-tion (Key phrase extracSchlüsselphrasenextrak-tion) als auch Text Mining und KlassifikaSchlüsselphrasenextrak-tion. Andere beispiel-hafte Ansätze bilden den Schluss.

1 Unstrukturierte Informationen sind Texte, strukturierte Informationen sind z.B. abgelegte Personen-namen in einer Datenbank.

2 Notationen spielen erst im Kapitel 3.2.6 „Klassifikationen“ eine Rolle

Der Aspekt „Evaluierung von Indexierungssystemen“ wird im nächsten Kapitel dar-gestellt. Dabei wird die Anwendung von allgemeinen Qualitätskriterien untersucht.

Eine Möglichkeit, verschiedene Systeme im Sinne von Qualität zu unterscheiden und zu vergleichen, ist ein Pflichtenheft. Ob Kriterien aus der Informationsqualität, einem Teilbereich der Qualität, eine Rolle spielen können, ist ein weiteres Thema. Aus die-sen Überlegungen heraus sowie unter dem Einbezug von Normen und sonstigen Ansätzen werden dann Qualitätskriterien für die Indexierung aufgestellt. Die Bewer-tung von Retrievalqualität bildet den Schluss.

Retrievalverfahren und -systeme zu bewerten ist das Merkmal der Text REtrieval Conference(s) (TREC), die seit 1992 jedes Jahr stattfinden. Hierbei stehen fast aus-schließlich englische Systeme, v.a. aus dem Wissenschaftsbereich, im Vordergrund.

Daraus einen Schluss für die Indexierung (v.a. auch für Deutsche Systeme) zu zie-hen ist schwierig.

Es folgt die praktische Anwendung der automatischen Indexierung im Rahmen eines Tests für das DFG-Projekt „Gemeinsames Portal für Bibliotheken, Archive und Mu-seen (BAM)“. Dieses Projekt wird gemeinsam vom Bibliotheksservice-Zentrum Ba-den-Württemberg (BSZ) in Konstanz, der Landesarchivdirektion BaBa-den-Württemberg (LAD) in Stuttgart sowie dem Landesmuseum für Technik und Arbeit (LTA) in Mann-heim durchgeführt. Da die bibliothekarische Erschließung für die Indexierung eine gewichtige Rolle spielen wird, wird diese näher erläutert. Um Anhaltspunkte für die Durchführung dieses Tests zu haben, folgen Beschreibungen von bereits durchge-führten Tests aus dem bibliothekarischen Bereich sowie kurz weitere Wichtige im do-kumentarischen Bereich. Für den eigentlichen Test musste natürlich der deutsche Markt an Textretrievalsystemen angesehen und beurteilt werden. Welche Evaluie-rung dann möglich war, ist das nächste Thema. Es folgt die Vorstellung der Test-konstellation, d.h. welche Datenarten stehen zur Verfügung, wie können die Systeme getestet werden etc. Die Ergebnisse des Tests sowie deren Bewertung im Rahmen eines Fazits bilden den Rest des Kapitels.

Ein Fazit über die Automatische Indexierung im Allgemeinen schließt die Arbeit ab.

Im Anhang A finden sich noch eine Auflistung von Indexierungssystemen der letzten 20 Jahre, die aber nur eine Auswahl darstellen können.

___________________________________________________________________

Ich möchte noch dem Bibliotheksservice-Zentrum Konstanz für die Ermöglichung und Unterstützung bei dieser Masterarbeit danken. Außerdem den 3 Firmen, die ihre In-dexierungssysteme für diesen Test zur Verfügung stellten. Ein weiterer Dank geht an Prof. Dr. Marc Rittberger (Universität Genf) für seine fachliche Hilfe.