Stemmingverfahren - Linguistische Verfahren

3. Automatische Indexierung:

3.1 Übersicht der Verfahren

3.1.1 Linguistische Verfahren

3.1.1.3 Stemmingverfahren

Diese Codes werden dann verglichen, ähnliche Wörter dazu werden ausgegeben.

Codes müssen nicht Buchstabe für Buchstabe genau übereinstimmen, es genügt ei-ne mehr oder mindere Übereinstimmung. Ein Nutzer eiei-nes Retrievalssystem be-kommt dann eine Meldung, ob er das Wort mit dem gleichen Code als Suchterm ak-zeptiert und damit auch suchen möchte (Vgl. Stock, 2000, S. 157/158).

3.1.1.3 Stemmingverfahren

Die linguistische Bearbeitung erfolgt also meist ohne sich um die Erschließung der Bedeutung der Wörter. Linguistische Verfahren, die zu den Extraktionsverfahren ge-zählt werden, stützen sich auf 2 verschiedene Methoden ab (eine Kombination der beiden ist ebenfalls möglich):

· Regelbasierte Verfahren, die durch Algorithmen die linguistische Analysen vor-nehmen (Vorhanden v.a. für die englische Sprache)

· Wörterbuchgestützte Verfahren: Aufgrund der meist umfangreichen Wörterbü-cher, Lexika oder Thesauri werden die Terme erkannt und anschließend bearbei-tet (Vgl. Nohr, 2001).

Regelbasierte Verfahren für das Stemming sind v.a. für das Englische praktikabel, da hier die Menge an Regeln und Ausnahmefällen niedrig ist. Im Prinzip werden durch die Regeln die verschiedenen Flexionsendungen unterschieden. Nicht erfasste Fälle müssen über eine Ausnahmeliste geregelt werden. Die grammatische Grundform bzw. Wortstämme als Indexterme sind letztendlich das Ziel (Vgl. Lepsky, o.J., S. 35).

Ein bekannter Stemmer ist der Porter-Algorithmus (bzw. „Porter Stemmer“) (Porter, 1980). Er beruht auf einer Reihe von Regeln (8), mit denen die Wörter bearbeitet

werden. Es werden immer die letzten Buchstaben eines Wortes angesehen. Dabei wird immer die längste Sequenz an Buchstaben betrachtet, auf die eine Regel zutref-fen kann (Prinzip des „Longest Matching“). Es folgt nun ein Beispiel für das Stemmen einer Pluralform auf eine Singularform und zwar mit dem Wort „stresses“. Es gibt zwei mögliche Regeln zur Entfernung des Suffixes:

sses à ss (es wird entfernt)

s à f (der Buchstabe s wird zu ‚nil’, d.h. er wird entfernt) Aufgrund der Betrachtung der längsten Sequenz an Buchstaben wird ein Stemming auf „stress“ anstatt auf „stresse“ durchgeführt (Vgl. Baeza-Yates/Ribeiro-Neto, 1999, S. 24).

Ein weiterer bekannter (und auch der älteste Stemmer) ist der von Lovins (1968). Der Lovins-Algorithmus beruht ebenfalls auf dem „Longest Matching“ eines Suffixes. Er benützt eine Liste von 250 verschiedenen Suffixen und ist damit größer wie der von Porter. Der Vorteil gegenüber dem Porter Stemmer zeigt sich in seiner Schnelligkeit, da er auch nur 2 Schritte zur Suffixentfernung macht (im Gegenteil zum Porter Algo-rithmus, der 8 benötigt). Allerdings muss das zurückgebliebene, gestemmte Wort wenigstens aus 3 Buchstaben bestehen.

Die Algorithmen führen unterschiedlich weite Reduktionen beim Stemmen durch. Bei Kuhlen (1974) kann zwischen der Reduktion auf die formale oder lexikalische Grund-form sowie der Reduktion auf der StammGrund-form unterschieden werden.

Die Reduktion auf die formale Grundform kürzt ein Wort um ihre Flexionsendung. Die lexikalische Grundform beinhaltet bei den Substantiven die Bildung des Nominativ Singular und bei Verben die Infinitivbildung. Außerdem entspricht die Grundform dem Einträgen in konventionellen Lexika.

Um auf die Stammform zu reduzieren, muss die Derivationsendung entfernt werden.

Dabei müssen die Wörter bereits deflektiert sein, d.h. die lexikalische Grundformre-duktion geht der StammformreGrundformre-duktion voraus (Ebd.).

Beispiel für die Grund- und Stammformen:

Formale Grundform Textwort Lexikalische Grundform Stammform

Absorbanc Absorbencies Absorbancy Absorb

Die Gefahr bei solchen Reduktionsalgorithmen ist nach Knorz (1994), dass die Re-duktionen zu weitgehend (overstemming) sein können oder zu ungenügend (un-derstemming).

Als Beispiel hier ein einfacher Algorithmus von Kuhlen (1977, S. 71), der englische Wörter kontextfrei auf ihre lexikalische Grundform stemmt. Seine Fehlerquote ist un-ter optimalen Bedingungen nur 3 %.

Erläuterung der Form der Regeln und Abkürzungen:

Beispielregel: „ed“ à „e“ (+ evtl. eine Bedingung)

Bedeutet: Aus der Endung „ed“ wird, je nach Bedingung, die Endung „e“ (bzw.

wird ersetzt durch die Endung)

Die Abkürzungen bedeuten:

· % steht für alle Vokale und den Buchstaben „Y“

· * steht für die Konsonanten

· # ist ein Leerzeichen

· / bedeutet Oder

Der ganze Algorithmus mit seinen 8 Regeln:

1. IES à Y

2. ES à # nach * O / CH / SH / SS / ZZ / X 3. S à # nach * / E / %Y / %O / OA / EA 4. IES' à Y

ES' à # S' à # 5. 'S à # ' à #

6. ING à # nach ** / % / X ING à E nach %* vorausgehen 7. IED à Y

8. ED à # nach ** / % / X ED à E nach %*

Beispiel für Stemmungen:

· aus „activities“ wird die Grundform „activity“ (Regel 1)

· “processes” à “process” (Regel 4)

· “mother’s” à „mother“ (Regel 5)

· „mixing“ à „mix“ (Regel 6)

· „believed” à „believe“ (Regel 8) (Vgl. Knorz, 1994)

Für das Deutsche sind solche regelbasierten Systeme nicht praktikabel, da die Re-geln an unregelmäßiger Pluralbildung (von „Haus“ auf „Häuser“) aufgrund einer Stammformänderung scheitern. Weitere Problembereiche sind die korrekte Komposi-tazerlegung (z.B. „Staatsexamen“) (Vgl. Nohr, 2001, S. 46).

Beim wörterbuchbasierten Verfahren müssen die Terme oder Mehrwortbegriffe aus einem Dokument in ihren möglichen Stamm- oder Grundformen im Wörterbuch ab-gelegt sein, um die einzelnen Wörter identifizieren zu können. Das Wörterbuch kann als Vollformenlexikon (mit allen grammatischen Abweichungen bzw. Verweisen der Stamm- oder Grundformen) oder als reines Stamm- bzw. Grundformlexikon (mit den Endungsformen) geführt werden. Beim Vollformenlexikon erfolgt der Abgleich mit dem Wort im Text über ein einfaches Matching, während beim

Stamm-/Grundformlexikon das „Longest-Matching“ (Lange Einträge im Lexikon werden ge-genüber kurzen Einträgen bevorzugt) greift (Vgl. Lepsky, o.J., S. 37).

Für Wörterbücher muss sehr viel kontinuierliche und umfangreiche Pflege getrieben werden und das erfordert einen hohen Arbeits-, Zeit- und Kostenaufwand. Unregel-mäßigkeiten der Sprache finden entsprechende Berücksichtigung (Vgl. Nohr, 2001, S. 46). Beispiele für umfangreiche Wörterbücher sind die des Morphologiepro-gramms GERTWOL (für das Deutsche) und ENGTWOL (für das Englische) der Fir-ma Lingsoft¹⁰. Von der TU München gibt es ein umfangreiches Lexikon für die deut-sche Sprache mit dem Namen Cislex¹¹.

Als kommerzielle lingustische, wörterbuchbasierte deutsche Verfahren sind Autindex (mit statistischer Gewichtungsfunktion), IDX, Extract und Passat zu nennen (Diese werden näher in Kapitel 4 dargestellt)¹².

Als ein beispielhaftes System wird an dieser Stelle das Bibliothekssystem OSIRIS vorgestellt, da es eine Sonderstellung einnimmt. Es verwendet für die Indexierung sowohl einfache, morphologische Regeln an als auch ein Wörterbuch. Hier eine kur-ze Beschreibung:

OSIRIS (Osnabrück Intelligent Research Information System)

Diese multilinguale, natürlichsprachiges Retrievalsystem, angewendet in der Univer-sitätsbibliothek Osnabrück, erfordert keine Kenntnisse in klassischen Recherche-techniken (z.B. Boolsche Verknüpfungen, Trunkierung etc.). Die Benutzereingaben werden durch eine deklarative Grammatik syntaktisch und semantisch (fehlersensiti-ves Parsing, Morphologie (einfach, regelbasiert), Kompositazerlegung) analysiert.

Die erkannten Zusammenhänge werden auf eine Wissensbasis transferiert (Syste-matik in Sinne von einer Klassifikation¹³). Phonetische Algorithmen erkennen

Schreibfehler und korrigieren dieselbe. Nicht exakte Schreibweisen (wichtig bei Per-sonennamen, wenn z.B. auch nur ein Teil des Namens bekannt ist) können trotzdem zugeordnet werden (Vgl. Ronthaler/Zillmann, 1998; OSIRIS, 2000; Ronthaler, 2000)

Der Parser bzw. das Lexikon: Deren semantische Analyse ermöglicht die Anfrage an die Wissensbasis. Die Wissensbasis besteht aus Autor, Titel, Schlagwort, Notation etc. Die Abbildung erfolgt gewichtet auf den Index.

Der Parser kann englische Wörter in deutschen Texten erkennen bzw. umgekehrt.

Annotationen des Lexikons für Länder- oder Personennamen steuern den Parser, der dann bestimmte Regeln anwenden muss. Ein Taskmanager bewertet die Analy-se von Lexikon und ParAnaly-ser (Ebd.)

Das Lexikon selbst enthält mehr als 400.000 Stammformen für das Deutsche und 50.000 für das Englische (Stand 2000), der Wortschatz selbst wird durch Fremdquel-len erweitert. Morphologieprogramme wie das bereits genannte „GERTWOL“ bzw.

„ENGTWOL“ sind im Einsatz. Es gibt ein spezielles Lexikon für Eigennamen (Ebd.).

Recherche: Kein reiner Zeichen- bzw. Musterabgleich, da die Erschließung klassifi-katorisch erfolgt. Dementsprechend werden Klassen als Ergebnis ausgegeben.

10 Demo zum Testen der morphologischen Analyse siehe http://www.lingsoft.fi

11 Kurzbeschreibung im Anhang A

12 An dieser Stelle sei verwiesen, dass sich im Anhang A weitere, auch ältere linguistische Systeme wie ALVEY Natural Language Tool, COPSY, CTX, DETECT, FASIT, MOPS und PRECIS mit Kurzbe-schreibungen zu finden sind. Außerdem die morphologischen Komponenten „Deutsche Malaga-Morphologie“, MONA, MORPHIX, MORPHY sowie das linguistische/statistische System CONDOR.

13 Somit wäre es auch ein Beispiel für das noch folgende Kapitel 3.2.6 „Klassifikationen“.

Wenn man z.B. den Begriff „Chemie“ eingibt, wird als Antwort die Klasse „Chemie“

geliefert. Die Anfrage kann englisch oder deutsch erfolgen und ergibt jeweils die sel-be Klasse (Ebd.).

Im Dokument Automatische Indexierung und ihre Anwendung im DFG-Projekt 'Gemeinsames Portal für Bibliotheken, Archive und Museen (BAM)' (Seite 26-30)