Methoden der Linguistik - Linguistische Verfahren

3. Automatische Indexierung:

3.1 Übersicht der Verfahren

3.1.1 Linguistische Verfahren

3.1.1.1 Methoden der Linguistik

Folgende Methoden der (Computer-)Linguistik können bei der Indexierung eine Rolle spielen (Vgl. Carstensen et al., 2001):

· Morphologie (Formenlehre): Wortbildung bzw. die Struktur des Wortes

· Syntax: Strukturbildung von Sätzen (Problem z.B. mit Nominalphrasen)

· Semantik: Bedeutung von sprachlichen Ausdrücken (Wort, Satz, Text)

· Pragmatik: Welchen Zweck hat eine Äußerung?

Morphologie: Wörter erscheinen in verschiedenen Formen und es gibt Beziehun-gen/Regeln zwischen den Wörtern bzw. Wortformen. Die Computerlinguistik will die-se Regeln mit der Möglichkeit der Ergänzung für Vollformenlexika bzw. als Ersatz derselben formal umsetzen (Ebd.).

Die Morphologie in der Linguistik an sich lässt sich in Flexion (lat. für Beugung) und Wortbildung aufteilen. Die Wortbildung wird weiter in Komposition (Zusammenset-zung) und Derivation (Bildung von Wörtern aufgrund einzelner Ausgangswörter) un-terteilt (Ebd.).

In der Morphologie wird zwischen Wortform, Grundform und Stammform unterschie-den:

· Die Wortform ist eine Zeichenkette zwischen zwei Trennzeichen, z.B. ein Satz-zeichen, eine Leerstelle etc.

· Die Grundform ist eine Wortform ohne ihre Flexionsendung (z.B. Besprechungen (Wortform), Besprechung (Grundform). Dabei muss beachtet werden, dass bei Wortformen wie „Häuser“ die phonologische Änderung rückgängig gemacht wer-den muss auf die Grundform: „Haus“

· Die Stammform ist die Grundform ohne Derivate (z.B. Besprechung (Grundform), Sprech (Stammform)) (Vgl. Hahn/Sonnenberger, 1991, S. 39)

Syntax: Bei der Disambiguierung von mehrdeutigen Wörtern spielt die Analyse der Syntax eine wichtige Rolle. Ein Parser (das Parsing erfolgt entweder partiell oder vollständig) wird zur Analyse der grammatischen Struktur der Sätze genutzt⁷. Grundwerkzeuge sind Algorithmen, wie z.B. der Earley-Algorithmus (Earley, 1970).

Syntaktische Strukturen werden als Baumgraphen bzw. Strukturbäume dargestellt (Vgl. Carstensen et al., 2001).

7 Parsen eines Satzes bedeutet „eine Folge von Ableitungen bzw. Regeln zu finden, die von einem (definierten) Startsymbol zum Satz führen. Parser bedienen sich dazu sog. formaler Grammatiken, d.h. Regelwerken, die dem Programm angeben, aus welchen Elementen sich gültige Sätze zusam-mensetzen“ (Lepsky, [2002?])

Ein Beispiel für ein Grammatikfragment in Form einer Baumstruktur anhand des Bei-spielsatzes „Der Hund sieht die Katze“ (Carstensen et al., 2001, S. 207):

NP VP

DET N V NP

Der Hund sieht DET N die Katze

Abbildung 2: Baumgraph eines Satzes (Carstensen et al., 2001, S. 207)

Die einzelnen Abkürzungen bedeuten: S ist das Startsymbol für den Satz. Dieser Satz besteht aus 2 Teilen: „Der Hund“ ist eine Nominalphrase (NP), „sieht die Katze“

ist eine Verbalphrase (VP). Die Nominalphrase besteht aus einem Determinierer (DET) „der“ sowie dem Nomen (N) „Hund“. Bei der Verbalphrase gibt es außer dem Determinierer und einem Nomen noch ein Verb (V) nämlich „sieht“ (Vgl. Carstensen et al., 2001, S. 207).

Da sich die Semantik nur am Informationsgehalt von Ausdrücken orientiert (d.h. an den Wahrheitsbedingungen), untersucht die Pragmatik das sprachliche Handeln, das über diese Bedingungen hinausgeht (allerdings auch sehr schwierig umsetzbar ist) (Ebd.).

Indexierungsverfahren können aber nur auf drei Ebenen linguistisch in der Analyse ansetzen und zwar mit der morphologischen, syntaktischen und semantischen Ana-lyse. Lösungen für alle drei Ebenen, die somit komplexe sprachliche Analysen er-möglichen, sind jedoch nur sehr aufwendig zu realisieren und bis jetzt können keine erschöpfenden Lösungen durch Indexierungssysteme angeboten werden.

Die Morphologische Analyse wird dagegen den Indexierungsverfahren bereits gut umgesetzt (Mehr dazu im Kapitel 3.1.1.2) (Vgl. Nohr, 2001, S. 42/43).

Die Syntaxanalyse bzw. morphosyntaktische Analyse soll v.a. korrekte Grundfor-men aus dem Kontext erstellen, Homographenerschließung ist eine weitere Anwen-dung (Vgl. Luckhardt, 1996). Wirkliche Syntax erschließen würde bedeuten, über das einzelne Wort hinaus, die Spracheinheiten wie Mehrwortgruppen oder Nominalphra-sen zu identifizieren (Nohr, 2001, S. 42/43).

Ein Beispiel von Luckhardt (1996) für eine Syntaxanalyse: Der Mehrwortbegriff „An-spruch auf Entschädigung“, dessen Komponenten im Satz verteilt sein können wie:

1. Auf Entschädigung hatte der Kläger keinen Anspruch.

2. ... Entschädigung. Einen Anspruch darauf hat der Kläger nicht.

3. Das Gericht verneinte einen Anspruch des Klägers auf Entschädigung.

Eine Analyse auf der Ebene der Satz- oder sogar Textlinguistik würde die Bezüge realisieren können, z.B. per Dependenz- oder Valenzgrammatik. Als Ausgangspunkt werden dabei Valenzen (bzw. Bindungen) an andere Satzbestandteile angesehen, die v.a. von Verben (aber auch von Substantiven oder Adjektiven) ausgehen können.

Im Beispiel 3 bedeutet dies, dass das Verb „verneinen“ nicht an "auf Entschädigung"

gebunden wird. „Anspruch“ hat eine andere Valenz und zwar

· „Anspruch (des Klägers; auf Entschädigung)“.

Die entsprechenden Mehrwortdeskriptoren wären dann „Anspruch des Klägers" so-wie "Anspruch auf Entschädigung" (Ebd.).

Ein weiteres Problem der natürlichen Sprache ist deren Mehrdeutigkeit. Die daraus resultierenden Systeme zur Disambiguierung wären sehr komplex bzw. benötigten sehr umfangreiche Lexika. Außerdem müsste zusätzlich eine semantische Analyse erfolgen (Ebd.).

Für die Semantische Analyse gibt es lt. Luckhardt (1996) einige Ansätze. Er erörtert zwei solche Ansetzungen und zwar Rollenindikatoren und Thesaurusrelationen.

Rollenindikatoren: Je nach Situation wird ein Sachverhalt unterschiedlich formuliert.

Die DIN Norm 31 623 (1996 [1988], Teil 3) definiert Rollenindikatoren wie folgt: „Ein Rollenindikator ist ein unselbständiges Element einer Dokumentationssprache, das die Rolle des Deskriptors in seinem jeweiligen dokumentenspezifischen Zusammen-hang angibt. Rollenindikatoren können z.B. folgende Rollen ausdrücken: Subjekt, Objekt, Teil, Hilfsmittel, Handlung, Aspekt, Ort“.

Deskriptoren werden Rollenindikatoren zugeordnet (voran- oder nachgestellt), wobei einem Deskriptor auch mehrere zugeordnet werden können (max. 20). Eine Reihen-folge muss nicht eingehalten werden (Vgl. Luckhardt, 1996).

Beispiel: „Der Einsatz von Pferden zum Schleppen von Baumstämmen“ (Beispiel von Luckhardt, 1996).

Zuteilung von Rollenindikatoren:

Baumstämme à Objekt Schleppen à Handlung

Pferde à Subjekt

Die Rollenindikatoren fangen somit verschiedene Formulierungen/Ausprägungen ei-nes Sachverhalts ab, die alle dasselbe bedeuten, wie „Pferde schleppen Baum-stämme“ oder „Baumstämme können von Pferden geschleppt werden“ oder „Das Schleppen von Baumstämmen durch Pferde“ (Ebd.).

Thesaurusrelationen: Die Beziehungen der Bezeichnungen eines Thesaurus bilden eine Art semantisches Netz (bezogen auf verschiedene Fachgebiete). Dieses se-mantische Netz bildet ein Wissen bezogen auf die Texte ab. Mehrdeutige Wörter in-nerhalb eines Textes könnten durch die Beziehungen eindeutig gemacht werden.

Wenn beispielsweise in einem Text über ein Fliessband öfters das abgekürzte Wort

„Band“ benutzt wird (das allerdings mehrere Bedeutungen hat wie z.B. Armband,

Tonband), kann eine solche Thesaurusrelation diese Mehrdeutigkeit beseitigen (Ebd.)

Beispiel einer Thesaurusrelation aus dem Automobilbau:

„Herstellungsstrasse (Narrower Term: Fliessband) Fliessband (Used for: Band)

Band (Use: Fliessband)” (Ebd.)

Mit einer solchen Relation könnte ein automatisches System beim Vorkommen des Wortes “Band” den Deskriptor “Fliessband” vergeben (Ebd.).

Eine Variante der Disambiguierung stellt Carstensen et al. (2001, S. 392) dar. Hier liefern sogenannte Synsets an Wortnetzen semantisch disambiguierte Einheiten.

Beispiel für ein Synset mit zwei Bedeutungen:

„{Ton, Laut} bzw. {Ton, Tonerde}“ (Ebd.)

Vorteile ergeben sich für Retrieval, wenn gezielt nach einer bestimmten „Lesart“ (d.h.

konkrete Bedeutung) gesucht werden kann. Eine Erweiterung einer Suchanfrage mit semantisch miteinander bedingenden Konzepten (z.B. Konzepte wie Geldinstitut zur Suchanfrage Bank), würde eine höhere Treffergenauigkeit ergeben (Vgl. Carstensen et al., 2001, S. 392).

Eine andere Form der Disambiguierung stellen Ontologien⁸ dar. Klassisch gesehen ist eine strukturierte Ontologie ein strukturierter Thesaurus, „involving a fair amount of precoordination“ (Bakel/Boon, 1997, S. 1). Strukturierte Ontologien bestehen aus (strukturierten) Konzepten und eindeutig definierten Relationen dazwischen. Konzep-te können über diese Relationen koordiniert werden (Ebd.).

Im Projekt „Condorcet“ der Universität Twente werden solche strukturierten Konzepte als Indexierungsterme verwendet, um damit eine höhere Präzision im Retrieval zu erreichen. Das Konzept ist sprachenunabhängig und nimmt eine Disambiguierung der Wörter vor. Außerdem werden Sachverhalte, die das Gleiche ausdrücken (bei-spielsweise „Zonisamide affects epilepsy“ oder „Effects of zonisamide in children with epilepsy“), auf ein Konzept abgebildet⁹ (Ebd.).

Suchterme wie „Aspirin“ und „Kopfweh“ ergeben beim Retrieval alle Dokumente, die diese beiden Terme aufweisen. Wenn strukturierte Konzepte verwendet werden, kann zwischen Dokumenten unterschieden werden, die Aspirin als Verursacher von Kopfschmerzen diskutieren (umgesetzt als Konzept: „(causes(aspirin, headache))“) im Gegensatz zu denen, die Aspirin als Heilmittel von Kopfschmerzen betrachten (umgesetzt als Konzept: „(cures(aspirin, headache))“).

Das System erschließt die tiefe Strukturen von Sätzen mit den syntaktischen Prinzi-pien von Chomsky’s „Government & Binding (GB)“-Theorie (Chomsky, 1981). Diese Theorie kann mit vielerlei Sprachphänomen umgehen und erstellt eine autonome

8 Die Thematik kann auch dem Wissensmanagement (Siehe Kapitel 3.2) zugeordnet werden.

9 Themengebiete sind aber nur die Epilepsie und „mechnical properties of engineering ceramics“ (Ba-kel/Boon, 1997)

Syntax. Der Strukturanalysierer erstellt dann eine Baumstruktur von den einzelnen Satzelementen (Ebd.).

Die semantische Analyse ist bisher noch nicht so erfolgreich entwickelt. Neuere Ent-wicklungen versuchen mit Techniken der Künstlichen Intelligenz, die Semantik zu er-schließen (Siehe Kapitel 3.2).

Im Dokument Automatische Indexierung und ihre Anwendung im DFG-Projekt 'Gemeinsames Portal für Bibliotheken, Archive und Museen (BAM)' (Seite 20-24)