• Keine Ergebnisse gefunden

Die Verfügbarkeit elektronischer Texte hat im vergangenen Jahrzehnt zu ei-ner Renaissance der Corpuslinguistik geführt, wie u. a. auch das schnelle An-wachsen internationaler Fachtagungen wie der Conference on Language Re-sources and Evaluation (LREC) zeigt. Mittlerweile liegen nicht nur für viele

Sprachen Referenzcorpora vor, auch die Bemühungen und die Standardisie-rung von Corpusaufbau und Analyse zeigen Erfolge (cf. [Atkins et al. 02]).

Für die Problematik der automatischen Beschlagwortung von Texten sind corpuslinguistische Verfahren deshalb von Interesse, da sie im Vergleich mit den bekannten Verfahren zur Textindexierung wie dem vector space model (cf. [Salton 83], [Baeza-Yates & Ribeiro-Neto 99]) Corpora als zusätzliche Bezugsgröße der Textanalyse einführen und, insofern Corpora nicht nur als Rohdatensammlung, sondern als strukturierter Informationsspeicher zur Ver-fügung stehen, auch für die Beschlagwortung relevante Informationen bereit-stellen können (z. B. Grundformen, Synonyme, Sachgebietsangaben etc.).

2.1 Vergleich von Corpora

Für die dynamische Beschlagwortung von Texten ist dabei der Aspekt des Vergleichs unterschiedlicher Corpora von Bedeutung: Text Corpora lassen sich u. a. anhand Faktoren wie Umfang, Art, Anzahl oder Bezugszeitraum der in ihnen enthaltenen Dokumente beschreiben. Durch Vergleich unterschiedli-cher Corpora lassen sich dabei Erkenntnisse über die Beschreibungsadäquat-heit von Begriffen bezüglich einzelner Dokumente eines Corpus gewinnen.

Mit [Rayson & Garside 00:1] kann man zwei Typen des Corpusvergleichs unterscheiden:

• Vergleich zweier Corpora ähnlicher Größe, die sich hinsichtlich eines Parameters (z. B. Erhebungszeitraum) unterscheiden. Ein solcher Ver-gleich kann z. B. in der Semiometrie oder Trendforschung eingesetzt werden, um zu bestimmen, inwieweit sich Trends durch geänderten Sprachgebrauch (Wortverwendungshäufigkeiten, unterschiedlicher Vo-kabularaufbau) nachweisen lassen.

• Vergleich eines kleineren gegen ein größeres (normatives) Corpus, z. B.

bei der Differenzierung zwischen Sprachgebrauch in einer Fachdomäne im Vergleich mit einem aus allgemeinsprachlichen Texten aufgebauten Corpus.

Für das nachfolgend beschriebene Beschlagwortungssystem ist der zweite Fall, d. h. der Vergleich von kleinerem Fachcorpus mit einem deutlich größe-ren normativen allgemeinsprachlichen Corpus der Ausgangspunkt. Als nor-mative Corpusgrundlage dient dabei einerseits

• der im Projekt „Deutscher Wortschatz“ entwickelte Referenzcorpus aus derzeit ca. 300 Millionen laufenden Wortformen, sowie die in ihm ent-haltenen zusätzlichen Informationen (cf. [Quasthoff & Wolff 00] [Heyer, Quasthoff, Wolff 02] und http://wortschatz.uni-leipzig.de), andererseits

• die im Rahmen dieses Vorhabens entwickelten Software-Werkzeuge zur Textanalyse, die grundsätzliche auf Textkollektionen beliebigen Um-fangs angewandt werden können und als Analyseergebnis eine Daten-bank aufbauen, über die (wenigstens) auf Basisdaten wie Wortfrequen-zen und Frequenzklassen, Kollokationen oder Grundformrelationen zu-gegriffen werden kann (cf. [Heyer et al. 01a], [Heyer et al. 01b]).

Fachbegriff Häufigkeitsklasse Im Fachcorpus

Häufigkeitsklasse im

Allgemeinsprachlichen Corpus

Differenz

Hubraum 6 14 8

Nockenwelle 9 18 9

Fahrgeräusch 11 19 8

Zylinder 8 13 5

Tabelle 1: Frequenzvergleich von Fachbegriffen

Der bekannten These folgend, demzufolge sehr seltene Begriffe aufgrund ih-rer zu hohen Spezifik für die Beschlagwortung ebenso wenig geeignet sind wie sehr häufige Begriffe (cf. [Salton 83: 62, insb. Abb. 3-2]), spielt bei die-sem Ansatz zunächst der Vergleich von Frequenzklassen für Fachbegriffe ei-ne wichtige Rolle bei der Auswahl von Kandidaten für die Textbeschlagwor-tung: Sowohl in Fach- als auch in Normcorpus hat jeder auftretende Begriff eine absolute sowie eine aus ihr im Verhältnis zur Corpusgröße berechnete relative Frequenzklasse.1 Über die Voraussetzung einer Mindestfrequenzklas-se lasMindestfrequenzklas-sen sich zu häufige bzw. zu Mindestfrequenzklas-seltene Begriffe aus der AnalyMindestfrequenzklas-se ausschlie-ßen, über den Vergleich von Frequenzklassen zwischen Fach- und Normcor-pus lassen sich geeignete Beschlagwortungskandidaten finden, indem gefor-dert wird, dass als Kandidaten nur solche Wörter ausgewählt werden, deren Frequenzklasse im Fachcorpus wenigstens um eine Mindestdifferenz verfü-gen (eine Differenz von 2 besagt dabei eine vierfache relative Häufigkeit im Fachcorpus). Am Beispiel einiger Fachbegriffe aus der Automobiltechnik sei dies verdeutlicht. Grundlage ist dabei ein Fachcorpus, das aus vier Jahrgängen einer bekannten Publikumszeitschrift zur Automobiltechnik besteht und das mit dem Normcorpus „Deutscher Wortschatz“ verglichen wurde (cf. [Wolff 01], [Heyer et al. 01b:81, insb. Tab. 7.7]):

1 Die Frequenzklasse wird als logarithmisches Maß in Relation zum häufigsten Begriff eines Corpus ermittelt. Eine Klasse 4 besagt daher, dass ein Wort um den Faktor 16 (24) seltener gesehen wurde als das jeweils häufigste Wort im Corpus).

Der Vergleich von Häufigkeitsklassen ist ein vergleichsweise einfacher An-satz, um die für einen Corpus charakteristischen Terme zu extrahieren. Kil-garriff sieht darüber hinausgehend in der Berechnung statistischer Prüftests für die in verschiedenen Corpora auftretenden Begriffe ein wesentliches Merkmal für die bessere Beschreibung von Corpora.2

2.2 Mehrschichtiger Corpusvergleich - ein Szenario für die Beschlag-wortung von Texten

Für die praktische Anwendung des Corpusvergleichs auf das Problem der Be-schlagwortung von Texten sei folgendes Szenario vorausgesetzt:

• Ein hinreichend großes Normcorpus steht als Referenzdatenbank zur Verfügung.

• Die zu beschlagwortende Textkollektion wächst im Vergleich zu ihrer Gesamtgröße relativ langsam.

• Jedes einzelne Dokument kann selbst als ein Textcorpus behandelt wer-den.

Die Grundlage des Beschlagwortungssystems ist zunächst eine Verallgemei-nerung des wortfrequenzbasierten Corpusvergleichs, da hier das jeweils zu beschlagwortende Dokument als dritte Analyseebene hinzukommt: Die statis-tische Analyse, durchgeführt mit der im Umfeld des Projekts „Deutscher Wortschatz“ entwickelten Text Mining-Engine Concept Composer (cf. [Hey-er, Quasthoff, Wolff 00], [Quasthoff & Wolff 00] u. unten Abb. 1), erfolgt für den Startbestand der Texte des jeweiligen Anwendungsgebietes sowie geson-dert für jedes neue zu beschlagwortende Dokument. Zusammen mit der Cor-pusdatenbank des „Deutschen Wortschatzes“, die als allgemeinsprachliche linguistische Datenbank (ALDB) den Status eines Normcorpus aufweist, er-geben sich, anders als beim einfachen Corpusvergleich, für jedes Dokument zwei Vergleichsebenen:

• Vergleich mit den Analyseergebnissen für die aktuelle Dokumentenkol-lektion und

• Vergleich mit dem Normcorpus.

2 „Corpus linguistics lacks a vocabulary for talking, quantitatively, about similarities and differences between corpora. […]. One way of describing differences between corpora is by highlighting the words which have consistently been used more in the one corpus than the other“. [Kilgarriff 01: Kap. 10 – Conclusion].

Es ist offensichtlich, dass ein solcher frequenzbasierter Mehrebenenvergleich sprachliche Variation wie Vollformen, Schreibvarianten (Rechtschreibre-form!), Gebrauch von Synonymen oder die Erkennung von Mehrwortbegrif-fen nicht berücksichtigen sollte. Deshalb tritt für die Auswahl von Beschlag-wortungstermen eine zweite wesentliche Systemkomponente: Die Expansion und Reduktion der durch den mehrschichtigen Corpusvergleich ausgewählten Begriffe durch Rückgriff auf in der allgemeinsprachlichen linguistischen Da-tenbank vorhandenes linguistisches Wissen, z. B. über Vollform-/Grundform-beziehungen, Synonyme oder Eigennamen.

Als Ergebnis dieser Konzeption steht die Entwicklung eines modularen und hochparametrischen Beschlagwortungssystems, dessen Aufbau und Arbeits-weise im folgenden Kapitel näher beschrieben sind.