• Keine Ergebnisse gefunden

3. Automatische Indexierung:

3.2 Automatische Indexierung im Zeichen von Wissensmanagement

3.2.1 Semantische Netze

Weitere Alternativen zur klassischen Indexierung sind auch solche, die auf der „Ex-traktion von Wissensbausteinen“ (Renz, 2001) aufbauen. Beispiele dafür sind die In-formationsextraktion oder auch die „Key Phrase Extraction“. Bei der Informationsex-traktion wird ein großer Text nach einer bestimmten, präzisen Fragestellung abge-sucht (Vgl. Schneider, 2001).

Einen gewissen ähnlichen Ansatz wie die Informationsextraktion bietet das Verfahren Text Mining. Beim Text Mining werden unbekannte Informationen aus Texten extra-hiert (Vgl. Carstensen et al., 2001, S. 426). Zwischen Infomationsextraktion und Text Mining bestehen enge Verzahnungen. Auch zur KI bestehen Verbindungen (Die Zeitschrift „Künstliche Intelligenz“ widmet beispielsweise das Heft 2/02 schwer-punktmäßig dem „Text Mining“).

Als ein Produkt aus dem Text Mining kann ein strukturiertes automatisches Cluste-ring bzw. Klassifikation aufgrund vorgegebener oder während des Indexierungspro-zesses entstandener Taxonomien abgeleitet werden (Vgl. Carstensen et al., 2001).

Klassifikationen sind aber auch ohne ein Text Mining möglich, so dass ein weiterer, gesondertes Thema die automatische Klassifikation ist.

3.2.1 Semantische Netze

Semantische Netze kommen ursprünglich aus der Psychologie, dort werden sie zur Gedächtnismodellierung verwendet. Die Wissensrepräsentation wird mit Objekten und Relationen erreicht, die eine Netzstruktur bilden. Damit bestehen diese Netzwer-ke aus Knoten und verbindenden Kanten, die Verweise zwischen den Knoten

darstellen. Beispiele für Kantenverbindungen sind beispielsweise

„Ist-Ein-Beziehungen“ (Verbindung von einem untergeordneten zu einem übergeordneten Knoten (=Vererbung)) und „Hat-Beziehungen“ (Zuordnung von Eigenschaften, wie

„Flügel haben Federn“). Kanten müssen gerichtet sein, da z.B. eine „Hat-Beziehung“

meist nur in eine Richtung sinnvoll ist und es darum keine Umkehrverbindung geben darf. Eine Umkehrverbindung hieße, es müsste die umgekehrte Beziehung auch gelten, also das „Federn Flügel haben“ (was nicht zutrifft) (Vgl. Karagiannis/Telesko, 2001, S. 77 ff),

Semantische Netzwerke sind eine Alternative zur reinen Inhaltswiedergabe von Do-kumenten mit Indexierungstermen bzw. Deskriptoren, die lt. Baeza-Yates/Ribeiro-Neto (1999, S. 44) zu Problemen führen kann wie, dass sich zu hoher Ballast beim Retrieval ergeben kann und Dokumente, die nicht die exakten Wörter einer Suchan-frage enthalten, nicht gefunden werden.

Dieser Effekt ergibt sich nach Baeza-Yates/Ribeiro-Neto (1999, S. 44) durch die Vagheit des Retrievalprozesses. Die Inhalte eines Dokuments sollten anstatt mit Deskriptoren besser mit Konzepten erfasst werden. Dementsprechend könnten dann auch die Anfragen im Retrieval mit den Konzepten auf Übereinstimmung geprüft werden. Dies ermöglicht das Finden eines Dokuments, auch wenn kein Wort aus der Suchanfrage indexiert ist. Indexieren auf Konzeptbasis wird z.B. mit dem „Latent Semantic Indexing (LSI)“ Modell (angewandt im Vektorraummodell) verwirklicht. Die hauptsächliche Idee dahinter ist „to map each document and query vector into a lower dimensional space which is associated with concepts. This is accomplished by mapping the index terms vectors into this lower dimensional space. The claim is that retrieval in the reduced space may be superior to retrieval in the space of index terms” (Baeza-Yates/Ribeiro-Neto, 1999, S. 44).

LSI basiert auf dem Clustering von Termen aufgrund Co-occurrence und der Identifi-kation von Dokumenten, die mit den jeweiligen Clustern verbunden sind. Damit soll auch das Problem verschiedener Bezeichnungen für gleiche Sachverhalte gelöst werden. So gäbe es bei einem Dokument über die Reparatur von Autos einen Cluster, der Wörter wie „automobile“, „car“, „motor vehicle“ und auch einzelne Auto-marken enthalten kann (Vgl. Anderson/Pérez-Carballo, 2001, S. 266). LSI reduziert mathematisch gesehen durch das Verfahren „Singular Value Decompostion“ (SVD) eine dabei erzeugte Dokument-Term-Matrix. Die Ausgangsmatrix wird durch eine Faktorenanalyse auf ca. 100 – 300 Variablen komprimiert, unwichtige Dimensionen sollen entfernt werden (Vgl. Mandl, 2001, S. 13/14).

Da semantische Netze eine zentrale Rolle bei der Unterscheidung von verschiede-nen Bedeutungen im Information Retrieval spielen, wurden verschiedene semanti-sche Wortnetzressourcen aufgebaut wie das WordNet, das EuroWordNet, seinen deutschen Teil das GermaNet und den Leipziger Grundwortschatz. Solche Wortnet-ze enthalten die häufigsten Wörter der jeweiligen Sprache sowie deren Beziehungen zu anderen Wörtern. Synonyme werden dabei zu Konzepten zusammengefasst.

Durch die Disambiguierung von Begriffen einer Suchanfrage bzw. den Begriffen in den Dokumenten kann ein gezieltes Vorkommen der jeweiligen Lesart gesucht wer-den kann. Außerdem kann eine Suchanfrage auf die mit einem Wort verbunwer-denen Synonyme (innerhalb eines Konzepts) erweitert werden und somit der Recall erhöht werden (Vgl. Carstensen et al., 2001, S. 386 ff).

Das WordNet wird von Carstensen et al. (2001, S. 387) als die „Mutter“ aller Netze angesehen. Es entstand am Cognitive Science Laboratory der Princeton Universität.

WordNet20 ist ein semantisches Netzwerk für englische Wörter, die in synonymen Sets (genannt Snysets) gruppiert werden. Wörter und Synsets sind durch verschie-dene Relationen verbunden. Es gibt zwei Varianten von Relationen, nämlich seman-tische Relationen, die Konzepte verbinden („hyponymy, hypernymy, meronymy,

20 Siehe http,//www.cogsci.princeton.edu/~wn

tailment und conceptual opposition“ (Fellbaum, 1998) und lexikalische Relationen, die einzelne Wörter verbinden (Synonyme und Antonyme) (Vgl. Fellbaum 1998).

Das EuroWordNet21 ist in 8 Sprachen modelliert (Englisch, Spanisch, Holländisch, Italienisch, Französisch, Deutsch, Tschechisch und Estnisch). Der Kern ist ein Inter-lingualer Index (ILI) mit den einzelnen Wortnetzen. Sprachübergreifende Relationen verbinden die Konzepte über Übersetzungsäquivalenzen. Außerdem gibt es eine

„Top Ontologie“ (63 semantische Merkmale) sowie „Domänen Ontologien“ wie z.B.

„Food“ und „Traffic“ (Vgl. Carstensen, 2001, S. 390 ff).

Ein Teil des EuroWordNet ist das deutsche Wortnetz „GermaNet22“, das eine wichti-ge Wissensbasis für das Deutsche bildet. Es baut sich aus verschiedenen, lexikogra-fischen Quellen für die deutsche Sprache wie dem Deutschen Wortschatz und dem Brockhaus/Wahrig auf. Bisher sind an Wortklassen Nomen, Verben und Adjektive in Konzepten abgebildet. Ein Konzept besteht aus einem Synset wie z.B.

{Streichholz, Zündholz} oder {vergeben, verzeihen}. Zwischen den Synsets gibt es semantische Relationen, wie auch zwischen Varianten, d.h. Synonymen aus Syn-sets. 2001 enthält das Wortnetz ca. 40.000 Synsets mit 58.000 Varianten, darunter sind ca. 26.500 Nomen, 8.500 Verben und 5.000 Adjektive (Vgl. Carstensen, 2001, S. 386 ff).

Bei GermaNet23 gibt es lexikalische Relationen (Synonyme, Antonoyme) sowie kon-zeptionelle Relationen dergestalt wie:

· Untergeordnete Beziehungen („Hyponymie) wie „Amsel“ und „Vogel“ als auch die übergeordnete Beziehung von „Vogel“ zu „Amsel“

· Teil-Ganzes-Beziehungen („Meronymie“) bzw. Umkehrung („Holonymie“)

· Verflechtungen wie z.B. zwischen „gelingen“ und „versuchen“

· Kausationsrelationen wie beispielsweise für „öffnen“ und „offen“.

· Semantische Derivationsbeziehungen wie „finanziell“ und „Finanzen“

· Ähnlichkeitsrelationen, die assoziative Verknüpfungen herstellen, wie z.B. zwi-schen Weltrangliste und Tennis („see also“) (Ebd.)

Die konzeptionellen Relationen können sowohl zwischen den Konzepten wie auch innerhalb der Synsets vorkommen. Allerdings gibt es auch Begriffe, wie z.B. Obstar-ten, die mehreren Synsets zugeordnet werden können (Pflanze, Nahrungsmittel).

Deshalb muss hier eine Kreuzklassifikation zum Greifen solcher Informationen ver-wendet werden. Ein weiteres Konzept sind künstliche Konzepte, die zur besseren Hierarchiestrukturierung und Vermeidung von Ko-Hyponymie dienen.

Beispiel: „Lehrer“ mit seinen Unterbegriffen wie „Fachlehrer“, „Berufsschulehrer“ etc.

erzeugt das künstliche Konzept „Schullehrer“ und „hierarchischer_Lehrer“ (Ebd.) Aus der genauen Beschreibung des GermaNets ist ersichtlich, wie kompliziert und speicherintensiv der Aufbau eines universellen Weltwissens sein würde, welches zur semantischen Bedeutungsermittlung bei einer Indexierung eingesetzt werden könnte.

Ein solches Wortnetz wie GermaNet deckt ja nur den allgemeinen deutschen Wort-schatz ab, aber keine speziellen Fachgebiete bzw. deren benötigte Begriffe.

21 Siehe http://www.hum.uva.nl/~ewn

22 Siehe http://www.sfs.nphil.uni-tuebingen.de/lsd

23 Orientierung bzgl. Datenbankformat und Strukturierung am WordNet, der Schwerpunkt liegt aber in der Konzeptrepräsentation (Vgl. Carstensen et al., 2001, S. 387)

Die ca. 6 Millionen Worteinträge im Leipziger Grundwortschatz24 weisen eine Beson-derheit auf und zwar verzeichnet der Wortschatz auch Häufigkeitsklassen von Wör-tern.

Neben der absoluten Häufigkeit (d.h. der Anzahl, wie oft eine Wortform im Text gezählt wurde, ist eine Häufigkeitsklasse angegeben, welche diese Häufigkeit relativ zur absoluten Häufigkeit des häufigsten Wortes misst. [...] Die Häufigkeitsklasse berechnet sich folgendermaßen: Sei n (wort) die absolute Häufigkeit des Wortes wort, n(‚der’) die absolute Häufigkeit des Wortes

‚der’. Die Häufigkeitsklasse von wort ist dann definiert als H (wort) = log2 (n(‚der’/n(wort)

und wird auf die nächstgelegene ganze Zahl gerundet (Quasthoff, 1998).

Beispiele mit konkreten Zahlen: Die Wörter „der“ und „die“ haben die Häufigkeits-klasse 0. In der HäufigkeitsHäufigkeits-klasse 1 finden sich die Wörter „und“, „in“ und „den“.

Niedrigfrequente Wörter sind in den Klassen 18 – 21 verzeichnet. Die Klasse 21 be-deutet, die absolute Anzahl der Wörter im Text beträgt 1 – 2, bei 20 sind es 3 – 5 etc.

(Vgl. Quasthoff, 1998).

Ein Verfahren, das diesen Wortschatz als Referenzkorpus verwendet, ist das expe-rimentelle System „Concept Extractor“, das der automatischen Beschlagwortung dienen soll (Faulstich et al., 2002, S. 165 ff).

Ein Text, der zu beschlagworten ist, wird gegen diesen Referenzkorpus analysiert.

Die Auswahl der Schlagworte erfolgt aufgrund der Unterschiede der relativen Häufig-keitsklassen. Anschließend kann mit Hilfe einer Datenbank eine Expansion der Ter-me in Bezug auf GrundforTer-men, Varianten der Schreibweise, SynonyTer-me sowie Mehr-wortbegriffe erfolgen (Ebd.).

Der Referenzkorpus enthält ca. 300 Millionen Wortformen, der sogenannte „Häufig-keitsklassen“ der einzelnen Worte angibt. Die Häufigkeitsklassen dieses Referenz-korpus werden mit der Häufigkeitsklasse eines Wortes in einem Text oder in einer Textsammlung verglichen und die Differenz ermittelt. Die Häufigkeitsklassen (oder auch Frequenzklasse) werden „als logarithmisches Maß in Relation zum häufigsten Begriff eines Corpus ermittelt. Eine Klasse 4 besagt daher, dass ein Wort um den Faktor 16 (24) seltener gesehen wurde als das jeweils häufigste Wort im Corpus“

(S. 168). Häufige und seltene Begriffe werden aus der Analyse ausgeschlossen. Eine festgelegte Mindestfrequenz aus dem Vergleich der beiden Frequenzklassen ermit-telt die Kandidaten für die Schlagworte. Schlagwortkandidaten, die einen besonderen Bonus haben, sind Eigennamen, Worte, die bei einem HTML-Text durch Layout be-sonders hervorgehoben werden und falls vorhanden, bereits vergebene manuelle Schlagworte. Die nach Relevanz sortierte Schlagwortliste wird mit einem Bewer-tungsalgorithmus erstellt (Ebd.).

Das dort angegebene Beispiel zeigt allerdings, dass es Probleme mit den Mehrwort-begriffen gibt, die Teile der Mehrwortbegriffe wie z.B. „Traditionelle Chinesische Me-dizin“ sind nur als Einzelbegriffe aufzufinden (Ebd.).

24 Siehe http://wortschatz.uni-leipzig.de

Einen kommerziellen Ansatz zum automatischen Aufbau von semantischen Netzen bietet die Firma U.S.U25 an. U.S.U vertreibt einen KnowledgeMiner, der semantische Netze auf der Basis von Topic Maps26, die durch die Recherche gewonnen werden, aufbaut (Vgl. Renz, 2001).