• Keine Ergebnisse gefunden

4. Anwendung der automatischen Indexierung im DFG-Projekt

4.5 Ergebnisse der Tests

4.5.4 Vergleich Schlagwörter und Deskriptoren

Es wurde nur die exakten Übereinstimmungen berücksichtigt, keine ähnlichen Begrif-fe oder BegrifBegrif-fe in anderen Wortformen noch Teilwörter aus MehrwortbegrifBegrif-fen oder Komposita. Beispielsweise gibt es in der SWD ein Schlagwort „Yoga-Training“, aber das System ermittelte als Deskriptor nur „Yoga“ und „Training“, das führt dann zu keiner Übereinstimmung, obwohl die Einzelwörter vorhanden sind. Ein weiterer Prob-lembereich sind fehlende Komposita in der SWD, v.a. bei den Wochenmeldungen gab es derer viele.

Titel: Von 385 vergebenen Schlagwörtern konnte eine Übereinstimmung von 73 bei IDX erzielt werden, 101 bei AUTINDEX (teilweise hier aus Kompositazerlegung, we-gen erkannter Geographica, bei den Mehrwortbegriffen oder durch substantivierte Adjektive). Allerdings waren von den 385 Schlagwörtern 1/4 Personenschlagwörter,

83 Solche langen Komposita sind nicht immer erwünscht und sollen ein Einzelwörter zerlegt werden (Vgl. DIN 31 623, 1996 [1988], Teil 2).

Zeitschlagwörter bzw. Formschlagwörter, die von einem automatischen Indexie-rungssystem größtenteils nicht in dieser Form ermittelt werden können.

Beispiele: Ein Formenschlagwort wie „Biographie“ oder „Aufsatzsammlung“, die meist nur intellektuell vergeben werden und dementsprechend dann nicht im Titel oder Text als Stichwort vorkommen, können durch das automatische System nicht ermittelt werden.

Schwierige Personenschlagwörter wie „Friedrich <Preußen, König, II.>“ oder „Fugger

<Familie>“ können ebenfalls nicht von einem automatischen System in dieser Form extrahiert werden. Zeitschlagwörter wie „Geschichte 500-1550, „Hamburg <1997>“,

„Weltkrieg <1914-1918>“ bereiten ebenfalls einem automatischen System Probleme.

Volltexte: Außer den Schlagworten aus der SWD (insgesamt 201) verfügten die Voll-texte auch über freie Schlagwörter (insgesamt 91).

IDX konnte von den Schlagwörtern aus der SWD 60 exakt treffen, von den freien wa-ren es 25. Bezüglich der freien Schlagwörtern konnte festgestellt werden, dass in-zwischen 14 zu SWD-Schlagwörtern geworden sind. Offensichtlich waren die freien Begriffe zur Zeit der Schlagwortvergabe noch nicht in der SWD. Einmal konnten alle 3 vorgegebenen Schlagwörter exakt von IDX gefunden werden (Beispiel mit den Schlagwörtern „Marke“, „Markennamen“ und „Markenwechsel“).

AUTINDEX: konnte eine Übereinstimmung von 54 Schlagwörtern aus der SWD und 19 bei den freien Schlagwörtern verzeichnen.

Patente mit SW:

Bisher wurden bei der LAD keine Schlagwörter gemäß der SWD vergeben. Der Fachreferent bei der LAD vergab für die 64 Datensätze nur 127 Schlagwörter. Davon konnten 17 von IDX ermittelt werden (Diese Datenart ging nicht mehr an AUTINDEX zur Indexierung).

Welche Begründung gibt es für das schlechte Ergebnis? Probleme bereiten sicher die Übertragung der alten Bezeichnungen der Patentakten auf einen „neuzeitigen“

Thesaurus. Damit konnte der Referent nicht entsprechende Schlagwörter finden und

musste auf am besten passende Schlagwörter ausweichen.

So wurde z.B. für ein Kostenverzeichnis das Schlagwort „Kostenauflösung“ verge-ben. Für „Ofenkonstruktion“ konnte nur „Ofen“ vergeben werden

„Wollabfälle“ wurden mit 2 Schlagwörtern ausgedrückt und zwar „Wolle“ und „Recyc-ling“.

Wochenmeldungen:

Hier hat die Autorin der Masterarbeit selber Schlagwörter vergeben, da der Themen-bereich recht homogen war und somit die Konsistenz eingehalten werden konnte84.

84 Diese Schlagworte sind auf der beigelegten Diskette zu finden

Die Schlagwortanzahl variierte von 2 – 10 verschiedenen Einzelwörtern. In den SW-Ketten konnten aber bis zu 24 Wörter sein, das ergab trotzdem nicht so viele Einzel-wörter, da durch die Variation der Ketten einige doppelt – vierfach vorkamen85. Welche Probleme gab es mit der Schlagwortvergabe? Verschiedentlich müssen pas-sende Komposita in Einzelwörtern angesetzt werden, da sie in dieser Form nicht in der SWD sind. Beispiele sind Komposita wie „Jahresrückblick“, „Wärmedecke“,

„Landtagvorsitz“, „Landesparteitag“, „Klausurtagung“, „Regionalversammlung“ oder

„Kindergartenplatz“. Da diese Komposita aber in dieser Ansetzung von den Syste-men extrahiert worden waren, gab es keine Übereinstimmung mit den Schlagworten der SWD. Das wurde von IDX nicht so gut abfangen und deshalb gab es hier weni-ger Übereinstimmungen. AUTINDEX dagegen profitierte von der Zerlegung der Komposita.

In Zahlen sieht dies folgendermaßen aus: von 362 vergebenen SW brachte es IDX auf 70 Übereinstimmungen, AUTINDEX dagegen auf 125. Allerdings muss berück-sichtigt werden, dass AUTINDEX meist mehr als 5 Deskriptoren ausgibt und deshalb auch auf eine höhere Anzahl kam. Der Abgleich mit den 5 ersten Deskriptoren aus dem Wörterbuch hätte eine Übereinstimmung von nur 80 ergeben.

Museumsobjekte mit Kurzbeschreibungen:

Die Schlagwörter wurden im Rahmen des Projekts nachträglich vergeben, teilweise gibt es bei den Datensätzen sogenannte LTA-Schlagwörter (angelehnt an die übli-chen Fachbegriffe).

Der Zahlenvergleich: Es wurden 169 Schlagwörter vergeben (inklusive 15 LTA-Schlagwörter mit genaueren Bezeichnungen für die Objekte, aber auch Bezeichnun-gen wie „Exponatspur“). IDX konnte 33 treffen (davon 2 LTA-SW), AUTINDEX dage-gen 62 (incl. 2 LTA-SW). AUTINDEX profitierte auch hier durch die höhere Zahl der ausgegebenen Schlagwörter.

Probleme machten beiden Systeme Schlagwörter mit Homonymenzusätze wie Mo-torrad <Motiv> u.ä., die nicht ermittelt wurden.

Inhaltswiedergabe durch die ermittelten Deskriptoren:

Bei den Volltexten, den Wochenmeldungen und den Abstracts wurde noch überprüft, wie gut die ausgegebenen Deskriptoren den Inhalt treffend beschreiben können un-abhängig vom reinen Inhalt.

Volltexte: IDX: Bei ca. 1/3 der Deskriptoren bekam man einen nicht schlechten Ein-blick über den Inhalt des Textes, bei einem weiteren Drittel eine „Ahnung“, worum es sich beim Inhalt handeln konnte. AUTINDEX: ¼ war nicht schlecht getroffen, eine

„Ahnung“ ließ sich bei der ca. der Hälfte verzeichnen.

Wochenmeldungen: Bei IDX trafen 3/8 der Deskriptoren ganz gut die Essenz des Textes, die Hälfte war noch mäßig. AUTINDEX mit der größeren Menge an

85 Diese Problematik bei den Schlagwortketten wurde bereits detaillierter im Kapitel 4.2 beschrieben

toren kam bei über der Hälfte auf gute Deskriptoren und fast der ganze Rest war im-mer noch mäßig.

Abstracts: Die Eindeutigkeit der Texte ließ einigermaßen gute Deskriptoren bei IDX und auch bei AUTINDEX ermitteln. Der Vergleich mit den ermittelten SW aus der SWD und den Deskriptoren ergab Übereinstimmungen von 0 bis 13 Wörter, viele la-gen im Bereich von 8 –10, d.h. im Durchschnitt von 8,5.

AUTINDEX konnte bei 64 Sätzen 58 mal ungefähr die Essenz des Inhaltes wieder-geben (also fast durchgehend ein mittleres Niveau), IDX nur 51. Richtig gute De-skriptoren fanden sich bei 3 Indexierungssätzen von IDX und einem von AUTINDEX.

Beim direkten Vergleich beider Systeme konnte von IDX 19 mal der Inhalt besser wiedergeben werden, 27 mal AUTINDEX, 18 mal war Gleichstand.