• Keine Ergebnisse gefunden

4. Anwendung der automatischen Indexierung im DFG-Projekt

4.4 Testvorbereitung

4.4.2 Evaluierung der Indexierung

Im Kapitel 3.3 wurden verschiedene Aspekte der Evaluierung von Indexierungssys-temen genannt, wie

· Qualität im Allgemeinen

· Ein Pflichtenheft zum Vergleich mehrerer Systeme durch Erfragen der gewünsch-ten Anforderungen und deren Umsetzung durch ein System

· Aspekte der Informationsqualität

63 Quelle: http://www.inxight.com

64 Quelle: http://www.readware.de

65 Diese Konzepttypen sind aber recht eingeschränkt bezogen auf ein Weltwissen.

66 Quelle: http://www.readware.de

· Qualitätskriterien für die Indexierung

· Bewertung von Retrievalqualität

In diesem Kapitel wird nun demonstriert, inwieweit sich diese Erkenntnisse beim BAM-Projekt konkret umsetzen bzw. anwenden lassen.

Qualität im Allgemeinen: Die ISO IEC Norm 9126 (1991) kann als abstrahierendes Evaluationsmodell eingesetzt werden, um die Qualität des Systems zu messen, d.h.

Kriterien wie Funktionalität, Zuverlässigkeit, Benutzbarkeit/Handhabung, Effizienz, Änderbarkeit/Wartbarkeit, Portabilität/Übertragbarkeit sind die zu begutachtenden Merkmale. Da die Indexierung im BSZ von der Autorin nicht selbst durchgeführt wur-de, kann an dieser Stelle nur gesagt werden, dass keine besonderen Unterschiede zwischen den Systemen in dieser Beziehung festgestellt werden konnten.

Ein Pflichtenheft zum Vergleich der Anforderungen konnte erstellt werden und findet sich später im Unterkapitel 4.4.2.1.

Aspekte der Informationsqualität: Wie schon in Kapitel 3.3.3 angeführt, ist der Ü-bertrag des Ansatzes auf ein Indexierungssystem im Sinne einer Informationsdienst-leistung nur in Teilen möglich und wird daher nicht weiter verfolgt. Die Dimensionen von Informationsqualität nach Königer/Reithmayer (1998, S. 92) können in Teilen auf die Indexierung und deren Ergebnis (die Deskriptoren) übertragen werden. Sie ha-ben, soweit umsetzbar, bei dem nachfolgenden Abschnitt „Qualitätskriterien für die Indexierung“ eine Entsprechung gefunden.

Qualitätskriterien für die Indexierung: Aus den umsetzbaren

Dimensio-nen/Kriterien der Qualität bzw. Informationsqualität sowie Wertmaßstäben wie Nor-men und Indexierungsaspekten von Tague-Sutcliffe (1997 [1981], S. 206) wurde ei-ne kleiei-ne Liste an Kriterien (Siehe Kapitel 3.3.4) für eiei-ne Indexierung mit verbindli-chem Vokabular erstellt. Diese wird nun auf ihre Anwendbarkeit geprüft. Weitere Aspekte sind die objektiven Kriterien, wie der Diskriminanzwert, Zählen der Fehler bzw. Überprüfung der Anforderungen der Systeme als auch der Abgleich der De-skriptoren von intellektueller Indexierung mit der automatischen Indexierung.

Hier noch einmal die Tabelle mit den Qualitätskriterien für die Indexierung und ihrer Operationalisierung:

Kriterien Operationalisierung

Nützlichkeit eines Deskriptors (im Fachgebiet)

Gebräuchlich Nicht gebräuchlich

Vollständigkeit an Deskriptoren Vollständig Unvollständig Aktualität/Zeitgerechtigkeit/

Gültig-keit einzelner Deskriptoren Aktuell Nicht aktuell Spezifität/Genauigkeit eines

De-skriptors Begriff ist spezifisch

genug Begriff zu allgemein Konsistenz des Indexierens Konsistent Nicht konsistent

Tabelle 6 (entspricht der 2. Tabelle): Qualitätskriterien für die Indexierung mit verbindlichem Vokabular

Die Umsetzung dieser Kriterien wäre schwierig und zu zeitaufwendig. Wie bereits im Kapitel 3.3.3 erwähnt, kann die Nützlichkeit am objektivsten von einem Experten im

Fachgebiet beurteilt werden. Da nun Fachreferenten, die ihre Fachgebiete in Biblio-theken kennen, hier nicht die Indexierung testen, ist dieser Punkt schlecht umsetz-bar. Die Vollständigkeit sowie die Spezifität sind Kriterien, die je nach Kompetenz, Ausbildung und Praxis bzw. Vorkenntnissen der beurteilenden Person sicher unter-schiedlich eingeschätzt werden, d.h. nur eine beurteilende Person bietet einen sehr subjektiven Maßstab. Die Prüfung der Aktualität würde eine Untersuchung der Aktua-lität des Thesaurus beinhalten. Die Beurteilung der Konsistenz müsste über einen Test, bei dem ein Vergleich von Indexaten (aus einer größeren Dokumentensamm-lung) gemacht wird, erfolgen. Aus den genannten Gründen sind die Kriterien im Rahmen dieser Masterarbeit nicht umsetzbar und werden nicht angewendet.

Die Berechnung des Diskriminanzwertes für einzelne Begriffe eines Dokuments ist sehr zeitaufwendig und ebenfalls hier nicht praktikabel.

Als umsetzbar verbleibt deswegen nur das Zählen von Fehlern und Überprüfen der Anforderungen der Systeme. Die ausgegebenen Indexate werden dabei auf Fehler untersucht, außerdem erfolgt ein kritisches Durchleuchten der Anforderungen der Systeme.

Da im nachfolgenden Test verbindliches Vokabular teilweise zur Verfügung stand, konnten Abweichungen der automatischen Indexierung zu der intellektuellen Indexie-rung gezählt werden.

Bewertung von Retrievalqualität: Es konnte kein Retrievaltest durchgeführt67 wer-den, so dass dieser Punkt entfällt.

4.4.2.1 Pflichtenheft

Für das Projekt wurde ein Pflichtenheft für den Vergleich von automatischen Indexie-rungssystemen erstellt. Ein Altsystem ist im Projekt nicht vorhanden.

Aufgrund der aktuellen Situation der verfügbaren, kommerziellen Indexierungssyste-me für die deutsche Sprache wird als KO-Kriterium im Pflichtenheft die linguistische Bearbeitung gesetzt. Allerdings müssen konkrete Einzelanforderungen an die linguis-tische Analyse erfüllt werden (KO-Kriterien). Die Einbindung der SWD des Thesaurus ist ebenfalls ein KO-Kriterium. Die unterschiedlich eingesetzten Methoden bei der linguistischen Bearbeitung und deren Effektivität (z.B. Indexierung nur mit Wörterbü-chern bzw. auch per syntaktischer Analyse etc.) werden sicher eine Rolle bei der Beurteilung vom zukünftigen Anwender spielen.

Aufgrund der Besonderheiten der deutschen Sprache (v.a. ihre Komplexität) soll die linguistische Bearbeitung nicht ausschließlich per Regeln analog dem Englischen er-folgen.

Kann-Kriterien stellen dann weitergehende Verarbeitungen wie statistische Verfahren bzw. weitergehende syntaktische oder semantische Verfahren dar. Zusatztools wie Scanning oder Klassifikation sind evtl. nicht uninteressant.

67 Begründung folgt im Kapitel 4.4.3

Eine wichtige Zusatzleistung ist die Eigennamenerkennung. Für den konkreten Fall ist die Erkennung von Personennamen und Geographica von großem Interesse, im Bereich Museum und Archiv sicher auch noch Firmennamen. Erkennungen von Ab-kürzungen erleichtern die Indexierung.

Als ein weiteres KO-Kriterium wird nach Grupp (1999) das Vorhandensein von Refe-renzkunden gefordert, da Verlässlichkeit, ausreichende Performanz und Fehlerfrei-heit besser von einem erprobten Indexierungssystem gewährleistet werden können.

Natürlich sollte deren finanzielle Situation einen Fortbestand über die nächsten zwei Jahre garantieren.

Serviceleistungen wie Schulungen für das System sowie eine aufwendige Installati-onsanweisung oder Systemdokumentation spielen keine so dominierende Rolle, da kein umfassendes IT-System mit komplexen Funktionen und größeren Auswirkungen auf die Organisationsstruktur einer Firma vorliegt. Die Zielgruppe der Anwendung setzt sich nur aus einer Person zusammen. Selbstverständlich muss eine gut er-reichbare Hotline bzw. notwendiger Support vor Ort gewährleistet sein.

Nun folgte eine Draftversion des Pflichtenhefts, d.h. in reiner Aufzählung der Anfor-derungen, ohne Deckblatt, Seitenangaben und sonstige Formatierungen bzw. ohne notwendigen Platz o.ä. für Eintragungen des Anbieters (Im Konzept teilweise ange-lehnt an die allgemeinen IT-Beispiele bei Grupp, 1999).

Das Pflichtenheft besteht aus folgenden Kapiteln:

A Allgemeine Hinweise

B Projektbeschreibungen

C Funktionale Anforderungen/Zielsetzungen an das Indexierungssystem

C1 Detailanforderungen

D Systemtechnische Anforderungen (Hard- und Software)

E Sonstige Anforderungen

F Angebotskonditionen ___________________________________________________________________

A Allgemeine Hinweise

Dieses Exemplar eines Pflichtenheftes dient als Grundlage für den Kauf einer Inde-xierungssoftware im Rahmen des DFG-Projektes „Gemeinsames Portal für Bibliothe-ken, Archive und Museen – Ein Online-Informationssystem (BAM)“ und sollte mög-lichst vollständig ausgefüllt werden.

Muss-Anforderungen sind mit der Bezeichnung „KO-Kriterium“ gekennzeichnet. Wir bitten Sie, die folgenden Notationen bei der Beantwortung der Fragen und Anforde-rungen im Feld „Abdeckung“ zu verwenden:

S = abgedeckt durch das Standardprogramm Z = erfordert ein Zusatzprogramm

P = in Planung bzw. als Prototyp vorhanden N = wird von der Software nicht abgedeckt

Keine Angabe wird als „N“ gewertet. Bei allen Punkten können Kommentare, Ergän-zungen sowie notwendige Informationen ihrerseits hinzugefügt werden. Bei der Nota-tion „P“ sollten genauere Zeitangaben gemacht werden. Bei Nichtabdeckung durch Ihre Standardversion sind Erläuterungen sowie die Nennung von eventuellen Zuatz-kosten wünschenswert.

Für Unklarheiten oder Nachfragen Ihrerseits steht Ihnen Frau/Herr XX (Telefon-Nr.

xxxxx) zur Verfügung.

Wir bitten Sie, die ausgefüllten Unterlagen bis spätestens xx.xx.xxxx

an folgende Adresse einzureichen:

Bibliotheksservice-Zentrum Baden-Württemberg Universität Konstanz

Frau/Herr YY 78457 Konstanz.

Ergänzende schriftliche Unterlagen sowie Demoversionen können gerne beigelegt werden.

___________________________________________________________________

B Projektbeschreibung:

Das BAM-Projekt zielt auf ein gemeinsames Portal für Bibliotheken, Archive und Mu-seen als ein Online-Informationssystem. Dieses Internetportal soll einen integrierten Zugang auf digitale Bestände und Kataloginformationen der beteiligten Projektpart-ner (Bibliotheksservice-Zentrum Baden-Württemberg (BSZ), Landesarchivdirektion Stuttgart (LAD) und Landesmuseum für Technik und Arbeit in Mannheim (LTA)) schaffen.

Probleme bei diesem Portal ergeben sich durch die unterschiedliche Erschließung.

Für Bibliotheken und Museen steht die inhaltliche bzw. dokumentarische Erschlie-ßung im Vordergrund, für die Archive die Abbildung der Provenienz.

So soll sowohl im Retrieval als auch in der Präsentation der Ergebnisse einerseits der Qualität der bestehenden Verzeichnungen Rechnung getragen, anderseits sollen die unterschiedlichen Ansprüche berücksichtigt werden.

___________________________________________________________________

C Funktionale Anforderungen/Zielsetzungen an das Indexierungssystem

Im Rahmen dieses Projektes bzw. darüber hinaus soll ein automatisches Indexie-rungssystem eingesetzt werden, wobei zu berücksichtigen ist, dass eine sehr große Datenmenge zu verarbeiten ist.

Indexiert werden v.a. deutsche Titel und Texte. Außerdem wäre es wünschenswert, die fremdsprachigen Titel (v.a. englische) ebenfalls bei Bedarf indexieren zu können.

Die Indexierung erfolgt auf ein heterogenes Themengebiet.

C1 Detailanforderungen

Linguistische Verarbeitung (siehe Einzelanforderungen) stellt ein KO-Kriterium dar.

Die Möglichkeit der Einbindung der bibliothekarischen SWD (Schlagwortnormdatei) als Thesaurus muss auf jeden Fall realisierbar sein. Evtl. müssen von den Partnern noch andere Thesauri/Wortlisten eingebunden werden.

Statistische Bearbeitung ist nicht unvorteilhaft, die Erkennung von Eigennamen und Abkürzungen wünschenswert. Jede weitere Bearbeitung/Analyse bzw. Zusatztools können von Vorteil sein.

Einzelanforderungen (KO-Kriterium) Abdeckung 1. Grundform- bzw. Stammformreduktion oder Expansion zu allen

Wortformen

2. Kompositazerlegung 3. Mehrworterkennung

4. Wortbindestrichergänzung

5. Stoppwortliste mit Änderungsmöglichkeiten oder andere Filtermög-lichkeit von Stoppwörtern

6. Rechtschreibprüfung

7. Erkennung und Zusammenführung abweichender Ansetzungen eines Wortes (alte und neue Rechtschreibung)

Einbindung der SWD als Thesaurus (bzw. Einbindungsmöglichkeit von zusätzlichen Thesauri)

Erläuterungsfeld der benutzten Technologie: Genauere Beschreibungen der lin-guistischen Bearbeitung sind erwünscht (z.B. syntaktisches Parsen, wörterbuchba-siert etc.). Umfang und Inhalt eines Wörterbuchs (Wortformen, Strukturierungsgrad etc.) sollte angegeben werden68.

Zusätzliche Bearbeitung/Analyse Abdeckung

Statistisches Verfahren zur Deskriptorenermittlung

Semantische Analyse (Konzepte, Taxonomien, Wissensbasen etc.) Sonstige Analysen/Ansätze (z.B. weitere linguistische Analyse, lautli-che oder Schreibvariantenerkennung, pragmatislautli-che Analyse, probabi-listischer Ansatz, Informationsextraktion etc.)

Erkennen von englischen Wörtern im deutschen Text (siehe evtl.

auch bei den Übersetzungstools)

Bitte machen Sie nähere Angaben zu allen Punkten, die Sie abdecken.

Erkennung von Abdeckung

Personennamen Geographica Firmennamen oder Organisationen

Abkürzungen bzw. Akronyme

Sonstiges Bitte machen Sie nähere Angaben zu allen Punkten, die Sie abdecken (z.B. Umfang

eines entsprechenden Wörterbuchs, sonstige Realisierung).

68 Hier würde nun ein größerer Platz zum Eintragen folgen, der wurde hier weggelassen, ebenso bei den anderen Punkten.

Zusatztools Scanning

Einbinden eines Klassifikations- oder Text Mining Tools Übersetzungstool(s)

Sonstiges

Bitte machen Sie nähere Angaben zu allen Punkten, die Sie abdecken.

___________________________________________________________________

D Systemtechnische Anforderungen (Hard- und Software)

Auf welchen Rechnern (Hersteller, Typ, Plattformen, Prozessor) läuft das Indexie-rungssystem?

Welche Speicheranforderungen (Hauptspeicher, Festplatte) müssen beachtet wer-den?

Wie viele Daten können innerhalb einer bestimmten Zeit verarbeitet werden (Kapazi-tät z.B. in einer Stunde, max. Dokumentgröße)?

Das Mengengerüst gibt Ihnen an, welche Datenvolumen verarbeitet werden müssen.

Derzeit wird von folgenden Datensatzgrößen ausgegangen, die zu verarbeiten und zu speichern sind: ca. 750.000 Titelsätze und ca. 150.000 längere Texte (Rezensio-nen, Abstracts, Volltexte).

Diskontinuierlich fallen neue Daten an und müssen bearbeitet werden. Bitte machen Sie Angaben, inwieweit Sie diese Größenordnungen verarbeiten können

(KO-Kriterium).

Inwieweit kann die Software bzgl. des Programms an sich sowie der Ein- und Aus-gabe an individuelle Anforderungen/Benutzerbedürfnisse angepasst/erweitert werden (Art und Umfang)?

Welche optionalen Software-Tools sind erhältlich?

In welchen Formaten können die Eingabedateien vorliegen (Datenformate, von Da-tenbanken einlesen, Nutzung von Protokollen)?

In welchen Formaten können die Ausgabedateien vorliegen (Datenformate, in Da-tenbanken ausgeben, Nutzung von Protokollen)?

Kann das Indexierungsprogramm in ein Information-Retrieval-System integriert wer-den? Welche anderen Schnittstellen gibt es?

Welche Zeichensätze werden unterstützt?

Muss eigene Systempflege geleistet werden bzw. in welchem Umfang und wie?

Mit welchem inhaltlichen Umfang und in welcher Form (z.B. als Handbuch) sind Sys-tembeschreibungen vorhanden?

_________________________________________________________________

E Sonstige Anforderungen

Bieten Sie Unterstützung bei der Installation (z.B. Schulung vor Ort, Zeitaufwand) an?

Gibt es eine „Hotline“ bzw. Support und in welcher Form (hier auch Konditionen)?

In welchen Abständen wird das System bzw. deren Teilkomponenten aktuali-siert/geändert? Wann erfolgte die letzte Änderung?

Wird das Wörterbuch/der Thesaurus von Ihnen installiert? Gibt es Hilfe bei einer ei-genen Installation?

Welche Pflege ist für das Wörterbuch erforderlich (Zeitabschätzung, Aufwand, Kos-ten, Unterstützung Ihrerseits)?

Wie viele Mitarbeiter sind mit Entwicklung und Service/Wartung beschäftigt bzw. in welchem Umfang?

Können Sie aktuelle Referenzanwender nennen (oder Kundenliste beilegen) (KO-Kriterium)?

Gibt es Systemvergleichstests, bei denen Sie beteiligt waren?

Können Sie einen Fortbestand des Systems über die nächsten zwei Jahre garantie-ren (aufgrund Partner, Finanzen etc.) (KO-Kriterium)?

__________________________________________________________________

F Angebotskonditionen

Einmalige Kosten für das System (Grundausstattung, Zusatzmodule, Installation, Schulung, Anpassungen/Erweiterungen (z.B. Thesaurusintegration), Sonstiges) Bitte die detaillierten Kosten angeben oder eine Preisliste beilegen!

Laufende Kosten für das System (Wartung, Update, Hotline, Sonstiges) Bitte die detaillierten Kosten angeben oder eine Preisliste beilegen!

___________________________________________________________________

Dieses Pflichtenheft ging als Entwurf zum Testen an alle Testteilnehmer. Aus dem Rücklauf von 2 Pflichtenheften wurden, soweit noch nähere Angaben zum System verwertet werden konnten, diese bei der Beschreibung der Systeme ergänzt. Das Pflichtenheft an sich hat sich in dieser Form bewährt.

4.4.3 Testkonstellation

Aufgrund der bereits beschriebenen Situation auf dem Markt für Textindexierungs-systeme, kommen nur die linguistischen Systeme AUTINDEX, EXTRAKT, IDX und PASSAT in Frage. Die ersten drei Indexierungssysteme waren Weise bereit, ihre Systeme (teilweise aber eingeschränkt) testen zu lassen. Auf eine Evaluierung von PASSAT als 4. linguistisches System konnte verzichtet, da PASSAT keine neuen oder besonderen Funktionen gegenüber den anderen anbietet. Außerdem besteht hier das Manko das Wortformen nicht dokumenten- oder kontextbezogen behandelt werden.

Allerdings war es nicht möglich einen Retrievaltest durchzuführen, da für die zu tes-tenden Systemen keine Retrievaloberfläche, die wissenschaftlichen Ansprüchen ge-nügen würde (z.B. mit Boolschen Operatoren), zur Verfügung stand, noch in vertret-barer Zeit selbst implementiert werden konnte. Da die SWD als Thesaurus (wie es in der Praxis vorgesehen ist) nicht direkt während der Indexierung eingebunden werden konnte, sondern nur der Indexierung nachgeschaltet wurde, hätte dies auch Auswir-kungen beim Retrievaltest gehabt. Nachteile ergeben sich aufgrund dieser Konstella-tion durch die nicht direkt genutzten RelaKonstella-tionen des SWD-Verweisungsapparates.

Außerdem würde bei der Nutzung der SWD während der Textanalyse ein größerer Wortschatz zur Verfügung stehen. Den Systemen, die im BSZ selbst zum Test stan-den, konnte wenigstens die Online-SWD (OSWD) nachgeschaltet werstan-den, um aus den Deskriptoren der Indexierung die SWD-konformen zu gewinnen.

Aus diesen Gründen beschränkte sich die Evaluation hauptsächlich auf die Überprü-fung der ausgegebenen Indexate sowie auf einen Vergleich von intellektuellen

Schlagworten mit den Deskriptoren der automatischen Indexierung. Dabei wurde der Test bei AIR/PHYS bzw. des Bindex-Projekts als Grundlage verwendet. Mit dem Vergleich der Schlagworte mit den Deskriptoren der automatischen Indexierung soll-te die Möglichkeit gesoll-tessoll-tet werden, ob die Deskriptoren als Vorschlagwesen für die Schlagwortvergabe eingesetzt werden können, wie bereits Lepsky (1996) als Ergeb-nis von MILOS I vorschlägt.

Die drei Indexierungssysteme im Test (AUTINDEX, EXTRAKT und IDX) sind ver-schieden. AUTINDEX beinhaltet bereits ein statistisches Verfahren, um die höchst-gewichteten Deskriptoren auszugeben. IDX und EXTRAKT sind reine linguistische Systeme, die mit einem Wörterbuch arbeiten. Um intellektuelle Schlagwörter mit de-nen einer automatischen Indexierung vergleichen zu könde-nen, wurde die ausgegebe-nen Deskriptoren von IDX und EXTRAKT anschließend mit zwei Gewichtungsfunkti-onen bearbeitet. Diese GewichtungsfunktiGewichtungsfunkti-onen mussten aber unterschiedlich sein.

Die bekannte Gewichtung mit der IDF-Formel von Salton (1989, S. 280), eine Ab-wandlung der OKAPI-Gewichtung (ohne die Relevanzberechnung69), sowie die be-reits im bibliothekarischen Bereich erprobte SELIX-Gewichtung standen zur Diskus-sion. Erste Pretests mit OKAPI und der IDF-Formel ergaben schlechtere Deskripto-ren für OKAPI, so dass die Wahl auf IDF und SELIX fiel.

Die IDF-Formel lautet:

IDF (k) = log (N / n) (Salton, 1989, S. 280)

69 OKAPI siehe Kapitel 3.1.2.2

N ist die Gesamtzahl der Dokumente in der Sammlung, n die Anzahl der Dokumente, in denen ein bestimmtes Wort k vorkommt.

Die SELIX-Gewichtung ist detaillierter im Kapitel 4.3.2 dargestellt. Da sich das Län-gengewicht (nG3) als nicht so brauchbar erwiesen hatte (es bevorzugt zu sehr die Mehrwortbegriffe, die in der getesteten Rechtsliteratur relativ häufig vorkommen.

(Vgl. Lohmann, 2000)), fand es keine Anwendung. Für die beiden verbliebenen Teile (nG1 und nG2) gab es bei KASCADE jeweils eine einfachere und eine komplexere Variante (die komplexe mit der Berechnung eines Erwartungswertes). Für den Test wurde die komplexere Variante ausgewählt, weil man sich davon bessere Ergebnis-se versprach (analog KASCADE). Auch das Faktorengewicht für den ersten Formel-teil wurde übernommen, so dass sich die verwendete Gewichtung im Projekt sich wie folgt zusammensetzt:

SELIX (geändert) = 2*nG1 + nG2

IDX und EXTRAKT (leider nur Wörterbuch von A – K) konnten im BSZ selbst getes-tet werden. AUTINDEX stand nicht zur Eigenindexierung zur Verfügung, die nachfol-genden genannten Dateiarten wurden vom IAI in Saarbrücken indexiert.

Welche Indexierungsdatenarten standen zur Verfügung? Durch die Beteiligung von drei Projektpartnern standen sehr unterschiedliche Datenarten für die Indexie-rungstests zu Verfügung:

1) Reine Titel-Dateien aus verschiedenen Fachgebieten aus dem Südwestverbund der wissenschaftlichen Bibliotheken (SWB). Sie zeichnen sich durch SWD-konforme Schlagwörter aus.

2) Titel + Rezensionen: aus dem SWB. Bei den Rezensionen gibt es hauptsächlich Titel aus dem Zeitschriften-, Buch- und Bibliothekswesen, Themen sind bei-spielsweise Inkunabeln, Handschriften, Buchkunst, Dokumentationen über Ta-geszeitungen und Zeitschriften, Kinderliteratur im Allgemeinen etc. Es sind keine Schlagwörter vorhanden.

3) Titel + Abstracts: aus dem SWB, nur Rechtsliteratur. Der Abstract wurde nicht in-tellektuell erstellt, sondern ergab sich aus dem Klappentext des Buchumschlags.

Der Klappentext enthält teilweise auch Informationen über den Werdegang des Autors. Ebenfalls keine Schlagwörter vorhanden

4) Volltexte: bevorzugt aus KOPS, dem Online-Hochschulschriften-Server der Uni-versität Konstanz, außerdem Schriften aus anderen Online-Servern von Universi-tätsbibliotheken. Die verwendeten Datensätze verfügen über freie Schlagwörter und Schlagwörter aus der SWD.

5) Titel + Inhaltsverzeichnisse: stammen von der Vorarlberger Landesbibliothek. Die Inhaltsverzeichnisse waren bereits von der Firma AGI, die AUTINDEX vertreiben, eingescannt worden. Die geprüften Inhaltsverzeichnisse bestanden v.a. aus Titeln zum Thema Musik, Statistik und Politik/Gesellschaft (hier v.a. das Thema Eliten).

6) Museum (LTA): Im Museum gibt es Objekte mit Kurzbeschreibung, die in Abhän-gigkeit zum verfassenden Referenten, differieren. Sie enthalten teilweise reine Objektbeschreibungen (wie viele Bestandteile, aus welchem Material etc.) oder den geschichtlichen Hintergrund des Objekts. Es wurden von der LTA für diesen Test Schlagwörter vergeben. Diese Datensätze enthielten außerdem vereinzelt sogenannte LTA-Schlagwörter, die einem freien Vokabular entstammen (ange-lehnt an die üblichen Fachbegriffe im Museumsbereich). Beispieldatensätze:

„Objektbezeichnung: Emailschild Objektname: Shell Auto-Oele

Kurzbeschreibung: Die 1925 durch die Fusion der Mineralölwerke Rhenania GmbH mit den Ölwerken Stern-Sonneborn entstandene Rhenania-Ossag ver-band die Interessen der Shell AG auf dem deutschen Markt. Ihre Produkte wur-den, analog zur Strategie der anderen internationalen Mineralölkonzerne, seit den zwanziger Jahren unter dem Namen "Shell" verkauft.

Objektbezeichnung: Photoapparat Objektname: Ernemann Bob

Kurzbeschreibung: Plattenkamera 9 x 12 mit Objektiv Doppel Anastigmat 6/120 mit Ledertasche braun und weiterer Ledertasche schwarz mit Plattenmagazinen“.

Indexiert wurde die Objektbezeichnung, der Objekteigenname (z.B. Hersteller-name, wenn vorhanden) und die Kurzbeschreibung.

7) Archivwesen (LAD): a)Titeldaten von Patenten. Beispieltiteldatensätze:

„Patentgesuch: Schmier-Apparate für Lokomotiven etc. Eisenbahnen; Patentge-such: Dreifarben-Druckmaschine; Beschreibung und 2 Zeichnungen zum Patent-gesuch des Wagenwärters Hermann in Offenburg“. Diese PatentPatent-gesuche stam-men aus den Jahre 1828 – 1864.

Außerdem standen der Indexierung b) Wochenmeldungen aus dem Jahre 1995 zur Verfügung. Die Wochenmeldungen sind kurze Zusammenfassungen von Sendungen des SDR 1 wie „Aktuell“, „Land und Leute“, Chronik

Baden-Württemberg“, „Heute in Baden-Württemberg“. Die Themen kamen also v.a. aus der Politik.

Die Daten aus den Archivwesen beinhalten bisher keine Schlagworte. Es wurde eine Patentrolle in der LAD probeweise verschlagwortet, um zu testen, ob v.a. die altertümlichen Begriffe mit der SWD abzubilden sind. Die Autorin dieser Master-arbeit hat außerdem die Wochenmeldungen verschlagwortet um zwischen intel-lektueller und automatischer Indexierung vergleichen zu können.

Wie viele Deskriptoren sollten für die jeweiligen Datenarten vorgegeben wer-den? Als Richtschnur wurde die Schlagwortpraxis im SWB herangezogen. Eine Er-mittlung einer Durchschnittszahl an Schlagworten über die 10 Millionen Datensätze des SWB konnte nicht durchgeführt werden. Die Praxis an sich ist recht inhomogen.

Wie viele Deskriptoren sollten für die jeweiligen Datenarten vorgegeben wer-den? Als Richtschnur wurde die Schlagwortpraxis im SWB herangezogen. Eine Er-mittlung einer Durchschnittszahl an Schlagworten über die 10 Millionen Datensätze des SWB konnte nicht durchgeführt werden. Die Praxis an sich ist recht inhomogen.