DIE ÖSTERREICHISCHE BIBLIOTHEKENVERBUND UND SERVICE GMBH
e D O C
Catalogue Enrichment im Österreichischen Bibliothekenverbund
V. Babitchev / J. Brandauer
Übersicht
Was ist eDOC ?
eDOC – Entwicklung
eDOC – Aktueller Status
Liste der unterstützten Objekte
Regeln für Dateinamen
eDOC – Processing
Suchmaschine SWISH-E
Weiterentwicklung
Ergänzende Folien
Was ist eDOC ? eDOC ist …
o
eine im OBV bewährte, stabile Methode zur einfachen Verwaltung elektronischer Dokumente ausserhalb von Aleph
– gescannte Inhaltsverzeichnisse – Abstracts
– Rezensionen – Umschlagbilder
– (auch Volltextdokumente)
o
im OBV seit 2000 im Einsatz
eDOC verfügt …
o
über ein Arbeitsfluss-Modell mit Minimierung des Bearbeiteraufwandes eDOC ist …
o
eine Anwendung, die eng mit dem Verbundsystem gekoppelt ist
eDOC – Entwicklung 2000
2000
o
Entwicklung einer Methode zur einfachen Verwaltung elektronischer Dokumente ausserhalb von Aleph
Vorgaben:
– Reduzierung des bibliothekarischen Arbeitsaufwandes
– Automatische Datensammlung, Upload und Verlinkung mit Verbundkatalog – Anstoss von Indexierung und Replikation
o
Speicherung der Daten in Filesystem
o
Gemeinsame Nutzung der elektronischen Dokumente durch alle besitzenden Bibliotheken !!
o
Gute Akzeptanz der Lösung bei Bibliotheken – positives Feedback von Benutzern
Hauptproblem
Keine Recherche nach den Inhalten elektronischer Dokumente !!
eDOC – Entwicklung 2002 - 2003 2002- 2003
o
Erste Überlegungen zur Recherche nach Inhalten der Objekte
o
Evaluierung freier Suchmaschinen Vorgaben:
– Open Source Produkt
– Möglichkeit einer effizienten Suche in strukturierten (bibliographischen) als auch in unstrukturierten Daten, die in unterschiedlichen Formaten gespeichert sind
o
Auswahl von SWISH-E
o
Vorstellung des Konzepts bei DACH-2003 Köln Neue Herausforderungen
Erfassungsprobleme zwischen Verbundkatalog und Medien-Server – Inhaltsverzeichnisse zu Zeitschriftenbänden
– Mehrere zu einem Titel verlinkte Objekte
eDOC – Entwicklung 2004 2004
o
Entscheidung zur Weiterentwicklung – e D O C Hintergrund:
– Grosse finanzielle Beschränkungen der Bibliotheken
– Durch Anwendung von Open Source Tools kann eine leistungsfähige ‘Zwischenlösung’
realisiert werden Weiterentwicklung (1)
– Neues Datenmodell
– Datenspeicherung in RDBMS: MySQL – Einführung stabiler URLs
– Metasatz: http://media.obvsg.at/AC00016679
– Objekt: http://media.obvsg.at/AC00016679-1001 – Statistik der Nutzung
– Einsatz von SWISH-E als Suchmaschine – Integration mit RDBMS Weiterentwicklung (2)
– Aufbau eines ‘österreichweiten Meta-Daten-Pools’ in Ergänzung des Verbundkatalogs – Schaffung einer Basis zum Datenaustausch mit externen Anbietern auf der Basis von
Match-Keys aus bibliographischen Meta-Daten (ISBN, Jahr, etc.)
eDOC – Aktueller Status
2005-Jänner
– Erste Integration von Verleger-Daten
- 1000 TOCs / Umschlagbilder nach ISBN-Abgleich mit Verbund – Vorstellung von eDOC beim HBZ
2005-März
o
Freigabe der Release 2 – Neue Objekt-Typen
- Aggregat-Satz - Externes Objekt
– Neue Parameter-Datei zur Steuerung der
- Expansion von Objekten in Meta-Satz-Anzeige - Objekt-Formate etc.
– Verbesserung der SWISH-Trefferanzeige bei Zeitschriften-TOCs
Liste der unterstützten Objekte
etc.
html-Datei zur Verlinkung auf externe Objekte Read
- Externes Objekt
html-Datei zur Verbindung von Metasatz und mehreren gleichartigen Objekten –
Zeitschriften-Inhaltsverzeichnisse -
is Aggregat-Satz
Sonder-Objekte
Update vt
Volltext
Expand in Metasatz Update
ub Umschlagbild
Update rz
Rezension
Expand in Metasatz bei txt-Format Update
ab Abstract
Bevorzugt pdf-Format
Option: Kein 655e-Update in Verbindung von TOCs mit einem Aggregat-Satz
Update * in
Inhaltsverzeichnis
655e Standard-Objekte
Anmerkung ACC01
Suffix Objekt-Typ
* Update generell steuerbar!
eDOC – Regeln für Dateinamen
Wesentliches Element der eDOC-Anwendung ist die Vergabe normierter Dateinamen für die verlinkten digitalen Objekte
Beispiel: Gescanntes Inhaltsverzeichnis im pdf-Format
A C 1 2 3 4 5 6 7 8 n 0 1 i n . p d f
ID-Nummer (Kat.001) des Titelsatzes
Extension Objekt-Suffix
Objekt-Sequenz
Modifikator
Online-Demonstration
Online-Demonstration
eDOC Processing: Overview
Batch client at remote library
eDOC Server
Data extraction and Swish-e Indexing
eDOC Aleph on Verbundserver
1. Batch client. Processes scanned objects prepared at the library and sends them to OBVSG
2. eDOC Server. Gets uploaded objects, builds from each object a bibliographic, DC and technical meta data and loads them to MySQL database. Prepares “655e update file”
3. Indexing. Data extraction from the database and indexing through the swish-e search engine
4. eDOC Aleph server. Gets Aleph sequential
“655e update file” and updates Verbund-
datenbank. Replicates changes to other Aleph Batch client at
remote libraryeDOC batch client Library A
OBVSG Libraries
eDOC Processing: Components – Batch Client
Functions
- identifies scanned objects collected during the day and performs some data checks
- converts objects to one archive file and sends it to OBVSG - moves processed data to local archive
- maintains log file (errors sent per e-mail)
Installation requirements
• OS: Unix/Linux
• Runs: daily Mo-Fr from crontab
• Programs: C-shell scripts (2)
• Installed: by OBVSG + local IT support
** The directory texts/ ** in the client’s tree must be open for the WRITE access to store scanned documents. The user access from a Windows PC can be done using e.g.
SFTP or SAMBA.
eDOC batch client Library A Library A
/usr/local/obvsg/eDOC +---library_a
| +---texts
| | |
| | +---archive
| | +---tmp
| +---logs
| +-proc Client unix tree
eDOC Processing: Components – eDOC Server
Functions
- Gets scanned objects received from libraries or
publishers (or/and meta data on external objects from Verbunddatebank or other source)
- Contacts Verbunddatenbank and produces for each object a bibl. record in HTML format (bibliographic fields + meta fields in the Dublin Core format)
- Loads/updates objects and bibliographic records in the MySQL database
- Prepares Aleph sequential file of “655e” categories to update the Verbunddatenbank (adds the “link to eDOC server”)
Server environement
• OS: Linux (Suse 8.2)
• HW: Intel 2xCPU
• Programs: Perl, PHP, Apache,MySQL, eDOC Server
/ Batch
Metadaten
Datenadministration Batch Online
Objekte
Daten- Konverter/
Loader
Scan- ned
ACC01
MySQL ORACLE
eDOC Processing: Components – Data Extraction and Swish-e Indexing
Functions
- Extracts data from the MySQL database
- Merges each text object type with its bibliographic (meta) record and produces an “indexing ready construct” . Objects in PDF,RTF and other non-text formats are processed similarly after the extraction of text contents from them (“filtering”)
- To provide “structured searches” selected Dublin Core fields from the “indexing ready construct” are used ( Author, Title, Schlagwörte etc.)
- Each “indexing ready construct” along with its URL (eDOC www-DB access interface) is finally passed to swish-e for indexing
Processing environement – eDOC server
• Programs: Perl,MySQL
• Swish-e version – 2.4.2 Data extraction and
Swish-e Indexing
Metadaten Objekte
Indizes (Suchmaschine)
Suchmaschine Retrieval Indexing
Data Extraction & Text-Filtering)
swish swish--ee
MySQL MySQL
eDOC Processing: Components – eDOC Aleph on Verbundserver
Functions
- Gets the “655e-update file” from the eDOC server - Updates the ACC01 database (p_manage_18)
- Generates records to activate Aleph data replication to Aleph and Alephino libraries
Note. The “655e”-changes will be replicated to all
Verbundbibliotheken, thus opening access to new eDOC objects for the Verbunddatenbank, the library that produced the objects as well as for all libraries having same title(s)
Processing environement – Aleph 500 Central server - Programs: Perl, csh, ORACLE(ACC01) and ssh eDOC Aleph on
Verbundserver
eDOC Aleph Verbund
Verbund--ServerServer
ACC01
WWW-Server Datenreplikation
Datenreplikation in Lokalsystemein Lokalsysteme
Upd.
“655e”
eDOC server
eDOC Processing: Components – Overview
Metadaten
e D O C e D O C
INTERNET Server
Bibliothek A Bibliothek B Bibliothek Z
Datenadministration Batch Online
Objekte
Ext.Schnitt.
Daten- Konverter/
Loader Upd.
ACC01
Indizes (Suchmaschine)
Upd.
Medien- Server
Upd.
ACC01
Suchmaschine Retrieval Indexing
Datenzugang
Verbund
Verbund--ServerServer
ACC01
WWW-Server
e D O C
e D O C -- SucheSuche Swish-e
(Web)
Datenreplikation
Datenreplikation in Lokalsystemein Lokalsysteme Verleger-Daten ISBN-Abgleich
swish swish--ee
MySQL MySQL
Suchmaschine SWISH-E
SWISH-E - Simple Web Indexing System for Humans – Enhanced Grundsätzliches
o
Open-Source, keine Lizenzkosten
o
Hohe Geschwindigkeit bei Beantwortung von Suchanfragen – OBVSG-Test mit 1 Mio. Verbundtiteln
o
Kleine Indexgrössen – 35% der Objekte (eDOC)
o
Indexierung von HTML-/XML-Dokumenten sowie weiterer Formate durch Filterung (PDF, RTF etc.)
Suchoptionen (Medien-Server)
o
Objekt-Daten: Inhaltsverzeichnis, Abstract
o
Meta-Daten (aus ACC01): Autor/in, Titel, Jahr, Schlagwörter
o
Gesamtsuche über alle Felder
o
Rechtstrunkierung mit *
o
Boole‘sche Operatoren und Klammern möglich
o
‚CCL-Sprache‘ zur kombinierten Suche in Meta- und Objekt-Daten
– AUT, TIT, JA, SW, TOC, ABS, OWN
OBV-Verbundsituation Recherche
Bibliograph. Daten
Aleph 500
OPUS-WWW
Datensatz Entlehnung
e D O C - Suche OAI
eDOC-Server Neu
RDBMS Suchmaschine
Index
ACC01-Meta- daten
Digitale Objekte TOCs, etc.
Bilder
RDBMS OPUS- Daten
OAI-Meta- daten File-System
Metadaten + Abstracts
OPUS 2.0
Verbund-Opac
Z39.50
OBV-Verbundsituation Recherche - Weiterentwicklung
Bibliograph. Daten
Aleph 500
Datensatz Entlehnung
e D O C - Suche OAI
RDBMS Suchmaschine
Index
ACC01- Metadaten
Digitale Objekte TOCs, etc.
Bilder
OPUS- Daten
Metadaten + Abstracts OAI-Meta-
daten File-System
Verbund-Opac
Z39.50