• Keine Ergebnisse gefunden

DIE ÖSTERREICHISCHE BIBLIOTHEKENVERBUND UND SERVICE GMBH

N/A
N/A
Protected

Academic year: 2022

Aktie "DIE ÖSTERREICHISCHE BIBLIOTHEKENVERBUND UND SERVICE GMBH"

Copied!
24
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

DIE ÖSTERREICHISCHE BIBLIOTHEKENVERBUND UND SERVICE GMBH

e D O C

Catalogue Enrichment im Österreichischen Bibliothekenverbund

V. Babitchev / J. Brandauer

(2)

Übersicht

ƒ Was ist eDOC ?

ƒ eDOC – Entwicklung

ƒ eDOC – Aktueller Status

ƒ Liste der unterstützten Objekte

ƒ Regeln für Dateinamen

ƒ eDOC – Processing

ƒ Suchmaschine SWISH-E

ƒ Weiterentwicklung

ƒ Ergänzende Folien

(3)

Was ist eDOC ? eDOC ist …

o

eine im OBV bewährte, stabile Methode zur einfachen Verwaltung elektronischer Dokumente ausserhalb von Aleph

– gescannte Inhaltsverzeichnisse – Abstracts

– Rezensionen – Umschlagbilder

– (auch Volltextdokumente)

o

im OBV seit 2000 im Einsatz

eDOC verfügt …

o

über ein Arbeitsfluss-Modell mit Minimierung des Bearbeiteraufwandes eDOC ist …

o

eine Anwendung, die eng mit dem Verbundsystem gekoppelt ist

(4)

eDOC – Entwicklung 2000

2000

o

Entwicklung einer Methode zur einfachen Verwaltung elektronischer Dokumente ausserhalb von Aleph

Vorgaben:

– Reduzierung des bibliothekarischen Arbeitsaufwandes

– Automatische Datensammlung, Upload und Verlinkung mit Verbundkatalog – Anstoss von Indexierung und Replikation

o

Speicherung der Daten in Filesystem

o

Gemeinsame Nutzung der elektronischen Dokumente durch alle besitzenden Bibliotheken !!

o

Gute Akzeptanz der Lösung bei Bibliotheken – positives Feedback von Benutzern

Hauptproblem

Keine Recherche nach den Inhalten elektronischer Dokumente !!

(5)

eDOC – Entwicklung 2002 - 2003 2002- 2003

o

Erste Überlegungen zur Recherche nach Inhalten der Objekte

o

Evaluierung freier Suchmaschinen Vorgaben:

– Open Source Produkt

– Möglichkeit einer effizienten Suche in strukturierten (bibliographischen) als auch in unstrukturierten Daten, die in unterschiedlichen Formaten gespeichert sind

o

Auswahl von SWISH-E

o

Vorstellung des Konzepts bei DACH-2003 Köln Neue Herausforderungen

Erfassungsprobleme zwischen Verbundkatalog und Medien-Server – Inhaltsverzeichnisse zu Zeitschriftenbänden

– Mehrere zu einem Titel verlinkte Objekte

(6)

eDOC – Entwicklung 2004 2004

o

Entscheidung zur Weiterentwicklung – e D O C Hintergrund:

– Grosse finanzielle Beschränkungen der Bibliotheken

– Durch Anwendung von Open Source Tools kann eine leistungsfähige ‘Zwischenlösung’

realisiert werden Weiterentwicklung (1)

– Neues Datenmodell

– Datenspeicherung in RDBMS: MySQL – Einführung stabiler URLs

– Metasatz: http://media.obvsg.at/AC00016679

– Objekt: http://media.obvsg.at/AC00016679-1001 – Statistik der Nutzung

– Einsatz von SWISH-E als Suchmaschine – Integration mit RDBMS Weiterentwicklung (2)

– Aufbau eines ‘österreichweiten Meta-Daten-Pools’ in Ergänzung des Verbundkatalogs – Schaffung einer Basis zum Datenaustausch mit externen Anbietern auf der Basis von

Match-Keys aus bibliographischen Meta-Daten (ISBN, Jahr, etc.)

(7)

eDOC – Aktueller Status

2005-Jänner

– Erste Integration von Verleger-Daten

- 1000 TOCs / Umschlagbilder nach ISBN-Abgleich mit Verbund – Vorstellung von eDOC beim HBZ

2005-März

o

Freigabe der Release 2 – Neue Objekt-Typen

- Aggregat-Satz - Externes Objekt

– Neue Parameter-Datei zur Steuerung der

- Expansion von Objekten in Meta-Satz-Anzeige - Objekt-Formate etc.

– Verbesserung der SWISH-Trefferanzeige bei Zeitschriften-TOCs

(8)

Liste der unterstützten Objekte

etc.

html-Datei zur Verlinkung auf externe Objekte Read

- Externes Objekt

html-Datei zur Verbindung von Metasatz und mehreren gleichartigen Objekten –

Zeitschriften-Inhaltsverzeichnisse -

is Aggregat-Satz

Sonder-Objekte

Update vt

Volltext

Expand in Metasatz Update

ub Umschlagbild

Update rz

Rezension

Expand in Metasatz bei txt-Format Update

ab Abstract

Bevorzugt pdf-Format

Option: Kein 655e-Update in Verbindung von TOCs mit einem Aggregat-Satz

Update * in

Inhaltsverzeichnis

655e Standard-Objekte

Anmerkung ACC01

Suffix Objekt-Typ

* Update generell steuerbar!

(9)

eDOC – Regeln für Dateinamen

Wesentliches Element der eDOC-Anwendung ist die Vergabe normierter Dateinamen für die verlinkten digitalen Objekte

Beispiel: Gescanntes Inhaltsverzeichnis im pdf-Format

A C 1 2 3 4 5 6 7 8 n 0 1 i n . p d f

ID-Nummer (Kat.001) des Titelsatzes

Extension Objekt-Suffix

Objekt-Sequenz

Modifikator

(10)

Online-Demonstration

Online-Demonstration

(11)

eDOC Processing: Overview

Batch client at remote library

eDOC Server

Data extraction and Swish-e Indexing

eDOC Aleph on Verbundserver

1. Batch client. Processes scanned objects prepared at the library and sends them to OBVSG

2. eDOC Server. Gets uploaded objects, builds from each object a bibliographic, DC and technical meta data and loads them to MySQL database. Prepares “655e update file”

3. Indexing. Data extraction from the database and indexing through the swish-e search engine

4. eDOC Aleph server. Gets Aleph sequential

“655e update file” and updates Verbund-

datenbank. Replicates changes to other Aleph Batch client at

remote libraryeDOC batch client Library A

OBVSG Libraries

(12)

eDOC Processing: Components – Batch Client

Functions

- identifies scanned objects collected during the day and performs some data checks

- converts objects to one archive file and sends it to OBVSG - moves processed data to local archive

- maintains log file (errors sent per e-mail)

Installation requirements

• OS: Unix/Linux

• Runs: daily Mo-Fr from crontab

• Programs: C-shell scripts (2)

• Installed: by OBVSG + local IT support

** The directory texts/ ** in the client’s tree must be open for the WRITE access to store scanned documents. The user access from a Windows PC can be done using e.g.

SFTP or SAMBA.

eDOC batch client Library A Library A

/usr/local/obvsg/eDOC +---library_a

| +---texts

| | |

| | +---archive

| | +---tmp

| +---logs

| +-proc Client unix tree

(13)

eDOC Processing: Components – eDOC Server

Functions

- Gets scanned objects received from libraries or

publishers (or/and meta data on external objects from Verbunddatebank or other source)

- Contacts Verbunddatenbank and produces for each object a bibl. record in HTML format (bibliographic fields + meta fields in the Dublin Core format)

- Loads/updates objects and bibliographic records in the MySQL database

- Prepares Aleph sequential file of “655e” categories to update the Verbunddatenbank (adds the “link to eDOC server”)

Server environement

• OS: Linux (Suse 8.2)

• HW: Intel 2xCPU

• Programs: Perl, PHP, Apache,MySQL, eDOC Server

/ Batch

Metadaten

Datenadministration Batch Online

Objekte

Daten- Konverter/

Loader

Scan- ned

ACC01

MySQL ORACLE

(14)

eDOC Processing: Components – Data Extraction and Swish-e Indexing

Functions

- Extracts data from the MySQL database

- Merges each text object type with its bibliographic (meta) record and produces an “indexing ready construct” . Objects in PDF,RTF and other non-text formats are processed similarly after the extraction of text contents from them (“filtering”)

- To provide “structured searches” selected Dublin Core fields from the “indexing ready construct” are used ( Author, Title, Schlagwörte etc.)

- Each “indexing ready construct” along with its URL (eDOC www-DB access interface) is finally passed to swish-e for indexing

Processing environement – eDOC server

• Programs: Perl,MySQL

• Swish-e version – 2.4.2 Data extraction and

Swish-e Indexing

Metadaten Objekte

Indizes (Suchmaschine)

Suchmaschine Retrieval Indexing

Data Extraction & Text-Filtering)

swish swish--ee

MySQL MySQL

(15)

eDOC Processing: Components – eDOC Aleph on Verbundserver

Functions

- Gets the “655e-update file” from the eDOC server - Updates the ACC01 database (p_manage_18)

- Generates records to activate Aleph data replication to Aleph and Alephino libraries

Note. The “655e”-changes will be replicated to all

Verbundbibliotheken, thus opening access to new eDOC objects for the Verbunddatenbank, the library that produced the objects as well as for all libraries having same title(s)

Processing environement – Aleph 500 Central server - Programs: Perl, csh, ORACLE(ACC01) and ssh eDOC Aleph on

Verbundserver

eDOC Aleph Verbund

Verbund--ServerServer

ACC01

WWW-Server Datenreplikation

Datenreplikation in Lokalsystemein Lokalsysteme

Upd.

“655e”

eDOC server

(16)

eDOC Processing: Components – Overview

Metadaten

e D O C e D O C

INTERNET Server

Bibliothek A Bibliothek B Bibliothek Z

Datenadministration Batch Online

Objekte

Ext.Schnitt.

Daten- Konverter/

Loader Upd.

ACC01

Indizes (Suchmaschine)

Upd.

Medien- Server

Upd.

ACC01

Suchmaschine Retrieval Indexing

Datenzugang

Verbund

Verbund--ServerServer

ACC01

WWW-Server

e D O C

e D O C -- SucheSuche Swish-e

(Web)

Datenreplikation

Datenreplikation in Lokalsystemein Lokalsysteme Verleger-Daten ISBN-Abgleich

swish swish--ee

MySQL MySQL

(17)

Suchmaschine SWISH-E

SWISH-E - Simple Web Indexing System for Humans – Enhanced Grundsätzliches

o

Open-Source, keine Lizenzkosten

o

Hohe Geschwindigkeit bei Beantwortung von Suchanfragen – OBVSG-Test mit 1 Mio. Verbundtiteln

o

Kleine Indexgrössen – 35% der Objekte (eDOC)

o

Indexierung von HTML-/XML-Dokumenten sowie weiterer Formate durch Filterung (PDF, RTF etc.)

Suchoptionen (Medien-Server)

o

Objekt-Daten: Inhaltsverzeichnis, Abstract

o

Meta-Daten (aus ACC01): Autor/in, Titel, Jahr, Schlagwörter

o

Gesamtsuche über alle Felder

o

Rechtstrunkierung mit *

o

Boole‘sche Operatoren und Klammern möglich

o

‚CCL-Sprache‘ zur kombinierten Suche in Meta- und Objekt-Daten

– AUT, TIT, JA, SW, TOC, ABS, OWN

(18)

OBV-Verbundsituation Recherche

Bibliograph. Daten

Aleph 500

OPUS-WWW

Datensatz Entlehnung

e D O C - Suche OAI

eDOC-Server Neu

RDBMS Suchmaschine

Index

ACC01-Meta- daten

Digitale Objekte TOCs, etc.

Bilder

RDBMS OPUS- Daten

OAI-Meta- daten File-System

Metadaten + Abstracts

OPUS 2.0

Verbund-Opac

Z39.50

(19)

OBV-Verbundsituation Recherche - Weiterentwicklung

Bibliograph. Daten

Aleph 500

Datensatz Entlehnung

e D O C - Suche OAI

RDBMS Suchmaschine

Index

ACC01- Metadaten

Digitale Objekte TOCs, etc.

Bilder

OPUS- Daten

Metadaten + Abstracts OAI-Meta-

daten File-System

Verbund-Opac

Z39.50

(20)

Ergänzende Folien [1]

Suche und Kurzanzeige

(21)

Ergänzende Folien [2]

Metasatz im Voll-Format

(22)

Ergänzende Folien [3]

Ergebnis -

Inhaltsverzeichnis (Fragment)

(23)

Ergänzende Folien [4]

Kurzanzeige der Objekte

(24)

Ergänzende Folien [5]

Anzeige des externen Objektes

Referenzen

ÄHNLICHE DOKUMENTE

Using filtering agents to improve prediction quality in the GroupLens research collaborative filtering system. In Proceedings of the ACM Conference on

( Große Anteile der im Netz verfügbaren Informationen sind kein Text und können nicht in einemA. Voll text index

Merih Seran Uysal is a researcher in the data management and data exploration group at RWTH Aachen University, Germany.. Her research interests include similarity search in

Given a predicate, the Pack Index Access Path retrieves matching pack numbers from the Pack Index, translates the pack numbers to memory addresses and scans the corresponding packs

In this paper, we argue for reconsidering prefix trees as in-memory index structures and we present the generalized trie, which is a prefix tree with variable prefix length for

Starting from an original database of 60-dimensional feature vectors, we reduce them to different lower dimensional represen- tations using PCA (principle components analysis,

In order to meet these challenges we developed an architecture for query processing which we call “The Query Web”, based on a hybrid P2P index combining a distributed hash

The Media Search system, as shown in Figure 1, is broken into six components: 1) one or more Media Servers, 2) a metadatabase that is a built on a standard relational database, 3)