DATENKORREKTUREN IM OBV
Teil 1: Einführung und grundlegende Ideen
WOLFGANG HAMEDINGER / VICTOR BABITCHEV
VERBUNDTAG 2014, GRAZ, 14. MAI 2014
Datenkorrekturen im OBV, Teil 1 - Verbundtag 2014, Graz, 14. Mai 2014 2
Einführung: Ausgangssituation [1]
• Beispielverarbeitungen
– Verarbeitungen für extern
▪ Statistik
▪ Bestandsdatenlieferung ZDB
▪ Datenversorgung Primo – Verarbeitungen intern▪ …
▪ OPAC-Anzeige
▪ Anhebung von Daten auf Verbundniveau: upgrade2ac
▪ Anreicherungsverfahren
▪ Aleph-interne Prozesse
• Fehlerhafte Daten erzeugen massiven Ärger – und zwar laufend – Schwer erklärbare Ergebnisse von Verarbeitungen
– „Verschwindende“ Ausgaben für Primo (wie AVA-Felder)
▪ Wechselseitige Schuldvermutungen
– Jede Verschärfung der Prüfregeln führt zu Korrekturbedarf
– Jede Verarbeitung erfordert eine entsprechend angepasste Datenprüfung
▪ Mehrfachaufwand
▪ Inkonsistenzen
▪ Aufblähung und schwere Wartbarkeit der Verarbeitungsprogramme – Bereits ein einzelner Fehler erfordert den vollen Prüfaufwand
• Betroffene
– ALLE! Bearbeiter und Endbenutzer
• Vergabeverfahren zur Ablöse der derzeitigen Verwaltungssysteme läuft – Datenmigration kommt auf uns zu
• Besondere Architektur im OBV
– Homogener Verbund aus Aleph- und Alephinosystemen – Datensynchronisation über Replikation
– Konzentration auf eine Systemumgebung
▪ Zentrales System als Basis wesentlicher Verarbeitungen
Datenkorrekturen im OBV, Teil 1 - Verbundtag 2014, Graz, 14. Mai 2014 4
Einführung: Ausgangssituation [3]
• Datenstrukturen in Aleph
– Bibliographische Daten: ASEQ-Format auf Basis von MAB2-Feldern
– Exemplardaten und interne Daten: dokumentiertes Format in Oracle-Tabellen
• Verschiedene Ursachen
– Keinerlei echte Relationalität auf Ebene der Datenbank
▪ Unterschiedlich kombinierte Schlüsselfelder
▪ Keine Fremdschlüssel
– Bibliographische Daten liegen grundsätzlich nur in einer unstrukturierten Tabellenspalte – Prüfung auf Eingabefehler hat sich über Jahre entwickeltvor
– Programmfehler führen zu Datenfehlern
• Kodierung ASEQ
– ASEQ-Zeile sieht so aus:
▪ 000000001 100 L $$aCollins, Wilkie$$9118638432 (aus ACC01)
▪ 003801223 7ß0 L $$a9-6.6 (aus ACC60)
– Unreine Kodierung jedenfalls erkennbar bei fehlerhaften Kategorien
▪ bis zum ersten UF: ISO-8859-... (Latin), danach UTF 8
▪ insgesamt kann man nicht von sauberem UTF-8 ausgehen → Gefahr für Verarbeitungen
• Grundstruktur
– Minimalgerüst eines Satzes vorhanden? (LDR, FMT, CAT?) – Übereinstimmung von Angaben in LDR und FMT
– Abhängigkeiten: 051 und 052 schließen einander aus – erzeugende bzw. korrigierende Institution
• Feste Felder
– Prototypische Prüfung der festen Felder nach MAB2-Spezifikation
▪ 7.408.911 Datensätze aus der Verbunddatenbank (Stand 2009-08-04)
▪ 196.484 Meldungen
▪ davon überwiegender Anteil Trivialfehler
• CAT-Kategorien
Datenkorrekturen im OBV, Teil 1 - Verbundtag 2014, Graz, 14. Mai 2014 6
Einführung: Beispielhafte Prüfbereiche [2]
• Datumswerte (ACC01) – 002a 5419910114 – 002a 199900114
• DEL-Sätze
– gelöschte Datensätze sind bei jeder normalen Verarbeitung zu übergehen – Strukturprüfung erforderlich
• Interne Verknüpfungen
– insbesondere Strukturverknüpfungen innerhalb von Aleph
▪ OWN zpER (korrekt: OWN ZPER)
– besonders tückisch, da fehlerhafte Ergebnisse damit provoziert werden
• Datenverknüpfungen
– korrekte Verknüpfungen aus dem Inhalt von MAB-Kategorien
• usw. und so fort; in Frage kommen jedenfalls – Zentrale Exemplardaten
– Lokale Holdingsdaten – Lokale Exemplardaten – Interne Verwaltungsdaten
• Einrichtung einer eigenen Umgebung für die Datenprüfung
– Entkopplung der grundsätzlichen Datenprüfung und der derzeitigen Systemumgebung – Unabhängigkeit der einsetzbaren Mittelt von Aleph
– Weiterverwendbarkeit in neuen Systemumgebungen mit minimalem Anpassungsbedarf
• Definitionen
– Standardisierung von Ablageformat und Qualität der Grunddaten – Einheitliches und strukturiertes Meldungsformat
• Bestandsaufnahme und Festlegung der Abgleichinformationen – Parametertabellen
▪ Aufstellung der normativen Tabellen samt Bedeutung bzw. enthaltenen Informationen aus Aleph
– Verbundstrukturverwaltung
▪ Analyse, Revision und Normierung aller relevanten Strukturinformationen im Verbund (z.B. Sublibrary/OWN)
• Verarbeitungen setzen auf den geprüften Daten in der eigens eingerichteten Umgebung auf
Datenkorrekturen im OBV, Teil 1 - Verbundtag 2014, Graz, 14. Mai 2014 8
Grundlegende Ideen zur Korrektur fehlerhafter Daten
• AG Datenkorrektur
– Einbeziehung der Verbundteilnehmer – Nutzung lokaler Expertise
– Entwicklung von Korrekturstrategien
• Korrekturmöglichkeiten – automatisch
▪ zentral: Programmierung + Replikation
▪ lokal: ? – intellektuell
▪ Verursacherprinzip?
▪ erzeugende bzw. korrigierende Institution
• Entsprechende Klassifikation der Meldungen
• Entwicklung von Werkzeugen
– Anpassung der bestehenden Verfahren zur Massendatenänderung für Korrekturen – Optimale Aufbereitung der Informationen zu den intellektuell zu bereinigenden
Datensätzen
▪ Angepasste Exzerpte aus den Meldungstabellen
– Information der für Korrekturmaßnahmen Zuständigen (Verteilung)