1
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Web@archiv Österreich: Digitales Wissen zugänglich machen
Bettina Kann
Österreichische Nationalbibliothek bettina.kann@onb.ac.at
www.onb.ac.at
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Warum Webarchivierung
mehr und mehr Publikationen bzw.
Information ausschließlich online
geringe Halbwertszeit (durchschnittl.
Website 44 Tage)
Verlust an Information („information gap“) bereits jetzt
Nutzen nicht unmittelbar für tagesaktuelle Ereignisse, sondern mittelfristig zu
Forschungszwecken
Archivierungsauftrag
2
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Webarchivierung im internationalen Kontext
Webarchivierung bei 24
Nationalbibliotheken (von 39 Institutionen, die Mitglied bei IIPC)
davon bei allen selektives, thematisches und Eventharvesting
50% auch Domainharvesting
80% führen Betrieb inhouse
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Umfeld
Rechtliche Basis: Mediengesetz BGBL 8/2009; Novelle vom 23.2. 2000 ; in Kraft seit 1.3.2009
Pflichtablieferungsverordnung – PflAV: BGBL II, 271/2009, vom 26.August 2009
Mitgliedschaft beim International Internet Preservation Consortium (netpreserve.org)
3
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
§43b Abs.1: Max. 4x/Jahr generelles automatisiertes Harvesting durch ÖNB von
- .at Domain
- Inhaltlicher Bezug zu Österreich (auch Seiten außerhalb der .at Domain)
§43b Abs.2: Einzelne „periodische elektronische Medien“ können nach schriftlicher Verständigung des Medieninhabers öfters gesammelt werden § 1 Abs.
1 Z 5a lit. b oder c (schließt weiterhin Rundfunk aus)
§43b Abs.3 Ablieferungspflicht wenn - Zugangskontrolle/-beschränkung
- Technisch nicht automatisiert durch ÖNB sammelbar.
Inhalt der Novelle | 1
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
§43b Abs.4: Ausnahmen
Medieninhaber, die nur einer eingeschränkten Offenlegung gemäß §25 Abs. 5 unterliegen
Medien, die bereits in gedruckter oder offline-Form der Ablieferungspflicht unterliegen
Ton und/oder Laufbilder
an deren bibliothekarischer Bewahrung kein wissenschaftliches, kulturelles oder sonstiges öffentliches Interesse besteht
Inhalt der Novelle | 2
4
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Inhalt der Novelle | 3
§43b Abs.4 : Ablieferungspflicht entfällt , wenn
Ablieferung, Speicherung oder Bewahrung der Medieninhalte mit den verfügbaren technischen Mitteln nicht mit angemessenem Aufwand durchgeführt werden könnten
Kosten in keinem angemessenen Verhältnis zum bibliothekarischen Wert des betroffenen
Medieninhalts
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Inhalt der Novelle | 4
§43b Abs.7 : Zugang für andere Bibliotheken Derzeit begünstigte Bibliotheken erhalten Zugang zu gesamten Domain-Archiv
Bei selektiv gesammelten Medien: nach Sitz des Medieninhabers Bundesländerspezifisch
Staatsarchiv: Medieninhalte unter .gv bzw. wenn Bund Medieninhaber
Kosten müssen von Bibliotheken anteilsmäßig
getragen werden.
5
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Eine kleine Zeitreise (1)
ÖNB Juli 1996 Quelle: www.archive.org
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Eine kleine Zeitreise (2)
ÖNB Feb 1998
Quelle: www.archive.org
6
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Eine kleine Zeitreise (3)
ÖNB Mai 2002 Quelle: www.archive.org
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Eine kleine Zeitreise (4)
ÖNB Jänner 2006
7
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Strategien (1)
Domain Harvesting
Gesamte Top-Level-Domain .at (Stand März 2009: ca. 838.000 Domains, Quelle: nic.at)
andere Top-Level-Domains mit Österreich-Bezug
Derzeit läuft der 2. Durchgang des Domainharvestings
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Strategien (2)
Selektives Harvesting
Ausgewählte Seiten, die häufigen Änderungen unterliegen
Harvesting in geeigneten Intervallen
Inhalte:
Medien national und regional,
dynamische Seiten aus den Bereichen Gesellschaft, Wirtschaft, Kultur, Verwaltung/Behörden,
Wissenschaft/Universitäten sowie
experimentelle und/oder einzigartige Webseiten
zur Dokumentation von neuen Techniken (z.B. net
art).
8
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Strategien (3)
Event Harvesting
Spezielle Anlässe und Großereignisse (z.B.
Wahlen)
Webseiten, die nur für den Zeitraum des Ereignisses zur Verfügung stehen
zB Europawahl Juni 2009
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Zugang
Berechtigte Bibliotheken
Bundeskanzleramt, Parlament
Österreichisches Staatsarchiv
Universitäts-, Studien- und Landesbibliotheken
Nur am Standort der Bibliotheken, nicht online
Nur Ausdruck, kein Speichern oder Versenden
Mit Eröffnung des Austriaca-Lesesaals auch Öffnung des
Webarchivs an der ÖNB
9
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Infrastruktur
Hardware
Harvesting
Anzahl Maschinen: 10
Prozessoren: 2 Intel(R) Xeon(R) CPU E5405 @ 2.00GHz, quad-core
RAM: 2 GB
Local Hard Disk: 500 GB
smb-attached volume: 3 TB (für alle Maschinen)
Network Interface: 1 Gbit/s
Betriebssystem: Linux Fedora
Indexierung
Maschinen können für Harvesting oder Indexierung eingesetzt werden:
5 Maschinen für Harvesting, eine für Indexierung
Speicher:
8 TB pro Jahr
Speicher und Backup im Bundesrechenzentrum
Zusätzliche Kopie im Hochsicherheits-Datenspeicher des Bundes in St. Johann im Pongau
Software:
NetarchiveSuite 3.6.1 ( 3.8)
Heritrix 1.12.1b ( 1.14.3)
Wayback Machine
NutchWAX (Tests)
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Workflow
10
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Fallbeispiel: EU-Wahl 2009
Zeitraum: 18.05.2009-23.06.2009 Datenquellen: 67 Domains / 124 Seeds Intervall: täglich/wöchentlich
Rückmeldung von Seitenbetreibern: 0 34GB Daten gesammelt
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Verteilung nach Anzahl
• Text: HTML, CSS, XML etc.
• Application: pdf, zip, Flash,
MS Office, Javascript etc.
11
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Verteilung nach Speicherbedarf
• Text: HTML, CSS, XML etc.
• Application: pdf, zip, Flash, MS Office, Javascript etc.
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Webarchiv Prototyp
12
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Gesamtstatistik Stand 26.5.2010:
inkl. Domaincrawl (noch laufend) Daten: 4.71 TB
Metadaten: 280 GB
327,556,474 Dateien 327 Mio.
Dateien
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Webarchiv Prototyp
13
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Demo: Fussball EM 2008
http://testcrawler02.onb.ac.at:8080/wayback/euro2008.jsp
http://testcrawler02.onb.ac.at:8080/wayback/query?type=urlquery&u rl=http://www.90minuten.at&Submit=Suche&startdate=20080521&e nddate=20080712
http://testcrawler02.onb.ac.at:8080/wayback/query?type=urlquery&u rl=http://www.sport.austria.gv.at/site/5995/default.aspx&Submit=Su che&startdate=20080521&enddate=20080712
http://testcrawler02.onb.ac.at:8080/wayback/query?type=urlquery&u rl=http://www.bka.gv.at/site/5940/default.aspx&Submit=Suche&star tdate=20080521&enddate=20080712
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
14
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010
Herausforderungen
Steigende Datenmengen
Ressourcen
Kurze Lebenszeit von Internet-Seiten:
durchschnittlich 44 Tage (Quelle: Library of Congress)
Informationsverlust
Neue Technologien
Reaktionszeit, Qualität
Spam, Viren
Ressourcen, Qualität
Langzeitarchivierung
Migration, Emulation?
Bibliothekskongress BVÖ VÖB: Zukunft gestalten. Chance Bibliothek, Wien 26.-28. Mai 2010