Innere und äußere Organisation digitaler Objekte

Digitale Objekte sind der Hauptgegenstand der Betrachtungen dieser Arbeit und bedürfen deshalb einer ausführlichen Erörterung. Deshalb erfolgt zunächst eine abstrakte Beschreibung, bevor es um ihre konkreten Ausformungen gehen wird.

Kenneth Thibodeau gibt in seinem Aufsatz¹⁶ die folgende umfassende Definition: ”What are digital objects? We could try to answer this question by examining the typs of digital objects that have been and are being created. Many typs of digital information can and do exist in other forms. In fact, many types of digital information are rather straightforward transcriptions of traditional documents, such as books, reports, correspondence, and lists.

Other types of digital information are variations of traditional forms. But many forms of digital information cannot be expressed in traditional hard-copy or analog media; for exam-ple, interactive Web pages, geographic information systems, and virtual reality models. One benefit of an extensive review of the variety of typs of digital information is that it forces one to come to grips with this variety, which is growing both in terms of the number of typs of digital objects and in terms of their complexity.”

Darüber hinaus liefert der Autor eine kompaktere Definition eines digitalen Objekts: ”...

intensive definition of digital objects: a digital object is an information object, of any type of information or any format, that is expressed in digital form ... All digital objects are entities with multiple inheritance; that is, the properties of any digital object are inherited from three classes. Every digital object is a physical object, a logical object, and a conceptual object, and its properties at each of those levels can be significantly different. A physical object is simply an inscription of signs on some physical medium. A logical object is an object that is recognized and processed by software. The conceptual object is the object as it is recognized and understood by a person, or in some cases recognized and processed by a computer application capable of executing business transactions.”

Das bedeutet, dass für die Langzeitarchivierung digitaler Objekte eine Reihe von Teila-spekten eine Rolle spielen, die gesondert betrachtet werden sollten. Hierzu setzt man sich mit verschiedenen Abstraktionsebenen der Objekte, ihres Aufbaus und ihrer Ablage auseinander (Abb. 2.2, S. 20).

Physikalische Objekte Physikalische Objekte sind:”Signs inscribed on a medium”.¹⁷Auf der physikalischen Ebene werden Bitströme aufbewahrt und kopiert unabhängig von der Be-deutung der dargestellten Bits. Diese Aufgabe übernimmt ein geeignetes Aufbewahrungssys-tem. Die Erhaltung dieses Bitstroms ist eine notwendige Bedingung zur Erhaltung digitaler Objekte und bildet damit die Grundlage aller weiteren Strategien.

15Siehe hierzu - http://www.zeit.de/2003/26/Datenschwund.

16Vgl. [Thibodeau 2002], S. 4, 5.

17Vgl. [Thibodeau 2002], S. 6. In [Rothenberg 1999], S. 2 ff. widmet sich der Autor Bitströmen wegen ihrer Bedeutung für die spätere Informationswiederbeschaffung einen eigenen Abschnitt”Old bitstreams never die – they just become unreadable”. Vgl. zudem die Ausführungen in [Rothenberg 2002], S. 7 ff.

2.3. INNERE UND ÄUßERE ORGANISATION DIGITALER OBJEKTE 19

Datenträger als ”Behälter” der Bitströme spielen im Rahmen dieser Arbeit insofern eine Rolle, als dass sie einerseits das Ablagemedium für die archivierten Objekte stellen, ande-rerseits die diversen digitalen Objekte von Archivinteresse¹⁸ auf bestimmten Typen von Da-tenträgern vorliegen. Sie müssen üblicherweise von ihren ursprünglichen Trägern gelöst und geeignet in ein Softwarearchiv eingestellt werden.

Logische Objekte [Thibodeau 2002] definiert logische Objekte als ”prozessierbare, das heißt verarbeitbare, Einheiten”. Diese Einheiten werden von einer bestimmten Applikations-software erkannt. Die Erkennbarkeit durch die Applikation hängt dabei normalerweise vom Datentyp ab. Auf diese wird im Abschnitt 2.3.2 näher eingegangen.

Konzeptionelle Objekte Konzeptionelle Objekte¹⁹sind die eigentlichen, für den Benutzer bedeutungsvollen Einheiten: In der analogen Welt wären das Alltagsgegenstände, Karten, Bücher, Zeitschriften oder Musikstücke und Filme. In der digitalen Welt sind konzeptionelle ObjekteDokumente, aber auch Computerprogramme oder -spiele. Diese sind für die Nachwelt von eigentlichem Interesse.

Der Umgang mit konzeptionellen Objekten kann bedeuten, dass es verschiedene Reprä-sentationen desselben Objekts gibt. So könnte beispielsweise diese Arbeit als L^ATEX-Dokument abgelegt oder in PostScript oder PDF übersetzt worden sein. Ebenfalls wäre es möglich, jede Repräsentation in einem Hexadezimal-Editor²⁰ zu betrachten und damit sich den Bitstrom anzuschauen.

2.3.1 Digitale Bitströme und Dateien

Wenn ein Digitalarchäologe einer fernen Zukunft einen Datenträger findet und dessen physi-kalische Struktur und Aufbau verstanden hat, ist er in der Lage, einen Bitstrom zu extrahieren.

Ohne Zusatzinformationen wird er jedoch wenig damit anfangen können.²¹Nach den Überle-gungen zur inneren Struktur digitaler Objekte geht es deshalb um die Ablage der verschiede-nen Objekte in einzelne Container. Dadurch wird eine äußere Struktur als Anordnungsprinzip definiert, die dem Benutzer in Form von Dateien und Verzeichnissen entgegentritt. Dateien und Verzeichnisse bilden damit eine Art äußere Struktur, die wiederum in einem Dateisystem auf einem Datenträger (Abb. 2.2) gespeichert ist.

Auf Datenträgern kommt die physikalische Repräsentation der verschiedenen digitalen Ob-jekte zu liegen. Sie erscheinen in der Grundform dem Betriebssystem gegenüber als ”Flächen”

oder ”lineare Ströme” einer gewissen Kapazität. Im Fokus einer funktionalen Langzeitarchi-vierung steht der dauerhafte Zugriff auf digitale Objekte. Sie treten dem Archivbenutzer üblicherweise in Form von Dateien oder Bitströmen entgegen. Diese können vielfältige For-mate besitzen. Für den Transport über Netzwerkverbindungen werden Dateien in der Quelle in Bitströme umgewandelt, serialisiert verschickt und am Ziel üblicherweise wieder in Dateien zurückgewandelt.

18Beispielsweise Installationsdatenträger, siehe auch Anhang A.5 zu verschiedenen Datenträgertypen.

19Vgl. gleichfalls [Thibodeau 2002].

20Spezieller Zeicheneditor, der den Rohinhalt von Dateien anzeigen kann.

21Vgl. hierzu [Thibodeau 2002], S. 12:”So digital preservation is not a simple ... to reproduce the objects”.

Abbildung 2.2:Digitale Objekte besitzen eine innere Struktur, werden typischerweise als Dateien in Verzeichnissen eines Dateisystems auf einem Datenträger abgelegt, der wiederum über logische Untereinheiten verfügen kann.

[Lorie 2001] setzt digitale Objekte ins Verhältnis zur Form ihres Auftretens: ”A digital object generally corresponds to what we designate today as a file. Objects can vary greatly in complexity, forming a wide spectrum.”

Verschiedene Arten Es gibt eine ganze Reihe von Konzepten, Dateien in Hinblick auf ihre Langzeitarchivierbarkeit zu unterscheiden. Eine typische Einteilung erfolgt anhand des Datentyps: ”This recognition is typically based on data type. A set of rules for digitally re-presenting information defines a data type. A data type can be primitive, such as ASCII or integer numbers, or it can be composite - that is, a data type composed of other data typs that themselves might be composite.”²² So unterscheidet der Autor einfache und zusammen-gesetzte Datentypen. Dabei ist man nicht auf eine vorgegebene Auswahl von Datentypen festgelegt – jede Applikation kann ihr eigenes proprietäres Format definieren.

Die Art der Zusammensetzung von Dateien entscheidet wesentlich über ihre spätere In-terpretierbarkeit. Hierzu grenzt [Lorie 2001] folgende Fälle voneinander ab:

• Case 0: It is the simplest case. The data object is readily understandable by a human reader. The only practical example is a piece of text encoded in a well known alphabet such as ASCII. This is clearly easy to archive - we only need to know the alphabet.

• Case 1: The data has to be decoded in some way by the reader or by a machine (assuming one knows the decoding rules). In the latter case, a program must be written in 2100 to decode the data, based on the stored description; the program must also be able to convey to the (human) reader information on what the data (or individual portions of the data) mean (the metadata). An image, a digital video clip, a table with ASCII fields, are all examples of such data objects. Essentially, the algorithm is simple and amenable to a description in plain English. Writing the program in 2100 should not be very difficult, whatever the programming language is at that time.

• Case 2: When the algorithm complexity reaches a certain level, it may become imprac-tical to explain it in natural language. The alternative is to save a program that decodes

22Vgl. [Thibodeau 2002], S. 6.

2.3. INNERE UND ÄUßERE ORGANISATION DIGITALER OBJEKTE 21

the data; this may be the only way to be sure that the decoding is specified completely.

The program is written in some language L; M 2100 must be able to understand that language and interpret it.

• Case 3: At the extreme end of the spectrum, we may be interested in archiving a computer program or system for its own sake. In this case, it is the ability to run that program that must be preserved by the archiving mechanism. Not only the bit stream that constitutes the program must be archived, but we must also make sure that the code can be executed at restore time. If you want to preserve the look and feel of Window 95 or MAC, or the user interface of a Computer Aided Design system, the only solution is to archive the whole body of code used during the execution, and enough information on how to run the code at restore time. Programs with complex interactions between the program and a user fall in this category.

Verzeichnisse Verzeichnisse sind Konstrukte zur Strukturierung der Datenablage in Da-teien. Wie beim physischen Vorbild²³ handelt es sich bei einem Verzeichnis um eine nach bestimmten Strukturen gegliederte Sammlung von Informationen. Als Verzeichnisstruktur bezeichnet man im allgemeinen Sprachgebrauch die logische Gestalt eines Dateisystems. Si-cherlich am verbreitendsten und den meisten Computerbenutzern am geläufigsten ist eine baumartige Struktur. Die Struktur beginnt aus einer gemeinsamen Wurzel und verzweigt sich dann im Rahmen der vorgegebenen Eigenschaften nahezu beliebig. In grafischen Darstellun-gen wird die Wurzel typischerweise oben eingezeichnet und die VerzweigunDarstellun-gen erfolDarstellun-gen nach unten hin.

Auf jeder Ebene eines modernen Dateisystems dürfen sowohl Dateien als auch Verzeich-nisse liegen. Letztere bilden rekursiv die nächste Ebene des Baumes, für die erneut das eben Gesagte zutrifft. Typischerweise finden sich zwei Arten der Adressierung von Dateien: absolut und relativ. Name und Position jeder Datei kann durch eine entsprechende Pfadangabe spe-zifiziert werden, die an der Wurzel beginnt und alle zu durchlaufenden Verzeichnisse auflistet.

2.3.2 Dateiformate und Standards

Digitale Objekte haben als logische oder konzeptionelle Objekte mit Bitströmen oder Dateien zu tun, die in irgendeiner Form durch Software erzeugt wurden. Softwareprodukte sind eng mit dem Marktgeschehen verknüpft. Dieses hat einige Auswirkungen auf die Menge und Gestalt ihrer benutzten Formate:

• Softwareproduzenten haben ein Interesse daran, Kunden langfristig an ihre Produk-te zu binden. Da dazu Qualität des ProdukProduk-tes und Funktionsumfang häufig als nicht ausreichend eingeschätzt werden, wird versucht, dieses über das Datenformat der er-zeugten Objekte zu realisieren. Die Datenformate werden typischerweise nicht oder unvollständig veröffentlicht und bewusst so gestaltet, dass sie nicht leicht von Drit-ten nachempfunden werden können. Teilweise probieren Hersteller, sie durch PaDrit-tente²⁴

23Ein oft angeführtes Beispiel für Verzeichnisse sind das Branchenbuch oder interne Telefonbücher von Firmen oder Organisationen.

24Das kann dazu führen, dass ein Import solcher Objekte verhindert wird.

rechtlich zu schützen. Diese nicht allgemein veröffentlichten Datenformate werden oft als ”proprietär”, dem Erzeuger gehörend, bezeichnet.

• Führende Softwareprodukte definieren quasi durch ihre schiere Marktpräsenz einen Qua-sistandard für Datenformate bestimmter Anwendungsbereiche, so beispielsweise Micro-soft Excel für Tabellenkalkulationen.

• Open-Source-Programme erzeugen üblicherweise Dateien in offenen, jedem zugängli-chen Formaten. Sie sind vielfach in der Lage, proprietäre Dateien von jeweils ähnlich gelagerten Programmen zu öffnen.²⁵

• Anbieter von Konkurrenzprodukten in dominierten Märkten versuchen ihre Software oft mit guten Im- und Exportfiltern auszustatten, um eine Migration von anderen Anbietern zu eigenen Produkten zu erlauben. Dieses wird von Anwendern oft nur dann akzeptiert, wenn mit dem Alternativprodukt ähnliche Ergebnisse wie in den Quasistandardformaten erzielt werden können.

• Gibt ein Anbieter am Markt auf, verschwinden mit ihm dessen ”proprietäre” Formate.

Die ökonomische Konstellation beim Marktausscheiden sorgt in den seltensten Fällen dafür, dass ein Exportfilter zur Migration der alten Daten in das Format der überlegenen Produkte zur Verfügung steht.

• Je mehr Programme es gibt, die in unterschiedlichsten Formaten Daten ablegen können, desto größer wird die Matrix der Konversionswünsche.

Eine gute Illustration der Problematik bieten sogenannte Office-Produkte: Anwendungen wie Textverarbeitung, Präsentationsprogramm, Tabellenkalkulation, Termin- und Emailver-waltung.

Zur permanenten Verbreiterung des Angebotes zueinander inkompatibler Formate für ähn-liche Problemstellungen lassen sich Gegenbewegungen beobachten:

• Mit der Durchsetzung von Computernetzen entsteht ein zunehmendes Bedürfnis nach einfachem Datenaustausch.

• Gerade kommerzielle Anwender fordern einheitliche Standards für die Datenablage, um zusätzliche Kosten zu vermeiden.

• Anwender sind immer weniger bereit, ihr Schicksal oder das Schicksal ihrer Daten mit dem des Softwareanbieters zu verknüpfen. Sie verlangen nach Standards für bestimmte Datenformate. Diese sollen zum einen auch nach größeren Zeitabständen noch interpre-tierbar sein und zum anderen einen leichten Austausch mit anderen Softwareprodukten erlauben.

• Die verwendeten Standards sollen möglichst offen und frei von Rechten sein, um un-kalkulierbaren Risiken bei ihrer Benutzung aus dem Weg zu gehen.

Einen Überblick zu Standards und Datenformaten in Digitalen Bibliotheken findet sich in [Endres und Fellner 2000].

25So eignen sich beispielsweise die Importfilter von OpenOffice für ältere Microsoft Word Formate teilweise besser, als die der neueren Produkte des eigentlichen Herstellers.

2.3. INNERE UND ÄUßERE ORGANISATION DIGITALER OBJEKTE 23

2.3.3 Datenablage

Dateisysteme strukturieren Daten auf einem Datenträger in Dateien. Das Dateisystem selbst ist ein Ordnungs- und Zugriffssystem für diese Daten. Hierzu enthält jedes Betriebssystem²⁶ Zugriffsroutinen für mindestens ein Dateisystem.

Dateien besitzen in einem Dateisystem fast immer mindestens einen Dateinamen sowie Attribute, die nähere Auskünfte zur vorliegenden Datei geben. Die Dateinamen sind je nach logischem Aufbau des Dateisystems wiederum in speziellen Dateien, den Verzeichnissen, abge-legt. Durch diese Verzeichnisse kann ein Dateiname und damit eine Datei vom Betriebssystem gefunden werden. Ein Dateisystem bildet einen Namensraum. Alle Dateien oder dateiähnli-chen Objekte sind auf diese Weise durch eine eindeutige Adresse, nämlich den Dateinamen inklusive Pfad oder Unified Resource Indicator (URI) innerhalb des Dateisystems aufrufbar.

Die Zahl der Zeichen im Datei- oder Verzeichnisnamen entscheidet über Wiederfindbarkeit von Dateien und bestimmt über die erreichbare deskriptive Qualität. Der Name einer Datei und weitere Informationen, die den gespeicherten Daten zugeordnet sind, werden als Meta-daten²⁷ bezeichnet.

Dateisysteme sind keine zwingende Voraussetzung zur Anordnung von Dateien und Ver-zeichnissen. So werden die Daten auf Magnetbändern üblicherweise gepackt als Bitstrom hintereinandergeschrieben. Für unterschiedliche Datenträger, wie Magnetband, Festplatte, optische Datenträger oder Flash-Speicher wurden spezielle Dateisysteme entwickelt, die deren Besonderheiten berücksichtigen. Sie definieren die für Verwaltung, Speicherung und Verarbei-tung notwendigen Richtlinien zur Organisationsform der Datenträger, wie Größe der Cluster und Partitionen, Sicherheitseinstellungen, Zugriffsrechte, Attribute und die Organisation von Zugriffen.

Die hierarchische Ablage von Daten in Dateien und Verzeichnissen ist ein seit langer Zeit gültiges Paradigma, welches jedoch einige Probleme, wie die Ablage und Verknüpfung von Metainformationen zu einzelnen Dateien, nicht befriedigend löst. Deshalb tauchen regel-mäßig Vorschläge auf, die versuchen, Prinzipien relationaler Datenbanken für Dateisysteme verfügbar zu machen. Das könnte bedeuten, dass konventionelle Verzeichnisstrukturen mit hierarchischer Dateiablage nur eine unter mehreren Varianten sein wird, ein ”View” zu ge-nerieren. Das würde das gewohnte Paradigma, Datenbestände abzulegen, wiederzufinden, zu lesen oder zu modifizieren, verändern.

Dateisysteme sind in der Langzeitarchivierung an einigen Punkten von Interesse: Instal-lationsdatenträger und Dateisysteme in den Containerdateienverschiedener Emulatoren oder Virtualisierer.²⁸

Datenträger²⁹kann man damit als Träger von Information, Speicher oder Speichermedium bezeichnen. Sie stellen physische Trägersubstanzen bereit, auf denen Daten abgelegt werden, was üblicherweise in den zuletzt beschriebenen Dateisystemen, Verzeichnissen und Dateien

26Ausgenommen sind sehr alte Betriebssysteme von Maschinen, die noch nicht mit blockorientierten Fest-speichermedien bestückt waren. Hierzu zählen frühe Großrechner und einige Home-Computer.

27Sinnvollerweise verlässt man sich nicht auf die Eigenschaften eines Dateisystems zur Beschreibung der Objekte, sondern speichert in geeigneter Form Metadaten zu diesem Objekt separat ab und sorgt für eine geeignete Verknüpfung.

28Siehe hierzu die Abschnitte 6.8 und 7.10 in späteren Kapiteln.

29Enthalten die eingangs definierten physikalischen Objekte. Einen Überblick zu gängigen Datenträgern und ihrer Geschichte findet man im Anhang ab Abschnitt A.5.

erfolgt.

Verschiedene Datenträger mit unterschiedlichen physikalischen Eigenschaften sind inte-grale Teile des Hardwarebestandes. Sie sind ohne ihren Kontext aus Schreib-/Lesegeräten und Software, die für ihren Zugriff benötigt wird, nicht sinnvoll verwendbar. Einen guten Überblick liefern die Tabelle in [Rothenberg 1999], S. 3 und die Anmerkungen von [Thibodeau 2002], S. 7 zu physikalischen Archivierungsstrategien.

Im Dokument Funktionale Langzeitarchivierung digitaler Objekte – (Seite 34-40)