deposit_hagen
Publikationsserver der Universitätsbibliothek
Mathematik und
Informatik
Informatik-Berichte 08 – 08/1980
FLEXI
Ein flexibles Informationssystem für
nicht-formatierte und formatierte
Daten auf Kleinrechnern
Kh. Hahn1, U. Prädel 1, J. Höhe2, G. Schlageter1
l, EINLEITUNG
Elektronische Rechenanlagen wurden schon sehr frühzeitig nicht nur zur numerischen Datenverarbeitung sondern in immer stärkerem Maße auch zur Verwaltung nicht-nJmerischer Daten herangezogen. Zwei Richtungen entwickelten sich:
Datenbanksysteme und Information-Retrieval-Systeme. In Datenbanksystemen werden formatierte Daten (Fakten) ver- waltet; Beziehungen zwischen Daten sind beschreibbar und damit dem Datenbanksystem bekannt. Mit einem Datenbanksystem können somit komplexe Datenbasen realer Systeme in inte- grierter Weise realisiert werden. In Information-Retrieval- Systemen stehen unformatierte Daten (Texte, Dokumente) im
Vordergrund. Das System verwaltet nicht Fakten, sondern Daten, aus denen Fakten ableitbar sind; im allgemeinen wird nicht ein ganz bestimmtes Faktum gesucht, sondern es wird Information gesucht, die zu einem gewissen Sachverhalt relevant sein könnte. Die Dokumente werden mit Deskriptoren beschrieben und können über die Deskriptoren wiedergefunden werden. Die
Dokumente werden grundsätzlich isoliert gesehen, Beziehungen zwischen Dokumenten existieren allenfalls in Form von Ähnlich- keiten über die zugeordneten Deskriptoren.
1 Fernuniversität, Praktische Informatik, Postfach 940, D 5800 Hagen
2 Collogia GmbH, Altburger Str. 11, D 5000 Köln 1
Die Trennung zwischen Datenbanksystemen und Information- Retrieval-Systemen ist derzeit sehr deutlich. Von einer mehr grundsätzlichen Betrachtungsweise her, vor allem aber von den Forderungen der Anwendung her, werden die Obergänge jedoch sehr fließend - tatsächlich wünscht man sich Systeme, die Datenbankfunktionen und Funktionen des Information-Retrieval anbieten. Die vollständige Integration beider Richtungen wird allerdings noch für einige Zeit
Gegenstand intensiver Forschungs- und Entwicklungsarbeit bleiben.
Der Wunsch, in flexibler, aber einfacher Weise Information speichern und wieder auffinden zu können, wird im Bereich des "Personal Computing11 und im Zusammenhang mit der
Büro-Automatisierung eine ganz besondere Rolle spielen.
Systeme dieser Art sind auf kleine Rechner (Mikrocomputer- Systeme) bzw. auf Netze von Kleinrechnern gestützt. Bisher sind nur recht bescheidene Systeme für Datenbankfunktionen oder Information-Retrieval-Funktionen für Rechner dieser Größenordnung verfügbar. Die bekannteren Information- Retrieval-Systeme setzen Großrechner voraus.
Diese Arbeit skizziert das System FLEXI l ) , das unter den folgenden globalen Zielen entworfen wurde:
(1) Das System soll ein flexibles Information-Retrieval- system sein, das die effiziente Verwaltung formatierter Daten einschließt.
(2) Das System soll auf Mikrocomputer-Systemen einsetzbar sein.
(3) Das System soll in einfacher Weise an die jeweilige An- wendungsumgebung und Rechnerkonfiguration anpassbar sein.
1) Jedes System benötigt einen Namen. Dieses heißt FLEXI: Flexibles Information Retrieval System
Mit (1} geht dieses System einen wichtigen Schritt in die Richtung der Integration von Datenbanksystemen und Information-Retrieval-Systemen, obwohl wesentliche Merk- male von Datenbanksystemen nicht befriedigt werden (Rela- tionen zwischen Daten, Transaktionskonzept, etc.).
Zu den möglichen Anwendungen eines solchen Information- Retrieval-Systems auf Kleinrechner-Basis zählen sowohl die 11 klassischen11 Anwendungen wie Literatur-Dokumentation, Projekt-Dokumentation, Dokumentation von Befragungen, usw., als auch spezielle Anwendungen im Kleinrechnerbereich, wie kleine Archive und Sammlungen, Dokumentation in freien Berufen usw.
Verfügbare Information-Retrieval-Systeme wie STAIRS /IBM/
und GOLEM /SIE/ sind in vielerlei Hinsicht sehr restriktiv (insbesondere bei den Möglichkeiten zur Strukturierung von Dokumenten) und ineffizient (etwa STAIRS bei der Recherche über formatierte Daten). Ein konsequenter Entwurf eines flexiblen Information-Retrieval-Systems kann deshalb nicht von einem dieser Systeme ausgehen. Forschungsprojekte wie etwa CONDOR /CON/ sind auf Großrechner ausgerichtet.
2, KONZEPT DES SYSTEMS
ANFORDERUNGENDie globalen Vorstellungen aus Kapitel 1 führten zu den folgenden Anforderungen an FLEXI:
alle Funktionen des Systems sollen im Dialog ausführbar sein, zeitintensive Funktionen
sollen auch im Batch abgearbeitet werden können.
- Das Funktionsangebot des Systems muß an die Anwendung anpaßbar sein.
- Dokumente sollen sehr fein, hierarchisch beliebig tief strukturierbar sein, die Schachtelungstiefe soll variabel sein.
- Auf der Benutzerebene wird zwischen formatierten und unformatierten Daten nicht unterschieden.
- Dokumente müssen verändert werden können.
- Das Wörterbuch (Katalog der Suchbegriffe mit zugehörigen Dokumentverweisen) soll nicht nur Textworte, sondern auch formatierte Daten (ganze Zahlen, Gleitkommazahlen) suchbar machen.
- Das System soll an die Rechnerkonfiguration anpaßbar sein (Externspeicher).
- Das System soll portabel sein, d.h. es soll ohne tiefe Eingriffe in die Programme auf anderen Rechnern implementierbar sein.
Entsprechend der Forderung nach Einsetzbarkeit auf Mikro-
computern wird das System_ als Ein-Benutzer-System konzipiert~
die Möglichkeit zur Erweiterung auf Mehr-Benutzer-Betrieb wird jedoch offengelassen.
ARCHITEKTUR
Vor allem unter dem Gesichtspunkt der Anpassbarkeit des Systems an verschiedene Anwendungen wurde eine Zweiteilung
in folgender Weise gewählt:
- der Systemkern, die Datenhaltung, bleibt für alle Anwendungen gleich; die Datenhaltung verwaltet sämtliche anfallenden Daten, also Primärdaten
(Dokumente), Sekundärdaten (Zugriffsstrukturen, Wörterbuch) und sonstige interne Daten und stellt sie auf Anforderung zur_Verfügung. Die Daten-
haltung bietet eine Sammlung elementarer Funktionen, die in nahezu jeder Retrieval-Anwendung benötigt werden.
Der Installationsteil wird für jede Anwendung in der Weise programmiert (oder aus einem vorhandenen Modulbe$tand generiert), daß die Elementarfunktionen der Datenhaltung zu den gegebenenfalls benötigten komplexeren Funktionen zusammengesetzt werden. Ferner übernimmt der Installationsteil Aufgaben wie Kommu- nikation mit dem Benutzer, Aufbereitung von Benutzer- spezifischen Daten, Gewinnung des Indexierungsmaterials, usw.
Ein Beispiel zur Illustration: die Datenhaltung stellt die Funktion "Suche Dokumente mit gegebenem Suchbegriff und liefere die Fundstellenliste11 zur Verfügung. Wird auf der Benutzerschnittstelle logische Verknüpfung von Suchbe- griffen gewünscht, so wird dies im Installationsteil so
realisiert, daß die Suchfunktion der Datenhaltung mehr-
mals aufgerufen wird und die Ergebnislisten im Installations- teil miteinander verknüpft werden.
Insgesamt ergibt sich die folgende Grobarchitektur des Systems:
Benutzer
Installationsteil
Datenhaltung
Betriebssystem
Bild 1: Grobarchitektur von FLEXI
SCHNITTSTELLE INSTALLATIONSTEIL - DATENHALTUNG
Die Datenhaltung bietet dem Installationsteil folgende Funktionen:
- Ablaufsteuerung (START, HALT) - Datendefinition
Definition von Dokumenttypen; Löschen von Dokumenttypen - Recherche
Suche eines Wörterbuchwortes oder des lexikographisch nächstkleineren/nächstgrößeren Wortes im Wörterbuch;
Ausgabe: Wörterbuchwort mit Angaben Uber Häufigke·it des Auftretens.
Suche von Dokumenten bei gegebenem Wörterbuchwort unter BerUcksichtigung des Dokumentteils (Aspektes);
Ausgabe: Liste von Verweisen (Dokumentnummern) auf die gefundenen Dokumente.
Suche eines Dokumentes im Primär-Datenbestand auf
Grund einer Dokumentnummer, Ausgabe des spezifizierten Dokumentteils.
- Datenmanipulation
EinfUgen der Primärdaten eines Dokumentes in den
Datenbestand (automisches Anlegen der Datenstrukturen zum Zugriff auf die Dokumentteile).
Löschen (logisch): wahlweise Primärdaten, Sekundär- daten oder gesamtes Dokument.
Änderung der Primärdaten eines Dokuments (die Sekundär- datenänderung ~uß getrennt angestoßen werden).
Einfügen eines Wörterbuchwortes.
Entfernen eines Wörterbuchwortes.
Einfügen eines Verweises für ein Wörterbuchwort (entweder im Zusammenhang mit der Eingabe eines Dokumentes oder zur Erweiterung der Deskribierung eines Dokumentes).
Löschen eines Verweises für ein Wörterbuchwort.
Ändern eines Verweises für ein Wörterbuchwort.
- Reorganisation
Physisches Löschen von logisch gelöschten Dokumenten mit allen zugehörigen Sekundärdaten, Komprimierung des Speicherplatzes.
3, STRUKTURIERUNG VON DOKUMENTEN
Die Flexibilität eines Informction-Retrieval-Systems in der Anwendung hängt wesentlich von den Möglichkeiten zur
benutzerseitigen Strukturierung der Dokumente ab. FLEXI stellt zum einen eine Reihe von verschiedenen Daten- typen bereit, die über das Angebot in herkömmlichen Retrieval-Systemen weit hinausgehen; zum anderen werden dem Benutzer keine Einschränkungen bezüglich Anzahl von Aspekten, Länge von Dokumenten, Dokumentteilen oder Namen, Schachtelungstiefe der Dokumentstruktur, etc. auferlegt.
Die Daten werden typgerecht abgelegt und dem Benutzer übergeben, so daß über bloßes Text-Retrieval hinaus die Daten beispielsweise auch unmittelbar in arithmetische Berechnungen eingehen können.
Folgende eZementare Datentypen stehen zur Verfügung:
- Bit - Zahl
- Gleitkommazahl - Zeichen
- Text (Zeichenfolge beliebiger Länge; wird als Einheit behandelt.)
Von diesen Datentypen kann der Benutzer die beiden Zahlen- arten und Texte invertieren lassen, d.h. daß Ausprägungen dieser Datentypen im Wörterbuch gespeichert werden und bei einer Recherche als Suchbegriffe dienen können. Bei Texten werden die grammatikalischen Worte des Textes invertiert, wobei für diese zusätzlich ihre Position innerhalb des Textes mitgeführt wird.
über diesen elementaren Datentypen können niaht-eZementare Datentypen definiert werden:
- Vektor: ein dimensionales Feld fester oder variabler Länge von beliebigen elementaren oder nicht- elementaren Datentypen des gleichen Typs.
Insbesondere heißt dies, daß Vektorelemente auch wieder Vektoren oder Verbunde (s.u.) sein können. Auf die Vektorelemente kann einzeln lesend, schreibend, einfügend oder löschend zugegriffen werden.
- Verbund: ein Verbund ist eine Zu~ammenfassung beliebiger elementarer oder nicht-elementarer Datentypen unterschiedlichen Typs. Die Komponenten eines Verbundes können über qualifizierte Namen an- gesprochen werden. Bei der Aufnahme von Doku- menten ist es nicht erforderlich, daß alle in der Dokumentstruktur definierten Verbundkompo- nenten auch mit einem Wert besetzt sind.
EIN BEISPIEL:
Definition der Dokumentstruktur:
Verbund REISEORT:
Vektor von Text Text
Zahl Zahl Bit
Vektor von Text Verbund
Text
Bit
Verbund Zahl Text Text Zahl
ORTSNAME, LAGERBESCHR, HÖHE-MIN, HÖHE-MAX, KURORT,
KUREINRICHT, ANSCHRIFT-VV:
ANREDE, ADRESSE:
PLZ, ORT, STRASSE, HAUSNR;
BEHIND-TAUGL, Vektor von Verbund UNTERKUNFT:
Text NAME,
Zahl BETTANZ,
Vektor (3) Zeichen Gl-Zahl GI-Zahl
von Verbund PREIS:
Text
Eine Dokumentausprägung REISEORT:
ORTSNAME (1) LAGEBESCHR:
HÖHE-MAX:
KURORT:
KUREINRICHT (1) KUREINRICHT (2) KUREINRICHT (3)
VERPFL.-UMFANG PREIS-MIN, PREIS-MAX;
BESONDERES;
Petershausen
Südlicher Harz, zwischen Rudolfswahn und Hermannhagen am Unterlauf der Olbe gelegen, waldreiche Gegend
120 ja
Warmwasserhallenbad Kneippanlage
Sanatorium
ANSCHRIFT-VV:
ANREDE:
ADRESSE:
PLZ:
ORT:
STRASSE:
HAUSNR:
BEHIND-TAUGL:
UNTERKUNFT (1):
NAME:
BETTANZ:
FREI S ( 1) :
Verkehrsverein Petershausene.V.
9864
Petershauseri/Harz Auf der Kurpromenade 68
nein
Hotel zur Schleuse 84
VERPFL-UMFANG: F ("Frühstück") PREIS-MIN: 14,50
PREIS-MAX: 18,50 PREIS (2):
VERPFL-UMFANG: H ("Halbpension") PREIS-MIN: 25,60
PREIS-MAX: 30,60 PREIS (3):
VERPFL-UMFANG: V ("Vollpension") PREIS-MIN: 35,00
PREIS-MAX: 40,00
BESONDERES: Tischtennisplatte und Liegewiese Zugang zum Fluß
4, DER SYSTEMKERN: DIE DATENHALTUNG STRUKTUR
Die Datenhaltung besteht aus vier Komponenten:
(1) Installationsteil-Schnittstelle (2) Zugriffssystem
(3) Speichersystem
(4) Betriebssystem-Schnittstelle
Das Aufrufverhalten dieser Komponenten ist in der folgenden Skizze dargestellt.
Installationsteil
Installationsteil-Schnittstelle
1 1
Zugriffssystem Speichersystem
,. j
Betriebssystem-Schnittstelle
Betriebssyste~
Bild 2: Komponenten der Datenhaltung
Die Installationsteil-Schnittstelle hat die Aufgabe der Kommunikation mit dem Installationsteil. Das Zugriffs- system verwaltet die Sekundärdaten (Wörterbuch) und über- nimmt die Abarbeitung einer Recherche über Deskriptoren
oder andersartige Suchbegriffe. Das Speichersystem besorgt die Speicherung der Primärdaten (Dokumente) und übernimmt
den Zugriff auf Dokumente und Teile innerhalb eines Dokumentes.
Ober die Betriebssystem-Schnittstelle läuft die gesamte Kommunikation mit dem Betriebssystem. In diesem Modul sind alle Routinen und globalen Größen zusammengefaßt, die auf das Betriebssystem der jeweiligen Anlage Bezug nehmen. Dies gewährleistet eine relativ einfache Anpassung an verschiedene Betriebssysteme.
DATENORGANISATION
Der zu verwaltende Dokumentenbestand einschließlich der Sekundärdaten wird in sogenannte Dokumenttypen aufgeteilt, die jeweils auf eigenen Bereichen abgelegt sind und völlig unabhängig und ohne Verbindung untereinander bearbeitet werden. Diese Trennung ist. sinnvoll wegen der beschränkten Externspeicherkapazität bei Kleinrechnern, unterstützt aber auch die Portabilität und ermöglicht schnelleren Zugriff.
Bei Recherchen, die sich auf mehrere Dokumenttypen beziehen, kann sich die Aufteilung der Wörterbuchinformation aller- dings nachteilig auswirken.
Entsprechend der Zerlegung der Datenhaltung in die oben- genannten Komponenten werden auch auf der Datenebene Sekundärdaten und Primärdaten sauber getrennt. Beide
Datenkomplexe sind dabei so selbständig, daß entweder nur auf den Sekundärdaten (d.h. Recherche ohne Dokumenten-
einblick) oder nur auf den Primärdaten (Ausgabe definierter Dokumente oder Teile davon) gearbeitet werden kann. Insbe- sondere heißt dies, daß in Fällen, in denen die Primärdaten nicht in digitaler Form abgespeichert werden (z.B. Filme, Fotos, Mikrofiches), völlig auf die Primärdaten verzichtet werden kann, ohne daß sich dies auf den Rest des Systems auswirkt. Außerdem liegt in dieser Trennung eine Möglichkeit zur optimalen Ausnutzung der Hardware bei beschränkter on-line- Kapazität der Externspeicher.
Für jeden Dokumenttyp unterhä1t die Datenhaltung zwei Hilfsstrukturen:
das Datenstruktur-Verzeichnis, in dem die Definition des Dokumenttyps mit allen zu- gehörigen Informationen abgelegt ist.
- Das Wörterbuch, das für jeden Suchbegriff eine Verweisliste aller Fundstellen im Dokumentenbestand, gegebenenfalls aufge- schlüsselt nach den Aspekten, verwaltet.
Bei der Organisation des Wörterbuchs stellt sich folgendes Problem: das System muß sowohl Anfragen unterstützen, die sich auf ganze Dokumente beziehen, als auch Anfragen, bei welchen Suchbegriffe auf bestimmte Aspekte (Teile des Dokuments) bezogen sind. Eine erste Lösung ist die, zu jedem Verweis in der Verweisliste eines Suchbegriffes auch den Aspekt anzugeben, in dem der Suchbegriff enthalten ist.
Dies erfordert natürlich auch dann ein sequentielles Durch- laufen der Verweisliste, wenn nur nach einem bestimmten
Aspekt gefragt ist. Wünschenswert wäre es, jedem verhandenen Aspekt in einer invertierten Organisation alle Verweise
zuzuordnen, die sich auf ihn beziehen. Logisch gesehen würde also jedem Paar< Wörterbuch, Aspektnamen > die entsprech~nde Verweisliste zugeordnet. Dies würde schnellstmöglichen
Zugriff für jede Art von Anfrage garantieren, zugleich aber - infolge der Redundanz der Verweislisten - sehr viel Speicherplatz erfordern. In FLEXI wurde schließlich folgende Organisation gewählt:
(1) Der Systemeinrichter kann entscheiden, für welchen Aspekt permanent Verweislisten ge- wartet werden sollen
(2) standardmäßig werden Verweislisten für das gesamte Dokument und für alle Blattaspekte
(Aspekte, die keine untergeordneten Teil- aspekte besitzen) geführt.
Eine Suche nach einem Aspekt, der keine ständige Verweis- liste besitzt, wird so ausgeführt, daß diese dynamisch durch Verknüpfung der Verweislisten aller untergeordneten Teilaspekte erzeugt wird. Diese Realisierung führt zu einer Anpassung des Systems an die speziellen Bedürfnisse und Möglichkeiten (etwa Größe des verfügbaren Speicherplatzes) des jeweiligen Benutzers.
Für die Realisierung der Zugriffsstrukturen mußten folgende Punkte beachtet werden:
- die Schlüssel haben variable Länge
- es muß eine schlüsselsequentielle Vorwärts- und Rückwärtsverarbeitung möglich sein (blättern im Wörterbuch, etc.)
- verschiedene Schlüsseltypen (Wort, Zahl,
Gleitkommazahl) müssen typgerecht abgelegt und gesucht werden können
- die Operationen auf der Zugriffsstruktur
(etwa einfügen) dürfen nur geringe Änderungen lokaler Art innerhalb der Struktur hervorrufen.
In FLEXI wurden zur Realisierung Patricia-Bäume /MOR/
verwendet. Die vorliegenden Schlüsseltypen Text, Zahl und Gleitkommazahl müssen dabei auf spezielle Weise binär codiert werden.
Die Primärdaten werden für jeden Dokumenttyp in folgender Weise organisiert:
eine sogenannte Adreßdatei dient der Verwaltung der Dokumentnummern und der Speicherverwaltung; sie liefert im Pri~zip für eine Dokumentnummer die Nummern der Blöcke, auf welchen das Dokument liegt. Für neu einzutragende
Dokumente werden lückenlos aufsteigende Blocknummern vergeben.
Die sogenannte Dokumentdatei enthält die Primärdaten.
Zu jedem Dokument ist unmittelbar vor den Daten das sogenannte Dokumentdirectory gespeichert. Das Dokument- directory ermöglicht den direkten Zugriff auf alle Dokumentteile, die im Dokument vorhanden sind.
DOKUMENTDIRECTORY
Das Directory gibt für jeden Aspekt des Dokumentes dessen Länge an. Die Längenangabe wird auch aufgeführt für Aspekte, die sich aus untergeordneten Aspekten zu- sammensetzen, so daß auch auf komplexe Aspekte direkter Zugriff möglich ist. Den logischen Aufbau eines Directory zeigt das folgende Beispiel:
Dokumentdefinition
Verbund ANSCHRIFT:
Verbund NAME:
Vektor von Text Vektor von Text Verbund
Zahl
ADRESSE:
VORNAME, NACHNAME;
PLZ, Vektor von Text ORT, Verbund STRASSE:
Vektor von Text Zahl
STRASSENNAME, HAUSNUMMER;
Ausprägung
Directory
Hans Jürgen Klein
4689 Bergisch Gladbach Landstraße 55
(logisch)
Aspekt Länge
1 47
1 . 2 15
1. 2. 3 10
1.2.3.1 4
1.2.3.2 6
1. 2. 4 5
1.2.4.1 5
1. 5 32
1. 5. 6 4
1. 5. 7 16
1.5.7.1 8
1.5.7.2 8
1. 5. 8 12
1.5.8.9 10
1.5.8.9.1 10
1.5.8.10 2
Das Directory ermöglicht direkten Zugriff auf einen beliebigen Aspekt des Dokuments. Die Algorithmen zur Verwaltung des Di-
rectory sind einfach. Für jede der Operationen 11Suchen11 , 11Löschen11 ,
11 Einfügen11 ist nur ein sequentieller Durchlauf durch das Directory bis zu der Stelle nötig, an der sich der Eintrag
befindet oder befinden müßte, wenn er vorhanden wäre. Im obigen Beispiel ist der Speicherplatzbedarf des Directory, gemessen
an der Menge der Daten, erheblich. Man beachte jedoch, daß dieses Beispiel 11überstrukturiert11 und somit sicherlich nicht reprä- sentativ ist. In FLEXI wird das Speicherplatzverhalten durch eine platzsparende 11physische11 Realisierung des Directory erheblich verbessert: Der benötigte Speicherplatz für das Directory ist direkt proportional zur Zahl der Aspekte eines Dokumentes, unabhängig von der Struktur des Dokumentes (im
11logischen11 Directory hängt der Platzbedarf offensichtlich von der Dokumentstruktur ab). Diese Einsparung wird möglich durch
Ausnutzung der Tatsache, daß ein Dokument als Baum dar- gestellt werden kann. Auf weitere Einzelheiten gehen wir hier nicht ein.
Der skizzierte Ansatz wurde der Einbettung der Struktur- information in die Primärdaten vorgezogen, da er vor allem bei Zugriffen (z.B. Gruppen von Feldern) deutlich überlegen i s t .
ZUSAMMENFASSUNG: ABLAUF DES ZUGRIFFS AUF DOKUMENTE
Die Gesamtorganisation der Datenhaltung wird deutlich,wenn man den Ablauf beim Zugriff auf ein Dokument verfolgt.
Die zusammenhänge sind in Bild 3 skizziert.
Gesucht sind Dokumente, bei welchen Suchbegriff i in Aspekt j auftritt. Der Suchbegriff wird im Wörterbuch
lokalisiert~ Ergebnis: Verweis auf Aspektbaum. Im Aspekt- baum wird der Aspekt j lokalisiert, Ergebnis: Verweisliste auf gesuchte Dokumente. Diese Liste (Menge von Dokument- nummern) wird dem Installationsteil übergeben. Der
Installationsteil fordert nun für jede Dokumentnummer den Aspekt j an. Das Speichersystem findet über die
Adreßdatei für jede Dokumentnummer die Blöcke, auf denen das Dokument gespeichert ist. Ober das Dokumentdirectory wird unmittelbar auf Aspekt j zugegriffen.
4>-r--- -7
Wörterbuch
Block-Nr.
'---.J.../-~----__JVerweisliste
zu
Dokumenten, i in Aspekt j
Adreßdatei
, _ _ _ _ _ _ _ _ j Verweisliste zu Dokumenten, i in Dokument
Zugriffs- system Speicher- system
y
PrimärdatenDirectory Aspekt j
~~
Block m · Block n
Bild 3: Datenorganisation in FLEXI
5; ÄBSCHLIESSENDE BEMERKUNGEN
Das beschriebene Information-Retrieval-System FLEXI zeichnet sich aus durch
- flexible Strukturierungsmöglichkeit für Dokumente
- gleichwertige Behandlung formatierter und nicht-formatierter Daten
- leichte Anpassbarkeit an die spezielle Anwendungssituation durch Trennung in Systemkern und Installationsteil
- Anpassungsfähigkeit an Hardware-Konfiguration durch Trennung der Dokumenttypen und der
Primär- und Sekundärdaten; insbesondere er- leichtert dies den Einsatz von FLEXI auf
kleinen Systemen mit niedriger online-Kapazität der Externspeicher.
Das System wurde für den Einsatz auf Kleincomputern konzipiert und aus diesem Grunde zunächst als Einbenutzer-System realisiert.
Weiterentwicklungen betreffen die Mehrbenutzerumgebung; Methoden zur einfachen Erstellung von speziellen Installationstiilen;
bessere Unterstützung von Daten, die sich häufig ändern (ope- rationale Daten in Datenbanken); Maßnahmen zur Sicherung guter Lokalität der Zugriffsstrukturen; Möglichkeiten zur Definition von Beziehungen zwischen Dokumenten.
Der vorliegende Bericht faßt die wesentlichen Ergebnisse eines Projektes zusammen, das vom Lehrgebiet Praktische Informatik der Fernuniversität in Kooperation mit der Firma Collegia, Köln, dur
7
hgeführt wurde. FLEXI ist im einzelnen in /HAP/ beschrieben.LITERATUR
/CON/
/HAP/
/IBM/
/MOR/
/SIE/
CONDOR, Beschreibung der Modellversion
Teil 1 Systemübersicht (vorläufige Ausgabe) Siemens AG, D AP GE KIT, 1979
HAHN, Kh., PRÄDEL, U.: Entwurf und Realisierung der Datenhaltung eines portablen Information Retrieval Systems für Kleinrechner;
Diplomarbeit, Universität Dortmund, Abteilung Informatik, 1980.
IBM System /370 (OS/VS) STAIRS/VS,
Allgemeiner überblick, IBM Form GH12-1310-0 MORRISON, Donald R.: PATRICIA: Practical Algorithm to Retrieval Information Coded in Alphanumeric. In: Journal of the ACM, Vol. 15, No 4, October 1968, 514 - 534 SIEMENS - SYSTEM 7.000/4004
Softwareprodukt GOLEM (BS2000)
Programmbeschreibung, Bestell-Nr. D 15/5338-02