Visuelle Datenexploration in Digitalen Bibliotheken

(1)

Visuelle Datenexploration in digitalen Bibliotheken

Wissenschaftliche Arbeit

zur Erlangung des Grades eines Bachelor Information Engineering im Fachbereich Informatik & Informationswissenschaft

der Universität Konstanz

Verfasser: Helmut Barro

Berliner Str. 53

76187 Karlsruhe

Matr.Nr. 01 / 397484 hbarro@web.de

1. Gutachter: Prof. Dr. Daniel A. Keim 2. Gutachter: Prof. Dr. Oliver Deussen Karlsruhe, den 14.09.2004

(2)

Inhalt

1. Einleitung... 2

1.1. Aufbau der Arbeit... 2

1.2. Datenbasis... 3

1.2.1. DBLP ... 3

1.2.2. InfoVis Contest 2004 ... 4

2. Digitale Bibliotheken ... 5

2.1. Formen ... 5

2.2. Metadaten... 7

3. Visualisierung relationaler Strukturen einer digitalen Bibliothek ... 9

3.1. Formen relationaler Strukturen ... 10

3.1.1. (Ko-)Zitationsnetzwerke... 10

3.1.2. Kollaborationsnetzwerke... 11

3.2. Existierende Visualisierungstechniken für DLs ... 12

3.2.1. Graphen... 13

3.2.2. Pixelbasierte Displays... 16

4. Strukturen visualisieren mit InterRing ... 20

4.1. InterRing ... 20

4.1.1. Datenstruktur FPTree ... 22

4.1.2. Implementierung... 24

4.2. Vorteile und Problemfälle... 30

4.3. Alternative Visualisierung: InterBar... 34

5. Modularität der Visualisierung ... 36

5.1. Das „PaperFinder“-Projekt... 36

5.2. Das “DigLibVis”-Projekt ... 38

6. Schlussbetrachtung ... 40

Abbildungs- und Tabellenverzeichnis ... 41

Bibliographie... 42

Eidesstattliche Erklärung ... 46

(3)

1. Einleitung

Die heutige Wissensgesellschaft hat einen enormen Informations- und Wissensbedarf, und die Personen in dieser Gesellschaft müssen flexibel und ungebunden sowohl in zeitlicher als auch räumlicher Hinsicht sein. Der große Bedarf nach aktuellster Information ist so fundamental, dass er nur noch in unzureichender Form von den althergebrachten Wissensspeichern wie Bibliotheken, Nachschlagewerken oder gedruckten Kompendien erfüllt werden kann – ein gedrucktes Buch ist eben nicht flexibel oder immer auf dem neuesten Stand. Digitale Bibliotheken füllen diese Lücke. Zusätzlich dazu hat man Zugriff auf Möglichkeiten der Verwendung, die es in nicht-digitalisierten Bibliotheken selten gibt: umfangreiche Indizes für verschiedene Zwecke, Softwaretools für Suche und Bearbeitungsmöglichkeiten.

Doch selbst solche digitalen Nachschlagewerke haben einen in der Form der Speicherung, die sich letztlich doch am Vorbild der „materiellen“ Bibliothek orientiert, begründeten Nachteil: Zusammenhänge zwischen den Dokumenten sind nicht ohne weiteres aus Einzeleinträgen erkennbar. Visualisierungen eröffnen für digitale Bibliotheken eine völlig neue, effiziente und effektive Betrachtungsweise. Bisher sind einige Visualisierungstechniken im Einsatz, doch genügen diese nicht allen Zwecken aller Benutzer. Eine neue Visualisierung könnte in gewissen Usage Scenarios die Analyse deutlich verkürzen. Eine solche neue Visualisierungstechnik zu entwickeln ist das Ziel dieser Arbeit.

1.1. Aufbau der Arbeit

Nach dieser Einleitung, in der die Motivation zu dieser Arbeit sowie die verwendete Datenbasis kurz vorgestellt werden, werden einige grundlegende Definitionen für Sachverhalte präsentiert, die immer wieder im Text auftauchen und für dessen Verständnis notwendig sind. Dazu gehören Erklärungen, was digitale Bibliotheken sind, welche Formen es gibt und inwiefern Metadaten für sie von besonderem Interesse sind.

Im dritten Kapitel wird erläutert, auf welchen Teilaspekt der Visualisierung von digitalen Bibliotheken sich diese Arbeit konzentriert: Die Visualisierung relationaler Strukturen. Zu den Fragestellungen, die dort beantwortet werden, gehören Fragen

(4)

wie welche relationale Strukturen es gibt und wie sie im Allgemeinen bisher visualisiert werden.

In Anschluss daran erklärt Kapitel 4, wie die neue Visualisierungsform des InterRings aussieht, wie sie funktioniert und auf welchen Grundlagen sie beruht. In diesem Kapitel, das den Kern dieser Arbeit ausmacht, wird auch auf Implementierungsdetails eingegangen, durch die Unterschiede zur bisher bekannten Form aufgezeigt werden.

Nach den Vor- und Nachteilen der vorgeschlagenen Visualisierung soll noch eine Alternative präsentiert werden, die auf ähnlichen Prinzipien wie der InterRing beruht.

Schließlich wird der Aspekt der Modularität der Visualisierung noch in Kapitel 5 hervorgehoben, und zwar im Kontext zweier im Rahmen dieser Arbeit entstandenen Projekte, in die der InterRing eingebettet wurde.

Am Ende steht eine Schlussbetrachtung, in der die Ergebnisse der Arbeit zusammengefasst und ein Ausblick getan werden soll.

1.2. Datenbasis

Die Datenbasis, auf der die Visualisierungen und Definitionen dieser Arbeit beruhen, sind allgemeine bibliographische Datenbanken. Im Speziellen wurden die DBLP- Datenbank der Universität Trier sowie der beim InfoVis Contest 2004 zur Verfügung gestellte Datensatz als Beispiele verwendet. Dies bedeutet aber nicht, dass man die vorgestellten Techniken allein auf solche bibliographische Datenbanken verwenden kann. Die Visualisierungstechniken sind unabhängig von der zugrundeliegenden Bibliothek, solange die benötigten Metadaten und gewisse Methoden, die diese Informationen aus den Rohdaten aufbereitet zuliefern, vorhanden sind.

1.2.1. DBLP

Das „Digital Bibliography & Library Project“ (DBLP), das seit 1994 an der Universität Trier entwickelt wird (vgl. [DBLP2004]), bietet zur Zeit eine bibliographische Datensammlung mit über 530000 Einträgen an.

Davon existiert sowohl eine „rohe“ XML-Fassung als auch eine optimierte, komplett in den Hauptspeicher des Rechners einlesbare Version. Um die Hauptspeicherversion nutzen zu können, werden eigens entwickelte Methoden und

(5)

Datenstrukturen in einem komfortablen Browser (vgl. [Klink2004]) vom DBLP zur Verfügung gestellt. Im Rahmen dieser Arbeit wurden einige der bereitgestellten Methoden leicht modifiziert, um den Arbeitsaufwand für die verwendeten Algorithmen zu verringern. Ansonsten greift die hier entwickelte InterRing-Visualisierung auf die von der Homepage des DBLP (vgl. [DBLP2004]) herunterladbare Datenbank zu.

Diese Datensätze sind von hervorragender Qualität und Umfang, und eignen sich besonders gut zu Präsentationszwecken, da sie – im Rahmen des Zielfachgebiets der Informatik – äußerst detailreiche Informationen bieten, auf denen Visualisierungen aufbauen können. Für den größten Teil der Illustrationen in dieser Arbeit wurde die DBLP-Bibliothek als Grundlage verwendet.

1.2.2. InfoVis Contest 2004

Dieser Datensatz beinhaltet die Metadaten aller Veröffentlichungen der „IEEE Information Visualization Conference (InfoVis)“ zwischen 1995 und 2002 (vgl.

[IVC2004]). Der Umfang beträgt knapp über 600 Einträge mit allen für die Visualisierung benötigten Metadaten. Für diese Daten war ein vorhergehender Data- Preprocessing-Schritt unumgänglich: Autoren tauchen mehrfach in unterschiedlichen Schreibweisen in der Datenbank auf, das gleiche gilt für Journale und Konferenzen.

Fehlende Einträge in Metadaten-Feldern mussten durch Shell-Scripts korrigiert werden, und eine teilautomatisierte Schlagwort-basierte Zuordnung der einzelnen Dokumente zu Fachgebieten wurde durchgeführt.

Die Anwendung der in dieser Arbeit vorgestellten Techniken auf diesen Datensatz zeigt, dass sie auch gut dazu verwendet werden können, einen ersten Überblick über die Vollständigkeit und Korrektheit einer bibliographischen digitalen Bibliothek zu gewinnen. Selbstverständlich eignete sich der Datensatz auch besonders gut zu Entwicklungszwecken, da er sehr klein ist und die Laufzeit der verwendeten Algorithmen dementsprechend niedrig war. Für Präsentationszwecke ist er aber nicht geeignet, da er weder für die beinhalteten Autoren vollständig, noch in allen Fällen korrekt ist. Die Bereitsteller des Datensatzes sind sich dessen bewusst; er ist auch nicht als Nachschlagewerk gedacht, sondern als Grundlage für die Teilnehmer des InfoVis-Wettbewerbs.

(6)

2. Digitale Bibliotheken

Was ist eine digitale Bibliothek (oder digital library, im Folgenden abgekürzt DL) eigentlich?¹

„Digital Libraries are a set of electronic resources and associated technical capabilities for creating, searching, and using information. In this sense, they are an extension and enhancement of information storage and retrieval systems that manipulate digital data in any medium (text, image, sound; static or dynamic images) and exist in distributed networks. The content of digital libraries includes data, metadata that describe various aspects of the data (e.g., representation, creator, owner, reproduction rights), and metadata that consist of links or relationships to other data or metadata, whether internal or external to the digital library.“

(Quelle: [Borgman2002])

Diese Definition betont, dass es nicht nur die eigentliche Datenkollektion ist („data“), sondern eine Erweiterung einer solchen durch zusätzliche Verwaltungstools und Metadaten, ähnlich wie eine Universitätsbibliothek beispielsweise nicht nur aus den Büchern besteht, sondern auch ein Katalogsystem und Angestellte hat, die den Bestand pflegen. Der Hauptunterschied zwischen digitalen und realen Bibliotheken scheint also darin zu bestehen, dass der Korpus einer DL eben ausschließlich aus elektronischen Ressourcen besteht, während eine materielle Bibliothek eben hauptsächlich (aber nicht ausschließlich) gedruckte Werke enthält. Der Vorteil, der aus einer Digitalisierung entsteht, ist vor allem in einer enorm gesteigerten Effizienz, Effektivität, Flexibilität und auch Kostensenkung im Vergleich zu einer „realen“

Bibliothek zu finden.

2.1. Formen

Digitale Bibliotheken sind häufig Textdatenbanken, das heißt, sie enthalten Informationen, die als Texte oder Wörter gespeichert sind. Daneben gibt es aber

1 In dieser Arbeit werden die Begriffe „Datenbank“ und „Digitale Bibliothek“ bzw. „DL“ synonym verwandt; dies ist vor allem durch die Form der benutzten Datenbasis begründet, die letztlich eine Datenbank ist. Die in Abschnitt 2 angesprochenen zusätzlichen Verwaltungstools sind für den Zweck dieser Arbeit zu vernachlässigen.

(7)

noch andere Formen von DLs, die nicht notwendigerweise rein textueller Natur sein müssen.

Es existieren verschieden Formen, die auf anderen Medien beruhen: Bild-DLs, deren Inhalt beispielsweise aus digitalisierten Kunstwerken oder eingescannten historischen Schriften besteht (vgl. bspw. [Sfakakis2002]); Video-DLs, die Filme oder animiertes Material enthalten (vgl. bspw. [Christel2002]); Audio-DLs, in denen z.B.

Musikstücke oder Aufzeichnungen bekannter Reden hinterlegt sind (vgl. bspw.

[Bainbridge2002]); oder schließlich Multimedia-DLs, die die Möglichkeit bieten, alle Medien vermischt aufzunehmen (vgl. bspw. [Ying2002]).

Text-DLs sind unter diesen wohl die unproblematischsten, da es eine lange bibliothekarische Tradition gibt, in der der Umgang mit Textdokumenten bestens vorbereitet wurde. Der Inhalt eines Dokumentes besteht hier aus Wörtern, die in ihrer Form in der DL erhalten bleiben. Dadurch ist eine Suche nach speziellen Dokumenten oder eine automatisierte Verarbeitung, wie z.B. eine Indexerstellung oder Katalogisierung (vgl. [Salton1975], [Salton1983]), relativ einfach durchzuführen, und auch Visualisierungen für solche DLs werden seit langer Zeit erforscht (für ein frühes Beispiel vgl. [Reynolds1979]). Für multimediale DLs ist die Situation schwieriger, da die Form der beinhalteten Dokumente inhärent nonverbal ist. Dies führt dazu, dass eine Suche nach einem bestimmten Bild in einer Bild-DL sehr schwierig ist, und eine automatisierte Weiterverarbeitung einen enormen Rechenaufwand und entsprechend komplexe Algorithmen erfordert. Ähnliches gilt für Ton- oder Video-DLs. Ansätze, diese Multimedia-Dokumente ohne menschlichen Eingriff einer textuellen Form anzunähern, wie beispielsweise durch Verschlagwortung, Annotation oder Beschriftung, gibt es zwar, sie stecken heute aber noch in den Kinderschuhen (vgl. bspw. [Lew2001]). Schließlich müssen für Multimedia-DLs eigene visuelle Oberflächen mit einer der medialen Form angemessenen Anfrage- und Bearbeitungsmöglichkeit gegeben sein.

Die in dieser Arbeit verwendeten DLs sind ausschließlich textueller Natur, obgleich es durchaus interessant und möglich wäre, die hier besprochenen Techniken der Visualisierung auch bei multimedialen DLs in Anwendung zu bringen.

(8)

2.2. Metadaten

Metadaten sind „Daten über Daten“, also Informationen über den Kontext der gespeicherten Daten. Dies beinhaltet die in Abbildung 1 abgebildeten Zusatzinformationen wie Titel, Autor oder Größe des Dokuments.

Hier muss nun unterschieden werden zwischen zwei verschiedenen Formen von DLs. Die bisher beschriebene Volltext-DL, die das Dokument vollständig enthält, und bibliographische DLs, deren Inhalt hauptsächlich die Metadaten sind, also nicht den Volltext eines Dokuments enthalten, sondern nur Verweise darauf. Im zweiten Fall könnte man davon sprechen, dass die DL eine Metadaten-DL ist. Beide Formen haben ihre Daseinsberechtigung und ihre kontextspezifischen Vor- und Nachteile.

Während eine bibliographische DL meist klein und schnell ist, dafür aber nicht den Volltext enthält, sind Volltext-DLs eher langsam und umfangreich, dafür aber vollständig². Der Pflegeaufwand für Volltext-DLs ist enorm; allein schon der Aufwand beispielsweise der Aufnahme von Dokumenten aus der prä-digitalen Ära in eine solche Datenbank ist nicht zu unterschätzen. Dazu kommt, dass bei diesen Volltext- Datenbanken sowieso zusätzlich für die meisten Zwecke eine leichtgewichtige, nur für Referenzzwecke nutzbare Version in Form eines Indexes oder ähnlichen Strukturen verwendet wird.

Anzahl Zugriffe, Zeit des letzten Zugriffs,

Visualisierung des Dokuments im Kontext...

Zitation, Kommentare, Highlighting...

Extrinsisch (stammt nicht ursprünglich aus dem Dokument)

URL, Größe, enthaltene Bilder, Links,

Erzeugungsdatum...

Titel, Autor, Keywords, Annotationen, Kategorie, Firmenname, Ablaufdatum...

Intrinsisch (gehört zum Dokument selbst)

Automatisch generiert Manuell erzeugt

Abbildung 1: Typologie von Metadaten (Quelle: [Gheel1999])

Wie die unscharfen Angaben in Abbildung 1 andeuten, sind Menge und Art der Meta- Angaben in einer DL nicht generell spezifizierbar, und verschiedene DLs besitzen einen unterschiedlichen Satz von Metadaten. Die folgenden zwei Abschnitte

2 Bibliographische DLs sind außerdem rechtlich weniger problematisch, insbesonders wenn sie frei zugänglich sind. Volltexte weisen allzu oft ein Copyright auf, das verletzt wäre, wenn der Text in einer frei zugänglichen DL bereitgestellt würde.

(9)

präsentieren den Versuch verschiedener Organisationen, die aus dieser Regellosigkeit entstandene Beliebigkeit, die natürlich auch zu Inkompatibilitäten verschiedener DLs führt, durch Standardisierung zu beenden.

Der Dublin Core, entstanden 1995 aus eben diesem Bedürfnis nach Vereinheitlichung, stellte erstmals einen für Bibliotheken weltweit einheitlichen Satz von Metadaten vor. Der ursprüngliche Metadaten-Elementsatz wurde 1998 erweitert, und stabilisierte sich schließlich bei 15 „qualifiers“, also Metadaten-Einträgen, im

„Simple Dublin Core“ (Title, Creator, Subject, Description, Publisher, Contributor, Date, Type, Format, Identifier, Source, Language, Relation, Coverage, Rights).

Dieser Kern von Metadaten wurde bald aber als immer noch unzureichend erkannt und verschiedene Elemente im „Qualified Dublin Core“ noch erweitert (vgl.

[Sugimoto2002]).

MAB steht für „Maschinelles Austauschformat für Bibliotheken“, und stellt den Versuch dar, ein ebenso flexibles wie auch standardisiertes, umfangreiches Metadaten-Set insbesondere für Bibliotheken bereitzustellen. Es ist sehr viel umfangreicher als der Dublin Core; für jedes Element im Dublin Core gibt es im MAB bis zu 10 (mehrfach verwendbare) Attribute (vgl. [DDB2004]).

(10)

3. Visualisierung relationaler Strukturen einer digitalen Bibliothek

Durch die im vorigen Kapitel angesprochene elektronische Natur des Inhalts einer DL entsteht ein Problem, das zwar auch für die Nutzer einer materiellen Bibliothek nicht unbekannt ist, sich aber in einer DL vervielfacht: Wie findet man die gesuchte Information in Unmengen von Wissen? Wie ist die Struktur der gesammelten Daten?

Oft enthalten DLs mehrere Hunderttausend, manchmal Millionen von Einträgen³. Solche Massen von Daten sind textuell für den Menschen nicht mehr erfass- und verarbeitbar.

Eine Lösung für dieses Problem sind Visualisierungen.

„Visual interfaces to DLs exploit powerful human vision and spatial cognition to help humans mentally organize and electronically access and manage large, complex information spaces. The aim is to shift user‘s mental load from slow reading to faster perceptual processes such as visual pattern recognition.“ (…)

„Well-designed visual interfaces reduce visual search time (e.g. by exploiting low-level visual perception); provide a better understanding of a complex data set (e.g. by exploiting data landscape metaphors); reveal relationships otherwise unnoticed (e.g. by exploiting the mind‘s ability to see relationships in physical structures); enable a data set to be viewed from several perspectives simultaneously; and offer effective sources of communication.“

(Quelle: [Börner2002])

Indem man nicht mehr lange Listen von bspw. Katalogsuchtreffern durcharbeiten muss, sondern eine visuelle Darstellung des Bibliotheksinhalts verarbeiten kann, ist es möglich, Recall und Precision beim Retrieval⁴ der Informationssuche zu steigern.

Gleichzeitig bieten Visualisierungen einen zusätzlichen Informationsgewinn, indem Strukturen und Muster erkennbar werden, die aus den Rohdaten so nicht hervorgingen (vgl. [Keim2001]). Insbesondere in wissenschaftlichen Umgebungen ist weniger die direkte Suche nach einer Informationseinheit in einer DL von Interesse, sondern eine globale oder lokale Analyse dieser Strukturen.

Dass eine gute Visualisierung auch hilft, den Umgang mit einer Bibliothek angenehmer für Benutzer zu gestalten, ist ein positiver Nebeneffekt.

3 Beispielsweise die „American Memory“-DL, Teil der Library of Congress, die über 7 Millionen digitale Einträge enthält.

4 Recall: Verhältnis der gefundenen relevanten Information zur vorhandenen relevanten Information.

Precision: Verhältnis der gefundenen relevanten Information zur gefundenen Information.

(11)

3.1. Formen relationaler Strukturen

Relationale Strukturen in einer DL sind Verknüpfungen zwischen verschiedenen Bezugseinheiten dieser DL. Bezugseinheiten können beispielsweise Autoren sein, aber auch Dokumente oder Dokumentteile, Referenzen oder andere, in den Metadaten gegebene Informationen. Eine Verknüpfung von solchen Bezugseinheiten kann in den Metadaten explizit gespeichert sein (wie das z.B. bei Referenzen meist der Fall ist), oder sie sind implizit vorhanden und müssen erst durch einen externen Algorithmus gefunden werden.

Die am häufigsten verwendeten und untersuchten relationalen Strukturen in DLs sind Netzwerke, also nicht nur einfach sondern mehrfach paarweise Verbindungen.

Besonders interessant in diesem Zusammenhang sind Zitationsnetzwerke, bei denen Referenzen zwischen Dokumenten analysiert werden, und Kollaborationsnetzwerke, die als Bezugseinheit Autoren nutzen und Verbindungen unter diesen zu erforschen trachten.

3.1.1. (Ko-)Zitationsnetzwerke

Zunächst ein Wort zur Begrifflichkeit. Man spricht von Kozitation, wenn zwei Bezugseinheiten – in diesem Kontext oft Veröffentlichungen – zusammen in einer dritten Bezugseinheit zitiert werden. Die Anzahl des gemeinsamen Auftauchens eines solchen kozitierten Paares dient als Metrik, um Analysen über den Zusammenhang solcher Bezugseinheiten durchzuführen. Die allermeisten Paare werden erwartungsgemäß eine Kozitationszahl von 0 haben, da sie nie zusammen zitiert wurden; manche Paare weisen eine Kozitationsanzahl von 1 auf, was noch nicht viel über einen Zusammenhang aussagt, da eine solche Kozitation nicht auf den Kontext bezogen wird und sie deshalb inhaltlich völlig unabhängig voneinander sein können. Erst wenn ein gewisser Schwellenwert überschritten wird, kann von einem Zusammenhang gesprochen werden.

Genauer betrachtet gibt es zwei verschiedene Formen der Kozitation (vgl.

[White1989], [Chen1999]): Die Dokument-Kozitation und die Autor-Kozitation.

In der Dokument-Kozitations-Analyse werden einzelne Dokumente innerhalb des Gesamtkorpus der DL betrachtet, unabhängig von deren weiteren Metadaten. Auf solche Paare können übliche Techniken wie Clustering-Algorithmen angewandt

(12)

werden, um inhaltlich zusammengehörige Arbeiten in Komponenten zu gliedern (vgl.

[Brüggemann-Klein1999]).

Einen Schritt weiter geht die Autor-Kozitations-Analyse. Hierbei werden alle Veröffentlichungen eines Autors als Einheit, als sein „oeuvre“, aufgefasst. Die Bezugseinheiten sind bei dieser Analyse somit nicht die einzelnen Dokumente einer DL, sondern deren Autoren, wodurch zwar etwas an Granularität der Untersuchung verloren geht, dafür aber interessante Beziehungen zwischen Autoren, ja eventuell sogar zwischen ganzen Fachgebieten offenbart werden.

3.1.2. Kollaborationsnetzwerke

In den letzten Jahrzehnten hat sich ein beachtenswertes Phänomen herausgebildet.

Wissenschaftliche Arbeiten werden, aller Wahrscheinlichkeit nach aufgrund der immer weiter zunehmenden Komplexität der Forschungsthemen, nur noch selten von einem Autor allein veröffentlicht. Die Zusammenarbeit von mehreren Autoren, in dieser Arbeit auch als „Kollaboration“ bezeichnet, entwickelt sich mehr und mehr zum Standard, und gemeinsame Veröffentlichungen von mehr als fünf Verfassern ist keine Seltenheit. Abbildung 2 und Abbildung 3 zeigen den deutlich erkennbaren Trend, der insbesondere bei naturwissenschaftlichen Papern, aber auch in der allgemeinen Literatur auftritt.

Abbildung 2: Entwicklung der Autorenzahl von Veröffentlichungen (Quelle: [Erten2003])

(13)

Abbildung 3: Zunahme der Autorenzahl im Mathematical Review im Zeitraum 1940-1993 (Quelle: [Grossman1995])

Interessant an dieser Tatsache ist, dass sich dadurch eine neue Problemstellung ergibt: Durch die Zunahme von Kollaboration wird es auch immer schwieriger, diese Zusammenarbeit zu analysieren und darzustellen. Fragen, die sich in diesem Zusammenhang ergeben, sind beispielsweise die Untersuchung der Produktivität von Autoren, der Grad der gemeinsamen Arbeit in bestimmten Fachgebieten, die Entwicklung von Kollaborationsmustern über die Zeit oder die Stabilität von Netzwerken. Der Zuwachs an struktureller Komplexität führt automatisch dazu, dass auch die visuelle Darstellung schwieriger wird. Einfache Darstellungsformen solcher Strukturen versagen häufig, da durch die hohe Anzahl von abzubildenden Objekten Details untergehen und bedeutsame Beziehungen nicht mehr erkennbar sind.

3.2. Existierende Visualisierungstechniken für DLs

In diesem Abschnitt wird ein kurzer Überblick über die bisher weit verbreiteten Techniken gegeben, die zur visuellen Darstellung der Inhalte von DLs verwendet werden.

Besonders im Vordergrund stehen bisher zwei Techniken: Visualisierung mittels eines Graphen, wobei der Fokus insbesondere auf der Darstellung von Beziehungen zwischen einzelnen Bezugseinheiten liegt, und Visualisierung durch Darstellung von Clustern beispielsweise mit Starfield- oder Landschafts-Displays, bei dem man sich oft auf Verteilungen der Bezugseinheiten in einem Datenraum konzentriert.

(14)

3.2.1. Graphen

Die zugrundeliegende Struktur eines Kollaborationsnetzwerkes oder eines Kozitationsnetzwerkes wird oft als Graph modelliert. „Kollaborationsgraphen“ sind im Allgemeinen einfach, ungerichtet und ungewichtet. Die untersuchten Einheiten, hier Autoren, werden als „Actors“ bezeichnet und im Graphen als Knoten modelliert. Eine Kante zwischen Knoten fügt man ein, wenn die jeweiligen Actors zusammen mindestens ein Paper verfasst haben (vgl. das Projekt „BibRelEx“ in [Brüggemann- Klein1999] in Abbildung 4 oder „NicheWorks“ in [Wills1999]; eine einfache Version gibt es auch im bereits angesprochenen DBLP-Browser in [Klink2004]).

Abbildung 4: Zitiernetzwerk mit Grafikbibliothek LEDA gezeichnet (Quelle: [Brüggemann-Klein1999])

Zu dieser Standardform existieren diverse Varianten, bei denen bestimmte Aspekte des Netzwerkes hervorgehoben werden, oder die zusätzliche Informationen beinhalten.

In der ersten Alternative werden in den Graphen, der ursprünglich ungewichtet ausgelegt wurde, zusätzliche Informationen eingefügt. In der bisherigen Version war in den Graphen nicht zu erkennen, wie häufig zwei Koautoren zusammen veröffentlicht, sondern nur, ob sie kooperiert haben. Diese weitere Information kann man relativ leicht hinzufügen, indem die Kanten entsprechend der gemeinsamen Veröffentlichungsmenge gewichtet werden. In der Visualisierung lässt sich dies beispielsweise durch die Stärke der Kanten sichtbar machen, wie in Abbildung 5 gezeigt.

(15)

Abbildung 5: Kollaborationsgraph mit Kantengewichtung (Quelle: [Newman2001])

Manchmal arbeiten gewisse Autoren aus einem Netzwerk besonders eng mit bestimmten Kollegen zusammen. Dies äußert sich im Kollaborationsgraphen dadurch, dass sich ein vollständiger Teilgraph⁵ bildet (vgl. Abbildung 6). Um diese Tatsache deutlich zu machen, gibt es eine Visualisierungsvariante, in der solche engen Gruppen zu einem Hyperknoten zusammengefasst werden. Alle Kanten, die von einem Knoten außerhalb des Hyperknotens zu einem der beinhalteten Knoten führen, werden ersetzt durch eine neue Kante zu dem Hyperknoten. Durch diese Darstellung können Zusammenarbeitsgruppen leichter identifiziert werden.

Abbildung 6: Kollaborationsgraph mit vollständigem Teilgraph (Quelle: [Littover2002])

5 Ein vollständiger Teilgraph ist eine Teilknotenmenge des Graphen, in der jeder Knoten durch Kanten mit jedem anderen Knoten verbunden ist.

(16)

Beliebt ist eine Visualisierung, in der Knoten und/oder Kanten eingefärbt werden.

Das Jahr der Veröffentlichung des gemeinsamen Artikels, die Menge der Artikel oder eine andere Kennzahl der Artikel wäre so visualisierbar. Eigenschaften der Autoren könnten über eine Färbung der Knoten sichtbar gemacht werden, wie etwa die Zugehörigkeit zu Fachbereichen. Alternativen zur Farbe könnten auch die Form und/oder die Größe der Knoten, jeweils in Relation zu der gewählten Eigenschaft, sein. Eine Schwierigkeit, die hier allerdings auftritt, besteht darin, dass die Farbe/Größe/Form der Knoten bei entsprechend großen Graphen bzw. Varianz der Eigenschaften nicht mehr differenziert genug wahrnehmbar ist.

Als letzte alternative Visualisierungsform für Kollaborationsdaten sind Differenzgraphen vorzuschlagen, durch die Unterschiede zwischen zwei oder mehr Ausprägungen von Graphen verdeutlicht werden können. Differenzgraphen erlauben beispielsweise, Änderungen in der Veröffentlichungszahl von Autoren über die Zeit zu untersuchen. Auch davon existieren diverse Varianten, so zum Beispiel eine Visualisierung mit den unterschiedlichen Ausprägungen eines Graphen auf der linken Seite und den Differenzgraphen auf der rechten Seite, wie in Abbildung 7 gezeigt. In dieser Variante werden Zunahmen in den Differenzen durch schwarze Knoten und Abnahmen durch hellgraue Knoten repräsentiert, die Größe der Knoten entspricht der tatsächlichen Differenz.

Abbildung 7: Differenzgraphen (Quelle: [Erten2003b])

(17)

Kombinierte Darstellungsformen enthalten mehrere bereits angesprochene Visualisierungen. Abbildung 8 enthält eine solche Kombination: Hier werden gewichtete Knoten und Kanten, gefärbte Kanten, verschmolzene Knoten und Differenzgraphen verwendet, um eine zeitliche Entwicklung eines Veröffentlichungsnetzwerkes darzustellen.

Abbildung 8: Kombinierte Visualisierungsform.

(a) Gesamtgraph der Zeitscheiben des Graphen ohne Kanten, (b) Gesamtgraph der Zeitscheiben mit Kanten (blaue Kanten dienen zur leichteren Verknüpfung der Scheiben), (c) Einzelne Scheiben mit nur den „schweren“ Kanten, (d) Differenzgraphen zwischen den einzelnen Scheiben(Quelle: [Erten2003])

3.2.2. Pixelbasierte Displays

Bei der Visualisierung von DL-Daten können auch Pixel-Verfahren zum Einsatz kommen. Im Gegensatz zu graphenbasierten Ansätzen werden die inhaltliche Nähe und andere Beziehungen nicht durch Kanten zwischen Knoten repräsentiert, sondern durch räumliche Nähe in einem pixelbasierten Display.

Als Grundlage für viele solche pixelbasierten Ansätze dient das „Starfield“ (vgl.

[Ahlberg1994b]). Hierbei handelt es sich um einen zweidimensionalen Scatterplot, in dem Tausende von Datenpunkten über Farb-, Größen- und Formkodierungen dargestellt werden können. Dazu gehören Navigationstools wie Zooming und Filtermöglichkeiten, um unerwünschte Datenpunkte aus dem Display zu entfernen. In einem solchen Starfield fällt es leicht, Gruppen oder Cluster von ähnlichen Dokumenten auszumachen (vgl. Abbildung 9).

(18)

Abbildung 9: Starfield aus dem EVA2D-System (Quelle: [Sánchez2004])

Ein Problem, das bei solchen Punktwolken-Visualisierungen sehr häufig auftritt, ist der Effekt, dass bei gewissen Punkten im Datenraum die Dichte der Dokumente sehr hoch ist, und somit die Dokumente nicht eindeutig auf dem Bildschirm platziert werden können. Eine Lösung für dieses Problem ist die Einführung einer weiteren Dimension in die Visualisierung. Durch 2½-D-Displays⁶ kann die Dichte des Dokumentenraums auf die „Höhe“, also die z-Koordinate des Displays, gemappt werden. Dadurch entstehen Erhebungen und Vertiefungen, die man, wegen ihrer optischen Ähnlichkeit zu Bergen und Tälern, als „Landschaft“ bezeichnet.

Verschiedene Formen solcher Landschaften weisen unterschiedliche Grade an Realität (d.h. Ähnlichkeit zu natürlichen Landschaften) und Detail auf, Darstellungen schwanken zwischen sehr karg und abstrahiert (vgl. Abbildung 10), abstrahiert mit etwas mehr Detail (vgl. Abbildung 11) und realitätsnah mit zusätzlichen Details (vgl.

Abbildung 12).

6 Auch bezeichnet als „2.1D“, im Gegensatz zu „echtem 3D“, bei dem nicht notwendigerweise Referenzobjekte wie ein Horizont oder eine konsistente Bodenebene gegeben sind, die für eine Landschaft benötigt werden (vgl. [Chalmers1993]). Ohne solche Referenzobjekte sind 3D- Darstellungen schwer zu lesen und in Kontexten wie dem dieser Arbeit nicht wirklich nützlich.

(19)

Abbildung 10: Abstrahierte Landschaft aus dem „Bead“-System (Quelle: [Chalmers1993])

Abbildung 11: Abstrahierte Landschaft aus „VxInsight“ (vgl. [Davidson1998]) (Quelle: [Boyack2002])

Abbildung 12: „Reale“ Landschaft (Quelle: [Brandes2002])

Die Verwendung einer solchen Landschaftsmetapher hat den Vorteil, dass relativ abstrakte Sachverhalte durch ein solches mentales Konzept einer Landschaft leichter vermittelt werden können. Wie alle Metaphern hat aber auch diese den Nachteil, dass wenn der Betrachter sich zu sehr auf die Analogien zur Realität einlässt, er Eigenschaften in der Visualisierung sucht, die zwar in der Realität vorhanden sind, in

(20)

der Visualisierung aber nicht. Dies führt oft zu Fehlinterpretationen. Ein Beispiel in der Landschaftsmetapher dafür wäre, dass die x- und y-Koordinaten des Displays zumeist nicht echten geographischen Koordinaten entsprechen, sondern aus einer Hauptkomponentenanalyse gewonnen werden. Auch hat die Höhe eines Berges nicht direkt die Bedeutung der Wichtigkeit eines darin enthaltenen Dokuments, sondern ist eben nur eine Kodierung der Dichte.

Schließlich verhindert die durch die Darstellung bedingte Zersplitterung des Datenraums, sowohl bei Starfield- als auch bei Landschaftsdisplays, eine kompakte Analyse von Teilmengen des Datenraums: In Kollaborationsnetzen können beispielsweise mehrere Autoren an einer Publikation zusammengearbeitet haben und sind trotzdem auf einem Starfield-Display weit voneinander entfernt, da andere Eigenschaften der Autoren eine solche Platzierung erzwingen. Eine derartige uneinheitliche Positionierung macht Vergleiche zwischen Bezugseinheiten komplizierter, als es sein müsste.

(21)

4. Strukturen visualisieren mit InterRing

Dieses Kapitel beschreibt eine neue Technik zur Visualisierung von relationalen Strukturen einer DL. Dabei wird eine bereits vorhandene Visualisierungstechnik kombiniert mit einer ebenfalls bekannten Datenstruktur, um für ein spezielles Element der DL die zu diesem Element in Relation stehenden anderen Elemente zu finden, diese hierarchisch umzuordnen und schließlich darzustellen. Die entstehende Darstellung bietet aus den im vorigen Kapitel bisher für DLs angebotenen Visualisierungshauptformen, Graphen und Starfield, das jeweils beste und vermeidet einen großen Teil der Nachteile. Um die speziellen Eigenschaften von DLs zu berücksichtigen, werden die bereits existierenden Techniken nicht 1:1 übernommen, sondern abgewandelt und erweitert.

4.1. InterRing

Der in [Yang2002] vorgestellte InterRing dient als Visualisierungselement. Dabei handelt es sich um eine sogenannte „radial space-filling“(RSF)-Technik, die hauptsächlich dazu verwendet wird, um hierarchische Daten anzuzeigen. Die Haupteigenschaften einer solchen RSF-Technik sind (vgl. [Yang2002]):

i. Knoten tiefer in der Hierarchie werden weiter entfernt vom Zentrum gezeichnet,

ii. Kindknoten werden innerhalb des Bogenwinkels ihrer Elternknoten gezeichnet,

iii. Der Laufwinkel eines Blattknotens ist proportional zu einer Eigenschaft des Knotens und

iv. Der Laufwinkel eines inneren Knotens ist die Aggregation der Winkel aller seiner Kindknoten.

Die Komponenten und Eigenschaften eines solchen RSF-Displays sind in Abbildung 13 zusammengefasst.

Die Konstruktion eines InterRing erfolgt, indem der gesamte Kreisbogen segmentiert wird: Jeder Blattknoten der zugrundeliegenden hierarchischen Struktur (hier: ein Baum) erhält den gleichen Anteil am Kreisbogen; einem Ast des Baumes, der nur ein

(22)

darzustellendes Element enthält, wird ein Segment zugewiesen, sind es mehrere darzustellenden Elemente in diesem Ast, bekommt dieser dementsprechend mehrere Segmente, die aber visuell verschmolzen werden. Dadurch kann von außen nach innen der jeweils benötigte Kreisbogenanteil für die Elternknoten, bis hin zum innersten Ring, bestimmt werden. Die Zeichnung der Darstellungselemente folgt diesem Vorgehen, findet also von außen nach innen statt.

Der InterRing ist aber mehr als nur ein solches RSF-Display: er bietet, um die inhärenten Probleme einer solchen radialen Visualisierung, wie beispielsweise die geringe Unterscheidbarkeit kleiner Kreissegmente, zu überwinden, diverse Operationen an, die auf die Darstellung angewandt werden können. Dazu gehören Möglichkeiten zu zoomen, zu rotieren, zu verzerren oder Drill-Downs bzw. Roll-Ups in der Hierarchie durchzuführen.

Abbildung 13: RSF-Display mit seinen Komponenten (Quelle: [Yang2002])

Somit ist der InterRing nicht nur eine Visualisierungstechnik, sondern ein interaktives Analysetool für hierarchische Daten.

(23)

4.1.1. Datenstruktur FPTree

Die der Visualisierung zu Grunde liegende Datenstruktur ist der sogenannte Frequent Pattern Tree, oder kurz FPTree (vgl. [Han1999]). Dies stellt eine erweiterte Präfix-Baum-Struktur dar, in der leicht verfolgt werden kann, welche Muster in welcher Häufigkeit in der Datenbank vorhanden sind. Bei der Erzeugung eines solchen FPTrees werden die bisher ungeordneten Daten hierarchisiert und somit nutzbar für die InterRing-Visualisierung gemacht.

Ein im FPTree gespeichertes Muster sei folgendermaßen definiert:

Sei I = {a1, a2, ..., am} eine Menge von Items, und eine Transaktions-Datenbank DB =

<T1, T2, ..., Tn>, wobei Ti (i Є [1..n]) eine Transaktion ist, die eine Menge von Elementen aus I enthält. Der Support von Muster A, welches eine Menge von Items ist, ist die Anzahl von Transaktionen in DB, die A enthalten. A ist ein Frequent Pattern (häufiges Muster), wenn der Support von A nicht kleiner ist als ein vordefinierter Minimum-Support-Schwellenwert ξ.

Ein FPTree ist eine Baumstruktur bestehend aus einem leerem und leer bleibendem Wurzelknoten und Kindknoten. Ein Knoten in einem FPTree ist eine Datenstruktur bestehend aus dem Namen ax des Items und dem Count des Items, der die Anzahl der Transaktionen darstellt, die den Pfad zu diesem Knoten verfolgen.

Die Konstruktion eines FPTree läuft folgendermaßen ab:

Zunächst wird gezählt, wie oft jedes Item in der zu untersuchenden Datenbank vorkommt; man berechnet also den Support für die einzelnen Elemente (vgl. Tabelle 2). Danach werden die Elemente absteigend nach ihrem Support sortiert, wodurch man eine Reihenfolge erhält, nach der alle zusammengesetzten Items (Transaktionen) in der Datenbank neu angeordnet werden (vgl. Tabelle 3).

In einem neuen Durchlauf der Datenbank wird jede Transaktion Ty gemäß der gefundenen Sortierung umgruppiert und in den FPTree eingefügt. Hat der betrachtete Knoten - zu Beginn die leere Wurzel - bereits ein Kind mit dem Namen ax, wird der Count des Knotens ax um 1 erhöht, ansonst wird ein neuer Kindknoten mit dem Namen ax und dem Count 1 eingefügt. Dies wird rekursiv für die gesamte Transaktion Ty verfolgt (vgl. Abbildung 14).

Für die Zwecke der InterRing-Visualisierung in der in dieser Arbeit eingesetzten Form wird eine leicht abgewandelte Version der Original-Datenstruktur aus [Han1999]

verwendet: Die im Original vorhandenen Knotenlinks zwischen Knoten gleichen Namens in verschiedenen Teilbäumen finden hier keine Verwendung; auch der

(24)

Frequent-Item Header Table wird in dieser Implementierung nicht benötigt. Da unbedingt alle relevanten auftretenden Transaktionen in den FPTree aufgenommen werden sollen, ist auch der Minimum-Support-Schwellenwert ξ nicht interessant, da er als 1 angenommen wird.

Für bibliographische Bibliotheken gilt hier: Jede Veröffentlichung ist eine Transaktion, und die einzelnen Autoren sind die Items.

Id Veröffentlichung (Transaktion) Autoren (Items) Jahr 1 Communicating Centrality in Policy

Network Drawings Ulrik Brandes, Patrik Kenis, Dorothea

Wagner 1999

2 CartoDraw: A Fast Algorithm for

Generating Contiguous Cartograms Daniel A. Keim, Stephen C. North,

Christian Panse 2004

3 Large Networks Present Visualization

Challenges James Abello, Eleftherios Koutsofios,

Emden R. Gamsner, Stephen C. North 1999 4 A Technique for Drawing Directed Graphs Emden R. Gamsner, Eleftherios

Koutsofios, Stephen C. North, K.-P. Vo

1993 5 Efficient Cartogram Generation: A

Comparison Daniel A. Keim, Stephen C. North,

Christian Panse, Jörn Schneidewind 2002 Tabelle 1: Beispiel-DL vor der Bearbeitung

Autor (Item) Support Stephen C. North 4 Emden R. Gamsner 2

Daniel A. Keim 2

Eleftherios Koutsofios 2 Christian Panse 2

James Abello 1

Ulrik Brandes 1

Patrik Kenis 1

Jörn Schneidewind 1

K.-P. Vo 1

Dorothea Wagner 1

Tabelle 2: Berechnung des Supports für die einzelnen Items

Id Veröffentlichung (Transaktion) Autoren (nach Support umsortiert) Jahr 1 Communicating Centrality in Policy Network

Drawings Ulrik Brandes, Patrik Kenis, Dorothea

Wagner 1999

2 CartoDraw: A Fast Algorithm for Generating Contiguous Cartograms

Stephen C. North, Daniel A. Keim, Christian Panse

2004 3 Large Networks Present Visualization

Challenges Stephen C. North, Emden R. Gamsner,

Eleftherios Koutsofios, James Abello 1999 4 A Technique for Drawing Directed Graphs Stephen C. North, Emden R. Gamsner,

Eleftherios Koutsofios, K.-P. Vo 1993 5 Efficient Cartogram Generation: A

Comparison Stephen C. North, Daniel A. Keim,

Christian Panse, Jörn Schneidewind 2002 Tabelle 3: Umsortierte Beispiel-Datenbank

(25)

Abbildung 14: Aus Tabelle 3 konstruierter FPTree

4.1.2. Implementierung

Für die Zwecke der InterRing-Visualisierung dieser Arbeit werden die Datenstrukturen des FPTree und die InterRing-Visualisierung selbst leicht verändert eingesetzt. Außer den bereits im vorigen Abschnitt besprochenen weggelassenen Strukturen, gibt es die folgenden Modifikationen.

Zu jedem Knoten wird, außer dem Namen und dem Count des Items, zusätzlich noch eine RGB-Farbe gespeichert. Jedes Item erhält eine eindeutige Farbe, wobei bei der Farbzuweisung wie folgt vorgegangen wird. Im erzeugten FPTree wird, ähnlich dem Vorgehen bei einer Breitensuche, jeder Level des Baumes durchlaufen. Auf dem ersten Level wird jedem Knoten eine Farbe aus einem vorgenerierten Colormap zugewiesen. Durch eine Normalisierung bei der Zuweisung wird der Abstand der Farben auf dem ersten Level relativ zueinander maximiert. Diese Farben werden in einer verketteten Liste gespeichert.

Auf dem zweiten Level betrachtet der Farbzuweisungsalgorithmus den Eltern-Knoten des aktuellen Knotens. Ist der Knoten bereits mit einer Farbe in der Farbliste vertreten, wird daran nichts geändert. Hat er noch keine Farbe, verwendet der Algorithmus die Elternknotenfarbe als Ausgangsfarbe, und reduziert bei dieser die Sättigung um 10%; zusätzlich wird iterativ bei jedem Kind des Elternknotens die Helligkeit um 10% verringert (vgl. Abbildung 15). Das erste Kind eines Knotens erhält

(26)

also somit die Elternfarbe mit gesenkter Sättigung, das zweite Kind dieselbe Farbe wie sein „älteres“ Geschwister mit geringerer Helligkeit, das dritte Kind dieselbe Farbe wie das zweite Kind mit weiter verringerter Helligkeit und so weiter. Dadurch wird der Effekt erreicht, dass die Items, die in einem Sektor bzw. Teilbaum liegen und nicht bereits als Hauptitem auf dem ersten Level aufgetreten sind, ähnlich eingefärbt werden, was die Analyse von zusammengehörigen Items erleichtert. Diese Vorgehensweise ist genau die umgekehrte Version des Vorgehens in [Yang2002], bei dem die Blattknoten Farben aus einem Colormap zugewiesen bekommen, und die Elternknoten dann eine anteilig aus den Farben der Kinder berechnete Farbe erhalten. Da im Kontext einer DL aber die Autoren im innersten Ring (also auf dem ersten Level des FPTrees) den größten Unterschied zwischen den Veröffentlichungen ausmachen (sie sind die Hauptmerkmale der im FPTree gespeicherten Muster), wurde hier die „center-to-border“-Variante vorgezogen.

Abbildung 15: Verringerung der Sättigung bei Kindknoten (links) und der Helligkeit bei Geschwisterknoten (rechts)

In diesem Zusammenhang ist noch eine Änderung zum Original-InterRing zu erwähnen. Der Wurzelknoten des FPTrees wird in der Implementierung dieser Arbeit im Gegensatz zum Original nicht als eigenes Segment, also als „Layer“, gezeichnet, sondern der weiße Kreis in der Mitte der Darstellung wird als Wurzel benutzt. Dies bot sich an, da auf dieser Ebene des FPTrees keine Unterteilungen in Segmente

(27)

anfallen, und die Verwendung des Zentrumskreises sich somit platzsparend auf die gesamte Visualisierung auswirkt. Dazu kommt, dass dadurch der Autor, der analysiert wird, auch visuell im Zentrum der Darstellung zu finden ist.

Eine weitere Änderung des einfachen FPTrees ist die, dass zusätzlich zu den benannten Items auch ein Wert gespeichert wird, der das gesamte Muster betrifft.

Hier bietet sich beispielsweise das Datum der Veröffentlichung an. Die Änderung geschieht einfach dadurch, dass an jedem Blattknoten – der das Ende einer Transaktion bezeichnet – ein neuer Knoten angehängt wird, der den Datumswert beinhaltet (vgl. Abbildung 14). Datumswerte werden bei der Farbzuweisung anders behandelt als die normalen Knoten, um sie bei der Visualisierung im InterRing leicht von diesen unterscheiden zu können. Datumswerte erhalten statt den bei den anderen Knoten verwendeten Farben reine Graustufen, wobei für das Datum gilt: je dunkler die Graustufe, desto niedriger ist der Datumswert (vgl. Abbildung 16).

Außerdem werden die zugehörigen Kreissegmente nur mit einer kleineren Höhe und Breite gezeichnet, um deren Charakter als zusätzliche Information, ähnlich einem Tooltip oder der Beschriftung einer Akten-Registerkarte, zu kennzeichnen

1995 1990

1980 1985

Abbildung 16: Datumswerte als Graustufen

Schließlich wird auch nicht die komplette Datenbank in den FPTree übernommen, sondern nur die Datensätze, die tatsächlich auch den zu untersuchenden Autor beinhalten. Durch diese Selektion wird sichergestellt, dass der darzustellende Autor

(28)

auf jeden Fall die Wurzel des FPTrees bildet, da er in der selektierten Teilmenge den höchsten Support besitzt⁷:

(Formel 1) Support(Zielautor) = |selektierte Datensätze|

Reaktionen von verschiedenen Benutzern auf die InterRing-Visualisierung im Zusammenhang mit bibliographischen Daten ließen schnell erkennen, dass eine solche Visualisierung ohne Legende schwer zu verstehen ist. Als erster Schritt wurde deshalb eine interaktive Legende eingeführt: Mittels eines „mouse-over“-Effektes⁸ wird angezeigt, welcher Autor dem Kreissegment, über dem sich der Mauszeiger befindet, zuzuordnen ist. Da dies aber auch nur eine lokale Lösung ist, die viel Mausbewegung erfordert und der Kontext nur durch eine Gedächtnisleistung zu erhalten ist - der Benutzer muss sich merken, welche Autoren er bereits betrachtet hat - , wurde eine Beschriftung des gesamten InterRings durchgeführt.

Abbildung 17: InterRing-Visualisierung (ohne Beschriftung)

7 Eine Sicherheitsabfrage verhindert, dass ein Koautor als Wurzel verwandt wird, falls er einen gleich hohen Support wie der zu untersuchende Autor hat. Dies kann auftreten, wenn ein Autor alle seine Veröffentlichungen mit demselben zweiten Autor verfasst hat.

8 Ein „mouse-over“-Effekt tritt auf, wenn der Benutzer den Mauszeiger über einem Darstellungselement bewegt (auch ohne Maustastendruck).

(29)

Die Positionierung der Legendenelemente erfolgt in der linken oberen Ecke des Segments; je nach dem Quadranten, in dem sich das Segment befindet, wird das Label noch leicht verschoben, um es mindestens mit einem Buchstaben in die Fläche des Segments zu platzieren. Aufgrund der radialen Struktur des Displays und der sehr stark schwankenden Größe der einzelnen Segmente ist es nicht immer möglich, das Label optimal zu platzieren. Alternative Positionierungen könnten der Mittelpunkt des jeweiligen Segments sein oder, etwas komplexer, entlang der Kreiskante (also der „circular edge“, vgl. Abbildung 13); in diesem Fall müsste der Label-Text dann entsprechend dem Winkel der Kreiskante rotiert werden.

In jedem Fall ist aber das Labelling für den Benutzer ein deutlicher Informationsgewinn und erleichtert die Lesbarkeit der Visualisierung um ein Vielfaches (vgl. Abbildung 17 im Vergleich zu Abbildung 18).

Abbildung 18: InterRing-Visualisierung (beschriftet)

Die Effizienz der Visualisierung ist hoch, hängt allerdings etwas von den Informationsmethoden der zugrundeliegenden DL ab.

(30)

Selbst auf langsameren Rechnern (600MHz Taktfrequenz, 256 MB Arbeitsspeicher) bewegt sich die benötigte Zeit zur Berechnung des FPTrees und Darstellung des InterRings im Millisekundenbereich - auch bei FPTrees mit über 300 Knoten, was für einen Autor in einer bibliographischen DL bereits einen enorm hohen Wert darstellt.

Eine Laufzeitanalyse des gesamten Visualisierungsprozess ergibt eine Gesamtlaufzeit von

(Formel 2) T(n) Є O(|DL|) +

O(|Publikationen| log |Publikationen|) + O(3 * |Publikationen| * MaximalAutoren) + O(|Knoten| log |Knoten|),

wobei folgendes gilt: |DL| ist die Anzahl aller Datensätze in der DL, |Publikationen|

die Anzahl der Publikationen, die den gesuchten Autor beinhalten. MaximalAutoren ist das Maximum der Autorenzahl über alle betroffenen Publikationen betrachtet (worst-case-Betrachtung)⁹, |Knoten| die Anzahl aller Knoten im fertiggestellten FPTree.

Die Analyse setzt sich zusammen aus den Komponenten

a. Selektion der Publikationen, die der gesuchte Autor mit verfasst hat und Bestimmung des Publikationsdatums, implementiert als vollständiger Durchlauf der DL:

O(|DL|),

b. Sortieren dieser selektierten Datensätze nach Publikationsdatum mittels MergeSort:

O(|Publikationen| log |Publikationen|),

c. Supportberechnung für alle noch überbliebenen Autoren: O(|Publikationen| * MaximalAutoren), da im worst-case für jede Publikation die Menge von MaximalAutoren Autoren durchlaufen werden müssen,

d. Erzeugung des FPTrees gemäß der Vorgehensweise aus Kapitel 4.1.1:

O(|Publikationen| * MaximalAutoren), da das Anhängen einer einzelnen Publikation O(MaximalAutoren) benötigt (vgl. [Han1999]),

9 Dies entspricht somit der Höhe des FPTrees nach Einfügung aller Knoten.

(31)

e. Anhängen der Datumsknoten an den FPTree:

O(|Publikationen| * MaximalAutoren), da für jede Publikation immer die Pfade zu den Blattknoten verfolgt werden (Höhe des Baumes im worst-case),

f. Levelweises Sortieren des FPTrees, um größere Segmente (also Knoten mit größerem Support) vor den kleineren Segmenten anzuzeigen:

O(|Knoten| log |Knoten|).

Diese Analyse zeigt deutlich auf, dass der größte Aufwand in Teil a, also der Selektion der betroffenen Publikationen, anfällt. Die restlichen Teile des Algorithmus nutzen unter normalen Umständen nur noch einen Bruchteil der Datenmenge der DL¹⁰. In Teil a ist also das größte Optimierungspotenzial zu finden. Bietet eine DL eine spezielle Funktion an, alle Publikationen eines bestimmten Autors direkt zu liefern, ohne die gesamte DL durchlaufen zu müssen¹¹, ist die Laufzeit des Algorithmus noch deutlich geringer als in der Analyse angegeben. Weitere Leistungssteigerungen können durch Entfernen der Teile b und/oder f erreicht werden, die letztlich nur ästhetischen Zwecken dienen, oder des Teils e, falls das Datum einer Veröffentlichung im gewünschten Kontext uninteressant ist.

4.2. Vorteile und Problemfälle

Durch die Verwendung einer RSF-Technik ist es möglich, eine sehr kompakte Visualisierungsform auf dem Bildschirm darzustellen. Die Platzausnutzung, also das Füllen des vorgesehenen Fensterausschnitts (im Allgemeinen ein Rechteck), ist in den meisten Fällen sehr gut: Eine Visualisierung eines FPTrees benötigt, außer in Spezialfällen, hauptsächlich Raum auf einer Achse (die Anzahl der Veröffentlichungen ist meist größer als die Anzahl der Koautoren). Durch die Krümmung dieser Achse hin zu einem Kreis wird der Platzbedarf auf zwei Dimensionen kontinuierlich aufgeteilt und somit verringert.

Während viele graphen- oder clusteringbasierte Ansätze sehr rechenzeitintensiv sind und das automatisch erzeugte Ergebnis dieser Verfahren optisch nicht immer zufriedenstellend ist, punktet auch in diesem Feld die InterRing-Visualisierung, da sie

10 In der DBLP z.B. ist das Verhältnis der Publikationen des meistveröffentlichenden Autors zu allen Veröffentlichungen in der Datenbank ungefähr 1:1700, bei anderen Autoren noch deutlich niedriger.

11 Dies ist beispielsweise bei der DBLP der Fall; es kann aber auch in anderen DLs leicht mittels vorher einmalig zu generierenden Indexstrukturen implementiert werden.

(32)

in Echtzeit erstellt werden kann und keinen manuellen Eingriff eines Benutzers erfordert. Im Gegensatz zu Graphen beispielsweise ist es für die InterRing- Visualisierung überhaupt kein Problem, auch sehr dichte Kollaborationsnetze kompakt und lesbar darzustellen. Durch die sektorenbasierte Farbgebung der Kreissegmente ist es auf einen Blick möglich, Cluster von häufig zusammenarbeitenden Autoren zu finden; durch die Platzierung der häufig auftretenden Autoren nahe am Zentrum sind auch solche Wichtigkeits-Rankings offensichtlich, im Gegensatz zu Graphen oder Starfields, die erst analysiert werden müssen, um solche Informationen preiszugeben.

Im Gegensatz zu flachen Starfield-Displays tritt in der InterRing-Visualisierung kein Überdecken von einzelnen Darstellungseinheiten auf, da der benötigte Platz genau passend berechnet wird. Auch gibt es nicht den Effekt, der in Landschafts-Displays durch die perspektivische Darstellung unausweichlich ist, dass Berge die hinter ihnen liegenden Elemente verdecken, und dass die dem Betrachter zugewandten Seiten von Tälern nicht erkennbar sind.

Ein interessanter Aspekt, der während der Vorführung der Visualisierung vor verschiedenen Benutzern ersichtlich wurde, ist, dass die erzeugten InterRings einen hohen Wiedererkennungswert besitzen. Sind mehrere dieser Displays nebeneinander platziert, kann eine Zuordnung „Autor zu Display“ leicht nachvollzogen werden. Eine solche Eigenschaft der Visualisierung, die gewisse Ähnlichkeiten mit den Eigenschaften von Glyphen aufweist, wirkt sich besonders vorteilhaft aus, wenn die InterRing-Visualisierung in die Benutzeroberfläche einer DL integriert wird. So könnte eine stark verkleinerte, aber noch lesbare Version des InterRings sozusagen als Icon für den zugehörigen Autoren benutzt werden.

Problemfälle bei dieser Form der Visualisierung treten vor allem auf, wenn der zugrundeliegende FPTree stark unbalanciert ist. Da die Visualisierung immer versucht, den gesamten InterRing auf dem Bildschirm darzustellen, nehmen einzelne sehr lange „Arme“ (also lange Äste des FPTrees) einen großen Anteil des Platzes ein, und eine Skalierung muss vorgenommen werden, um den gesamten Ast vollständig darzustellen. Dadurch werden aber die restlichen Teile des InterRings sehr stark komprimiert und nicht mehr entzifferbar; das Beschriften der einzelnen Segmente wird nahezu unmöglich, da ein „overplotting“-Effekt auftritt (vgl. Abbildung 19). Dazu kommt, dass sich die Farbgebung immer weiter weg von der Elternknoten-

(33)

Farbe bewegt: Durch ständige Reduktion der Sättigung ändert sich nach einigen Iterationen der Farbton (Hue)¹², was den optischen Zusammenhalt der einzelnen Segmente zerstört.

Als Lösung hierfür bietet sich ein bereichsabhängiges Zooming oder eine Verzerrung an, wodurch die Länge von Kreissegmenten solch langer Äste automatisch verkürzt werden: Alle Segmente, die über einem gewissen Schwellenwert liegen (bspw. ab dem 7.Level des FPTrees), werden nur noch mit geringerer Länge gezeichnet.

Abbildung 19: Problemfälle bei sehr vielen Koautoren

Der entgegengesetzte Fall, nämlich wenn keine Koautoren vorhanden sind, macht die Visualisierung ebenfalls schwieriger zu lesen. So sind in Abbildung 20 links für den visualisierten Autoren nur eine Publikation in der DL vorhanden, die er auch allein verfasst hat; in der Darstellung ist dies nicht offensichtlich. Abbildung 20 rechts zeigt einen ähnlichen Fall: Der Autor hat alle seine Publikationen allein veröffentlicht, hier ist aber das Problem, dass es sehr viele Publikationen sind, die auch noch in

12 Die Begründung dafür scheint im Farbmodell der Java-Umgebung zu liegen.

(34)

einem relativ kurzen Zeitraum (erkennbar an der Ähnlichkeit der Graustufen der Segmente) erfolgten.

Da aber für solche Spezialfälle auch alle anderen Visualisierungsformen, wie Graphen (Graphen mit nur einem Knoten) oder Starfields (sehr dünne Displays mit nur einem Datenpunkt), mit denselben Problemen zu kämpfen haben, stellt sich die Frage, ob der Aufwand lohnt, für solche Fälle eine geänderte Darstellungsform zu wählen – insbesondere, da eine visuelle Analyse diese uninteressanten Fälle nur selten beinhalten wird.

Abbildung 20: Problemfälle bei keinen Koautoren und wenigen bzw. vielen Veröffentlichungen

Ein weiterer, vielleicht weniger bedeutender Nachteil ist, dass durch die bei der Erzeugung des FPTrees notwendige supportbasierte Umsortierung der Autoren einer Veröffentlichung die Struktur dieser Veröffentlichung verändert wird. Während in der originalen Struktur die Reihenfolge der Autoren oft die Information über den Anteil an der Arbeit der Autoren repräsentiert (Haupt- und Nebenautoren)¹³, kann diese Information in der Visualisierung natürlich nicht aufrechterhalten werden. Dadurch kann es geschehen, dass die Autoren, die in einer Veröffentlichung als Hauptautor geführt werden, trotzdem relativ zentrumsfern platziert werden.

Zusammenfassend ist aber zu betonen, dass die Vorteile dieser Visualisierung die Nachteile stark überwiegen, da ein Großteil der Problemfälle durch einfache

13 Natürlich ist dies nicht immer der Fall; gibt es besonders viele Koautoren in einer Publikation wird manchmal eine einfache alphabetische Reihenfolge vorgezogen; auch werden hin und wieder die

„bekannteren Namen“ oder herausragende Persönlichkeiten unabhängig von ihrem Anteil an der Veröffentlichung an den Anfang gesetzt.

(35)

Weiterentwicklung der Visualisierung komplett aus der Welt geschafft werden kann, und die restlichen Nachteile nur in einem Bruchteil der Anwendungsfälle überhaupt auftritt.

4.3. Alternative Visualisierung: InterBar

Bei der Entwicklung der InterRing-Visualisierung für DLs ist die Idee entstanden, neben der kreisförmigen Visualisierung eine weitere Form anzubieten. Das Lesen einer solchen kreisförmigen Visualisierung ist nicht immer einfach und erfordert eine gewisse Lernkurve; dies kann verhindert werden, indem man die Darstellungsabfolge auf eine Dimension reduziert und somit linearisiert, d.h. man ändert die grundsätzliche Ausrichtung der Aneinanderreihung der einzelnen Items vom Kreisbogen hin zu einer Linie. Diese Form der Darstellung bezeichne ich, analog zum InterRing, als InterBar (vgl. Abbildung 21)¹⁴.

Abbildung 21: Zu Abbildung 21 analoge InterBar-Visualisierung

Durch die linearisierte Form werden die einzelnen Segmente/Autoren bezüglich Anteil leichter vergleichbar, und die Visualisierung kommt den üblichen Benutzer- Angewohnheiten des Lesens von Diagrammen entgegen. Die in Abbildung 21 gezeigte Variante ist eine der möglichen Ausrichtungen: Der untersuchte Autor (die Wurzel des FPTrees) ist hier am oberen Rand impliziert und die Kindknoten reihen

14 Durch eine Linearisierung wird der genau entgegengesetzte Weg verfolgt wie der in [Renieris1999]

beschriebene Vorschlag, in dem vom Säulendiagramm zu einer Spiraldarstellung gewechselt wird.

(36)

sich nach unten; alternativ könnte der Wurzelknoten am unteren, rechten oder linken Rand platziert und die Kindknoten dementsprechend angeordnet werden.

Ein Nachteil gegenüber dem InterRing ist offensichtlich: Bei Autoren mit vielen Veröffentlichungen hat diese Visualisierung auf der Horizontalen einen deutlich erhöhten Platzbedarf. Die Kompaktheit des InterRings, entstanden durch dessen RSF-Technik, geht verloren.

Die Visualisierung baut auf der selben Datenstruktur des FPTrees auf, und nur geringfügige Änderungen sind nötig, um den InterRing zu einem InterBar umzuformen. In einer interaktiven Umgebung¹⁵ sind auch Echtzeitwechsel zwischen den beiden Visualisierungsformen unproblematisch, so dass sich Benutzer die für sie jeweils angenehmere Variante „online“ aussuchen können.

15 Wie beispielsweise das „DigLibVis“- oder das „PaperFinder“-Projekt; Siehe dazu auch Kapitel 5.

(37)

5. Modularität der Visualisierung

Bei der Implementierung der InterRing-Visualisierung für bibliographische Bibliotheken wurde bewusst darauf geachtet, dass die Visualisierung modular bleibt.

Sie kann ohne weiteres in eine andere Applikation eingebunden werden. Bisher existieren zwei Versionen von Oberflächen, in die die InterRing-Visualisierung eingebunden wurde, eine Stand-Alone-Version, die Auswahlmöglichkeiten für den zu zeigenden Autor der DL bietet, und eine Version, die in das „PaperFinder“-Projekt eingebunden wurde, das im folgenden Abschnitt beschrieben wird.

5.1. Das „PaperFinder“-Projekt

Das „PaperFinder“-Projekt hatte das Ziel, ein Framework für eine Analyse einer vorgegebenen Datenmenge (nämlich des bereits erwähnten InfoVis-Contest- Datensatz) in einer interaktiven Umgebung zu entwickeln (vgl. [Keim2004]).

Zusätzlich zu dieser Vorgabe hat der Benutzer des Systems die Möglichkeit, verschiedene zu visualisierende DLs zu Beginn der Sitzung auszuwählen. Mit geringen Anpassungen lassen sich weitere DLs in das PaperFinder-System einfügen.

Die Oberfläche des „PaperFinder“ orientiert sich stark an seinem bekannten Namensvetter, dem „FilmFinder“ (vgl. [Ahlberg1994]). Der „FilmFinder“ wurde entwickelt, um visuellen Zugriff auf eine Filmdatenbank zu erlauben. Er besteht hauptsächlich aus einem Starfield-Display mit einer Darstellung der einzelnen Filme in der Datenbank, die über Farbe, Form, Größe und Position die Metadaten des Filmes repräsentieren. Eine ähnliche Vorgehensweise war das Ziel für den

„PaperFinder“. Er baut auf dem „FilmFinder“ auf, wurde aber speziell auf die Bedürfnisse der Visualisierung von DLs hin ausgerichtet. In einem ScatterPlot werden die Dokumente einer bibliographischen DL angezeigt, wobei die x-Achse eine Zeitachse bildet, und die y-Achse interaktiv belegt werden kann.

Verschiedene Ansichten auf die DL können gewählt werden, wie beispielsweise die Anzahl der Koautoren eines Dokuments (vgl. Abbildung 22), die Zuordnung zu Fachgebieten (in Abbildung 22 durch Farben kodiert), ein Ranking der meistveröffentlichten Autoren oder der meistveröffentlichenden Zeitschriften. Die Oberfläche unterstützt die üblichen mausbasierten Selektions- und

(38)

Projektionstechniken wie details-on-demand, brushing, filtering und zooming (folgt also somit dem bekannten „Information Seeking Mantra“, vgl. [Shneiderman1996]), und enthält außer dem ScatterPlot noch weitere Visualisierungen der Daten, die miteinander verlinkt sind („tight coupling“, „multiple coordinated views“).

Abbildung 22: PaperFinder

In diese Benutzeroberfläche wurde der InterRing für bibliographische DLs eingebunden. Der Benutzer hat die Möglichkeit, einen Autor auszuwählen¹⁶ und dessen Veröffentlichungen und Koautoren in der im vorigen Abschnitt beschriebenen Art und Weise zu visualisieren (vgl. Abbildung 23).

16 Die Eingabemöglichkeit des Autors ist z.Zt. noch stark beschränkt auf ein Texteingabefeld, in das die dem Autor zugeordnete Identifikationsnummer der Datenbank eingegeben werden muss. Ein Auswahlfeld mit den vorhandenen Autoren würde dies benutzerfreundlicher gestalten.

(39)

Abbildung 23: InterRing integriert in PaperFinder

5.2. Das “DigLibVis”-Projekt

Um eine schnelle und trotzdem komfortable Analyse eines speziellen Autors durchzuführen wurde eine eigenständig ausführbare Version der Visualisierung entwickelt, die „DigLibVis“ genannt wurde¹⁷ (vgl. Abbildung 24). Der Benutzer hat die Möglichkeit, über ein Suchfeld den Namen des zu betrachtenden Autors einzugeben, oder nach diesem über Auswahlfelder in der DL zu browsen. Durch Klick auf ein einzelnes Kreissegment (also einen der Koautoren) wird ein neuer InterRing für diesen angeklickten Autor gezeichnet; durch diese Navigationsmöglichkeit kann man sich bequem, intuitiv und vor allem kontextsensitiv durch den Gesamtkorpus der DL bewegen.

17 Anhand dieser Umgebung wurde auch der Prototyp der Visualisierung entwickelt.

(40)

Abbildung 24: Stand-Alone-Version „DigLibVis“

(41)

6. Schlussbetrachtung

Digitale Bibliotheken erfordern aufgrund ihrer Struktur und ihrem Umfang besondere Visualisierungstechniken. In dieser Arbeit wurde eine neuartige Visualisierung entwickelt, die den Besonderheiten von DLs Rechnung trägt, und trotzdem intuitiv zu bedienen ist. Sie basiert auf der Datenstruktur FPTree, wodurch eine schnelle Datenextraktion erfolgen kann und die zu analysierenden Daten in sehr komprimierter Form gespeichert werden können, und auf der InterRing-Technik, einer Darstellung, die sich besonders gut eignet, hierarchische Daten anzuzeigen.

Die Kombination dieser zwei Techniken eignet sich durch ihre Effizienz und Effektivität gut, Beziehungen zwischen einzelnen Bezugseinheiten sowie zwischen Gruppen von Bezugseinheiten in kompakter Form darzustellen. Bei dieser Visualisierung werden die Nachteile der bisher üblicherweise verwendeten Visualisierungen wie Graphen und Starfields vermieden. Ihre Modularität erlaubt es, die Visualisierung in verschiedensten anderen Projekten und Umgebungen einzusetzen. Sie ist in hohem Maße auch für andere Formen von DLs adaptierbar, skalierbar sowie leicht zu verstehen.

Zukünftige Arbeit wird sich darauf konzentrieren, die Weiterentwicklung der bereits vorhandenen Elemente voranzutreiben, insbesondere des Labellings, der Einführung von Verzerrungs-, Zooming- und Navigationsmöglichkeiten sowie der Erstellung eines Moduls, durch das verschiedene andere Datenbanken an die Visualisierung angekoppelt werden können. Des weiteren besteht der Plan, eine Homepage mit einem Applet zu entwickeln, auf der jeder Interessierte sich seine „eigene“ InterRing- Visualisierung seiner Veröffentlichungen anfordern kann. Ebenfalls ist angedacht, ein Plug-In für den in Kapitel 1.2.1 angesprochenen DBLP-Browser zu implementieren, das die Nutzung der in dieser Arbeit entwickelten Visualisierungstechnik auch für die Benutzer dieses Systems ermöglicht – was sicherlich ein Gewinn für die gesamte Nutzercommunity sein wird.

(42)

Abbildungs- und Tabellenverzeichnis

Abbildung 1: Typologie von Metadaten 7

Abbildung 2: Entwicklung der Autorenzahl von Veröffentlichungen... 11

Abbildung 3: Zunahme der Autorenzahl im Mathematical Review im Zeitraum 1940- 1993 ... 12

Abbildung 4: Zitiernetzwerk mit Grafikbibliothek LEDA gezeichnet ... 13

Abbildung 5: Kollaborationsgraph mit Kantengewichtung... 14

Abbildung 6: Kollaborationsgraph mit vollständigem Teilgraph ... 14

Abbildung 7: Differenzgraphen ... 15

Abbildung 8: Kombinierte Visualisierungsform. ... 16

Abbildung 9: Starfield aus dem EVA2D-System ... 17

Abbildung 10: Abstrahierte Landschaft aus dem „Bead“-System ... 18

Abbildung 11: Abstrahierte Landschaft aus „VxInsight“ (vgl. [Davidson1998]) ... 18

Abbildung 12: „Reale“ Landschaft ... 18

Abbildung 13: RSF-Display mit seinen Komponenten ... 21

Abbildung 14: Aus Tabelle 3 konstruierter FPTree ... 24

Abbildung 15: Verringerung der Sättigung bei Kindknoten (links) und der Helligkeit bei Geschwisterknoten (rechts) ... 25

Abbildung 16: Datumswerte als Graustufen ... 26

Abbildung 17: InterRing-Visualisierung (ohne Beschriftung) ... 27

Abbildung 18: InterRing-Visualisierung (beschriftet)... 28

Abbildung 19: Problemfälle bei sehr vielen Koautoren ... 32

Abbildung 20: Problemfälle bei keinen Koautoren und wenigen bzw. vielen Veröffentlichungen ... 33

Abbildung 21: Zu Abbildung 21 analoge InterBar-Visualisierung... 34

Abbildung 22: PaperFinder ... 37

Abbildung 23: InterRing integriert in PaperFinder... 38

Abbildung 24: Stand-Alone-Version „DigLibVis“ ... 39

Tabelle 1: Beispiel-DL vor der Bearbeitung ... 23

Tabelle 2: Berechnung des Supports für die einzelnen Items... 23

Tabelle 3: Umsortierte Beispiel-Datenbank ... 23