• Keine Ergebnisse gefunden

In der Literatur wird die Struktur der Daten des Open Directory Project wiederholt als Taxonomie und Ontologie bezeichnet. Aus diesem Grund werden nun die Grundlagen zu die-sen Begriffen erl¨autert. Anschließend wird beschrieben, wie diese Konzepte im ODP konkret umgesetzt wurden.

4.2.1 Grundlagen und Definitionen

Der Begriff Ontologie stammt aus einem Bereich der Philosophie, der sich mit dem Studium des Seins und der Existenz besch¨aftigt. Dort bezeichnet er eineTheorie zum Wesen der Exis-tenz. Schon Aristoteles hat Kategorien wie Substanz und Qualit¨at identifiziert, aus denen alles, was existiert, aufgebaut sein soll [Gru09]. Die philosophische Ontologie ist die Wissenschaft von allem, was existiert, den Arten und Strukturen von Objekten, Eigenschaften, Ereignis-sen, Prozessen und Beziehungen in jedem Bereich der Wirklichkeit. Der eigentliche Begriff wurde 1613 von einander unabh¨angig durch die zwei Philosphen Rudolf G¨ockel (im Lexicon philosphicum) und Jacob Lorhard (im Theatrum philosphicum) eingef¨uhrt [SW01].

Im Bereich derInformatik bezeichnet Ontologie ein Artefakt, das den Zeck hat, die Modellie-rung von Wissen ¨uber einen gewissen (realen oder imagin¨aren) Bereich zu erm¨oglichen [Gru09].

Eine viel zitierte Definition dazu, die noch immer G¨ultigkeit besitzt [Smi04], lautet:

”A conceptualization is an abstract, simplified view of the world that we wish to represent for some purpose . . . An ontology is an explicit specification of a concep-tualization.“ [Gru95]

Formal beschriebenes Wissen basiert auf einer solchen Begrifflichkeit (conceptualization) und enth¨alt die Objekte, Konzepte und anderen Gebilde, von denen man annimmt, dass sie in einem gewissen Bereich existieren, und die Beziehungen zwischen ihnen. Jede Wissensbasis und die darauf basierenden Systeme bedienen sich explizit oder implizit einer derartigen Begrifflichkeit [Gru95].

Eine Ontologie als Spezifikation einer Begrifflichkeit definiert ihrerseits Konzepte, Beziehun-gen und UnterscheidunBeziehun-gen, die n¨otig sind, um den Bereich zu modellieren. Sie spezifiziert Vokabular wie Klassen oder Mengen, Attribute bzw. Eigenschaften und Beziehungen zwi-schen Klassen und zwizwi-schen Elementen einer Klasse. Sie enth¨alt auch Informationen zu deren Bedeutung, Einschr¨ankungen und logisch konsistenten Anwendung [Gru09].

Die Ontologie spezifiziert auf einer semantischen Ebene das Vokabular, mit dem Agenten wie beispielsweise Softwareprogramme Wissen und Abfragen austauschen k¨onnen. Derart als Spezifikation einer Schnittstelle verstanden, stellt sie eine Sprache f¨ur die Kommunikation mit diesen Agenten dar [Gru09].

Der Begriff Ontologie wurde f¨ur eine große Zahl von Artefakten f¨ur die Strukturierung von Information verwendet, von Katalogen ¨uber Glossare und Thesauri bis zu Taxonomien und Mengen logischer Bedingungen [SW01]. Gruber geht sogar soweit zu sagen, dass Ontologien ein Werkzeug und Produkt der Technik sind und daher durch ihre Verwendung definiert sind [Gru09]. Auch werden sie oft mit Hierarchien von Klassen in Taxonomien gleichgesetzt, doch sie sind nicht auf diese Form beschr¨ankt [Gru95]. Eine Definition von Smith et al. [SKSC06]

zeigt jedoch, dass Taxonomien ein wichtiger Bestandteil einer Ontologie sind:

”An ontology is a representational artifact, comprising a taxonomy as proper part, whose representational units are intended to designate some combination of uni-versals, defined classes, and certain relations between them.“

EineTaxonomie wird definiert als graphen-theoretisches, begriffliches Artefakt in Baumform.

Die Knoten repr¨asentieren Klassen und Eigenschaften, die von allen dem Knoten zugeordne-ten Auspr¨agungen geteilt werden. Die Kanten zwischend den Knoten stellen

”ist ein“- oder Untermengen-Relationen dar [SKSC06].

4.2.2 Struktur

Die Grundstruktur der Daten des Open Directory Project entspricht eine Taxonomie, wie sie im vorangegangenen Unterabschnitt definiert wurde. Die Knoten des Baums repr¨asentieren dabei als Klassen die einzelnenThemengebiete, beim ODPTopic genannt. Deren Umfang und Bedeutung sind mit einem Wort oder einer kurzen Phrase festgelegt. Auf oberster Ebene des Baums finden sich beispielsweise die Topics

”Arts“,

”Business“,

”Computers“,

”Regional“ oder

”World“. In Abbildung 4.1 auf der n¨achsten Seite sind diese als Ovale dargestellt.

Die Kanten des Baums sind gerichtet und f¨uhren von ¨ubergeordneten Themen zu untergeord-neten. In der Web-Oberfl¨ache des ODP werden sie als Hyperlinks dargestellt. Bei den Kanten findet sich sowohl die Semantik einer

”ist ein“-Beziehung als auch die einer Untermengen-Relationen. So sind beispielsweise

”Cheese“ und

”Meat“ ein

”Food“ und daher diesem Thema untergeordnet. Das Thema

”Europe“ enth¨alt hingegen als thematisch untergeordnete Menge alle Staaten im geographischen Gebiet Europas. Doch nicht immer sind die Themen mathe-matisch so klar aufgeteilt. Gerade beim Thema

”Europe“ finden sich neben den Staaten auch Unterthemen wie

”Education“,

”Weather“ oder

”Government“, die Gesamteuropa betreffen.

Top

A free resource website ...

www.mediacollege.com link

Abbildung 4.1:Teile der Struktur des ODP-Verzeichnisses

Innerhalb von Themen wird teilweise zwischen drei Ebenen von Verweisen auf untergeord-nete Themen unterschieden. Diese Ebenen enthalten jeweils Unterthemen unterschiedlicher Relevanz und sind in der Weboberfl¨ache durch einen horizontalen Strich getrennt. Rund ein Drittel der Themen enth¨alt laut Gabrilovich und Markovitch [GM07] außerdem eine Beschrei-bung zu Bedeutung und Umfang, sowie Hinweise, welche Inhalte darin klassifiziert werden sollen.

Die konkreten Inhalte eines Themas sind seineVerweise (link) auf Web-Inhalte. Jeder dieser Verweise verf¨ugt ¨uber einen Link in Form einer URL, einen Titel und eine kurzen Beschreibung des Inhalts. Theoretisch k¨onnten in jeder Ebene Inhalte klassifiziert sein. In Wirklichkeit finden sich aber, mit Ausnahme der Hauptthemen

”Health“,

”News“ und

”Regional“, erst in der zweiten oder dritten Ebene Verweise auf Web-Inhalte.

Neben den durch die Baumform bedingten Beziehungen zwischen ¨ubergeordneten und unterge-ordneten Themen gibt es auch Kanten zwischen Knoten, die mehr als eine Ebene voneinander entfernt sind oder ¨uberhaupt in einem anderen Teilbaum liegen. Es lassen sich drei Typen identifizieren:

• Symbolische Verweise (symlink): diese Art von Verweisen erm¨oglicht den Benutzern mehrere Wege zu einem Thema zu w¨ahlen. Durch sie sind Inhalte oft auch mehr als einem Themenpfad zugeordnet. In der Web-Oberfl¨ache sehen symbolische Verweise wie normale Themen aus, in ihrem Namen befindet sich am Ende jedoch ein @-Symbol.

M¨oglich sind Verweise:

– im selben Teilbaum nach unten:

”Arts / Typography@“ zeigt auf

”Arts / Graphic Design / Typography“.

– im selben Teilbaum nach oben: erzeugt Zyklen, tritt aber ausgesprochen selten auf.

– ¨uber Teilb¨aume hinweg:

”Science / Museums@“ zeigt auf

”Reference / Museums / Science“. Erlaubt eine Mehrfachklassifizierung von Inhalten und kann ebenfalls zu Zyklen f¨uhren.

• Querverweise (related): sie verweisen auf andere, verwandte Themen. Beispielsweise findet sich in

”Computers“ ein Verweis zu

”Business / Information Technology“. In der Web-Oberfl¨ache werden sie in einem getrennten Abschnitt mit dem Titel

”See also:“

angezeigt.

• Sprachverweise: sie verweisen auf eine unter dem Hauptthema

”World“ vorhandenen Zweig der jeweiligen Sprache und dort auf das entsprechende Theme in der ¨Ubersetzung.

In ”Recreation“ befindet sich so unter anderem der Verweis auf

”World / Deutsch / Freizeit“. Auch sie werden in der Web-Oberfl¨ache in einem getrennten Abschnitt mit dem Titel

”This category in other languages:“ angezeigt.

Laut einer aktuellen Untersuchung [Per08] verdoppelt sich bei der Ber¨ucksichtigung symbo-lischer Verweise die durchschnittliche Zahl der einem Thema untergeordneten Themen. Den meisten Anteil daran haben mit mehr als 97% Verweise ¨uber Teilb¨aume hinweg. 89% die-ser Verweise bleiben aber trotzdem im Teilbaum des jeweils obersten Themas. Bei 77% der Verweise sind zumindest die ersten zwei Ebenen gleich.

Diese Abweichungen von der Baumform sind der Grund, weshalb das Verzeichnis des Open Directory Project nicht als reine Taxonomie angesehen werden kann und dem umfassenderen Konzept einer Ontologie zugeordnet werden muss. Die anwendungsspezifische Semantik der Verweise ist ebenfalls ein Grund f¨ur diese Klassifizierung.