Export der Ontologie - Daten in der ODP-Ontologie

4.3 Daten in der ODP-Ontologie

4.3.2 Export der Ontologie

Das Open Directory Project erm¨oglicht den kostenlosen Download aller seiner Daten. Jede Woche wird der gesamte Datenbestand exportiert und kann heruntergeladen werden. Zu die-sem Zweck sind die Struktur und der Inhalt des Verzeichnisses getrennt. Gespeichert sind beide Teile in einem dem Resource Description Framework ¨ahnlichen Format.

Das Resource Description Framework (RDF) ist eine unter anderem in XML ausdr¨uckbare Sprache zur Beschreibung von Ressourcen. Man kann damit in einer standardisierten Form Metadaten zu beliebigen Ressourcen definieren. Festgelegt ist RDF in einer durch das World Wide Web Consortium (W3C) entwickelten Spezifikation. Es ist einer der Grundbausteine f¨ur das Semantic Web [Wor04].

Die Daten des ODP geben in ihrem Kopfelement zwar an, dass sie im RDF-Format sind, doch Versuche, sie mit einem entsprechenden Parser einzulesen, schlugen fehl. Auf der Seite des Downloads findet sich hierzu leider kein Hinweis, lediglich in einem Protokoll zu ¨Anderungen des Formats [ODP08].

Die oben besprochene Struktur der Daten (siehe Unterabschnitt 4.2.2) wird im Struktur-Dokument wiedergegeben. Ein Auszug daraus findet sich in Code 4.1 auf der n¨achsten Seite.

In ihm werden die Themenbereiche oberster Ebene definiert. Zu diesem Zweck gibt es das Wurzel-Thema

”Top“. Es besitzt die ID mit der Zahl 1 und den Titel

”Top“. Mit dem Element narrowwerden die Beziehungen zu den untergeordneten Themen angegeben.

< T o p i c r: id =" Top ">

Code 4.1:ODP-Datenexport – Definition der obersten Themen

Code 4.2 zeigt die Definition eines der Hauptthemen. Bei diesem sieht man zus¨atzlich einen alternativen Namen f¨ur die Anzeige (dispname) und f¨ur die AOL Suche (aolsearch), sowie eine kurze Beschreibung des Themenbereichs.

...

Code 4.2: ODP-Datenexport – Definition eines Themas im Detail

Es werden wiederum Beziehungen zu untergeordneten Themen definiert. Das Element nar-row1 ist hierbei ¨ahnlich zu narrow, hat jedoch eine h¨ohere Priorit¨at. Diese Themen werden in der Web-Oberfl¨ache weiter oben angezeigt. Ein symbolischer Verweis (symbolic1) wird definiert. Er verweist auf einAlias-Element weiter unten, in dem spezifiziert wird, dass das Thema

”Pets“ auf

”Top / Recreation / Pets“ zeigen soll.

Auf verwandte Themen zeigen Querverweise, die mit dem Elementrelateddefiniert werden.

Sie werden im Gegensatz zu symbolischen Verweisen nicht als eigene Themen angesehen und besitzen daher auch keinen Namen sondern nur ein Zielthema. Ebenfalls definiert werden mit altlangdie Verweise zu dem selben Thema in verschiedenen Sprachen.

< T o p i c r: id =" Top / Ho me / A p a r t m e n t _ L i v i n g ">

Code 4.3:ODP-Datenexport – Definition von Verweisen auf Web-Inhalte

In Code 4.3 sieht man schließlich, wie im Inhalt-Dokument die zu den jeweiligen Themen klassifizierten Web-Inhalte spezifiziert werden. Die Ressource wird in einem link-Element definiert und anschließend in einem ExternalPage-Element noch mit einem Titel und einer Beschreibung versehen. Das Element topic gibt an, f¨ur welchen Pfad diese Definition gilt.

Bei Inhalten, die in mehreren Themen klassifiziert sind, ist diese Zuordnung wichtig.

Prospector

In Kapitel 1 wurde Prospector bereits vorgestellt und aus Sicht eines Anwenders beschrieben.

Nach einern anf¨anglichen Erl¨auterung der dem System zugrunde liegenden Idee aus einer anderen Perspektive wird nun zuerst die bisherige Entwicklung von Prospector umrissen.

N¨aher beschrieben werden die ersten beiden Versionen mit ihren jeweiligen L¨osungsans¨atzen, was die Datenquellen, Algorithmen und die Benutzerschnittstelle betrifft.

Nachdem in den Kapiteln 2 und 3 die Grundlagen adaptiver System und personalisierter Suche besprochen wurden, k¨onnen Idee und Funktionsweise der zweiten Version von Prospector nun auch im Detail behandelt werden. Beschrieben wird somit jener Stand, der als Ausgangspunkt f¨ur die im n¨achsten Kapitel erl¨auterten Erweiterungen diente. Dabei wird insbesbesondere auf die Mechanismen der Benutzermodellierung und der Personalisierung eingegangen. Die Algorithmen und ihre mathematischen Grundlagen werden ebenfalls erl¨autert.

5.1 Grundidee

Prospector realisiert eineadaptive Meta-Suche f¨ur Suchmaschinen wie beispielsweise Google.

Das System arbeitet auf einer ¨uber diesen Suchmaschinen angeordneten Schicht und kapselt sie. Dabei ist Prospector nicht auf Web-Suche beschr¨ankt, sondern modular gestaltet und erweiterbar. Der Algorithmus und die unterst¨utzenden Programmstrukturen sind großteils unabh¨angig von der darunterliegenden Suchmaschine und den Eigenschaften der durch sie gelieferten Ergebnisse.

Prospector kann mit jedem Suchsystem, f¨ur das semantische Informationen zu den Ergeb-nissen in Form einer Ontologie vorliegen, eingesetzt werden. Ein m¨ogliches Einsatzgebiet w¨are beispielsweise mit einem Suchsystem in Bibliotheken, das zu jedem Ergebnis auch eine Klassifizierung in einem gewissen Schema liefert. Ebenfalls vorstellbar ist der Einsatz bei der Bildersuche, wo Dienste wie iStockphoto¹eine umfangreiche Kategorisierung der angebotenen Bilder vornehmen. Auch beiMusiksuchmaschinen k¨onnen zu den Titeln mit einer Ontologie zus¨atzliche Metadaten wie Genre, Herkunftsland oder Entstehungszeit festgelegt sein.

1http://www.istockphoto.com

Vom Suchsystem ¨ubernimmt Prospector die Ergebnisse, reichert sie selbst¨andig mit semanti-schen Informationen an und personalisiert sie f¨ur den Benutzer durch Umreihen. Die Grund-lage f¨ur diese Personalisierung liefern das Benutzermodell und die Modelle der Gruppen, deren Mitglied der Benutzer ist. Insofern bedient sich Prospector zweier Quellen zum Ver-bessern der Reihung der Suchergebnisse: der semantische Informationen zu den einzelnen Ergebnissen der Suche und der Pr¨aferenzen der Benutzer beziehungsweise deren Aggregation in Gruppenmodellen. Details zu den adaptiven Funktionalit¨aten von Prospector finden sich in Abschnitt 5.4.

Im Dokument Adaptive Suche mit thematischen Ontologien (Seite 63-67)