Version 2 – Probabilistischer Ansatz

5.2 Bisherige Entwicklung

5.2.2 Version 2 – Probabilistischer Ansatz

Die Ergebnisse der Evaluierung der ersten Version von Prospector deuteten auf klare Verbes-serungspotenziale hin. Aus diesem Grund wurde eine zweite Version entwickelt, die anstelle der unbeschr¨ankten Gewichte und Punkte mit einem probabilistischen Ansatz (Details fol-gen) arbeitete. Auch bei der Klassifizierung der Ergebnisse gab es Neuerungen, ebenso bei der Benutzerschnittstelle. Diese Version wurde erneut einer (diesmal gr¨oßer angelegten)

Eva-luierung unterzogen. Mehr Informationen enth¨alt neben den folgenden Erl¨auterungen auch die entsprechende Publikation [PKSvV08].

Ziele

Das Hauptziel dieser Version war, die Modellierung und Relevanzberechnung in den Wertebe-reich zwischen Null und Eins zu verlegen und dadurch f¨ur die Benutzer in Form von Prozent-zahlen leichter verst¨andlich zu machen. Entsprechende ¨Anderungen der Benutzerschnittstelle waren ebenfalls geplant. Mit Feinarbeiten am Algorithmus sollte das Verhalten des Systems zus¨atzlich durchschaubarer und flexibler werden.

Datenquelle

Auch in dieser Version stammten die Suchergebnisse von Google und wurden ¨uber dessen Search APIabgefragt. Aufgrund einer ¨Anderung durch Google enthielten die Ergebnisse aber nicht mehr die Klassifizierung nach ODP. In einem ersten Schritt wurde daher versucht, mittels screen scraping Daten von der Seite des Open Directory Projecthttp://www.dmoz.

org zu beziehen. Dabei wurden die Anfragen direkt an das CGI-Skript zur Suche gesendet und die zur¨uckgegebenen HTML-Seite mit einem Parser analysiert. Dieser Ansatz stellte sich aber als wenig effizient, fehleranf¨allig und nicht zukunftssicher dar.

Wie bereits in Unterabschnitt 4.3.2 erw¨ahnt, bietet ODP die Daten seiner Ontologie in einem zum RDF ¨ahnlichen Format frei zum Herunterladen an. Mit dem Import dieser Daten in eine lokale Datenbank war Prospector fortan unabh¨angig von den Klassifizierungsdaten in den Google-Ergebnissen und der Online-Verf¨ugbarkeit des ODP-Dienstes.

Obwohl Webseiten auch in mehr als einer Kategorie klassifiziert sein k¨onnen, verwendete der Algorithmus als Vereinfachung in dieser Version von Prospector nur jene Kategorie mit den meisten Eintr¨agen. Der Gedanke dahinter war, dass eine Kategorie mit mehr Eintr¨agen (also mehr Webseiten, die in ihr klassifiziert sind) relevanter ist als jene mit weniger. Wie die Evaluierung zeigte, hielt diese Annahme leider nicht.

Algorithmus

Der Algorithmus in dieser Version von Prospector basierte auf Wahrscheinlichkeiten, intern ausgedr¨uckt in Fließkommazahlen im einschließenden Intervall zwischen Null und Eins und dem Benutzer als Prozentzahl zwischen 0% und 100% angezeigt. Sowohl f¨ur die Gewichtungen im Modell als auch die errechneten Relevanzen war die Idee f¨ur die Bedeutung der Wahrschein-lichkeit folgende: 0,5 (50%) bedeutet Indifferenz beim Interesse bzw. keine klare Aussage bei der Relevanz. Werte ¨uber 0,5 zeigen ein verst¨arktes Interesse am damit gewichteten Thema an bzw. bezeichnen Ergebnisse mit h¨oherer Relevanz. Bei Werten unter 0,5 ist die Bedeutung umgekehrt.

Abbildung 5.8:Prospector Version 2 – Farbliche Unterst¨utzung bei der Angabe der Interessen

Der verbesserte Algorithmus sorgte zus¨atzlich mit einernicht-linearen Ver¨anderung der Wahr-scheinlichkeiten beim Bewerten eines Ergebnisses daf¨ur, dass sich die Gewichte im Modell rund um 0,5 schnell ver¨andern, zu den R¨andern hin jedoch immer langsamer. Damit sollte verhindert werden, dass schon l¨anger bestehende Interessen durch kurzfristige Bewertungen unverh¨altnism¨aßig stark ver¨andert werden. Noch nicht gewichtete Themen sollten jedoch schnell in eine gewisse Richtung tendieren k¨onnen. Details zum Algorithmus von Prospector finden sich weiter unten in Abschnitt 5.5.

Benutzerschnittstelle

Bis auf die farbliche Unterst¨utzung bei der Angabe der Interessen und somit dem Grad der Zugeh¨origkeit zu einer Gruppe (siehe Abbildung 5.8) waren die meisten ¨Anderungen der Benutzerschnittstelle durch die Umstellung auf den probabilistischen Ansatz bedingt. In Ab-bildung 5.9 auf der n¨achsten Seite sieht man die Anzeige der Relevanz nun als Prozentzahl.

Abbildung 5.9:Prospector Version 2 – Anzeige der Relevanz in Prozent

Der nunmehr fixierte Wertebereich bei den Gewichtungen der Themenbereiche im Benutzer-modell machte es auch m¨oglich, die ¨Anderung derselben benutzerfreundlicher zu gestalten.

Abbildung 5.10 auf der n¨achsten Seite zeigt die dazu verwendeten Schieberegler, mit der ein Wert von 0% bis 100% eingestellt werden konnte. Ebenfalls neu war, dass die Ebenen der Themen-Hierarchie durch Steuerungselemente, wie man sie von anderen baumartigen Struktu-ren (z. B. ein Ordnerbaum im Dateimanager) kennt, ein- und ausgeklappt werden konnten.

Evaluierung

Diese zweite Version von Prospector wurde in den Niederlanden in einer kontrollierten Umge-bung (Labor) evaluiert (Details zur Evaluierung finden sich in Abschnitt 7.1). Eingebettet war diese Evaluierung in eine gr¨oßere Studie zur Evaluierung von adaptiven Systemen. Die Ziele speziell f¨ur das Prospector-Projekt waren, zu erforschen, ob und warum die personalisierte Suche effektiv ist. Weiters sollten Probleme mit der Benutzerschnittstelle und dem Interak-tionsdesign sowie jene bei der Implementierung der Personalisierungsfunktionen identifiziert werden.

Die Ergebnisse der Evaluierung gaben gute Hinweise, wo Prospector noch weiter verbessert werden musste. Die Mehrheit der Teilnehmer hatte grunds¨atzlich eine positive Einstellung gegen¨uber der Personalisierung. Sie sahen den Mehrwert vor allem f¨ur pers¨onliche Suchen und Suchen nach etwas, das sie wirklich interessiert. Die Informationen zu ihren Interessen

Abbildung 5.10: Prospector Version 2 – Modellbearbeitung mit Schiebereglern

im Modell erachteten sie als nicht sensibel und sahen daher ihre Privatsph¨are auch nur wenig beeintr¨achtigt.

Probleme bereitete der Bereich zum Bewerten von Ergebnissen (siehe Abbildung 5.5 auf Seite 58). Dieser war als HTML-Frame gestaltet und manche Seiten (z. B. Wikipedia) verhin-derten seine Anzeige, weil sie sich selbst als oberste Seite im Browserfenster setzten (

”frame breakout“). Dar¨uber hinaus wurde der Bereich von einigen Benutzern nicht korrekt oder ¨ uber-haupt nicht verwendet. Es konnte beobachtet werden, wie Benutzer die

”Zur¨uck“-Schaltfl¨ache des Browsers nutzten, um von einer Ergebnisseite zur¨uck zur Ergebnisliste zu gelangen, und anschließend die Schaltfl¨ache

”Unsuitable“ w¨ahlten, um das Ergebnis negativ zu bewerten.

Schwierigkeiten gab es auch beim Verst¨andnis der Skala zum Angeben es Interesses an einer Gruppe. Ein Teilnehmer verstand diese nicht als Abstufung des Interesses von wenig bis viel sondern von Desinteresse bis starkes Interesse. Auch die Prozentzahlen bei der Skala im Benutzermodell sorgten f¨ur Verwirrung. Ebenfalls als problematisch identifiziert werden konnte die Heuristik, die f¨ur jede klassifizierte Seite nur das relevanteste Thema liefern soll. Sie funktionierte nicht immer wie gew¨unscht und f¨uhrte zu offensichtlichen Fehlklassifikationen.

Insgesamt konnten viele Punkte gefunden werden, die verbesserungsw¨urdig waren. Einige davon wurden in der dritten Version von Prospector behoben. An den jeweiligen Stellen wird daher auf die Evaluierung zur¨uck verwiesen werden.

Suchmaschine

Abbildung 5.11:Grundlegender Ablauf von Suchanfragen und Bewertungen

Im Dokument Adaptive Suche mit thematischen Ontologien (Seite 72-77)