Modellierungsmethoden - Adaptive Suche mit thematischen Ontologien

2.4 Anwendungen

3.2.3 Modellierungsmethoden

In 2.2.2 kamen bereits die allgemeinen Modellierungsmethoden zur Sprache. Einige davon werden nun f¨ur die adaptive Suche konkretisiert. Dar¨uber hinaus gibt es diesem Bereich noch ein paar erw¨ahnenswerte Unterscheidungen von m¨oglichen Methoden zur Modellierung, welche ebenfalls erl¨autert werden.

Modelle k¨onnen manuell durch Benutzer oder Experten erstellt werden. Dies ist jedoch schwie-rig und zeitaufw¨andig. Automatische Methoden zum Erstellen und Aktualisieren sind daher sehr viel beliebter und dar¨uber hinaus weniger aufdringlich f¨ur den Benutzer. Vor vollst¨andig automatisierter Modellerstellung wird aber gewarnt und statt dessen empfohlen, wenigstens Benutzerfeedback mit minimalem Aufwand zu gewinnen [GSCM07].

Da in den Modellen f¨ur adaptive Suchsysteme zumeist Benutzerinteressen gespeichert sind, sind auch kaum Ans¨atze mit Stereotypen zu finden. Anand und Mobasher [AM05] nennen jedoch als einen m¨oglichen Nachteil, dass so die Chance des zuf¨alligen Entdeckens relevan-ter, aber nicht notwendigerweise zum eigenen Interensprofil passender Informationen verloren geht. Einer zu starken Fokussierung auf das eigene Modell kann mit Gruppenmodellen entge-gengewirkt werden.

Beachtet werden m¨ussen auch dasLatenzproblem und das des

”Cold Start“. Ersteres tritt auf, wenn ein Benutzer, noch bevor das System die n¨otigen Daten f¨ur eine sinnvolle Personalisie-rung sammeln konnte, die Benutzung wieder aufgibt. Dieses Problem kann auch f¨ur neue ins System gebrachte Objekte (Dokumente, Produkte, . . . ) entstehen und so verhindern, dass diese gefunden werden. Das

”Cold Start“ Problem kann nach der Installation des Systems auf-treten, wenn dieses noch keinerlei Informationen enth¨alt [AM05]. In allen drei F¨allen k¨onnen sinnvolle Startwerte helfen, beispielsweise durch Gruppenmodelle oder Initialisierungen aus stereotypischen Modellen.

Zuvor schon kurz erw¨ahnt wurde auch das Problem der sparsity, das bei Suchsystemen ver-mehrt auftritt. Aufgrund der großen Zahl an Produkten / Dokumenten, Schl¨usselw¨ortern und

Themen in Taxonomien und Ontologien ist das Benutzermodell im Verh¨altnis zu seiner m¨ og-lichen Gr¨oße auch nach viel Benutzerfeedback nur zu einem kleinen Teil gef¨ullt. F¨ur neue Suchen k¨onnten daher die n¨otigen Informationen fehlen [AM05]. Durch das automatische Ableiten von Werten im Benutzermodell aus schon vorhanden und ein dadurch erreichtes Vergr¨oßern der Datenbasis (z. B. durch eine

”interconcept interest propagation“) kann diesem Problem begegnet werden [BM07].

3.2.4 Informationen zum Benutzer sammeln

Eine der wichtigsten Aufgaben, um effektive Personalisierung bieten zu k¨onnen, ist das Sam-meln von Daten ¨uber den Benutzer und seine Pr¨aferenzen. Anhand von Benutzerfeedback k¨ on-nen diese Informatioon-nen f¨ur die Modellierung gewonnen werden. Wie in Unterabschnitt 2.2.3 erw¨ahnt, ist das Feedback auch bei der adaptiven Suche auf zwei Arten m¨oglich: explizit oder implizit [MGSG07].

Implizites Sammeln von Informationen beeintr¨achtigt den Benutzer dabei nur wenig und hat daher bessere Chancen, auch genutzt zu werden. Studien haben außerdem gezeigt, dass diese Methode ¨ahnlich gut funktioniert wie explizite Informationssammlung. Andere Ergebnisse deuten darauf hin, dass eine Kombination der beiden Methoden noch bessere Ergebnisse liefert. Ein Ansatz zum Kombinieren ist hierbei, das explizite Feedback st¨arker zu gewichten [GSCM07].

Explizite Informationen

Die in 2.2.3 beschriebenen, allgemeinen Kategorien expliziter Information finden mit Ausnah-me von

”Antworten auf Testfragen“ auch bei der adaptiven Suche ihre Anwendung. Benutzer k¨onnen ihre Interessen, Intentionen und Information ¨uber sich bei der Registrierung oder w¨ahrend der Nutzung des Systems angeben. G¨angige Methoden dazu sind Frageb¨ogen und Bewertungen [MGSG07]. Spezifische Bewertungen, insbesondere der vom Suchsystem zur¨ uck-gegebenen Ergebnisse, k¨onnen von den Benutzern ebenfalls explizit vorgenommen werden [GSCM07]. Doch Studien zeigen, dass ohne greifbaren Nutzen f¨ur die Benutzer, diese mehr Ergebnisse betrachen als sie schlussendlich bewerten [AM05].

Alle expliziten Methoden der Informationsgewinnung haben den Nachteil, dass sie die Zeit des Benutzers in Anspruch nehmen und er bereit sein muss, mitzumachen. Aus diesem Grund, und auch aufgrund von Bedenken bez¨uglich ihrer Privatsph¨are, k¨onnen Benutzer es ablehnen, Informationen zu liefern. Ihre Angaben k¨onnen auch ungenau sein und, sollte ihr Modell nicht regelm¨aßig aktualisiert werden, mit der Zeit ungenau werden. Manchmal k¨onnen Benutzer aber durchaus Vergn¨ugen daran finden, Feedback zu geben, beispielsweise auf Seiten f¨ur Film-, Musik- oder Buchkritiken [GSCM07].

Implizite Informationen

Viele adaptive Suchsysteme verwenden implizite Informationen ¨uber den Benutzer durch die in 2.2.3 genannten

”Nat¨urlich auftretende Aktionen“. Hierbei wird das Verhalten des Benutzers beobachtet und mitverfolgt, ohne dass dieser bewusst sein Feedback gibt. Nutzungsdaten k¨ on-nen dazu auf der Serverseite (Logs, Anfragen, Navigationspfade) und/oder am Client (Brow-serverlauf, Interaktionen wie Klicken oder Scrollen, . . . ) gesammelt werden [MGSG07].

Gauch et al. [GSCM07] nennen konkrete Quellen und ihre Vor- bzw. Nachteile, wobei die in allen F¨allen mehr oder weniger stark gegebenen Risiken f¨ur die Privatsph¨are nicht explizit erw¨ahnt werden:

• Browser Cache: der Verlauf der besuchten Seiten kann mit ihm ermittelt werden. Die-ser ist eine h¨aufig genutzte Quelle von Information ¨uber die Interessen des Benutzers.

Der Benutzer muss dazu nichts installieren, aber regelm¨aßig den Cache zur Analyse hochladen.

• Proxy Server: dieser kann die Internet-Aktivit¨aten des Benutzers verfolgen. Auch die Zeit, die der Benutzer auf den einzelnen Seiten verbringt, kann (mit einer gewissen Fehlerwahrscheinlichkeit) bestimmt werden. Die Methode ist ein guter Kompromiss, weil sie den Benutzer nur wenig beeintr¨achtigt aber trotzdem viele Informationen sammelt.

• Browser-Agent: auch hier k¨onnen die Internet-Aktivit¨aten des Benutzers aufgezeichnet werden, sogar mit Informationen zu den Aktivit¨aten auf den einzelnen Seiten. Anand und Mobasher [AM05] erw¨ahnen eine Studie, nach der die Verweilzeit und die H¨aufigkeit von Scrollen n¨utzliche Indikatoren f¨ur das Interesse sind. Nachteil dieses Verfahrens ist, dass der Benutzer Software installieren und der Hersteller diese auch warten muss.

• Arbeitsplatz-Agent: dieser kann alle Interaktionen am Rechner des Benutzers aufzeich-nen. Die gesamten Aktivit¨aten und alle ge¨offneten Dateien und Webseiten plus deren Inhalt stehen so zur Verf¨ugung, eventuell sogar f¨ur mehrere adaptive Anwendungen.

Auch hier muss der Benutzer spezielle Software installieren, die vom Hersteller erst entwickelt und anschließend gewartet werden muss.

• Zugriffsprotokolle: die Zugriffe der Benutzer auf eine bestimmte Website werden analy-siert. So stehen gleich f¨ur mehrere Benutzer auf einmal Informationen zur Verf¨ugung. Da diese jedoch nur von einer Website stammen, kann die tats¨achliche Menge sehr gering ausfallen.

• Suchprotokolle: Suchaktivit¨aten werden bei einer Suchmaschine mitprotokolliert. Diese Informationen k¨onnen sogleich f¨ur die Adaption verwendet werden. Der Benutzer muss dazu ¨uber ein Login oder Cookies eindeutig identifiziert sein, hat aber sonst keinen Aufwand.

Untersuchungen zeigten, dass das Benutzermodell umso genauer war, je mehr Informationen gesammelt wurden. Am genauesten war dieses mit Daten aus einem Arbeitsplatz-Agenten

¨uber alle Dateien, gefolgt von einem ¨ahnlichen Agenten f¨ur k¨urzlich betrachtete und bearbei-tete Dateien und Informationen zu besuchten Webseiten. Das ungenaueste Modell entstand aus den Suchprotokollen, aber selbst dieses lieferte bessere Ergebnisse als eine nicht persona-lisierte Suche [GSCM07].

Ein Problem bei der impliziten Sammlung von Daten ist, dass die meisten Beobachtungen positiver Art sind. Das System muss eine Heuristik anwenden, um negative R¨uckmeldungen zu erkennen. Gerade bei adaptiven Systemen f¨ur Empfehlungen kann negatives Feedback die Effektivit¨at stark verbessern [AM05].

Im Dokument Adaptive Suche mit thematischen Ontologien (Seite 42-45)