• Keine Ergebnisse gefunden

Die nat¨urliche und intuitive Bedienung eines Bilddatenbanksystems ist eines der wichtigsten Ziele, das im INDI-Projekt verwirklicht werden soll. Auch hier ist dieses Ziel durch die Kom-bination einiger Teilziele zu erreichen. Aspekte wie die Erstellung der Suchanfrage und die Interaktion bei dem iterativen Suchprozess wurden bereits im Abschnitt 3.2 angesprochen. In diesen F¨allen wird durch eine einfache und durchschaubare Interaktion versucht, technische Details zu kapseln und diese damit vom Benutzer fern zu halten, um Verwirrungen oder eine Uberforderung zu vermeiden.¨

Die Verwendung der Modalit¨aten, die bei einer nat¨urlichen zwischenmenschlichen Kommuni-kation eingesetzt werden, ist die Idee, um die Interaktion mit dem System zu vereinfachen, sie leichter durchschaubar zu gestalten und damit die Menge potentieller Systembenutzer zu vergr¨oßern. F¨ur die Realisierung dieses Ziels sollen Gestik und Sprache als Interaktionskan¨ale f¨ur die Steuerung des Systems verwendet werden. Die Systemreaktionen sollen auf dem Stan-dardkanal Monitor dem Benutzer pr¨asentiert werden.

Obwohl multimodale Systeme im Allgemeinen durch die M¨oglichkeit, Mehrdeutigkeiten besser aufl¨osen zu k¨onnen, robuster arbeiten [Ovi99], k¨onnen falsch eingesetzte Modalit¨aten auch zu Verwirrungen und damit Ablehnung f¨uhren. Mit der Kombination der inhaltsbasierten iterativen Bildsuche und der multimodalen Bedienung des Systems ist die hier vorgestellte Entwicklung zur Zeit einzigartig, so dass bez¨uglich des genauen Einsatzes der unterschiedlichen Modalit¨aten auf keinerlei Erfahrung zur¨uckgegriffen werden kann. Die bewusst einfach gehaltene Interaktion mit dem System verlangt, dass die folgenden Aufgaben unter Verwendung der genannten Kan¨ale m¨oglichst einfach und intuitiv durchgef¨uhrt werden k¨onnen.

1. Navigation durch die Bildmenge des Suchergebnisses bzw. der initial pr¨asentierten Bilder und deren Bildregionen

2. Bewertung dedizierter Bildobjekte 3. Ausl¨osen einer Suchiteration

4. Administrative Aufgaben, wie beispielsweise das Beginnen einer anderen Bildsuche Mit der Erstellung der Suchanfrage, die jedoch bei manchen Systemen entf¨allt, weil sie im-plizit durch die Abgabe von Bewertungen durchgef¨uhrt wird (siehe zum Beispiel PicSOM auf Seite 8), sind es f¨unf Aktionsgruppen, die zu ber¨ucksichtigen sind.

Im Gegensatz zum Spracherkenner, der lediglich mit einem Lexikon auf den speziellen Einsatz in einer Bilddatenbank vorbereitet werden muss, ist die Gestalt der Gestenerkennung nicht so einfach festzulegen. Im Hinblick auf die oben aufgez¨ahlten Aufgaben k¨onnen lediglich zwei T¨atigkeiten, die mit den H¨anden bzw. Armen ausgef¨uhrt und mit einer oder mehreren Kameras beobachtet werden, als nat¨urlich bezeichnet werden. Hierbei handelt es sich haupts¨achlich um Zeigegesten zum Referenzieren von angezeigten Bildern und des Weiteren um formbeschrei-bende Gesten. Das in Abbildung 3.9 vorgestellte Szenario zeigt ein System, das die genannten Interaktionen erlauben w¨urde. Der Benutzer der Datenbank steht vor einer Projektionswand,

3.5 Multimodale und nat¨urliche Interaktion

Benutzer/Bediener Kamera

Kamera

Projektionsleinwand

Projektor

Abb. 3.9: Erkennung nat¨urlicher Gesten:In diesem Szenario kann der Benutzer frei und ohne Tragen von technischen Hilfsmitteln mittels Gestik, die mit den H¨anden ausgef¨uhrt wird, mit dem System interagieren. Die Bedienungsoberfl¨ache wird vom Projektor auf die Wand im linken Teil der Abbildung geworfen. Die neben der Projektionswand angebrachten Kameras liefern den zur Gestenerkennung notwendigen Datenstrom.

auf der die Datenbankoberfl¨ache dargestellt wird. Die T¨atigkeiten werden von zwei Videoka-meras beobachtet, die neben der Projektionswand in unterschiedlicher H¨ohe befestigt sind.

Die Auswertung muss mit mindestens zwei Kameras erfolgen, um Ungenauigkeiten bei der Bestimmung des Zeigepunkts zu verkleinern. Die Gestenerkennung basiert im Allgemeinen auf der Erkennung von hautfarbenen Regionen und ist damit stark beleuchtungsabh¨angig. Das hier gezeigte System ist davon insbesondere betroffen, da der Benutzer im Schein des Lichts des Projektors steht. Dem kann durch den Einsatz einer R¨uckwandprojektionstechnik oder eines entsprechend großen Displays entgegengewirkt werden. In einem solchen Szenario kann das System nach entsprechender Kalibrierung freie Zeige-, Form- oder gr¨oßenbeschreibende Gesten erkennen, ohne dass der Benutzer weitere technische Gegenst¨ande am K¨orper anlegen muss.

Die Erstellung eines solchen Systems wird mit einem hohen Preis erkauft. Zum einen handelt es sich um die finanziellen Kosten der Anschaffung der zur Realisierung notwendigen technischen Ger¨ate, zum anderen aber ist der Aufwand sehr hoch, die Robustheit der Gestenerkennung zu erhalten. Sollen mehrere Benutzer gemeinsam das System bedienen, ist der technische Aufwand wiederum erheblich h¨oher.

Viel einfacher und mit wenigen Einschr¨ankungen k¨onnen die oben genannten T¨atigkeiten durch den Einsatz eines Touchscreen-Displays erkannt werden. Eine Zeigegeste wird hier durch das Tippen auf die Display-Fl¨ache realisiert, formbeschreibende Gesten k¨onnen durch Anfertigen von Skizzen durchgef¨uhrt werden, wobei ein Finger des Benutzer hier als virtueller Stift fun-giert. Die gleichzeitige Bedienung des Systems von mehreren Benutzern ist abgesehen von den meist deutlich kleineren Abmaßen eines Touchscreen-Displays ohne weiteren Aufwand m¨oglich. Ein Touchscreen-Display ist bereits in ein g¨angiges Computer-System integriert und kann als Maus-Ersatz dienen. Durch diesen Aspekt motiviert, erscheint es durchaus sinnvoll, die Bedienoberfl¨ache mit Standardbedienelementen an bestimmten Stellen zu erg¨anzen.

Einsatz der Modalit¨aten

Die eingesetzten Modalit¨aten sind bez¨uglich der einzelnen Interaktionen nicht gleichwertig.

Bestimmte Aspekte lassen sich sprachlich einfach formulieren aber nicht mit einer Geste aus-dr¨ucken. Bei anderen Aspekten ist dies nahezu umgekehrt. Vor allem r¨aumliche Gegebenheiten sind durch Zeigegesten besonders einfach auszudr¨ucken wohingegen der Einsatz der Sprache hier erheblich umst¨andlicher werden kann.

Die Erstellung der Suchanfrage ist an die Wahl des Suchsystems anzupassen. Bei einer Bei-spielsuche muss lediglich ein Beispielbild ausgew¨ahlt werden. Zur L¨osung dieser Aufgabe bietet sich der klassische komplement¨are Einsatz der Modalit¨aten Sprache und Gestik an. W¨ahrend auf das gew¨unschte Bildobjekt gezeigt wird, erkl¨art der Benutzer, welche Aktion mit dem Bild durchgef¨uhrt werden soll. In diesem Fall ist das die Auswahl des Bildes als Beispielbild.

Dementsprechend ist bei der Bewertung von Bildern zu verfahren.

Handelt es sich hier um ein Suchsystem, das mit Objekten, die zum Beispiel von einem Objek-terkenner automatisch detektiert wurden, arbeiten kann, dann ist es m¨oglich, die Suchanfrage durch die Erstellung einer Skizze durchzuf¨uhren, wobei diese Aktion durch eine entsprechende sprachliche Instruktion eingeleitet werden kann.

Die administrativen Aufgaben, das Durchf¨uhren einer Suchiteration und die Navigation in dem Suchergebnis, k¨onnen nur durch eine Sprachinteraktion ausgel¨ost werden. Alternativ bietet es sich bei dem Einsatz eines Touchscreen-Displays an, f¨ur diese Aktionen Schaltfl¨achen und an-dere Dialogelemente zur Verf¨ugung zu stellen. Wenn zur Darstellung des Suchergebnisses keine Listenform, sondern beispielsweise eine zweidimensionale distanzgetreue Darstellung gew¨ahlt wird, k¨onnte die Navigation durch einen virtuellen Flug durch den sich ergebenen Raum ange-boten werden. Hierbei kann die Bewegungsrichtung durch Zeigegesten sowie Geschwindigkeit und Zoom durch sprachliche Eingaben festgelegt werden. Entgegen der ansonsten einzuhal-tenden Einschr¨ankung der dem Benutzer zuzumutenden Bildmenge k¨onnen hier alle Bilder der Datenbank pr¨asentiert werden.

St¨arkung der Bedienung durch Gesten

Als alternative Interaktionen bieten sich bei dem Einsatz eines Touchscreen-Displays so genann-te Touchscreen-Gesgenann-ten zur Ingenann-tegration in das Sysgenann-tem an. Solche Gesgenann-ten sind an das Ausf¨ullen von Formularen angelehnt. Bei der Auswahl der Lottozahlen beispielsweise wird die Selektion der Zahlen durch das Zeichnen eines Kreuzes auf der entsprechenden Zahl kenntlich gemacht.

Diese Technik kann bei der Auswahl bestimmter Aktionen, die die Bilder betreffen, eingesetzt werden.

Dieses Angebot des alternativen Ausl¨osens bestimmter Aktionen steigert die Flexibilit¨at bei der Benutzung und kommt Vorlieben der Benutzer entgegen. Die Interaktion am Touchscreen gewinnt aber vor allem durch den Einsatz dieser Technik, denn f¨ur die in Kapitel 7 beschrie-bene Evaluation, sollte das System unter anderem ausschließlich in dieser Modalit¨at betrieben werden.