27. Vorlesung: Embodied Conversational Agents (und erste eigene Arbeiten)

(1)

UniversitŠt Bielefeld

9 Ausgewählte Themen

27. Vorlesung: Embodied Conversational Agents (und erste eigene Arbeiten)

Methoden der KŸnstlichen Intelligenz

Ipke Wachsmuth ÊWS 2000/2001

27. Vorlesung Methoden der KŸnstlichen Intelligenz 2

u Computer-generierte Figuren, die ähnliche Eigenschaften wie Menschen in „face-to-face“-Konversationen aufweisen, inkl. Fähigkeiten verbaler und nonverbaler Kommunikation.

u Sie können gesehen werden als

l multimodales Interface mit natürlichen Modalitäten wie gesproche- ner Sprache, Gesichtsausdrücken, Handgesten und Körperhaltung

l Software-Agenten, indem sie den Computer in der Interaktion mit einem Menschen repäsentieren oder ihre menschlichen Benutzer in einer virtuellen Umgebung (z.B. als Avatare) verkörpern

l Dialog-Systeme, wobei sowohl verbale als auch nichtverbale Komponenten den Mensch-Maschine-Dialog abwickeln.

Embodied Conversational Agents

(nach Cassell, Sullivan, Prevost & Churchill 2000)

REA Ð Ein ãReal Estate AgentÒ

(Beispiel eines Embodied Conversational Agent am MIT Media Lab)

u Abwicklung eines Dialogs zwischen Wohnungs- maklerin REA und Benutzer

Architektur des REA-Systems

Input Manager

Understanding Module

Interactional Processing Propositional

Processing

Response Planner

Knowledge Base Discourse

Model

speech &

gesture generation Generation

Module Action

Scheduler Deliberative Module

Hardwired Reaction

Decision Module

Speech Gaze Gesture Body Position ...

Input Devices

Output Devices

(2)

Conversational Agents: Aspekte

Metapher der face-to-face Konversation im Interface- Design:

u „mixed initiative“-Dialog u auch nichtverbale

Kommunikation

u körperliche Anwesenheit u Regeln für den

Kontrolltransfer

Einzelgesichtspunkte:

u Persönlichkeit

l Expertisegebiet

l Interessenprofil

l audiovisuelle Erscheinung

u Performative u konversationale

Funktionen u Emotion

Instrukteur-Konstrukteur-Dialog

Kooperation beim gemeinsamen Bau eines Flugzeug- modells

Zeigegesten, erste Versuche...

Der Arm wird zum Zeigen gehoben;

der eigentliche Gestenschlag erfolgt abwärts gerichtet.

Artikulierter Kommunikator

Arbeiten mit Stefan Kopp

Kinematisches Skelett mit 43 degrees of freedom (DOF) in 29 Gelenken für den Körper und 20 DOF für jede Hand.

(3)

Generierung natŸrlicher Gesten

Arbeiten mit Stefan Kopp, Artikulierter Kommunikator

Beschreibung einer Geste des Greifens oder Heranwinkens in einer um Zeitcon- straints erweiterten HamNoSys-Notation

Sprechrhythmus (stress timing)

(in germanischen Sprachen)

• Betonung ("stress") durch zeitliche Dehnung einzelner – und Verdichtung anderer – Silben:

–––––––––––––––––––––––––––––––––––––––––

D e r Z u g n a c h K ö l n D i e Z ü - g e n a c h B e r - l i n D i e E i - s e n -b a h n n a c h A l t o n a D e r I n t e r - C i - t y n a c h B a d S e g e b e r g –––––––––––––––––––––––––––––––––––––––––

=> relativ konstante Dauer zwischen betonten Silben, unabhängig von Silbenanzahl

(beim gleichen Sprecher unter gleichen Bedingungen)

Zeitliche Kopplung

u Der oft zu beobachtende abrupte Stopp im

„Gesten-Schlag“ sprachbegleitender Gesten korreliert mit betonten Silben im Sprechen.

u Das „Zwischenbetonungsintervall“ (interstress interval:

Zeit zwischen aufeinanderfolgenden betonten Silben) beträgt bei flüssigem Sprechen ca. 1/2 sec.

u Die Antizipation der zeitlichen Struktur (Sprechrhythmus) erleichtert die Äußerungs-Segmentierung beim Hörer Rezipienten wie auch das „turn-taking“.

bei Sprache und Gestik

Diplomarbeit Dirk Stößel

In unserem Text-to-Speech System (TTS) lassen sich prosodische Funktionen steuern (pitch scaling, time scaling)

(4)

ãMAXÒ

Arbeiten mit Stefan Kopp, Bernhard Jung und Studierenden (Multimodaler Assembly EXperte)

Gesichtsmimik / Emotion...

Werden sich Emotionen modellieren und durch mimische Merkmale darstellen lassen? Für die sechs Grundemotionen Glück und Trauer, Überraschung, Angst/Furcht, Ekel/Abscheu und Zorn scheint es universelle mimische Ausdrucksgestalten zu geben. [nach Ekman]

bei weiterem Interesse:

u Hinweise zu eigenen Schriften auf Anfrage Quellenhinweis:

u Cassell et al. (Eds.):

„Embodied Conversational Agents“ (MIT Press, 2000)