UniversitŠt Bielefeld
9 Ausgewählte Themen
27. Vorlesung: Embodied Conversational Agents (und erste eigene Arbeiten)
Methoden der KŸnstlichen Intelligenz
Ipke Wachsmuth ÊWS 2000/2001
27. Vorlesung Methoden der KŸnstlichen Intelligenz 2
UniversitŠt Bielefeld
u Computer-generierte Figuren, die ähnliche Eigenschaften wie Menschen in „face-to-face“-Konversationen aufweisen, inkl. Fähigkeiten verbaler und nonverbaler Kommunikation.
u Sie können gesehen werden als
l multimodales Interface mit natürlichen Modalitäten wie gesproche- ner Sprache, Gesichtsausdrücken, Handgesten und Körperhaltung
l Software-Agenten, indem sie den Computer in der Interaktion mit einem Menschen repäsentieren oder ihre menschlichen Benutzer in einer virtuellen Umgebung (z.B. als Avatare) verkörpern
l Dialog-Systeme, wobei sowohl verbale als auch nichtverbale Komponenten den Mensch-Maschine-Dialog abwickeln.
Embodied Conversational Agents
(nach Cassell, Sullivan, Prevost & Churchill 2000)
27. Vorlesung Methoden der KŸnstlichen Intelligenz 3
UniversitŠt Bielefeld
REA Ð Ein ãReal Estate AgentÒ
(Beispiel eines Embodied Conversational Agent am MIT Media Lab)
u Abwicklung eines Dialogs zwischen Wohnungs- maklerin REA und Benutzer
27. Vorlesung Methoden der KŸnstlichen Intelligenz 4
UniversitŠt Bielefeld
Architektur des REA-Systems
Input Manager
Understanding Module
Interactional Processing Propositional
Processing
Response Planner
Knowledge Base Discourse
Model
speech &
gesture generation Generation
Module Action
Scheduler Deliberative Module
Hardwired Reaction
Decision Module
Speech Gaze Gesture Body Position ...
Speech Gaze Gesture Body Position ...
Input Devices
Output Devices
27. Vorlesung Methoden der KŸnstlichen Intelligenz 5
UniversitŠt Bielefeld
Conversational Agents: Aspekte
Metapher der face-to-face Konversation im Interface- Design:
u „mixed initiative“-Dialog u auch nichtverbale
Kommunikation
u körperliche Anwesenheit u Regeln für den
Kontrolltransfer
Einzelgesichtspunkte:
u Persönlichkeit
l Expertisegebiet
l Interessenprofil
l audiovisuelle Erscheinung
u Performative u konversationale
Funktionen u Emotion
27. Vorlesung Methoden der KŸnstlichen Intelligenz 6
UniversitŠt Bielefeld
Instrukteur-Konstrukteur-Dialog
Kooperation beim gemeinsamen Bau eines Flugzeug- modells
27. Vorlesung Methoden der KŸnstlichen Intelligenz 7
UniversitŠt Bielefeld
Zeigegesten, erste Versuche...
Der Arm wird zum Zeigen gehoben;
der eigentliche Gestenschlag erfolgt abwärts gerichtet.
27. Vorlesung Methoden der KŸnstlichen Intelligenz 8
UniversitŠt Bielefeld
Artikulierter Kommunikator
Arbeiten mit Stefan Kopp
Kinematisches Skelett mit 43 degrees of freedom (DOF) in 29 Gelenken für den Körper und 20 DOF für jede Hand.
27. Vorlesung Methoden der KŸnstlichen Intelligenz 9
UniversitŠt Bielefeld
Generierung natŸrlicher Gesten
Arbeiten mit Stefan Kopp, Artikulierter Kommunikator
Beschreibung einer Geste des Greifens oder Heranwinkens in einer um Zeitcon- straints erweiterten HamNoSys-Notation
27. Vorlesung Methoden der KŸnstlichen Intelligenz 10
UniversitŠt Bielefeld
Sprechrhythmus (stress timing)
(in germanischen Sprachen)
• Betonung ("stress") durch zeitliche Dehnung einzelner – und Verdichtung anderer – Silben:
–––––––––––––––––––––––––––––––––––––––––
D e r Z u g n a c h K ö l n D i e Z ü - g e n a c h B e r - l i n D i e E i - s e n -b a h n n a c h A l t o n a D e r I n t e r - C i - t y n a c h B a d S e g e b e r g –––––––––––––––––––––––––––––––––––––––––
=> relativ konstante Dauer zwischen betonten Silben, unabhängig von Silbenanzahl
(beim gleichen Sprecher unter gleichen Bedingungen)
27. Vorlesung Methoden der KŸnstlichen Intelligenz 11
UniversitŠt Bielefeld
Zeitliche Kopplung
u Der oft zu beobachtende abrupte Stopp im
„Gesten-Schlag“ sprachbegleitender Gesten korreliert mit betonten Silben im Sprechen.
u Das „Zwischenbetonungsintervall“ (interstress interval:
Zeit zwischen aufeinanderfolgenden betonten Silben) beträgt bei flüssigem Sprechen ca. 1/2 sec.
u Die Antizipation der zeitlichen Struktur (Sprechrhythmus) erleichtert die Äußerungs-Segmentierung beim Hörer Rezipienten wie auch das „turn-taking“.
bei Sprache und Gestik
27. Vorlesung Methoden der KŸnstlichen Intelligenz 12
UniversitŠt Bielefeld
Diplomarbeit Dirk Stößel
In unserem Text-to-Speech System (TTS) lassen sich prosodische Funktionen steuern (pitch scaling, time scaling)
27. Vorlesung Methoden der KŸnstlichen Intelligenz 13
UniversitŠt Bielefeld
ãMAXÒ
Arbeiten mit Stefan Kopp, Bernhard Jung und Studierenden (Multimodaler Assembly EXperte)
27. Vorlesung Methoden der KŸnstlichen Intelligenz 14
UniversitŠt Bielefeld
Gesichtsmimik / Emotion...
Werden sich Emotionen modellieren und durch mimische Merkmale darstellen lassen? Für die sechs Grundemotionen Glück und Trauer, Überraschung, Angst/Furcht, Ekel/Abscheu und Zorn scheint es universelle mimische Ausdrucksgestalten zu geben. [nach Ekman]
27. Vorlesung Methoden der KŸnstlichen Intelligenz 15
UniversitŠt Bielefeld
bei weiterem Interesse:
u Hinweise zu eigenen Schriften auf Anfrage Quellenhinweis:
u Cassell et al. (Eds.):
„Embodied Conversational Agents“ (MIT Press, 2000)