Analyse und Evaluation eines
Sprachsteuerungssystems in der virtuellen Realit¨
at
anhand eines Auto Konfigurators
Studiengang Medieninformatik
Bachelorarbeit
vorgelegt von
Steven D¨
orr
geb. in Schotten
durchgef¨uhrt im Unternehmen
PCONAS GmbH Prof. Consulting, for Application Systems, Hanau
Referent der Arbeit: Hans Christian Arlt, M. Sc. Korreferent der Arbeit: Prof. Dr. Cornelius Malerczyk
Fachbereich
Informationstechnik-Elektrotechnik-Mechatronik IEM Friedberg, 2020
-Danksagung
An dieser Stelle m¨ochte ich mich bei den Menschen bedanken, die einen besonderen Beitrag
zum Gelingen dieser Arbeit geleistet haben.
Meinen Eltern m¨ochte ich von Herzen danken, die mich in der Zeit meines Bachelorstudiums
sowie w¨ahrend der Zeit, in der ich diese Arbeit verfasst habe, bestm¨oglich unterst¨utzt haben.
Hans Christian Arlt gilt ein besonderer Dank f¨ur die Betreuung dieser Arbeit. Dank ihm
und meinem Korreferenten Prof. Dr. Cornelius Malerczyk habe ich die Leidenschaft f¨ur die
3D-Computergrafik entdeckt.
Meinem Bruder, Timothy D¨orr, danke ich daf¨ur, dass er mich in der Zeit der Erstellung
dieser Arbeit stets unterst¨utzt und sich die Zeit genommen hat, diese Arbeit Korrektur zu
lesen.
Bernd und Heinz Malyszewski danke ich f¨ur die M¨oglichkeit der Projektdurchf¨uhrung, um
Selbstst¨
andigkeitserkl¨
arung
Ich erkl¨are, dass ich die eingereichte Bachelorarbeit selbstst¨andig und ohne fremde Hilfe
verfasst, andere als die von mir angegebenen Quellen und Hilfsmittel nicht benutzt und die
den benutzten Werken w¨ortlich oder inhaltlich entnommenen Stellen als solche kenntlich
gemacht habe.
Friedberg, Dezember 2020
Inhaltsverzeichnis
Danksagung i
Selbstst¨andigkeitserkl¨arung iii
Inhaltsverzeichnis v Abbildungsverzeichnis vii Abk¨urzungsverzeichnis ix 1 Einleitung 1 1.1 Motivation . . . 1 1.2 Problemstellung . . . 2 1.3 Zielsetzung. . . 3
1.4 Organisation der Arbeit . . . 4
2 Grundlagen 5 2.1 Einleitung . . . 5 2.2 Mensch-Maschine-Kommunikation . . . 5 2.3 Virtuelle Realit¨at. . . 7 2.4 Cybersickness . . . 9 2.5 Sprachverarbeitung . . . 10 2.5.1 Sprach-Dialog-System . . . 11 2.5.2 Sprachassistent . . . 13 2.6 Zusammenfassung . . . 14
3 Stand der Technik 15 3.1 Einleitung . . . 15
3.2 Sprachassistenten . . . 15
3.3 IBM Watson API . . . 17
3.4 Virtual-Reality-Systeme . . . 18
3.5 Erfassung des aktuellen Technologiefortschritts . . . 22
4 Konzept eines Sprachassistenten im virtuellen Auto Konfigurator 25
4.1 Einleitung . . . 25
4.2 Konzept und Idee . . . 26
4.3 Erstellung eines VR Auto Konfigurators . . . 27
4.3.1 VR Showroom . . . 27
4.3.2 3D Automodell . . . 28
4.3.3 Farben und Texturen . . . 29
4.3.4 Beleuchtung . . . 32
4.3.5 3D Animationen . . . 33
4.4 Zusammenfassung . . . 33
5 Implementierung und Analyse der IBM Watson SDK zur Sprachverarbeitung 35 5.1 Einleitung . . . 35
5.2 Implementierung der IBM Watson SDK . . . 35
5.2.1 Transkription der Sprache . . . 36
5.2.2 Watson Sprachassistent . . . 40
5.2.3 Sprachsynthese von Text . . . 43
5.3 Funktionsaufruf im VR Auto Konfigurator . . . 46
5.4 Zusammenfassung und Ergebnis . . . 49
6 Evaluation 51 6.1 Einleitung . . . 51
6.2 Konzept . . . 51
6.3 Auswertung . . . 52
6.3.1 Worterkennungsrate der Spracheingabe. . . 52
6.3.2 Bearbeitungszeit der Services . . . 55
6.3.3 Pr¨ufung der Benutzerfreundlichkeit . . . 58
6.4 Zusammenfassung und Interpretation der Ergebnisse. . . 63
7 Zusammenfassung und Ausblick 65 7.1 Zusammenfassung . . . 65
7.2 Ausblick . . . 67
A Anhang 69
Abbildungsverzeichnis
1.1 Mensch-Maschine-Schnittstelle . . . 1
1.2 Sprachassistenten . . . 2
1.3 Umfrage Sprachsteuerung . . . 3
2.1 Normans’s Action Cycle . . . 7
2.2 Komponenten der Extended Reality . . . 8
2.3 Interaktionsmodelle . . . 9
2.4 Auswirkungen von VR-Brillen . . . 10
2.5 Natural Language Processing . . . 11
2.6 Programmverlauf von Sprach-Dialog-Systemen und Sprachassistenten . . . 12
2.7 Sprachassistenten in Unternehmen . . . 13
3.1 Prozessverlauf und Beziehungen einer API . . . 16
3.2 Oculus Quest 2 . . . 19
3.3 HTC Vive . . . 19
3.4 HMD Sichtfeld . . . 20
3.5 Binokulare Sicht . . . 20
3.6 VR-Architektur . . . 21
4.1 Ablauf einer Produktkonfiguration . . . 26
4.2 VR Auto Konfigurator. . . 28
4.3 Volvo XC-40 Automodell . . . 28
4.4 Material-Maps . . . 30
4.5 Materialien der VR Szene . . . 30
4.6 Material der Auto Lackierung . . . 31
4.7 Grasfl¨ache der VR Szene . . . 31
4.8 Beleuchtung im VR Auto Konfigurator . . . 33
4.9 T¨uranimationen im VR Auto Konfigurator . . . 33
5.1 IBM Watson Sprachassistent Zyklus . . . 36
5.2 Inspector-Oberfl¨ache der Speech-to-Text Komponente. . . 37
5.3 Dialogverlauf mit IBM Watson Assistant . . . 41
5.4 Inspector-Oberfl¨ache der Text-to-Speech Komponente. . . 44
5.5 Darstelluns¨anderung der Autot¨uren . . . 48
6.1 Confidence-Werte der Sprachtranskription . . . 54
6.2 Bearbeitungszeit des IBM Watson Service . . . 57
6.3 Auswertung der Altersgruppe . . . 59
6.4 Auswertung der Personengruppe . . . 60
6.5 H¨aufigkeit der Nutzung eines Sprachassistenten . . . 61
6.6 Erfahrungen mit dem VR Auto Konfigurator . . . 61
Abk¨
urzungsverzeichnis
AI Artifizielle Intelligenz
API Application Programming Interface AR Augmented Reality
CEO Chief Executive Officer ER Extended Reality
FPS Frames per Second GTTS Google Text to Speech HDRI High Dynamic Range Image HDRP High Definition Render Pipeline Hex Hexadezimal
HMD Head-Mounted-Display HTTP Hypertext Transfer Protocol Hz Hertz
IBM International Business Machines Cor-poration
ID Identifikation
IEEE Institute of Electrical and Electronics Engineers IT Informationstechnik ML Maschinelles Lernen MMK Mensch-Maschine-Kommunikation MMS Mensch-Maschine-Schnittstelle MR Mixed Reality
NLP Natural Language Processing RAM Random-Access Memory
REST Representational State Transfer SDK Software Development Kit TCP Transmission Control Protocol SSML Speech Synthesis Markup Language UTF-8 8−bit Unicode Transformation
For-mat
URL Uniform Resource Locator VR Virtuelle Realit¨at
WDC Watson Developer Cloud
WIMP Windows, Icons, Menus, Pointing XML Extensible Markup Language
Kapitel 1
Einleitung
1.1
Motivation
Der Einsatz von Sprachassistenten in der Gesellschaft und vor allem in den Bereichen der
Informationstechnik nimmt stetig zu. Applikationen auf mobilen oder station¨aren Ger¨aten
erm¨oglichen den Austausch von Befehlen und Aufgaben, woraufhin ein benutzerspezifisches
Resultat zur¨uckgegeben wird. Die Sprache stellt als nat¨urliches Medium eine Schnittstelle
zwischen Mensch und Maschine dar. Weitere Arten von Schnittstellen sind beispielsweise
Ta-statur, Maus oder Geste, die sowohl Befehle durch direkten oder ber¨uhrungsfreien Kontakt
¨
ubermitteln k¨onnen. Die Entwicklung der ¨Ubertragungsformen startete “bereits 1941 mit
der Rechenmaschine von Konrad Zuse.“[Hoe19] Anhand einer Darstellung der
unterschied-lichen Schnittstellen (siehe Abbildung 1.1) zeigt Thomas H¨orner, wie sich das Verh¨altnis
zu Mensch und Maschine ver¨andert und welchen Einfluss die einzelne Schnittstelle auf den
Forderungsgrad hat.
Bekannte Sprachassistenten wie Alexa, Siri, Google Assistant oder Cortana (siehe Abbildung
1.2), welche eine Steuerung ¨uber die Sprache erm¨oglichen, sind auf dem Markt weit
verbrei-tet und werden in den Alltag integriert. Die Industrie nutzt diese Nachfrage, um die passende
Hardware und Software zu entwickeln und diese in benutzerfreundliche Ger¨ate zu integrieren.
Das Abspielen von Musik, Abfrage der Wetterdaten oder die Steuerung von Lichtquellen sind
erst der Anfang zahlreicher M¨oglichkeiten, die solche Sprach-Dialog-Systeme oder
Sprachas-sistenten bieten. In Verbindung mit einer virtuellen Realit¨at kann eine zus¨atzliche Ebene der
Interaktion im generierten Raum geschaffen werden. In den Bereichen wie beispielsweise der
Abbildung 1.2: Sprachassistenten f¨ur Lautsprecher und Mobilfunkger¨ate. Von links nach
rechts sind eine Sammlung an Alexa Ger¨aten (t1p.de/3bn7 Stand: 12. Dezember 2020), ein
Smartphone mit Cortana (t1p.de/ah1d Stand: 12. Dezember 2020) und ein iPhone mit Siri (t1p.de/vmej Stand: 12. Dezember 2020) zu sehen.
Medizin, der Bildung oder der Videospiel-Branche, werden spezielle Virtuelle Realit¨at (VR
)-Brillen oder Helme mit integrierten Displays eingesetzt, um ein stereoskopisches Bild zu
generieren. Der erzeugte virtuelle Raum l¨asst den Nutzer in eine Scheinwelt eintauchen,
in der er sich mit Peripherieger¨aten bewegen und interagieren kann. Die ¨Ubertragung der
Befehle wird durch eine systemspezifische Komponente gew¨ahrleistet und bedarf
Vorkennt-nisse der Bedienung, wodurch eine intuitive Nutzung des Programmes nicht sichergestellt ist. Als Komponenten der Steuerung werden Tastatur, Maus oder spezielle Controller genutzt,
mit denen vordefinierte Aktionen ausgef¨uhrt werden k¨onnen. Die Dialogform der
menschli-chen Sprache wird nur selten in 3D-Anwendungen verwendet, obwohl die Sprache eine der
nat¨urlichsten Formen der Kommunikation des Menschen ist.
1.2
Problemstellung
Sprach-Dialog-Systeme oder Sprachassistenten werden in der Informationstechnik
kontinu-ierlich weiterentwickelt und passen sich durch entsprechende Artifizielle Intelligenz (AI) den
Nutzern an. Das System einerAIdient zum eigenst¨andigen Bearbeiten von komplexen
Auf-gaben und Anweisungen, die durch den Anwender aufgetragen werden. Die Steuerung mit Maus, Tastatur, Controller oder mit Touchscreen ist bislang die meistgenutzte Form der
Interaktion in Computer-Anwendungen. Im Gegensatz zu den klassischen Eingabeger¨aten,
die auf physischer Technik aufbaut, kann mit der menschlichen Sprache der Einstieg in
die Anwendung m¨oglicherweise erleichtert werden. Die Spracherkennungssysteme werden
1.3. Zielsetzung
und an die Bedingungen und Anforderungen der Nutzer angepasst. Bei einer Befragung der Splendid Research, aus dem Jahr 2019 in Deutschland, gaben 60% der befragten Personen
an, dass sie bereits ein Ger¨at mit Sprachsteuerung genutzt haben1. (Abbildung:1.3)
40 45 50 55 60
Nein Ja
Anteil der Befragten in Prozent
Abbildung 1.3: Umfrage zur Verwendung von Sprachsteuerungen (Deutschland; 16. Januar bis 21. Januar 2019; 1.006 Befragte; 18-69 Jahre)(shorturl.at/gipIS Stand: 15.August 2020)
In virtuellen Auto Konfiguratoren ist die Anwendung einer Sprachsteuerung noch nicht
gel¨aufig. Damit diese Technologie eingesetzt werden kann, muss nicht nur die korrekte
An-bindung von Hard- und Software sichergestellt werden, sondern auch die Einrichtung von
Befehlen zur Steuerung spezifischer Einstellungsoptionen in der VR-Anwendung. Die
Soft-ware der Spracherkennung muss die Sprachsignale der Anwender erfassen und umwandeln,
damit die gew¨unschte Aktion ausgef¨uhrt werden kann. Nur durch eine fehlerfreie
Inter-pretation des Audiosignals, kann eine benutzerspezifische R¨uckmeldung an den Anwender
ausgegeben werden. M¨ogliche Arten der Realisierung des Feedbacks sind sowohl visuelle
Darstellungen als Text oder Symbol als auch auditive Signale durch eine Sprachsynthese im erzeugten Raum.
1.3
Zielsetzung
Ziel dieser Arbeit ist die Integration eines Sprachassistenten in einen virtuellen Auto
Konfigu-rator, der mit der 3D-Software Unity2 f¨ur das Betriebssystem Microsoft Windows3entwickelt
wurde, um die konventionelle Bedienung mit systemspezifischen Controllern zu ersetzen. Der
Nutzer soll die M¨oglichkeit haben, mithilfe der Sprache in der virtuellen Realit¨at zu
inter-agieren, um ein individuell gestaltetes Auto konfigurieren zu k¨onnen. Die Funktionalit¨at
eines herk¨ommlichen Web Konfigurators soll auf die Sprachsteuerung ¨ubertragen werden,
um mit entsprechenden Befehlen das Design des Autos zu ver¨andert. Funktionen wie
Fahr-zeugbeleuchtung, Auswahl der Lackierung sowie das ¨Offnen und Schließen von beweglichen
Elementen m¨ussen bei der Integration der Sprachfunktion in den Auto Konfigurator ber¨
uck-sichtigt werden. Die R¨uckmeldung zu jeder Befehlseingabe, die vom Assistenten formuliert
wird, soll ¨uber die auditive Wahrnehmung des Benutzers stattfinden und als ein Audiosignal
¨
uber Lautsprecher ausgegeben werden.
1https://t1p.de/bnxl 2
https://t1p.de/yu7n
Als weitere Zielsetzung wird gepr¨uft, ob die Steuerung ¨uber die Sprache inVR-Programmen eine sinnvolle Option darstellt.
1.4
Organisation der Arbeit
Im ersten Kapitel Einleitung wird zu Beginn das Thema der Arbeit genannt, das sich mit
der Verwendung von Mensch-Maschine-Schnittstelle (MMS) befasst und sich auf die
Inte-gration der Sprache fokussiert. Die Aufgabenstellung dieser Arbeit, bei der es sich um die
Implementierung und der Analyse von Sprachassistenten handelt, wird erl¨autert, woraus die
Zielsetzung eines sprachgesteuerten Auto Konfigurators entsteht.
In dem zweiten Kapitel Grundlagen werden die Methoden zur Generierung einer virtuel-len Welt durch 3D-Echtzeitanwendungen und der Unterschied zur Datenverarbeitung mit 2D-Displays betrachtet. Vorrangig betrachtet werden die Vorteile, die Herausforderungen
sowie die Interaktion mit k¨unstlichen Umgebungen. Des Weiteren werden die Entwicklung
und die einzelnen Bestandteile der Mensch-Maschine-Kommunikation (MMK) er¨ortert, um
ein Verst¨andnis f¨ur die Verwendung von Sprachverarbeitung als Dateneingabe zu schaffen.
Im dritten Kapitel Stand der Technik wird der aktuelle Stand von Sprachsystemen und
derzeitigen VR-Technologien beschrieben. Schwerpunkt liegt auf der Betrachtung der
Ser-vices von International International Business Machines Corporation (IBM) und der AI von
Watson, da diese f¨ur die Erreichung der Zielsetzung der vorliegenden Ausarbeitung von
Be-deutung sind. Anschließend wird ein ¨Uberblick der Technik und Architektur von VR-Brillen
aufgezeigt.
Das vierte Kapitel Konzept eines Sprachassistenten im virtuellen Auto Konfigurator schildert die Erstellung eines VR Auto Konfigurators und beschreibt die methodische Vorgehensweise zur Integration eines Sprachassistenten in jenen Auto Konfigurtor.
In dem f¨unften Kapitel Analyse der IBM Watson Software Development Kit (SDK) zur
Sprachverarbeitung wird die Implementierung des Software Development Kits beschrieben.
Dar¨uber hinaus wird der Datenaustausch zwischen Komponenten des VR-Systems, der
so-wohl zum Konfigurationsablauf als auch f¨ur die visuelle und auditive Informationsausgabe
n¨otig ist, erl¨autert.
Das siebte Kapitel Evaluation beinhaltet die Konzepterstellung eines Pr¨ufverfahrens zur
Tauglichkeit des sprachgesteuerten Auto Konfigurators und die Auswertung der Ergebnisse,
die auf Basis von Pr¨ufdaten und subjektiven Bewertungen beruhen. Die Ergebnisse werden
im Zusammenhang zum Sprachsystem interpretiert und auf Vor- und Nachteile beurteilt. Das abschließende Kapitel Zusammenfassung und Ausblick fasst die Erkenntnisse der
Aus-arbeitung zusammen und erm¨oglicht einen Ausblick auf weiterf¨uhrende Arbeiten, welche auf
Kapitel 2
Grundlagen
2.1
Einleitung
In diesem Kapitel werden die Grundlagen zur Mensch-Maschine-Kommunikation und dessen
Zyklus veranschaulicht. Des Weiteren wird die Abbildung einer virtuellen Realit¨at, die
un-ter Zuhilfenahme von Compuun-tersystemen erzeugt wird, aufgezeigt. Als ein weiun-terer Aspekt
wird dargestellt, wie die Sprachverarbeitung von statten geht und wie sich AI-gesteuerte
Assistenten von traditionellen Sprach-Dialog-Systemen unterscheiden.
2.2
Mensch-Maschine-Kommunikation
Der Dialog zwischen einem Menschen und einem technischen Ger¨at wird als
Mensch-Maschine-Kommunikation bezeichnet. Dabei handelt es sich um eine Interaktion mit spezifischer
Schnittstellentechnologie, die aus einem Eingabe- und Ausgabeger¨at besteht. Neben der
Schnittstellentechnologie tr¨agt das Bedienkonzept der Technologie zu einer erfolgreichen
Verst¨andigung zwischen Mensch und Maschine bei.[Rig10]
In den Bereichen der Informations- und Kommunikationstechnik kann durch entsprechender
Mensch-Maschine-Kommunikation ein Vorteil in der Produktivit¨at der Anwendung erreicht
werden. Durch den Einsatz von Hardware, die mit entsprechender Software ausgestattet ist,
k¨onnen bestehende Abl¨aufe besser gestaltet werden, um eine Leistungssteigerung zu
erzie-len und Kosten zu reduzieren. Ein weiterer Punkt liegt in der Benutzerfreundlichkeit der
technischen Ger¨ate. Diese wird durch die Weiterentwicklung von Schnittstellen zur
Kommu-nikation zwischen Mensch und Maschine stetig verbessert. Ein erfolgreicher Dialog beider Akteure wird durch ein Zusammenspiel von Schnittstellentechnologie und Bedienkonzept
erm¨oglicht, die sich wiederum in Unterbereiche aufteilen lassen. Einfluss auf das
Bedien-konzept haben die Bereiche Softwaretechnik, Ergonomie und intelligente Systeme. F¨ur die
Schnittstellentechnologie sind Mustererkennung, die Signal-, sowie die Sprach- und
Bildver-arbeitung grundlegende Ausgangspunkte, welche zur Funktionalit¨at beitragen.[Rig10] Als
g¨angige haptische Eingabeger¨ate werden beispielsweise Tastatur, Maus, Joystick,
Ebenfalls k¨onnen visuelle oder auditive Steuerelemente, wie eine Kamera oder ein Mikrofon,
dazu verwendet werden, um eine Interaktion zu erm¨oglichen. Die genannten Komponenten
zur Steuerung von Computersystemen verwenden Software, die mit einer k¨unstlichen Sprache
programmiert und nach bestimmten Regeln aufgebaut sind. Die Einhaltung der Syntax ist
Voraussetzung f¨ur eine korrekte Interpretation der Maschine, um eine gew¨unschte Operation
ausf¨uhren zu k¨onnen. Das Resultat einer Maschine, nach einer erfolgreich durchgef¨uhreten
Eingabe durch einen Anwender, kann mithilfe externer Komponenten wiedergegeben
wer-den. Eine M¨oglichkeit ist die visuelle Darstellung des Ergebnisses auf einer Projektionsfl¨ache
oder einem Monitor. Eine weitere Alternative der R¨uckmeldung zu dem Nutzer besteht in
der Erstellung und Wiedergabe eines Audiosignals ¨uber Lautsprecher.
Der Verlauf einer Mensch-Maschine-Kommunikation l¨asst sich in einem Zyklus
zusammen-fassen, der von Donald Arthur Norman, einem emeritierter Professor f¨ur
Kognitionswissen-schaften, in dem Buch
”The Design of Everyday Things“ in einem Aktionsstufenmodell
be-schrieben wurde. Norman’s Action Cycle zeigt 7 Phasen, die das Benutzerverhalten sowie die
daraus entstehende Evaluation der Aktion beschreibt.[Nor16] Die Abbildung2.1zeigt einen
Handlungszyklus, der eine menschliche Aktion vereinfacht darstellt. Es ist nicht zwingend notwendig, dass alle Phasen bewusst eingehalten und in der gegebenen Reihenfolge
durchlau-fen werden, was zu einer zielorientierten Handlung f¨uhren w¨urde. Es besteht die M¨oglichkeit
durch ein ¨außerlich auftretendes Ereignis einen Vorgang ohne eine bewusste Zielsetzung des
Menschen auszul¨osen. Dies nennt man eine ereignisgesteuerte Handlung. Vom Idealfall
aus-gehend beginnt der Prozess mit der Zielsetzung, die durch die Aktion erreicht werden soll
(1. Phase). Anschließend ergibt sich f¨ur die Person die Intention das Ziel ¨uber eine
ent-sprechende Planung zu erreichen (2.Phase). Nach Spezifizierung der n¨otigen Sequenzen der
Handlungen (3. Phase), kann letztendlich die T¨atigkeit ausgef¨uhrt werden (4. Phase).
Zu-sammengefasst ergeben diese vier Schritte die Ausf¨uhrungsebene (Execution) eines Zyklus.
Ziel ist, dass sich die Aktion auf die Umwelt, zum Beispiel auf eine Maschine, auswirkt und
die gew¨unschte Zustands¨anderung erreicht wird. Nach Abschluss der Ausf¨uhrungsebene wird
der neue Zustand wahrgenommen (5. Phase) und mit der zu Beginn gestellten Erwartung interpretiert (6. Phase). Der letzte Schritt beinhaltet einen Vergleich mit dem am Anfang
gestellten Ziel und dem neuen Zustand der Welt (Maschine), der durch die Ausf¨
uhrungsebe-ne erzielt wurde (7. Phase). Die Wahruhrungsebe-nehmung, die Interpretation und der Vergleich werden
als Evaluationsebene bezeichnet. Abgesehen von der physischen Ausf¨uhrung einer Aktion,
werden alle Phasen in der mentalen Ebene der Person absolviert. W¨ahrend der Ausf¨
uhrungs-ebene und der Evaluationsuhrungs-ebene kann es zu Hindernissen der Umsetzung kommen, die als
gulfs (dt. Kl¨ufte) bezeichnet werden. Betrachtet man die Ausf¨uhrungsebene, kann
beispiels-weise bei der geplanten Ausf¨uhrung der Handlungssequenz ein Konflikt entstehen, in dem die
gew¨unschte Aktion nicht von dem System als zul¨assig anerkannt wird (Gulf of Execution).
Der Nutzer muss zun¨achst herausfinden, wie ein System funktioniert und bedient werden
kann. Verhindert k¨onnen diese Probleme durch eine Unterteilung einer großen Funktion eines
2.3. Virtuelle Realit¨at
In der Evaluation kann es bei der Interpretation der Zustands¨anderung und bei dem
resultie-renden Ergebnis zu Problemen kommen (Gulf of Evalution). Hierbei muss ¨uberpr¨uft werden,
ob die ausgef¨uhrte Aktion zum gew¨unschten Ziel gef¨uhrt hat oder ob Abweichungen von
der Erwartung vorliegen. Eine Reduzierung dieser Problematik kann durch ¨Uberwachung der
Handlungen und durch st¨andige Pr¨ufungen der Ausf¨uhrung erreicht werden.[Nor16]
Abbildung 2.1: Norman’s Action Cycle. Drei Ausf¨uhrungsstufen (Planen, Spezifizieren,
Ausf¨uhren), drei Auswertungsstufen (Wahrnehmen, Interpretieren, Vergleichen) und das Ziel
ergeben sieben Handlungsstufen.
2.3
Virtuelle Realit¨
at
Die Abbildung der Realit¨at auf eine k¨unstlich erzeugte Umgebung ist f¨ur die
Weiterent-wicklung der Mensch-Maschine-Schnittstelle eine m¨ogliche Darstellung von digitalen
Infor-mationen. In der Abbildung 2.2 sind die Darstellungsarten der Extended Reality (ER), die
Komponenten zur Echtzeiterweiterung der Realit¨at beinhaltet, dargestellt. Die Augmented
Reality (AR) bildet digitale Inhalte auf die reale Welt des Nutzers ab. Bei der Virtual Reality
(VR) wird eine eigenst¨andige digitale Welt erzeugt, die abseits der realen Welt existiert. Die
Abbildung 2.2: Komponenten der Extended Reality. Augmented Reality: Abbildung digitaler Inhalte auf der realen Welt. Mixed Reality: Digitale und reale Welt interagieren miteinander. Virtual Reality: Digitale Welt abseits der realen Welt. (t1p.de/0ibb Stand: 12. Dezember 2020)
Durch den Einsatz vonVR-Systemen kann die nat¨urliche und intuitive Nutzung von
Objek-ten, die aus der realen Welt f¨ur den Anwender bekannt sind, auf eine von Computer generierte
3D-Welt ¨ubertragen werden. Im Idealfall wird eine perfekte Illusion geschaffen, die von der
eigentlichen Umgebung des Systems f¨ur sich abgeschlossen funktioniert und keinen Eindruck
eines Computerprogramms vermittelt. In diesem Vorgang steht der Nutzer in Wechselwir-kung mit dem Echtzeitsystem. Im Gegensatz zu konventionellen Computern, bei denen der Anwender als außenstehender Akteur die Welt betrachtet, befindet der Nutzer sich in einer
virtuellen Realit¨at mitten in der erzeugten Welt. Die nachfolgende Abbildung 2.3zeigt den
Aktionsraum eines Nutzers bei einem 2D-Display, beispielsweise ein Arbeitsplatzrechner, und
einer VR-Umgebung. Bei der Interaktion eines Nutzers mit einem herk¨ommlichen
Compu-ter nimmt der Anwender die reale Welt und die CompuCompu-ter-generierte Umgebung war. Die
Interaktion auf dem Display wird in den meisten F¨allen mit einer Windows, Icons, Menus,
Pointing (WIMP)-Schnittstelle gel¨ost. Hohe Anwendung findet die WIMP-Schnittstelle in
der Dokumenten- und Programmverarbeitung. Programme werden in Fenstern dargestellt,
in denen Icons und Men¨us zur Steuerung genutzt werden. Zur Markierung und Ausf¨uhrung
der Steuerelemente werden beispielweise M¨ause oder Touchpads verwendet. Die Umsetzung
und Manipulation von 3D-Objekten auf einer 2D-Ebene f¨uhrt zu einer Zerlegung der
2.4. Cybersickness
Bei diesem Prozess wird die Bewegung in zwei Teilschritte aufgeteilt, die zum Beispiel im ersten Schritt die XY-Verschiebung und im zweiten Schritt die Z-Verschiebung beschreibt. Im virtuellen Raum hingegen wird eine geschlossene Welt geschaffen, die den Nutzer von der ¨
außeren Umwelt abschirmt und ein intensives Erlebnis erm¨oglicht.[Jun19] Die Interaktion in
einem virtuellen Raum erlaubt die Option zur Manipulation von Objekten. Mit speziellen
Controllern ist eine nat¨urliche Bedienung, zum Beispiel die Verschiebung von Elementen,
wie der Nutzer es aus der realen Welt kennt, m¨oglich. Das Anstreben einer vollendeten
vir-tuellen Realit¨at bedeutet, dass die Aktion eines Menschen die gleiche Auswirkung auf die
Computerwelt hat, wie die einer Aktion in der Realit¨at.
Abbildung 2.3: Linkes Bild: Interaktionsmodell eines Arbeitsplatzrechners. Rechtes Bild:
Interaktionsmodell eines VR-Arbeitsplatzes, bei dem der Nutzer sich vollst¨andig in der
si-mulierten Welt befindet. [Jun19]
2.4
Cybersickness
Systeme zur Generierung von virtuellen Welten k¨onnen bei der Anwendung beim Nutzer
st¨orende Nebenwirkungen ausl¨osen. Folgen k¨onnen zum Beispiel Kopfschmerzen, ¨Ubelkeit,
Erbrechen, Benommenheit, Schwindel oder Desorientierung sein.[Jun19] Solche Symptome
k¨onnen bei langer und direkter Nutzung von Computeranwendungen mit einem Bildschirm
entstehen. Weitere Ursache k¨onnen eine zu geringe Bildwiederholrate der Displays,
Dar-stellung von unscharfen Bildern, fehlerhaftes Tracking der Person oder große Latenz bei der
MMSsein. Diese Symptome, ausgel¨ost in einem virtuellen Raum, wird als Cybersickness oder
Motion Sickness bezeichnet. Neben der Technik als Ausl¨oser f¨ur Cybersickness kann die Art
der Fortbewegung in der virtuellen Umgebung Ursache sein.[Web17] Die Positionserkennung
der VR-Brillen sind durch die Raumgr¨oße und der maximalen Sensorenreichweite begrenzt.
Dadurch ist eine nat¨urliche Fortbewegung nur bedingt m¨oglich. Zur Bewegung innerhalb
des Raumes werden Controller verwendet, mit denen die Position durch Teleportation oder animierten Bewegungsfahrten dargestellt wird. Dadurch entsteht ein Konflikt zwischen dem
Sehsinn und der K¨orperbewegung. Selbst durch die Einf¨uhrung einer Bewegungsplattform,
eines Bewegungssimulator, der Rotation, Neigung und Hebungen mit der Anwendung
syn-chronisiert, l¨asst sich die Ortsbewegung im 3D-Raum nur begrenzt darstellen. Des Weiteren
So beeinflusst das Geschlecht, das Alter, die Ethnizit¨at und bereits gesammelte
Vorkenntnis-se mitVRdas Auftreten der Krankheit.[Jun19] Laut einer Umfrage durch das Unternehmen
Statista hat ein Großteil der befragten Personen Bedenken bei Nutzung von VR-Brillen
Kopfschmerzen zu erhalten.
0 10 20 30 40 50 60
Kopfschmerzen
Bezug zur Realit¨at geht verloren
Soziale Isolation Physische und soziale Verwahrlosung
Einschr¨ankung der Sehkraft
Neurologische Sch¨aden
Cybersickness/Motion Sickness Sonstiges Weiß nicht
Anteil der Befragten in Prozent
Abbildung 2.4: Umfrage zu wahrscheinlichen negativen Auswirkungen von VR-Brillen
(Deutschland; 06. bis 14.09.2017; 1.061 Befragte; 18 bis 69 Jahre) (t1p.de/u2is Stand: 12. Dezember 2020)
2.5
Sprachverarbeitung
Die Dateneingabe ¨uber die Sprache ist ein Schritt zur Weiterentwicklung derMMSund eine
nat¨urlichere Art der Bedienung von Computersystemen. Dank dem fest vorgeschriebenen
Regelwerk und dem endlichen Wortschatz einer Sprache, kann diese von Maschinen
ana-lysiert und verarbeitet werden. Die S¨atze lassen sich mit entsprechenden Programmen in
ihre Bestandteile der Grammatik (Phonologie, Syntax und Semantik) aufteilen, auf
Wort-beziehungen untersuchen und durch Wahrscheinlichkeiten bewerten. Das Verst¨andnis und
die Verarbeitung von Sprache bei Maschinen wird k¨unstliche oder artifizielle Intelligenz
ge-nannt. Die Abbildung 2.5 zeigt die Komponenten einer maschinellen Sprachverarbeitung,
die im Natural Language Processing (NLP) festgelegt sind. Die NLP zielt darauf ab, eine
Kommunikation zwischen Mensch und Maschine herzustellen und beschreibt die Technik
2.5. Sprachverarbeitung
Abbildung 2.5: Natural Language Processing (NLP) beschreibt die maschinelle Form der
Spracherkennung.[Kab20]
Auf der Ebene des Nutzers sind der Gesp¨archsverlauf, die Semantik, der Satzbau und die
verwendete Sprache wichtige Ansatzpunkte, die in den Prozess mit einfließen.
Auswirkun-gen durch die Maschinenebene hat das Sprachverst¨andnis sowie die Sprachgenerierung. Die
Aktionen und Prozesse werden durch die ¨Uberpr¨ufung von Wahrscheinlichkeiten und
Stati-stiken der Spracheingaben aufgerufen. Liegt der Wert der Worterkennung ¨uber dem vorher
festgelegten Schwellenwert einer Prozedur, wird folglich die jeweilige Funktion aufgerufen.
In vielen Berufsfeldern und im Alltag k¨onnen Sprachanwendungen zur Verbesserung von
Datenverarbeitung und Bedienbarkeit beitragen. Hierbei muss man zwischen einem Sprach-Dialog-System und einem Sprachassistenten unterscheiden.
2.5.1 Sprach-Dialog-System
Die Bedienung von konventionellen Programmen, die f¨ur station¨are oder mobile
Compu-tersysteme mit Spracherkennung entwickelt werden, sind an einer festen Datenstruktur und Reihenfolge der Datenverarbeitung gebunden. Die zu bearbeitenden Daten, die an das
Sy-stem ¨ubergeben werden, durchlaufen einen statischen Programmcode, der auf unerwartete
Eingaben des Anwenders nur bedingt reagieren kann. Im Verlauf der Anwendung stehen nur
die vorgefertigten M¨oglichkeiten zur Eingabe- und Ausgabe zur Verf¨ugung. Wird eine
Ak-tion immer nach demselben Muster ausgef¨uhrt, ist sichergestellt, dass das zur¨uckgegebene
Resultat von dem Sprach-Dialog-System gleichbleibt. Verwendung finden solche Systeme bei Telefonhotlines im Kundenservice von Betrieben zur Entgegennahme von Informationen durch gezielte Fragestellungen, welche dem Kundensupport weitergeleitet werden.
Sprach-Dialog-Systeme werden bei standardisierten Abl¨aufen eingesetzt, um das mensch-liche Personal zu entlasten. Ein weiteres Beispiel findet sich in der Automobilindustrie. Sprach-Dialog-Systeme werden in Automobile verbaut, damit der Kunde beispielsweise die Medienfunktionen durch die Sprache steuern kann.
Der wesentliche Nachteil eines Sprach-Dialog-Systems liegt in der Beschr¨ankung an Befehlen
und der teils simplen Dialogformen, die verarbeitet werden. Der Anwendungsfall begrenzt sich auf die Konvertierung von Audiosignalen in ein Textformat, welches von der Maschine
verarbeitet werden kann. In der Abbildung 2.6 werden traditionelle Programme, die
Da-tensammlungen mittels statischem Programmcode verarbeiten, mit einer Anwendung mit
maschinellem Lernen (ML) gegen¨ubergestellt und zeigt die Unterschiede im
Programmver-lauf. Systeme mitMLerkennen mithilfe von Algorithmen und vorhandenen Datenbest¨anden
Muster bei der Datenverarbeitung, wodurch optimierte L¨osungen entwickelt werden.
Abbildung 2.6: Links: Traditioneller Programmverlauf. Rechts: Programmverlauf mit ML.
2.5. Sprachverarbeitung
2.5.2 Sprachassistent
Im Gegensatz zu einem Sprach-Dialog-System verarbeiten Sprachassistenten Befehle nicht
nur, sondern unterst¨utzen den Nutzer bei der Anwendung mit zus¨atzlichen Informationen,
die ¨uber die eigentliche Anforderung hinaus gehen. Basierend auf den Bed¨urfnissen und dem
Nutzerverhalten kann der Sprachassistent weitere Informationen aus vorhandenen
Datenban-ken beschaffen, die f¨ur den Anwender von Nutzen sein k¨onnten. Die Ergebnisse lassen sich
durch Benutzerinformationen anreichern und individualisieren. Eine wichtige Funktion von Sprachassistenten ist das maschinelle Lernen durch definierte Algorithmen, die auf
Benut-zereingaben reagieren. Nach der Befehlseingabe durch die Sprachtranskription ¨ubernehmen
Algorithmen die Auswertung und Generierung des optimalen Ergebnisses. Dabei wir die op-timale Antwort auf die gestellte Frage oder die passende Aktion zum Befehl ermittelt und
an den Benutzer gesendet. Ein wichtiger Aspekt ist, dass ein entsprechendes Feedback f¨ur
das resultierende Ergebnis gegeben wird und dieAI des Assistenten das Resultat bei Bedarf
korrigiert. Dabei lernt das System im Laufe der Nutzung auf benutzerspezifische Eingaben zu
reagieren und kann diese Informationen bei sp¨ateren Sprachanfragen verwenden. Anwendung
finden solch artige Sprachassistenten im Bereich der Smart-Home-Technik. Das Streaming
von Musik, die Abfrage von Wissensdaten oder die Steuerung von kompatiblen Ger¨aten sind
Beispiele f¨ur die Aufgaben eines Assistenten.
Die Industrie setzt Sprachassistenten in Voice-Applikationen f¨ur die Erweiterung und
Ver-marktung ihrer Produkte ein (siehe Abbildung 2.7). Applikationen wie zum Beispiel Alexa1
oder Siri2stellen Informationen aus dem Internet zum Abruf bereit und k¨onnen des Weiteren
kompatible Unternehmensprodukte steuern. Sprachassistenten bieten aber auch die M¨
oglich-keit interne Prozesse zu optimieren und neue Schnittstellen der Kommunikation
herzustel-len. Die Informationsbeschaffung von Produkten oder die Handlungseinleitung w¨ahrend einer
Produktion kann von Sprachassistenten sinnvoll unterst¨utzt werden.[Hoe19]
Abbildung 2.7: Einsatzbereiche von Sprachassistenten in Unternehmen. [Hoe19]
1
https://t1p.de/jieu
2.6
Zusammenfassung
In den vorherigen Abschnitten wurde ein Verst¨andnis f¨ur die Kommunikation zwischen
Mensch und Maschine vermittelt und die Phasen, welche durchlaufen werden, beschrieben.
Der Zyklus, w¨ahrend einer MMK, l¨asst sich durch die sieben Phasen des Norman’s
Acti-on Cycle darstellen. Der Zyklus besteht aus den Ausf¨uhrungsphasen (Planen, Spezifizieren,
Ausf¨uhren), den Auswertungsphasen (Wahrnehmen, Interpretieren, Vergleichen) und dem
Ziel der Handlung. Die Mensch-Maschine-Kommunikation gibt die Interaktion mit einem
technischen Ger¨at vor und steht im Zusammenhang mit dem Bedienkonzept, welches sich
aus der Softwaretechnik, der Ergonomie und einem intelligenten System zusammensetzt. Die Schnittstellentechnologie dient als Daten- und Signalverarbeitung und wird von externen
Pe-ripherieger¨aten angesteuert. Die Einhaltung der Syntax der jeweiligen Programmiersprache
ist bei der Nutzung von Computersystemen zwingend n¨otig, damit eine Verarbeitung der
Eingaben erfolgen kann. R¨uckmeldung erh¨alt der Benutzer ¨uber ein visuelles oder auditives
Signal, welches auf entsprechenden Ausgabeger¨aten wiedergegeben wird. Die Darstellung
von digitaler Information in einer virtuellen Realit¨at ist durch Einsatz von VR-Technologie
realisierbar und l¨asst den Benutzer in eine simulierte Welt eintauchen. Die Virtual Reality
geh¨ort neben der Augmented Reality (= Abbildung digitaler Inhalte auf der realen Welt) und
der Mixed Reality (= Digitale und reale Welt interagieren miteinander) zu den
sogenann-ten Exsogenann-tended Reality-Komponensogenann-ten, die zur Echtzeiterweiterung der Realit¨at beitragen. Im
Vergleich zu einer 2D-Anwendung, die gew¨ohnlich mit einerWIMP-Schnittstelle
ausgestat-tet ist, erm¨oglicht die virtuelle Welt die Objektmanipulation durch intuitive Steuerung mit
Controllern oder Bewegungstracking. Die virtuelle Realtit¨at wird dadurch erreicht, dass die
Handlungen in der abgeschlossen 3D-Welt dieselben Effekte auf die Objekte haben wie in
der Realit¨at. Negative Auswirkungen k¨onnen bei der technischen Umsetzung beispielsweise
durch eine falsche Bildwiederholrate des Displays oder durch eine Bilddarstellung auftreten,
die zur sogenannten Cybersickness (Motion Sickness) f¨uhren k¨onnen. Ebenfalls kann die
un-gewohnte Fortbewegung innerhalb der virtuellen Umgebung dazu beitragen, dass Symptome
wie Kopfschmerzen, ¨Ubelkeit oder Schwindel auftreten. Neben der visuellen
Weiterentwick-lung der MMK bietet die Sprachverarbeitung eine zus¨atzliche Art der Interaktion mit
Com-putersystemen, da die nat¨urliche Sprache des Menschen mit seinem endlichen Wortschatz
und der fest vorgeschrieben Grammatik ideal f¨ur die maschinelle Verarbeitung geeignet ist.
Dabei wird eine artifizielle (k¨unstliche) Intelligenz verwendet, einem Teilgebiet der
Informa-tik, bei der durch ML das Verhalten bei automatisierter Software beeinflusst wird. Dieser
erm¨oglicht Sprachtranskription und die Synthese von Texten. Die Sprachsteuerung l¨asst sich
in Sprach-Dialog-Systemen, die mit statischem Programmcode einer festen Datenstruktur arbeiten, und in Sprachassistenten mit maschinellem Lernen unterteilen. Sprachassistenten besitzen die Eigenschaft resultierende Ergebnisse bei Nutzeranfragen auf ihre Genauigkeit
zu ¨uberpr¨ufen und k¨onnen durch entsprechendes Feedback die Resultate optimieren.
Das folgende Kapitel befasst sich mit dem aktuellen Stand der Sprachassistenten und deren Prozesse zwischen Benutzer und Cloud-Plattform. Zudem wird ein Einblick in die VR-Technik
gegeben, die zur Generierung einer 3D-Welt und f¨ur die Betrachtung mit
Kapitel 3
Stand der Technik
3.1
Einleitung
Dieses Kapitel befasst sich mit dem aktuellen Stand der Technologie zu Sprachassistenten
und virtuellen Realit¨ats-Systemen. Zun¨achst wird der Sprachassistent Watson von IBM
be-schrieben. Dabei wird die AI und das maschinelle Lernen definiert und die Kommunikation
zwischen Computeranwendungen und der AI beschrieben. Der zweite Teil dieses Kapitels
setzt sich mit den VR-Systemen auseinander, die als HMD auf dem Markt vertreten sind
und die M¨oglichkeit einer Abbildung von 3D-Umgebungen und Objekten bieten. Hierbei
wird die Architektur betrachte und die Unterschiede zum nat¨urlichen Sehen eines Menschen
aufgezeigt.
3.2
Sprachassistenten
Die Verwendung einer AI erm¨oglicht das Erstellen von intelligenten Diensten oder
Pro-grammen, die in nahezu Echtzeit Befehle entgegennehmen, Transkription von
Unterhaltun-gen durchf¨uhren oder Analysen der Eingaben realisieren. Sprachassistenten lassen sich f¨ur
unterschiedliche Sprachen anpassen und beachten beispielsweise Stil, Akzent und weitere
Besonderheiten des Vokabulars der gew¨ahlten Sprache. Dar¨uber hinaus wandeln die
Cloud-Anwendungen die Audiosignale in eine digitale Programmiersprache, wie zum Beispiel
UTF-8, um und k¨onnen diese zur Weiterverarbeitung weiterleiten. Damit sind ¨Ubersetzungen
von verf¨ugbaren Sprachen, die sich je nach Application Programming Interface (API)
un-terscheiden, m¨oglich. Zudem bieten Hersteller Funktionen einer Sprachsynthese an, die mit
benutzerdefinierten Sprachmodellen die Texteingaben nach Tonh¨ohe, Geschwindigkeit und
Lautst¨arke konvertieren. Die Abbildung3.1zeigt den Prozessverlauf, w¨ahrend dem Gebrauch
einer APIvom Nutzer, der ¨uber Ein- und Ausgabeger¨ate mit der Plattform interagiert. Eine
API-Schnittstelle dient zum Austausch von Informationen nach einem vordefinierten System
zwischen einer Anwendung und deren einzelnen Programmabschnitten. Die Abl¨aufe des
Aus-tausches werden durch eine vorgegebene Syntax definiert. Dies erm¨oglicht eine Unterteilung
der Programme in Module. Die Komplexit¨at der Software wird vereinfacht und bietet die
Der Prozess zur Datenbearbeitung wird vom Nutzer durch Senden einer Anfrage angesto-ßen, die sich je nach Szenario unterscheiden. Die Nutzeranfrage wird wiederum in der Cloud
bearbeitet und auf die gew¨unschte Intent (Absicht) untersucht. Die AIhat Zugriff auf
wei-tere Datenbanken und externeAPIs, die bei der Bearbeitung der Anfrage Informationen zur
Verf¨ugung stellen. Bei erfolgreicher, aber auch bei ergebnisloser Verarbeitung der
Benut-zeranfrage, wird ein verwertbares Resultat zur¨uckgegeben, dass von den Ausgabeger¨aten
auf Client-Seite weiterverarbeitet werden kann. Dieser Vorgang repr¨asentiert das
grundle-gende Prinzip der Datenverarbeitung ¨uber eine API-Schnittstelle und wird typischerweise
durch eine Folge von Anfragen und Resultaten durchlaufen.
Abbildung 3.1: Prozessverlauf und Beziehungen zwischen der API und weiteren
Kompo-nenten. (t1p.de/uolg Stand: 12. Dezember 2020)
Verschiedene Cloudanbieter stellen Services zur Verf¨ugung, mit denen die Generierung eines
individuellen Assistenten erm¨oglicht wird. Cloud-Computing -Plattformen werden
beispiels-weise von dem Technologieunternehmen Microsoft, dem Onlineversandh¨andler Amazon, dem
Google Unternehmen oder dem Informationstechnik (IT)- und BeratungsunternehmenIBM
angeboten. Alle Anbieter stellen ¨ahnliche Programmschnittstellen zur Sprachverarbeitung
bereit, die auf Funktionen und Methoden zur¨uckgreifen, die auf Rechenzentren in einer
Cloud hinterlegt sind. Unterscheiden tun sich die Services Microsoft Azure1, Amazon AWS2,
Google Cloud3 und IBM Watson4 in der verarbeiteten Datenmenge, bei der Anbindung
der SDKs in vorhandene Applikationen und in den Kosten, die der Kunde bei der
Verwen-dung des Dienstes tragen muss. F¨ur diese wissenschaftliche Arbeit wird die API von IBM
verwendet, die eine Unity SDK zur Verf¨ugung stellt, um eine direkte Verbindung mit der
Cloud-basierten artifiziellen Intelligenz herzustellen. Außerdem bietet die
Cloud-Computing-Plattform eine ¨ubersichtliche Serviceverwaltung. In dem folgenden Abschnitt 3.3 wird die
WatsonAPInoch umfassender behandelt.
1 https://t1p.de/9lb0 2https://t1p.de/k9ot 3 https://t1p.de/9w8x 4https://t1p.de/vxk4
3.3. IBM Watson API
3.3
IBM Watson API
Die International Business Machines Corporation ist seit 1911 als amerikanisches
Beratungs-unternehmen im Bereich der Informationstechnik t¨atig[Cor20a], die bis 1924 unter dem
Namen Computing-Tabulating-Recording Company gef¨uhrt wurde[Cor20b]. Sie bietet
seit-dem eine Vielzahl an Produkten von Hard- und Software an. Des Weiteren geh¨ort sie zu
den Top IT-Unternehmen im Bereich der Unternehmensberatung weltweit5. In den letzten
Jahrzehnten hat sich das Unternehmenskonzept auf cloudbasierte Anwendungen und die Da-tensteuerung innerhalb eines Unternehmens fokussiert, wobei die artifizielle Intelligenz von Computersystemen immer mehr in den Anwendungen zu finden ist.
”Digital is the wires, but digital intelligence, or artificial intelligence as some
people call it, is about much more than that. This next decade is about how you combine those and become a cognitive business. It’s the dawn of a new era.“
-Virginia M. Rometty,IBMCEO (2012 bis 2020)6,7
IBMf¨uhrte im Jahr 2007 die Plattform Watson ein. Watson repr¨asentiert eineAI f¨ur
Unter-nehmen, mit der unter anderem Sprache analysiert und verarbeitet werden kann. Dar¨uber
hinaus erm¨oglicht Watson das maschinelle Lernen bei L¨osungsfindungen von komplexen
Pro-blemen in Anwendungen f¨ur Nutzer. Benannt wurde die Technologie nach dem ersten Chief
Executive Officer (CEO) und Gr¨under vonIBM, Sir Thomas J. Watson8. Betrieben wird die
Software Watson auf einem sogenannten Supercomputer, der mit einem Power7-Prozessor
und 16 Terabyte Random-Access Memory (RAM) ausgestattet ist. Als Betriebssystem wird
SUSE Enterprise Linux Server 11 verwendet. Die Leistung des Prozessors bei der
Verar-beitung betr¨agt 80 TeraFLOPS. Dies sind umgerechnet 80 Billion Rechenoperationen pro
Sekunde.9Dies erm¨oglicht eine Verarbeitung von bis zu 500 Gigabyte pro Sekunde an Daten,
wodurch Befehle und Rechenoperationen, wie die Durchsuchung, Analyse und Wiedergabe
von Informationen, in wenigen Sekunden f¨ur den Nutzer ausgef¨uhrt wird. 10. Mittlerweile
enth¨alt dieIBMWatson Plattform eine vielf¨altige Sammlung an Services, mit denen das
ma-schinelle Lernen in Programmen eingerichtet, die Sprachver- und Sprachbearbeitung erzeugt
sowie Bilder analysiert werden k¨onnen.
5https://t1p.de/rwfv Stand: 13. Dezember 2020 6
https://t1p.de/wqh6 Stand: 13. Dezember 2020
7https://t1p.de/qlqq Stand: 13. Dezember 2020 8
https://t1p.de/2vw4 Stand: 13. Dezember 2020
9¨
Ubersicht der FLOPS in AnhangA.1
3.4
Virtual-Reality-Systeme
Der Markt an Systemen und Brillen, die zur Betrachtung einer virtuellen Realit¨at
verwen-det werden, w¨achst und zeigt die Vielfallt an Einsatzm¨oglichkeiten dieser Technologie. Die
Industrie bietet f¨ur viele Bereiche, wie zum Beispiel der Medizin, der Bildung und der
Gaming-Branche, die passende Hardware. Zur bildlichen Darstellung werden stereoskopische Brillen oder Helme mit Displays verwendet, die am Kopf des Nutzers befestigt werden und typischer-weise eine geschlossene Bauform haben. Durch diese Bauform, die ein markantes Merkmal
der Systeme darstellt, wird die Technologie einer virtuellen Realit¨at h¨aufig mit der Brille
selbst verbunden. F¨ur die Visualisierung wird nicht nur das Display ben¨otigt, sondern noch
ein Hochleistungsrechner, der die 3D-Umgebung mit vorhandenen Objekten erzeugt. Daf¨ur
k¨onnen Desktop-Tower-PCs, portable Notebooks oder leistungsstarke Mobilger¨ate
verwen-det werden. Ebenfalls sind externe Peripherieger¨ate zur Eingabe und Interaktion wichtig, die
den Tastsinn, die Bewegung oder die Sprache entgegennehmen. Die Hersteller bieten hierf¨ur
eigene Controller mit Sensoren und Kn¨opfen, ¨uber die der Nutzer die Interaktion mit der
Anwendung steuern kann. Der Effekt einer virtuellen Realit¨at l¨asst sich somit in mehrere
Komponenten auflisten.[Bry96]
• Einem Head-Mounted-Display, dass durch Stereoskopie dem Benutzer auf Kopfh¨ohe
eine virtuelle Welt pr¨asentiert und die Kopfbewegungen einbindet.
• Einem leistungsstarken Computergrafiksystem, mit dem die virtuelle Welt berechnet und gerendert wird.
• Zus¨atzliche Eingabeger¨ate zur Interaktion im dreidimensionalen Raum.
Steve Bryson definiert den Begriff in der wissenschaftlichen Publikation Virtual Reality in Scientific Visualization mit folgendem Zitat:
”Virtual reality is the use of computers and human-computer interfaces to
crea-te the effect of a three-dimensional world containing increa-teractive objects with a strong sense of threedimensional presence. Important in this definition is that vir-tual reality is computer-generated, three-dimensional, and interactive. We want to create the effect of interacting with things, not with pictures of things.“
-Steve Bryson, wissenschaftlicher Mitarbeiter bei MRJ, Inc.[Bry96]
Die Abbildungen3.2 und 3.3 zeigen zwei unterschiedliche VR-Brillen der Hersteller Oculus
VR und HTC Corporation. Beide besitzen einen Helm mit einem Stereodisplay, welches
die Bilder durch das Lupenprinzip wiedergibt und einen r¨aumlichen Eindruck von Tiefe
erzeugt, der physikalisch in der Anwendung nicht vorhanden ist. Das Lupenprinzip bietet
dem Nutzer die M¨oglichkeit mithilfe von Optiken das Bild zu fokussieren und gleichzeitig
zu vergr¨oßern. Alternativ k¨onnen f¨ur die Bildprojektion Prismen verbaut werden. Integrierte
Sensoren messen an demHMDdie Kopfbewegung und die Position im Raum. Je nach Modell
3.4. Virtual-Reality-Systeme
Abbildung 3.2: Darstellung der VR-Brille Oculus Quest 2 (t1p.de/ngfx;
htt-ps://t1p.de/720t; https://t1p.de/888i Stand: 12. Dezember 2020)
Abbildung 3.3: Darstellung der VR-Brille HTC Vive (https://t1p.de/c0l4;
htt-ps://t1p.de/dt5j; https://t1p.de/7o7s Stand 12. Dezember 2020)
Eine hohe Bildwiederholungsrate als Merkmal einerVR-Brille ist von hoher Bedeutung zur
Gew¨ahrleistung einer fl¨ussigen Darstellung der VR-Bilder. Die Bildwiederholrate beschreibt
das Aufl¨osungsverm¨ogen innerhalb einer bestimmten Zeit. AktuelleVR-Brillen erreichen eine
Bildwiederholrate von 72 bis zu 144 Hertz (Hz).11Dies erm¨oglicht eine Darstellung von 120
Bilder pro Sekunde ¨uber die Displays. Jedoch ist zu beachten, dass die Rate im Bereich
der Frames per Second (FPS) der Grafikkarte liegt, um einen Bildverlust zu vermeiden. Hat
beispielsweise der Bildschirm ein Signal mit 120 FPS erhalten, unterst¨utzt jedoch nur 90
Hz, erfolgt ein Verlust von 30 FPS. Neben der Bildrate beeinflusst die Bildaufl¨osung das
Erlebnis im virtuellen Raum. Eine detaillierte und scharfe Welt, die ohne erkennbares
Pixel-raster dargestellt wird, l¨asst sich durch entsprechende Aufl¨osung der Displays erreichen. Die
Angaben zur Aufl¨osung werden entweder f¨ur jedes Display separat oder f¨ur das Displaypaar
angegeben. Aktuelle Modelle vonVR-Brillen haben eine Aufl¨osung zwischen 1280x1440
Pi-xel und 2560x1440 / 2160x2160 PiPi-xel pro Auge.12
11
https://t1p.de/i9o6 Stand: 13. Dezember 2020
Einbußen entstehen außerdem im Sichtfeld des Nutzers, da dieVR-Brillen nicht das gesamte
Spektrum darstellen k¨onnen, wie es das Auge in der Realit¨at gewohnt ist. Das Sichtfeld eines
HMDim Vergleich mit dem regul¨aren Gesichtsfeld wird in der Abbildung 3.4gezeigt.
Abbildung 3.4: Sichtfeld eines Head-Mounted-Displays im Vergleich zum Gesichtsfeld des
Nutzers. [Jun19]
Deutlich wird, dass der Anwender vor allem am Bildrand Abstriche bei der Visualisierung der
simulierten Welt hat. Jedes Auge deckt ungef¨ahr einen Winkel von 167° ab, wodurch f¨ur die
horizontale Ebene ein Gesamtwinkel von 214° m¨oglich ist. Der Bereich, der von beiden
Au-gen visuell wahrAu-genommen wird, betr¨agt allerdings nur 120° und wird binokulares Deckfeld
genannt.[Jun19] Die Abbildung 3.5 stellt das binokulare Gesichtsfeld und das entstehende
Deckfeld dar. Speziell dieses Deckfeld ist wichtig und sollte von der VR-Brille unterst¨utzt
werden. Der Vergleich von derzeitigen VR-Brillen zeigte, dass ein Sichtfeld von 110° bis
maximale 170° bei der Bildprojektion realisierbar ist.
3.4. Virtual-Reality-Systeme
Abh¨angig vom Modell werden zus¨atzliche Sensoren im Raum aufgestellt, die Brille und
Con-troller durch sogenanntes Tracking erfassen und somit eine genauere Lokalisierung der Person
erm¨oglichen. Auch die Art der Steuerung ¨uber Controller, die mit den H¨anden bet¨atigt wird,
ist identisch und stellt die Bewegung der Hand in derVR-Umgebung nach. Die Struktur und
die zugeh¨origen Verbindungen zwischen den Komponenten f¨ur ein virtuelles Erlebnis werden
in der Abbildung3.6dargestellt und werden in vier Elemente unterteilt. DieVR-Engine und
die damit verbundenen Peripherieger¨ate bilden die Architektur der virtuellen Realit¨at. Die
VR-Engine ist Hauptbestandteil jedesVR-Systems und beinhaltet alle Funktionen zur
Aufga-benverwaltung des Programms. DieVR-Engine umfasst die Steuerbefehle der Eingabe- und
Ausgabeger¨ate, wobei dieVR-Engine die entsprechenden Aufgaben von einer Datenbank
be-zieht. All das geschieht in Echtzeit und wirkt sich augenblicklich auf die virtuelle Umgebung
aus. Mittelpunkt des ganzen Systems ist der Benutzer. ¨Uber verschiedene Sensoren wird die
Position der Person im Raum ermittelt. Es besteht dauerhaft ein Wechselspiel zwischen dem
Benutzer mit Peripherieger¨aten, der VR-Engine und der dazugeh¨origen Datenbank.
Abbildung 3.6: Architektur einesVR Systems mit den Komponentenbeziehungen13
F¨ur die Entwicklung desVR Auto Konfigurators wird ein Modell der Oculus Rift-Reihe
ver-wendet, die mit zwei Sensoren im Raum die Bewegungen verfolgt und ¨ubertr¨agt. Zus¨atzlich
werden zwei Handger¨ate unterst¨utzt, die zur Steuerung in der virtuellen Welt verwendet
werden k¨onnen. Die Schnittstelle zwischen virtueller Umgebung und derVR-Brille stellt das
Oculus Integration Package14 her. Das Oculus Integration Package enth¨alt eine Sammlung
anVR-Komponenten, Skripte und Plug-ins zur Vereinfachung des Entwicklungsprozesses in
Unity.
Das Plug-in ¨ubernimmt zus¨atzlich die Aufgaben der Darstellung der Modelle, die f¨ur die
Controller in der VR Umgebung angezeigt werden. Zudem reagiert das Oculus Integration
Package auf die Eingaben durch die Peripherieger¨ate und berechnet die Darstellung des
Modells.
3.5
Erfassung des aktuellen Technologiefortschritts
Das Deutsche Forschungszentrum f¨ur K¨unstliche Intelligenz15 hat in dem Artikel A
Virtu-al ReVirtu-ality Couch Configurator Leveraging Passive Haptic Feedback eine Anwendung, auf
Basis der virtuellen Realit¨at, vorgestellt, die den Beratungsprozess von M¨obelgesch¨aften
un-terst¨utzt. Der Kunde befindet sich bei dem genannten Beispiel in einer simulierten Welt und
steht im Kontakt mit dem Vertriebsexperten, der die Gestaltung und Konfiguration eines
Produktes in derVR-Anwendung ¨ubernimmt. In diesem Fall handelt sich um eine
Sofakon-figuration, die durch Bereitstellung unterschiedlicher Layouts und Stoffmuster realistische
Eindr¨ucke liefert.[Mur20] Der Kunde ist ausschließlich Betrachter der virtuellen Welt und
hat keine direkte M¨oglichkeit der Interaktion. Dieses Beispiel veranschaulicht, dass der
Ein-satz von VR Konfiguration und deren Technologie in der Industrie vielseitig ist.
Durch den Einsatz von zus¨atzlichen Peripherieger¨aten zur Interaktion in derVR-Anwendung,
wird die Handlungsebene f¨ur den Benutzer erweitert. ¨Uber mehrere Jahrzehnte haben sich
zum Beispiel Gamepads als Schnittstelle zwischen Mensch und Maschine etabliert und wer-den bei Computersystemen mit 2D-Display verwendet. Monthir Ali und Rogelio E.
Cardona-Rivera, von der Universit¨at Laboratory for Quantitative Experience Design School of
Compu-ting, untersuchten das konventionelle Gamepad von Microsoft XBOX16und verglichen dieses
mit dem HTC Vive17 Controller, der speziell f¨ur die virtuelle Realit¨at entwickelt wurde. Bei
der Betrachtung der Geschwindigkeit und der Genauigkeit konnte durch die Verwendung
eines VR Controllers eine Leistungssteigerung festgestellt werden. Allerdings gaben bei der
Testreihe mehrere Probanden an, dass sie das klassische Gamepad bevorzugen.[CR20]
Die Autoindustrie nutzt ebenfalls dieVR-Technologie, um die Fahrzeuge und Produkte des
Unternehmens in eine virtuelle Realit¨at zu portieren. Dabei greifen die Unternehmen auf
Hersteller wie zum Beispiel Demodern18oder NORD XR19zur¨uck, die mit eigenen
Entwick-lungsplattformen individuelleVRAuto Konfiguratoren konstruieren. Die Kunden k¨onnen mit
herk¨ommlichen Peripherieger¨aten der VR-Brillen Hersteller in der simulierten Welt
intera-gieren und das Fahrzeug konfigurieren.
15https://t1p.de/3puz 16 https://t1p.de/2orz 17https://t1p.de/va36 18 https://t1p.de/skzk 19https://t1p.de/6mst
3.6. Zusammenfassung
Die Simulation der virtuellen Welt wird stark von der Technologie der VR-Brille und der
zugeh¨origen Controllern beeinflusst. Die virtuelle Realit¨at soll ein tiefgreifendes Erlebnis
bie-ten und den Anwender in eine emotionale, perfekte Simulation einbinden, die unabh¨angig
von der tats¨achlichen Realit¨at existiert. Hunter Osking und John A. Doucette befassten sich
2019 in ihrer Publikation Enhancing Emotional Effectiveness of Virtual-Reality Experiences with Voice Control Interfaces mit der emotionalen Wirkung von klassischen Dialogsteue-rungssystemen und untersuchten den Effekt von Sprachsteuerungsdialogsystemen in einem
VR-Spiel.[Dou19] Anhand einer Testreihe mit Probanden, die das Spiel mit traditioneller
Point-and-Click Oberfl¨ache und einer Sprachsteuerung gespielt haben, konnte die
Hypothe-se best¨atigt werden, dass die emotionale Empfindung und die Spielfreunde durch den Einsatz
von Sprache in der virtuellen Umgebung erh¨oht wird. Folglich wurde die Schlussfolgerung
gezogen, dass durch die Verwendung von Sprachsteuerung die Attraktivit¨at f¨ur Verbraucher
gesteigert werden kann.
Die Erweiterung einer Sprachsteuerung mit einem AI-basierten Assistenten kann die
Qua-lit¨at und die Zug¨anglichkeit von Sprachsystemen verbessern. Im Jahr 2020 ver¨offentlichte das
Institute of Electrical and Electronics Engineers (IEEE)20die Literatur Artificial
Intelligence-based Voice Assistant, in der die Implementierung einer AI-basierten Sprachsteuerung
be-schrieben wird. Dabei sammelt ein Sprachassistent die Audiosignale eines Mikrofons,
kon-vertiert diese mit Google Text to Speech (GTTS) in einen englischen Text und synthetisiert
diese mit dem Soundpaket der Python-Programmiersprache.[San20]
3.6
Zusammenfassung
Sogenannte Cloud-Computing-Unternehmen, wie Microsoft,IBMund Google, bieten diverse
Tools undAPI-Schnittstellen zur Programmierung intelligenter Sprachanwendungen, die
Au-diosignale nach Sprache, Dialekt, Akzent und weiteren Eigenschaften analysieren und
verar-beiten. Der Client steht in einer Wechselbeziehung mit derAPI-Plattform und kommuniziert
¨
uber ein Mikrofon mit dem Assistenten. Eingaben werden auf vorhandene Intents gepr¨uft, mit
Informationen aus Datenbanken oder externen Programmschnittstellen aufbereitet und an
den Client zur¨uckgegeben. Der Prozess innerhalb des Sprachassistenten greift auf
Transkrip-tion und Synthese zu, die auf externen Rechenzentren der Anbieter zur Verf¨ugung stehen.
In dieser wissenschaftlichen Arbeit wird die WatsonAPIdes amerikanischen Beratungs- und
IT-Unternehmen IBM verwendet, die seit 2010 als Cloud-Plattform zur Verf¨ugung gestellt
wird. Neben Programmen zur Sprach- und Bildverarbeitung bietet Watson einen Service zur Integration von maschinellem Lernen, was die Basis eines Sprachassistenten bildet.
In diesem Kapitel wird der aktuelle Stand der Head-Mounted-Displays, die zur Darstellung
virtueller R¨aume und Objekte dienen, betrachtet und erl¨autert. Stereoskopische Brillen oder
Helme erzeugen eine virtuelle Welt und verwenden Kopfbewegung und Controller-Eingaben zur Simulation der Fortbewegung innerhalb der Scheinwelt, die anhand Tracking-Daten von Sensoren ermittelt werden. Durch das Lupenprinzip wird das erzeugte Bild auf den
in-tegrierten Displays, optimaler Weise mit einer hohen Bildwiederholrate und Aufl¨osungen,
dargestellt. Der Aufbau eines VR-Systems besteht aus der VR-Architektur, die aus einer
VR-Engine und Peripherieger¨aten besteht, der zugeh¨origen Datenbank und dem Benutzer
selbst, die miteinander agieren und Daten austauschen. F¨ur den sp¨ateren Auto Konfigurator
wird alsAPI-Schnittstelle das Oculus Integration Package verwendet, welches von der Firma
Oculus VR bereitgestellt wird und mit derVR-Brille Oculus Rift eine Verbindung herstellt.
Das Konzept f¨ur die Entwicklung eines Auto Konfigurators mit implementierten
Sprachas-sistenten folgt in dem n¨achsten Kapitel und schildert den Prozess der Produktkonfiguration
Kapitel 4
Konzept eines Sprachassistenten im
virtuellen Auto Konfigurator
4.1
Einleitung
Die Nachfrage nach individuellen Produkten, die an die Anspr¨uche einer K¨aufergruppe
an-gepasst sind, steigt stetig und spielt eine wichtige Rolle beim Kaufverhalten der Kunden. In vielen Bereichen der Wirtschaft werden Konfiguratoren verwendet, damit Kunden die
Pro-dukte ausw¨ahlen, nach eigenen W¨unschen anpassen oder von unterschiedlichen Blickwinkeln
betrachten k¨onnen. Hersteller nutzen auf ihren Webseiten eigene Produkt Konfiguratoren,
die ¨uber vordefinierte Konfigurationsm¨oglichkeiten verf¨ugen. Der Verlauf einer webbasierten
Produktkonfiguration l¨asst sich in 5 Schritte unterteilen, wie in Abbildung 4.1 dargestellt.
Zu Beginn wird ein Kunde mit einem Produktwunsch sich einen Hersteller suchen, der den
gew¨unschten Artikel zur Konfiguration anbietet (1. Phase). Mit einem Computer, der ¨uber
einen Internetzugang verf¨ugt, hat der Kunde die M¨oglichkeit einen Web Konfigurator zu
ver-wenden, mit dem Merkmale wie zum Beispiel Farbe, Gr¨oße, Material oder spezielle
Beson-derheiten des Produktes angepasst werden k¨onnen (2. Phase). Im Hintergrund werden vom
Server verf¨ugbare Optionen mit entsprechenden Eigenschaften aus der Datenbank geladen
und zur Verf¨ugung gestellt (3. Phase). Anschließend wird das Produkt in der konfigurierten
Form simuliert und dem Anwender dargestellt (4. Phase). Nach erfolgreicher Durchf¨uhrung
der Schritte 1-4, kann das System ein Angebot erstellen, welches die individuellen Einstel-lungen beinhaltet und zuletzt an den Kunden weitergeleitet werden kann (5. Phase).
Abbildung 4.1: Ablauf einer individuellen Produktkonfiguration. (t1p.de/c0qi Stand: 12. Dezember 2020)
4.2
Konzept und Idee
In der Automobilindustrie sind Web Konfiguratoren bei der individuellen Gestaltung und dem Verkauf von Autos fester Bestandteil. Diese Plattformen findet man zumeist auf den
Online-auftritten der Hersteller und erlauben dem Endkunden eine Vielzahl an Einstellungsm¨
oglich-keiten an bereitgestellten Fahrzeugen auszuprobieren. Punkte wie Lackierung, Felgen, In-terieur und viele weitere Bauteile spielen bei der Auswahl des Kunden eine wichtige Rolle.
Die Steuerung wird in der Regel mit den externen Peripherieger¨aten des Computers, wie
beispielsweise Maus und Tastatur, umgesetzt.
F¨ur diese wissenschaftliche Arbeit wird ein Auto Konfigurator f¨ur die Oculus Rift, einer
VR-Brille zur Betrachtung von virtuellen Welten, erstellt. Dieser dient als Basis f¨ur die
Integration eines Sprachassistenten, der von dem Cloud-AnbieterIBMstammt und
entspre-chende Funktionen zur Sprachtranskription, zur Absichts- und Entit¨atserkennung durch AI
und zur Sprachsynthese bietet. Der Nutzer soll die M¨oglichkeit haben das bereitgestellte
Automodell durch den Dialog mit dem Assistenten nach eigenen W¨unschen anpassen zu
4.3. Erstellung eines VR Auto Konfigurators
In der Umsetzung sind folgende Schritte zu beachten. Zun¨achst muss das Audiosignal,
welches die gesprochenen Befehle des Anwenders repr¨asentiert, in ein digitales Signal
um-gewandelt und als 8−bit Unicode Transformation Format (UTF-8) Text ausgeben werden.
Daraufhin wird der UTF-8 Text dem Cloud-Assistenten ¨ubergeben, der auf vorher
festge-legte Gespr¨ache reagiert und die entsprechenden Antworten liefert. Die Nachricht, die von
der artifiziellen Intelligenz zur¨uckgegeben wird, wird wiederum zur Sprachsynthese
weiter-geleitet und als Audiofile wiedergegeben. Nach dem erfolgreichen Dialog zwischen Nutzer
und Sprachassistent wird nun die entsprechende Aktion ausgef¨uhrt, die das Auto nach den
gew¨unschten Vorgaben generiert.
4.3
Erstellung eines VR Auto Konfigurators
Die Realisierung der virtuellen Umgebung wird mit der Software Unity1 erfolgen. Unity
ist eine Echtzeit-Entwicklungs- und Laufzeitumgebung, mit der 2D-, 3D-, AR und VR
-Darstellungen implementiert werden k¨onnen. Vor allem in der Spieleindustrie ist dieses
Ent-wicklertool weit verbreitet und wird f¨ur die unterschiedlichsten Plattformen genutzt. Dazu
geh¨oren beispielsweise Computer, Spielekonsolen, mobile Endger¨ate und auch Webbrowser.
Bei der Entwicklung unterst¨utzt der Editor den Entwickler mit vielen hilfreichen Tools, die bei
der Erstellung und Bearbeitung von Objekten helfen. F¨ur den VR Auto Konfigurator wird die
High Definition Render Pipeline (HDRP) verwendet, eine von Unity entwickelte, skriptf¨ahige
High-Fidelity-Render-Pipeline, die physikalisch basierte Beleuchtungstechniken, lineare
Be-leuchtung, HDR-Beleuchtung und eine konfigurierbare Hybridarchitektur verwendet[Tec20].
Eine Render-Pipeline, zu deutsch Grafikpipeline, repr¨asentiert ein Model der Computergrafik
und beschreibt die Grafikbefehle zur Darstellung von Objekten2.HDRP liefert Grafiken mit
einer hohen Detailtreue und Aufl¨osung, die f¨ur eine detaillierte Abbildung derVR-Umgebung
ben¨otigt wird.
4.3.1 VR Showroom
Ein Showroom erf¨ullt den Zweck einer Produktpr¨asentation und der Bereitstellung von
Aus-wahlm¨oglichkeiten. Eine Vielzahl an Produkten k¨onnen mit dem Einsatz virtueller
Ausstel-lungsr¨aume auf geringem Raum dem Benutzer interaktiv pr¨asentiert werden. Durch die
Bereitstellung von Interaktionsm¨oglichkeiten in der virtuellen Realit¨at k¨onnen
Konfigura-toren realisiert werden und bieten ein unterhaltsame und informative Repr¨asentation des
Produktes. Die Ausarbeitung einer 3D-Kulisse tr¨agt zum emotionalen Empfinden innerhalb
der VR-Anwendung bei.
Die Pr¨asentation des Automodells im VR Konfigurator findet in einer modellierten
Lager-halle statt, die als Showroom fungiert. Platziert wird die LagerLager-halle in einer Naturszene, die
einen Park bei Tageslicht abbildet. Ein helles und aufger¨aumtes Design wird f¨ur die virtuelle
Welt verwendet und soll positiv auf das emotionale Empfinden, w¨ahrend der Konfiguration,
1
https://t1p.de/4woo
einwirken. Innerhalb der Lagerhalle wird das Automodell im Mittelpunkt der ganzen Szene
positioniert. Die Abbildung 4.2 zeigt zwei Renderings der VR-Szene, die f¨ur den VR Auto
Konfigurator verwendet werden. Ein Rendering ist die Berechnung und Darstellung eines grafischen Inhalts auf einem Display.
Abbildung 4.2: Visualisierung der finalen VR Auto Konfigurator Szene
4.3.2 3D Automodell
In denVRAuto Konfigurator wird ein Automodell der Volvo Car Group3 eingebunden. Das
Modell wurde durch die Firma PCONAS GmbH4 und der Volvo Car Group zur Verf¨ugung
gestellt, welches f¨ur diese wissenschaftliche Arbeit verwendet wird. In der Abbildung4.3wird
das Automodell als Rendering gezeigt, das mit der Software Maya 20195 erstellt wurde.
Abbildung 4.3: Rendering eines Volvos XC-40 mit der 3D-Animationssoftware Autodesk Maya 2019
3https://t1p.de/01im 4
https://t1p.de/ccky
4.3. Erstellung eines VR Auto Konfigurators
4.3.3 Farben und Texturen
In der Szene wird f¨ur jedes Objekt ein Material definiert, welches eine Textur und eine
Far-be umfasst. Ein Material kann jedem Objekt zugewiesen werden, wodurch die OFar-berfl¨ache
die Textur- und Farbinformationen annimmt. Im Inspector, dem Programmfenster zur
An-sicht der detaillierten Informationen des ausgew¨ahlten Objekts, k¨onnen diese Informationen
beliebig angepasst werden. F¨ur den VR Auto Konfigurator ist eine Vielzahl an Materialien
n¨otig, die f¨ur die Oberfl¨achengestaltung erforderlich sind. Das Erzeugen und die Zuweisung
von Texturen und Farben sind f¨ur die Lackierung, Felgenfarbe und Innenausstattung des
Autos sowie f¨ur den Boden und die Wand des Showrooms zu definieren. F¨ur die
Erstel-lung solcher Materialien k¨onnen unterschiedliche Maps, also Bilder von einer bestimmten
Textur, verwendet werden, die Einfluss auf die Struktur des Objekts haben.6 Anhand einer
Ziegelstein-Textur, die in Abbildung4.4dargestellt wird, werden die Unterschiede der Maps
veranschaulicht. Albedo-Map
Mithilfe einer Albedo-Map k¨onnen Oberfl¨ache mit einer Textur, bei der zuvor Schatten und
Reflexion von Licht entfernt wurden, eingef¨arbt werden.
Normal-Map
Deutlich erkennbar ist eine Normal-Map anhand der violetten Farbe. Die verwendeten roten,
gr¨unen und blauen Farbt¨one geben der 3D-Anwedung an, in welche Richtung (X-, Y- oder
Z-Achse) die entsprechenden Fl¨achen ausgerichtet werden sollen, mit denen die
Beleuch-tung berechnet wird. Durch die AusrichBeleuch-tung wird eine Illusion von Tiefe auf der Oberfl¨ache
erzeugt, die Details durch Kantenschatten hervorhebt. Height-Map
Durch die Height-Map wird zus¨atzlich ein H¨ohenunterschied erzeugt, in dem eine Abbildung
der Textur erstellt wird, bei der Vertiefungen schwarz und die H¨ohen weiß dargestellt werden.
Folglich kann Unity ein H¨ohenprofil der Oberfl¨ache erstellen, wodurch Unebenheiten zur
Kamera hin vergr¨oßert oder verkleinert werden.
Occlusion-Map
Die Occlusion-Map definiert die St¨arke der indirekten Beleuchtung des GameObjects.
Abbildung 4.4: Material-Maps von Ziegelsteinen. Oben-Links: Albedo-Map; Oben-Rechts: Normal-Map; Unten-Links: Height-Map; Unten-Rechts: Occlusion-Map.
In der Abbildung4.5werden vier Materialien dargestellt, die imVRAuto Konfigurator f¨ur die
Gestaltung des Showrooms verwendet werden. Der Boden der Lagerhalle erh¨alt eine Textur,
die Bodenfliesen nachempfunden ist. F¨ur die W¨ande werden zwei Materialen erstellt, die
optisch Ziegelsteine und Betonstuck darstellen. Dem Deckengew¨olbe der Lagerhalle wird
eine Betontextur zugewiesen.
Abbildung 4.5: Materialien der VR Szene. Oben-Links: Ziegelsteine; Oben-Rechts: Beton; Unten-Links: Bodenfliesen; Unten-Rechts: Betonstuck.
4.3. Erstellung eines VR Auto Konfigurators
Die Objekte des Automodells, die eine farbige Lackierung erhalten, werden mit einem
Mate-rial ausgestattet, welches durch einen sp¨ateren Funktionsaufruf in der Farbe bearbeitet
wer-den kann. Daf¨ur steht ein Color-Attribut zur Verf¨ugung, welches einen Hexadezimal (Hex
)-Farbcode verwendet. Die Abbildung 4.6 verbildlicht einen Farbwechsel des Automodells im
VR Auto Konfigurator und zeigt drei unterschiedliche Farben (Grau, Rot, Schwarz) die zur
Verf¨ugung stehen.
Abbildung 4.6: Visualisierung von drei unterschiedlichen Farben der Auto Lackierung
Die Simulation einer Grasfl¨ache wird durch die Verwendung von Grashalm-Objekten mit
entsprechender Textur, die auf einer Bodenfl¨ache platziert werden, erzielt. Die Bodenfl¨ache
erh¨alt zus¨atzlich eine Grastextur, um einen realistischeren Effekt zu erhalten. In der
nach-folgenden Abbildung 4.7 wird eine Nahaufnahme der Grashalme gezeigt, die außerhalb der
Lagerhalle verwendet werden. F¨ur den Boden werden zwei Texturen mit Grasoptik genutzt,
die das Bild einer Wiese vervollst¨andigen.
Abbildung 4.7: Grasfl¨ache der VR Szene. Links: Darstellung der Grashalme; Rechts: