Analyse und Evaluation eines Sprachsteuerungssystems in der virtuellen Realität anhand eines Auto Konfigurators

(1)

Analyse und Evaluation eines

Sprachsteuerungssystems in der virtuellen Realit¨

at

anhand eines Auto Konfigurators

Studiengang Medieninformatik

Bachelorarbeit

vorgelegt von

Steven D¨

orr

geb. in Schotten

durchgef¨uhrt im Unternehmen

PCONAS GmbH Prof. Consulting, for Application Systems, Hanau

Referent der Arbeit: Hans Christian Arlt, M. Sc. Korreferent der Arbeit: Prof. Dr. Cornelius Malerczyk

Fachbereich

Informationstechnik-Elektrotechnik-Mechatronik IEM Friedberg, 2020

(2)

(3)

(4)

(5)

-Danksagung

An dieser Stelle m¨ochte ich mich bei den Menschen bedanken, die einen besonderen Beitrag

zum Gelingen dieser Arbeit geleistet haben.

Meinen Eltern m¨ochte ich von Herzen danken, die mich in der Zeit meines Bachelorstudiums

sowie während der Zeit, in der ich diese Arbeit verfasst habe, bestmöglich unterstützt haben.

Hans Christian Arlt gilt ein besonderer Dank f¨ur die Betreuung dieser Arbeit. Dank ihm

und meinem Korreferenten Prof. Dr. Cornelius Malerczyk habe ich die Leidenschaft f¨ur die

3D-Computergrafik entdeckt.

Meinem Bruder, Timothy D¨orr, danke ich daf¨ur, dass er mich in der Zeit der Erstellung

dieser Arbeit stets unterst¨utzt und sich die Zeit genommen hat, diese Arbeit Korrektur zu

lesen.

Bernd und Heinz Malyszewski danke ich für die Möglichkeit der Projektdurchführung, um

(6)

(7)

Selbstst¨

andigkeitserkl¨

arung

Ich erkl¨are, dass ich die eingereichte Bachelorarbeit selbstst¨andig und ohne fremde Hilfe

verfasst, andere als die von mir angegebenen Quellen und Hilfsmittel nicht benutzt und die

den benutzten Werken w¨ortlich oder inhaltlich entnommenen Stellen als solche kenntlich

gemacht habe.

Friedberg, Dezember 2020

(8)

(9)

Inhaltsverzeichnis

Danksagung i

Selbstst¨andigkeitserkl¨arung iii

Inhaltsverzeichnis v Abbildungsverzeichnis vii Abk¨urzungsverzeichnis ix 1 Einleitung 1 1.1 Motivation . . . 1 1.2 Problemstellung . . . 2 1.3 Zielsetzung. . . 3

1.4 Organisation der Arbeit . . . 4

2 Grundlagen 5 2.1 Einleitung . . . 5 2.2 Mensch-Maschine-Kommunikation . . . 5 2.3 Virtuelle Realit¨at. . . 7 2.4 Cybersickness . . . 9 2.5 Sprachverarbeitung . . . 10 2.5.1 Sprach-Dialog-System . . . 11 2.5.2 Sprachassistent . . . 13 2.6 Zusammenfassung . . . 14

3 Stand der Technik 15 3.1 Einleitung . . . 15

3.2 Sprachassistenten . . . 15

3.3 IBM Watson API . . . 17

3.4 Virtual-Reality-Systeme . . . 18

3.5 Erfassung des aktuellen Technologiefortschritts . . . 22

(10)

4 Konzept eines Sprachassistenten im virtuellen Auto Konfigurator 25

4.1 Einleitung . . . 25

4.2 Konzept und Idee . . . 26

4.3 Erstellung eines VR Auto Konfigurators . . . 27

4.3.1 VR Showroom . . . 27

4.3.2 3D Automodell . . . 28

4.3.3 Farben und Texturen . . . 29

4.3.4 Beleuchtung . . . 32

4.3.5 3D Animationen . . . 33

4.4 Zusammenfassung . . . 33

5 Implementierung und Analyse der IBM Watson SDK zur Sprachverarbeitung 35 5.1 Einleitung . . . 35

5.2 Implementierung der IBM Watson SDK . . . 35

5.2.1 Transkription der Sprache . . . 36

5.2.2 Watson Sprachassistent . . . 40

5.2.3 Sprachsynthese von Text . . . 43

5.3 Funktionsaufruf im VR Auto Konfigurator . . . 46

5.4 Zusammenfassung und Ergebnis . . . 49

6 Evaluation 51 6.1 Einleitung . . . 51

6.2 Konzept . . . 51

6.3 Auswertung . . . 52

6.3.1 Worterkennungsrate der Spracheingabe. . . 52

6.3.2 Bearbeitungszeit der Services . . . 55

6.3.3 Pr¨ufung der Benutzerfreundlichkeit . . . 58

6.4 Zusammenfassung und Interpretation der Ergebnisse. . . 63

7 Zusammenfassung und Ausblick 65 7.1 Zusammenfassung . . . 65

7.2 Ausblick . . . 67

A Anhang 69

(11)

Abbildungsverzeichnis

1.1 Mensch-Maschine-Schnittstelle . . . 1

1.2 Sprachassistenten . . . 2

1.3 Umfrage Sprachsteuerung . . . 3

2.1 Normans’s Action Cycle . . . 7

2.2 Komponenten der Extended Reality . . . 8

2.3 Interaktionsmodelle . . . 9

2.4 Auswirkungen von VR-Brillen . . . 10

2.5 Natural Language Processing . . . 11

2.6 Programmverlauf von Sprach-Dialog-Systemen und Sprachassistenten . . . 12

2.7 Sprachassistenten in Unternehmen . . . 13

3.1 Prozessverlauf und Beziehungen einer API . . . 16

3.2 Oculus Quest 2 . . . 19

3.3 HTC Vive . . . 19

3.4 HMD Sichtfeld . . . 20

3.5 Binokulare Sicht . . . 20

3.6 VR-Architektur . . . 21

4.1 Ablauf einer Produktkonfiguration . . . 26

4.2 VR Auto Konfigurator. . . 28

4.3 Volvo XC-40 Automodell . . . 28

4.4 Material-Maps . . . 30

4.5 Materialien der VR Szene . . . 30

4.6 Material der Auto Lackierung . . . 31

4.7 Grasfl¨ache der VR Szene . . . 31

4.8 Beleuchtung im VR Auto Konfigurator . . . 33

4.9 T¨uranimationen im VR Auto Konfigurator . . . 33

5.1 IBM Watson Sprachassistent Zyklus . . . 36

5.2 Inspector-Oberfl¨ache der Speech-to-Text Komponente. . . 37

5.3 Dialogverlauf mit IBM Watson Assistant . . . 41

5.4 Inspector-Oberfl¨ache der Text-to-Speech Komponente. . . 44

5.5 Darstelluns¨anderung der Autot¨uren . . . 48

(12)

6.1 Confidence-Werte der Sprachtranskription . . . 54

6.2 Bearbeitungszeit des IBM Watson Service . . . 57

6.3 Auswertung der Altersgruppe . . . 59

6.4 Auswertung der Personengruppe . . . 60

6.5 H¨aufigkeit der Nutzung eines Sprachassistenten . . . 61

6.6 Erfahrungen mit dem VR Auto Konfigurator . . . 61

(13)

Abk¨

urzungsverzeichnis

AI Artifizielle Intelligenz

API Application Programming Interface AR Augmented Reality

CEO Chief Executive Officer ER Extended Reality

FPS Frames per Second GTTS Google Text to Speech HDRI High Dynamic Range Image HDRP High Definition Render Pipeline Hex Hexadezimal

HMD Head-Mounted-Display HTTP Hypertext Transfer Protocol Hz Hertz

IBM International Business Machines Cor-poration

ID Identifikation

IEEE Institute of Electrical and Electronics Engineers IT Informationstechnik ML Maschinelles Lernen MMK Mensch-Maschine-Kommunikation MMS Mensch-Maschine-Schnittstelle MR Mixed Reality

NLP Natural Language Processing RAM Random-Access Memory

REST Representational State Transfer SDK Software Development Kit TCP Transmission Control Protocol SSML Speech Synthesis Markup Language UTF-8 8−bit Unicode Transformation

For-mat

URL Uniform Resource Locator VR Virtuelle Realit¨at

WDC Watson Developer Cloud

WIMP Windows, Icons, Menus, Pointing XML Extensible Markup Language

(14)

(15)

Kapitel 1

Einleitung

1.1 Motivation

Der Einsatz von Sprachassistenten in der Gesellschaft und vor allem in den Bereichen der

Informationstechnik nimmt stetig zu. Applikationen auf mobilen oder station¨aren Ger¨aten

erm¨oglichen den Austausch von Befehlen und Aufgaben, woraufhin ein benutzerspezifisches

Resultat zur¨uckgegeben wird. Die Sprache stellt als nat¨urliches Medium eine Schnittstelle

zwischen Mensch und Maschine dar. Weitere Arten von Schnittstellen sind beispielsweise

Ta-statur, Maus oder Geste, die sowohl Befehle durch direkten oder ber¨uhrungsfreien Kontakt

¨

ubermitteln k¨onnen. Die Entwicklung der ¨Ubertragungsformen startete “bereits 1941 mit

der Rechenmaschine von Konrad Zuse.“[Hoe19] Anhand einer Darstellung der

unterschied-lichen Schnittstellen (siehe Abbildung 1.1) zeigt Thomas H¨orner, wie sich das Verh¨altnis

zu Mensch und Maschine ver¨andert und welchen Einfluss die einzelne Schnittstelle auf den

Forderungsgrad hat.

(16)

Bekannte Sprachassistenten wie Alexa, Siri, Google Assistant oder Cortana (siehe Abbildung

1.2), welche eine Steuerung ¨uber die Sprache erm¨oglichen, sind auf dem Markt weit

verbrei-tet und werden in den Alltag integriert. Die Industrie nutzt diese Nachfrage, um die passende

Hardware und Software zu entwickeln und diese in benutzerfreundliche Ger¨ate zu integrieren.

Das Abspielen von Musik, Abfrage der Wetterdaten oder die Steuerung von Lichtquellen sind

erst der Anfang zahlreicher M¨oglichkeiten, die solche Sprach-Dialog-Systeme oder

Sprachas-sistenten bieten. In Verbindung mit einer virtuellen Realit¨at kann eine zus¨atzliche Ebene der

Interaktion im generierten Raum geschaffen werden. In den Bereichen wie beispielsweise der

Abbildung 1.2: Sprachassistenten f¨ur Lautsprecher und Mobilfunkger¨ate. Von links nach

rechts sind eine Sammlung an Alexa Ger¨aten (t1p.de/3bn7 Stand: 12. Dezember 2020), ein

Smartphone mit Cortana (t1p.de/ah1d Stand: 12. Dezember 2020) und ein iPhone mit Siri (t1p.de/vmej Stand: 12. Dezember 2020) zu sehen.

Medizin, der Bildung oder der Videospiel-Branche, werden spezielle Virtuelle Realit¨at (VR

)-Brillen oder Helme mit integrierten Displays eingesetzt, um ein stereoskopisches Bild zu

generieren. Der erzeugte virtuelle Raum l¨asst den Nutzer in eine Scheinwelt eintauchen,

in der er sich mit Peripherieger¨aten bewegen und interagieren kann. Die ¨Ubertragung der

Befehle wird durch eine systemspezifische Komponente gew¨ahrleistet und bedarf

Vorkennt-nisse der Bedienung, wodurch eine intuitive Nutzung des Programmes nicht sichergestellt ist. Als Komponenten der Steuerung werden Tastatur, Maus oder spezielle Controller genutzt,

mit denen vordefinierte Aktionen ausgef¨uhrt werden k¨onnen. Die Dialogform der

menschli-chen Sprache wird nur selten in 3D-Anwendungen verwendet, obwohl die Sprache eine der

nat¨urlichsten Formen der Kommunikation des Menschen ist.

1.2 Problemstellung

Sprach-Dialog-Systeme oder Sprachassistenten werden in der Informationstechnik

kontinu-ierlich weiterentwickelt und passen sich durch entsprechende Artifizielle Intelligenz (AI) den

Nutzern an. Das System einerAIdient zum eigenst¨andigen Bearbeiten von komplexen

Auf-gaben und Anweisungen, die durch den Anwender aufgetragen werden. Die Steuerung mit Maus, Tastatur, Controller oder mit Touchscreen ist bislang die meistgenutzte Form der

Interaktion in Computer-Anwendungen. Im Gegensatz zu den klassischen Eingabeger¨aten,

die auf physischer Technik aufbaut, kann mit der menschlichen Sprache der Einstieg in

die Anwendung m¨oglicherweise erleichtert werden. Die Spracherkennungssysteme werden

(17)

1.3. Zielsetzung

und an die Bedingungen und Anforderungen der Nutzer angepasst. Bei einer Befragung der Splendid Research, aus dem Jahr 2019 in Deutschland, gaben 60% der befragten Personen

an, dass sie bereits ein Ger¨at mit Sprachsteuerung genutzt haben1. (Abbildung:1.3)

40 45 50 55 60

Nein Ja

Anteil der Befragten in Prozent

Abbildung 1.3: Umfrage zur Verwendung von Sprachsteuerungen (Deutschland; 16. Januar bis 21. Januar 2019; 1.006 Befragte; 18-69 Jahre)(shorturl.at/gipIS Stand: 15.August 2020)

In virtuellen Auto Konfiguratoren ist die Anwendung einer Sprachsteuerung noch nicht

gel¨aufig. Damit diese Technologie eingesetzt werden kann, muss nicht nur die korrekte

An-bindung von Hard- und Software sichergestellt werden, sondern auch die Einrichtung von

Befehlen zur Steuerung spezifischer Einstellungsoptionen in der VR-Anwendung. Die

Soft-ware der Spracherkennung muss die Sprachsignale der Anwender erfassen und umwandeln,

damit die gew¨unschte Aktion ausgef¨uhrt werden kann. Nur durch eine fehlerfreie

Inter-pretation des Audiosignals, kann eine benutzerspezifische R¨uckmeldung an den Anwender

ausgegeben werden. M¨ogliche Arten der Realisierung des Feedbacks sind sowohl visuelle

Darstellungen als Text oder Symbol als auch auditive Signale durch eine Sprachsynthese im erzeugten Raum.

1.3 Zielsetzung

Ziel dieser Arbeit ist die Integration eines Sprachassistenten in einen virtuellen Auto

Konfigu-rator, der mit der 3D-Software Unity2 _f¨_{ur das Betriebssystem Microsoft Windows}3_entwickelt

wurde, um die konventionelle Bedienung mit systemspezifischen Controllern zu ersetzen. Der

Nutzer soll die M¨oglichkeit haben, mithilfe der Sprache in der virtuellen Realit¨at zu

inter-agieren, um ein individuell gestaltetes Auto konfigurieren zu k¨onnen. Die Funktionalit¨at

eines herk¨ommlichen Web Konfigurators soll auf die Sprachsteuerung ¨ubertragen werden,

um mit entsprechenden Befehlen das Design des Autos zu ver¨andert. Funktionen wie

Fahr-zeugbeleuchtung, Auswahl der Lackierung sowie das ¨Offnen und Schließen von beweglichen

Elementen m¨ussen bei der Integration der Sprachfunktion in den Auto Konfigurator ber¨

uck-sichtigt werden. Die R¨uckmeldung zu jeder Befehlseingabe, die vom Assistenten formuliert

wird, soll ¨uber die auditive Wahrnehmung des Benutzers stattfinden und als ein Audiosignal

¨

uber Lautsprecher ausgegeben werden.

1_{https://t1p.de/bnxl} 2

https://t1p.de/yu7n

(18)

Als weitere Zielsetzung wird gepr¨uft, ob die Steuerung ¨uber die Sprache inVR-Programmen eine sinnvolle Option darstellt.

1.4 Organisation der Arbeit

Im ersten Kapitel Einleitung wird zu Beginn das Thema der Arbeit genannt, das sich mit

der Verwendung von Mensch-Maschine-Schnittstelle (MMS) befasst und sich auf die

Inte-gration der Sprache fokussiert. Die Aufgabenstellung dieser Arbeit, bei der es sich um die

Implementierung und der Analyse von Sprachassistenten handelt, wird erl¨autert, woraus die

Zielsetzung eines sprachgesteuerten Auto Konfigurators entsteht.

In dem zweiten Kapitel Grundlagen werden die Methoden zur Generierung einer virtuel-len Welt durch 3D-Echtzeitanwendungen und der Unterschied zur Datenverarbeitung mit 2D-Displays betrachtet. Vorrangig betrachtet werden die Vorteile, die Herausforderungen

sowie die Interaktion mit k¨unstlichen Umgebungen. Des Weiteren werden die Entwicklung

und die einzelnen Bestandteile der Mensch-Maschine-Kommunikation (MMK) er¨ortert, um

ein Verst¨andnis f¨ur die Verwendung von Sprachverarbeitung als Dateneingabe zu schaffen.

Im dritten Kapitel Stand der Technik wird der aktuelle Stand von Sprachsystemen und

derzeitigen VR-Technologien beschrieben. Schwerpunkt liegt auf der Betrachtung der

Ser-vices von International International Business Machines Corporation (IBM) und der AI von

Watson, da diese f¨ur die Erreichung der Zielsetzung der vorliegenden Ausarbeitung von

Be-deutung sind. Anschließend wird ein ¨Uberblick der Technik und Architektur von VR-Brillen

aufgezeigt.

Das vierte Kapitel Konzept eines Sprachassistenten im virtuellen Auto Konfigurator schildert die Erstellung eines VR Auto Konfigurators und beschreibt die methodische Vorgehensweise zur Integration eines Sprachassistenten in jenen Auto Konfigurtor.

In dem f¨unften Kapitel Analyse der IBM Watson Software Development Kit (SDK) zur

Sprachverarbeitung wird die Implementierung des Software Development Kits beschrieben.

Dar¨uber hinaus wird der Datenaustausch zwischen Komponenten des VR-Systems, der

so-wohl zum Konfigurationsablauf als auch f¨ur die visuelle und auditive Informationsausgabe

n¨otig ist, erl¨autert.

Das siebte Kapitel Evaluation beinhaltet die Konzepterstellung eines Pr¨ufverfahrens zur

Tauglichkeit des sprachgesteuerten Auto Konfigurators und die Auswertung der Ergebnisse,

die auf Basis von Pr¨ufdaten und subjektiven Bewertungen beruhen. Die Ergebnisse werden

im Zusammenhang zum Sprachsystem interpretiert und auf Vor- und Nachteile beurteilt. Das abschließende Kapitel Zusammenfassung und Ausblick fasst die Erkenntnisse der

Aus-arbeitung zusammen und erm¨oglicht einen Ausblick auf weiterf¨uhrende Arbeiten, welche auf

(19)

Kapitel 2

Grundlagen

2.1 Einleitung

In diesem Kapitel werden die Grundlagen zur Mensch-Maschine-Kommunikation und dessen

Zyklus veranschaulicht. Des Weiteren wird die Abbildung einer virtuellen Realit¨at, die

un-ter Zuhilfenahme von Compuun-tersystemen erzeugt wird, aufgezeigt. Als ein weiun-terer Aspekt

wird dargestellt, wie die Sprachverarbeitung von statten geht und wie sich AI-gesteuerte

Assistenten von traditionellen Sprach-Dialog-Systemen unterscheiden.

2.2 Mensch-Maschine-Kommunikation

Der Dialog zwischen einem Menschen und einem technischen Ger¨at wird als

Mensch-Maschine-Kommunikation bezeichnet. Dabei handelt es sich um eine Interaktion mit spezifischer

Schnittstellentechnologie, die aus einem Eingabe- und Ausgabeger¨at besteht. Neben der

Schnittstellentechnologie tr¨agt das Bedienkonzept der Technologie zu einer erfolgreichen

Verst¨andigung zwischen Mensch und Maschine bei.[Rig10]

In den Bereichen der Informations- und Kommunikationstechnik kann durch entsprechender

Mensch-Maschine-Kommunikation ein Vorteil in der Produktivit¨at der Anwendung erreicht

werden. Durch den Einsatz von Hardware, die mit entsprechender Software ausgestattet ist,

k¨onnen bestehende Abl¨aufe besser gestaltet werden, um eine Leistungssteigerung zu

erzie-len und Kosten zu reduzieren. Ein weiterer Punkt liegt in der Benutzerfreundlichkeit der

technischen Ger¨ate. Diese wird durch die Weiterentwicklung von Schnittstellen zur

Kommu-nikation zwischen Mensch und Maschine stetig verbessert. Ein erfolgreicher Dialog beider Akteure wird durch ein Zusammenspiel von Schnittstellentechnologie und Bedienkonzept

erm¨oglicht, die sich wiederum in Unterbereiche aufteilen lassen. Einfluss auf das

Bedien-konzept haben die Bereiche Softwaretechnik, Ergonomie und intelligente Systeme. F¨ur die

Schnittstellentechnologie sind Mustererkennung, die Signal-, sowie die Sprach- und

Bildver-arbeitung grundlegende Ausgangspunkte, welche zur Funktionalit¨at beitragen.[Rig10] Als

g¨angige haptische Eingabeger¨ate werden beispielsweise Tastatur, Maus, Joystick,

(20)

Ebenfalls k¨onnen visuelle oder auditive Steuerelemente, wie eine Kamera oder ein Mikrofon,

dazu verwendet werden, um eine Interaktion zu erm¨oglichen. Die genannten Komponenten

zur Steuerung von Computersystemen verwenden Software, die mit einer k¨unstlichen Sprache

programmiert und nach bestimmten Regeln aufgebaut sind. Die Einhaltung der Syntax ist

Voraussetzung f¨ur eine korrekte Interpretation der Maschine, um eine gew¨unschte Operation

ausführen zu können. Das Resultat einer Maschine, nach einer erfolgreich durchgeführeten

Eingabe durch einen Anwender, kann mithilfe externer Komponenten wiedergegeben

wer-den. Eine M¨oglichkeit ist die visuelle Darstellung des Ergebnisses auf einer Projektionsfl¨ache

oder einem Monitor. Eine weitere Alternative der R¨uckmeldung zu dem Nutzer besteht in

der Erstellung und Wiedergabe eines Audiosignals ¨uber Lautsprecher.

Der Verlauf einer Mensch-Maschine-Kommunikation l¨asst sich in einem Zyklus

zusammen-fassen, der von Donald Arthur Norman, einem emeritierter Professor f¨ur

Kognitionswissen-schaften, in dem Buch

”The Design of Everyday Things“ in einem Aktionsstufenmodell

be-schrieben wurde. Norman’s Action Cycle zeigt 7 Phasen, die das Benutzerverhalten sowie die

daraus entstehende Evaluation der Aktion beschreibt.[Nor16] Die Abbildung2.1zeigt einen

Handlungszyklus, der eine menschliche Aktion vereinfacht darstellt. Es ist nicht zwingend notwendig, dass alle Phasen bewusst eingehalten und in der gegebenen Reihenfolge

durchlau-fen werden, was zu einer zielorientierten Handlung führen würde. Es besteht die Möglichkeit

durch ein ¨außerlich auftretendes Ereignis einen Vorgang ohne eine bewusste Zielsetzung des

Menschen auszul¨osen. Dies nennt man eine ereignisgesteuerte Handlung. Vom Idealfall

aus-gehend beginnt der Prozess mit der Zielsetzung, die durch die Aktion erreicht werden soll

(1. Phase). Anschließend ergibt sich f¨ur die Person die Intention das Ziel ¨uber eine

ent-sprechende Planung zu erreichen (2.Phase). Nach Spezifizierung der n¨otigen Sequenzen der

Handlungen (3. Phase), kann letztendlich die T¨atigkeit ausgef¨uhrt werden (4. Phase).

Zu-sammengefasst ergeben diese vier Schritte die Ausf¨uhrungsebene (Execution) eines Zyklus.

Ziel ist, dass sich die Aktion auf die Umwelt, zum Beispiel auf eine Maschine, auswirkt und

die gewünschte Zustandsänderung erreicht wird. Nach Abschluss der Ausführungsebene wird

der neue Zustand wahrgenommen (5. Phase) und mit der zu Beginn gestellten Erwartung interpretiert (6. Phase). Der letzte Schritt beinhaltet einen Vergleich mit dem am Anfang

gestellten Ziel und dem neuen Zustand der Welt (Maschine), der durch die Ausf¨

uhrungsebe-ne erzielt wurde (7. Phase). Die Wahruhrungsebe-nehmung, die Interpretation und der Vergleich werden

als Evaluationsebene bezeichnet. Abgesehen von der physischen Ausf¨uhrung einer Aktion,

werden alle Phasen in der mentalen Ebene der Person absolviert. W¨ahrend der Ausf¨

uhrungs-ebene und der Evaluationsuhrungs-ebene kann es zu Hindernissen der Umsetzung kommen, die als

gulfs (dt. Kl¨ufte) bezeichnet werden. Betrachtet man die Ausf¨uhrungsebene, kann

beispiels-weise bei der geplanten Ausf¨uhrung der Handlungssequenz ein Konflikt entstehen, in dem die

gew¨unschte Aktion nicht von dem System als zul¨assig anerkannt wird (Gulf of Execution).

Der Nutzer muss zun¨achst herausfinden, wie ein System funktioniert und bedient werden

kann. Verhindert k¨onnen diese Probleme durch eine Unterteilung einer großen Funktion eines

(21)

2.3. Virtuelle Realit¨at

In der Evaluation kann es bei der Interpretation der Zustands¨anderung und bei dem

resultie-renden Ergebnis zu Problemen kommen (Gulf of Evalution). Hierbei muss ¨uberpr¨uft werden,

ob die ausgeführte Aktion zum gewünschten Ziel geführt hat oder ob Abweichungen von

der Erwartung vorliegen. Eine Reduzierung dieser Problematik kann durch ¨Uberwachung der

Handlungen und durch ständige Prüfungen der Ausführung erreicht werden.[Nor16]

Abbildung 2.1: Norman’s Action Cycle. Drei Ausf¨uhrungsstufen (Planen, Spezifizieren,

Ausf¨uhren), drei Auswertungsstufen (Wahrnehmen, Interpretieren, Vergleichen) und das Ziel

ergeben sieben Handlungsstufen.

2.3 Virtuelle Realit¨

at

Die Abbildung der Realität auf eine künstlich erzeugte Umgebung ist für die

Weiterent-wicklung der Mensch-Maschine-Schnittstelle eine m¨ogliche Darstellung von digitalen

Infor-mationen. In der Abbildung 2.2 sind die Darstellungsarten der Extended Reality (ER), die

Komponenten zur Echtzeiterweiterung der Realit¨at beinhaltet, dargestellt. Die Augmented

Reality (AR) bildet digitale Inhalte auf die reale Welt des Nutzers ab. Bei der Virtual Reality

(VR) wird eine eigenst¨andige digitale Welt erzeugt, die abseits der realen Welt existiert. Die

(22)

Abbildung 2.2: Komponenten der Extended Reality. Augmented Reality: Abbildung digitaler Inhalte auf der realen Welt. Mixed Reality: Digitale und reale Welt interagieren miteinander. Virtual Reality: Digitale Welt abseits der realen Welt. (t1p.de/0ibb Stand: 12. Dezember 2020)

Durch den Einsatz vonVR-Systemen kann die nat¨urliche und intuitive Nutzung von

Objek-ten, die aus der realen Welt f¨ur den Anwender bekannt sind, auf eine von Computer generierte

3D-Welt ¨ubertragen werden. Im Idealfall wird eine perfekte Illusion geschaffen, die von der

eigentlichen Umgebung des Systems f¨ur sich abgeschlossen funktioniert und keinen Eindruck

eines Computerprogramms vermittelt. In diesem Vorgang steht der Nutzer in Wechselwir-kung mit dem Echtzeitsystem. Im Gegensatz zu konventionellen Computern, bei denen der Anwender als außenstehender Akteur die Welt betrachtet, befindet der Nutzer sich in einer

virtuellen Realit¨at mitten in der erzeugten Welt. Die nachfolgende Abbildung 2.3zeigt den

Aktionsraum eines Nutzers bei einem 2D-Display, beispielsweise ein Arbeitsplatzrechner, und

einer VR-Umgebung. Bei der Interaktion eines Nutzers mit einem herk¨ommlichen

Compu-ter nimmt der Anwender die reale Welt und die CompuCompu-ter-generierte Umgebung war. Die

Interaktion auf dem Display wird in den meisten F¨allen mit einer Windows, Icons, Menus,

Pointing (WIMP)-Schnittstelle gel¨ost. Hohe Anwendung findet die WIMP-Schnittstelle in

der Dokumenten- und Programmverarbeitung. Programme werden in Fenstern dargestellt,

in denen Icons und Men¨us zur Steuerung genutzt werden. Zur Markierung und Ausf¨uhrung

der Steuerelemente werden beispielweise M¨ause oder Touchpads verwendet. Die Umsetzung

und Manipulation von 3D-Objekten auf einer 2D-Ebene f¨uhrt zu einer Zerlegung der

(23)

2.4. Cybersickness

Bei diesem Prozess wird die Bewegung in zwei Teilschritte aufgeteilt, die zum Beispiel im ersten Schritt die XY-Verschiebung und im zweiten Schritt die Z-Verschiebung beschreibt. Im virtuellen Raum hingegen wird eine geschlossene Welt geschaffen, die den Nutzer von der ¨

außeren Umwelt abschirmt und ein intensives Erlebnis erm¨oglicht.[Jun19] Die Interaktion in

einem virtuellen Raum erlaubt die Option zur Manipulation von Objekten. Mit speziellen

Controllern ist eine nat¨urliche Bedienung, zum Beispiel die Verschiebung von Elementen,

wie der Nutzer es aus der realen Welt kennt, m¨oglich. Das Anstreben einer vollendeten

vir-tuellen Realit¨at bedeutet, dass die Aktion eines Menschen die gleiche Auswirkung auf die

Computerwelt hat, wie die einer Aktion in der Realit¨at.

Abbildung 2.3: Linkes Bild: Interaktionsmodell eines Arbeitsplatzrechners. Rechtes Bild:

Interaktionsmodell eines VR-Arbeitsplatzes, bei dem der Nutzer sich vollst¨andig in der

si-mulierten Welt befindet. [Jun19]

2.4 Cybersickness

Systeme zur Generierung von virtuellen Welten k¨onnen bei der Anwendung beim Nutzer

störende Nebenwirkungen auslösen. Folgen können zum Beispiel Kopfschmerzen, Übelkeit,

Erbrechen, Benommenheit, Schwindel oder Desorientierung sein.[Jun19] Solche Symptome

k¨onnen bei langer und direkter Nutzung von Computeranwendungen mit einem Bildschirm

entstehen. Weitere Ursache k¨onnen eine zu geringe Bildwiederholrate der Displays,

Dar-stellung von unscharfen Bildern, fehlerhaftes Tracking der Person oder große Latenz bei der

MMSsein. Diese Symptome, ausgel¨ost in einem virtuellen Raum, wird als Cybersickness oder

Motion Sickness bezeichnet. Neben der Technik als Ausl¨oser f¨ur Cybersickness kann die Art

der Fortbewegung in der virtuellen Umgebung Ursache sein.[Web17] Die Positionserkennung

der VR-Brillen sind durch die Raumgr¨oße und der maximalen Sensorenreichweite begrenzt.

Dadurch ist eine nat¨urliche Fortbewegung nur bedingt m¨oglich. Zur Bewegung innerhalb

des Raumes werden Controller verwendet, mit denen die Position durch Teleportation oder animierten Bewegungsfahrten dargestellt wird. Dadurch entsteht ein Konflikt zwischen dem

Sehsinn und der K¨orperbewegung. Selbst durch die Einf¨uhrung einer Bewegungsplattform,

eines Bewegungssimulator, der Rotation, Neigung und Hebungen mit der Anwendung

syn-chronisiert, l¨asst sich die Ortsbewegung im 3D-Raum nur begrenzt darstellen. Des Weiteren

(24)

So beeinflusst das Geschlecht, das Alter, die Ethnizit¨at und bereits gesammelte

Vorkenntnis-se mitVRdas Auftreten der Krankheit.[Jun19] Laut einer Umfrage durch das Unternehmen

Statista hat ein Großteil der befragten Personen Bedenken bei Nutzung von VR-Brillen

Kopfschmerzen zu erhalten.

0 10 20 30 40 50 60

Kopfschmerzen

Bezug zur Realit¨at geht verloren

Soziale Isolation Physische und soziale Verwahrlosung

Einschr¨ankung der Sehkraft

Neurologische Sch¨aden

Cybersickness/Motion Sickness Sonstiges Weiß nicht

Anteil der Befragten in Prozent

Abbildung 2.4: Umfrage zu wahrscheinlichen negativen Auswirkungen von VR-Brillen

(Deutschland; 06. bis 14.09.2017; 1.061 Befragte; 18 bis 69 Jahre) (t1p.de/u2is Stand: 12. Dezember 2020)

2.5 Sprachverarbeitung

Die Dateneingabe ¨uber die Sprache ist ein Schritt zur Weiterentwicklung derMMSund eine

nat¨urlichere Art der Bedienung von Computersystemen. Dank dem fest vorgeschriebenen

Regelwerk und dem endlichen Wortschatz einer Sprache, kann diese von Maschinen

ana-lysiert und verarbeitet werden. Die S¨atze lassen sich mit entsprechenden Programmen in

ihre Bestandteile der Grammatik (Phonologie, Syntax und Semantik) aufteilen, auf

Wort-beziehungen untersuchen und durch Wahrscheinlichkeiten bewerten. Das Verst¨andnis und

die Verarbeitung von Sprache bei Maschinen wird k¨unstliche oder artifizielle Intelligenz

ge-nannt. Die Abbildung 2.5 zeigt die Komponenten einer maschinellen Sprachverarbeitung,

die im Natural Language Processing (NLP) festgelegt sind. Die NLP zielt darauf ab, eine

Kommunikation zwischen Mensch und Maschine herzustellen und beschreibt die Technik

(25)

2.5. Sprachverarbeitung

Abbildung 2.5: Natural Language Processing (NLP) beschreibt die maschinelle Form der

Spracherkennung.[Kab20]

Auf der Ebene des Nutzers sind der Gesp¨archsverlauf, die Semantik, der Satzbau und die

verwendete Sprache wichtige Ansatzpunkte, die in den Prozess mit einfließen.

Auswirkun-gen durch die Maschinenebene hat das Sprachverst¨andnis sowie die Sprachgenerierung. Die

Aktionen und Prozesse werden durch die ¨Uberpr¨ufung von Wahrscheinlichkeiten und

Stati-stiken der Spracheingaben aufgerufen. Liegt der Wert der Worterkennung ¨uber dem vorher

festgelegten Schwellenwert einer Prozedur, wird folglich die jeweilige Funktion aufgerufen.

In vielen Berufsfeldern und im Alltag k¨onnen Sprachanwendungen zur Verbesserung von

Datenverarbeitung und Bedienbarkeit beitragen. Hierbei muss man zwischen einem Sprach-Dialog-System und einem Sprachassistenten unterscheiden.

2.5.1 Sprach-Dialog-System

Die Bedienung von konventionellen Programmen, die f¨ur station¨are oder mobile

Compu-tersysteme mit Spracherkennung entwickelt werden, sind an einer festen Datenstruktur und Reihenfolge der Datenverarbeitung gebunden. Die zu bearbeitenden Daten, die an das

Sy-stem ¨ubergeben werden, durchlaufen einen statischen Programmcode, der auf unerwartete

Eingaben des Anwenders nur bedingt reagieren kann. Im Verlauf der Anwendung stehen nur

die vorgefertigten M¨oglichkeiten zur Eingabe- und Ausgabe zur Verf¨ugung. Wird eine

Ak-tion immer nach demselben Muster ausgef¨uhrt, ist sichergestellt, dass das zur¨uckgegebene

Resultat von dem Sprach-Dialog-System gleichbleibt. Verwendung finden solche Systeme bei Telefonhotlines im Kundenservice von Betrieben zur Entgegennahme von Informationen durch gezielte Fragestellungen, welche dem Kundensupport weitergeleitet werden.

(26)

Sprach-Dialog-Systeme werden bei standardisierten Abl¨aufen eingesetzt, um das mensch-liche Personal zu entlasten. Ein weiteres Beispiel findet sich in der Automobilindustrie. Sprach-Dialog-Systeme werden in Automobile verbaut, damit der Kunde beispielsweise die Medienfunktionen durch die Sprache steuern kann.

Der wesentliche Nachteil eines Sprach-Dialog-Systems liegt in der Beschr¨ankung an Befehlen

und der teils simplen Dialogformen, die verarbeitet werden. Der Anwendungsfall begrenzt sich auf die Konvertierung von Audiosignalen in ein Textformat, welches von der Maschine

verarbeitet werden kann. In der Abbildung 2.6 werden traditionelle Programme, die

Da-tensammlungen mittels statischem Programmcode verarbeiten, mit einer Anwendung mit

maschinellem Lernen (ML) gegen¨ubergestellt und zeigt die Unterschiede im

Programmver-lauf. Systeme mitMLerkennen mithilfe von Algorithmen und vorhandenen Datenbest¨anden

Muster bei der Datenverarbeitung, wodurch optimierte L¨osungen entwickelt werden.

Abbildung 2.6: Links: Traditioneller Programmverlauf. Rechts: Programmverlauf mit ML.

(27)

2.5. Sprachverarbeitung

2.5.2 Sprachassistent

Im Gegensatz zu einem Sprach-Dialog-System verarbeiten Sprachassistenten Befehle nicht

nur, sondern unterst¨utzen den Nutzer bei der Anwendung mit zus¨atzlichen Informationen,

die ¨uber die eigentliche Anforderung hinaus gehen. Basierend auf den Bed¨urfnissen und dem

Nutzerverhalten kann der Sprachassistent weitere Informationen aus vorhandenen

Datenban-ken beschaffen, die f¨ur den Anwender von Nutzen sein k¨onnten. Die Ergebnisse lassen sich

durch Benutzerinformationen anreichern und individualisieren. Eine wichtige Funktion von Sprachassistenten ist das maschinelle Lernen durch definierte Algorithmen, die auf

Benut-zereingaben reagieren. Nach der Befehlseingabe durch die Sprachtranskription ¨ubernehmen

Algorithmen die Auswertung und Generierung des optimalen Ergebnisses. Dabei wir die op-timale Antwort auf die gestellte Frage oder die passende Aktion zum Befehl ermittelt und

an den Benutzer gesendet. Ein wichtiger Aspekt ist, dass ein entsprechendes Feedback f¨ur

das resultierende Ergebnis gegeben wird und dieAI des Assistenten das Resultat bei Bedarf

korrigiert. Dabei lernt das System im Laufe der Nutzung auf benutzerspezifische Eingaben zu

reagieren und kann diese Informationen bei sp¨ateren Sprachanfragen verwenden. Anwendung

finden solch artige Sprachassistenten im Bereich der Smart-Home-Technik. Das Streaming

von Musik, die Abfrage von Wissensdaten oder die Steuerung von kompatiblen Ger¨aten sind

Beispiele f¨ur die Aufgaben eines Assistenten.

Die Industrie setzt Sprachassistenten in Voice-Applikationen f¨ur die Erweiterung und

Ver-marktung ihrer Produkte ein (siehe Abbildung 2.7). Applikationen wie zum Beispiel Alexa1

oder Siri2stellen Informationen aus dem Internet zum Abruf bereit und k¨onnen des Weiteren

kompatible Unternehmensprodukte steuern. Sprachassistenten bieten aber auch die M¨

oglich-keit interne Prozesse zu optimieren und neue Schnittstellen der Kommunikation

herzustel-len. Die Informationsbeschaffung von Produkten oder die Handlungseinleitung w¨ahrend einer

Produktion kann von Sprachassistenten sinnvoll unterst¨utzt werden.[Hoe19]

Abbildung 2.7: Einsatzbereiche von Sprachassistenten in Unternehmen. [Hoe19]

1

https://t1p.de/jieu

(28)

2.6 Zusammenfassung

In den vorherigen Abschnitten wurde ein Verst¨andnis f¨ur die Kommunikation zwischen

Mensch und Maschine vermittelt und die Phasen, welche durchlaufen werden, beschrieben.

Der Zyklus, w¨ahrend einer MMK, l¨asst sich durch die sieben Phasen des Norman’s

Acti-on Cycle darstellen. Der Zyklus besteht aus den Ausf¨uhrungsphasen (Planen, Spezifizieren,

Ausf¨uhren), den Auswertungsphasen (Wahrnehmen, Interpretieren, Vergleichen) und dem

Ziel der Handlung. Die Mensch-Maschine-Kommunikation gibt die Interaktion mit einem

technischen Ger¨at vor und steht im Zusammenhang mit dem Bedienkonzept, welches sich

aus der Softwaretechnik, der Ergonomie und einem intelligenten System zusammensetzt. Die Schnittstellentechnologie dient als Daten- und Signalverarbeitung und wird von externen

Pe-ripherieger¨aten angesteuert. Die Einhaltung der Syntax der jeweiligen Programmiersprache

ist bei der Nutzung von Computersystemen zwingend n¨otig, damit eine Verarbeitung der

Eingaben erfolgen kann. Rückmeldung erhält der Benutzer über ein visuelles oder auditives

Signal, welches auf entsprechenden Ausgabeger¨aten wiedergegeben wird. Die Darstellung

von digitaler Information in einer virtuellen Realit¨at ist durch Einsatz von VR-Technologie

realisierbar und l¨asst den Benutzer in eine simulierte Welt eintauchen. Die Virtual Reality

geh¨ort neben der Augmented Reality (= Abbildung digitaler Inhalte auf der realen Welt) und

der Mixed Reality (= Digitale und reale Welt interagieren miteinander) zu den

sogenann-ten Exsogenann-tended Reality-Komponensogenann-ten, die zur Echtzeiterweiterung der Realit¨at beitragen. Im

Vergleich zu einer 2D-Anwendung, die gew¨ohnlich mit einerWIMP-Schnittstelle

ausgestat-tet ist, erm¨oglicht die virtuelle Welt die Objektmanipulation durch intuitive Steuerung mit

Controllern oder Bewegungstracking. Die virtuelle Realtit¨at wird dadurch erreicht, dass die

Handlungen in der abgeschlossen 3D-Welt dieselben Effekte auf die Objekte haben wie in

der Realit¨at. Negative Auswirkungen k¨onnen bei der technischen Umsetzung beispielsweise

durch eine falsche Bildwiederholrate des Displays oder durch eine Bilddarstellung auftreten,

die zur sogenannten Cybersickness (Motion Sickness) f¨uhren k¨onnen. Ebenfalls kann die

un-gewohnte Fortbewegung innerhalb der virtuellen Umgebung dazu beitragen, dass Symptome

wie Kopfschmerzen, ¨Ubelkeit oder Schwindel auftreten. Neben der visuellen

Weiterentwick-lung der MMK bietet die Sprachverarbeitung eine zus¨atzliche Art der Interaktion mit

Com-putersystemen, da die nat¨urliche Sprache des Menschen mit seinem endlichen Wortschatz

und der fest vorgeschrieben Grammatik ideal f¨ur die maschinelle Verarbeitung geeignet ist.

Dabei wird eine artifizielle (k¨unstliche) Intelligenz verwendet, einem Teilgebiet der

Informa-tik, bei der durch ML das Verhalten bei automatisierter Software beeinflusst wird. Dieser

erm¨oglicht Sprachtranskription und die Synthese von Texten. Die Sprachsteuerung l¨asst sich

in Sprach-Dialog-Systemen, die mit statischem Programmcode einer festen Datenstruktur arbeiten, und in Sprachassistenten mit maschinellem Lernen unterteilen. Sprachassistenten besitzen die Eigenschaft resultierende Ergebnisse bei Nutzeranfragen auf ihre Genauigkeit

zu überprüfen und können durch entsprechendes Feedback die Resultate optimieren.

Das folgende Kapitel befasst sich mit dem aktuellen Stand der Sprachassistenten und deren Prozesse zwischen Benutzer und Cloud-Plattform. Zudem wird ein Einblick in die VR-Technik

gegeben, die zur Generierung einer 3D-Welt und f¨ur die Betrachtung mit

(29)

Kapitel 3

Stand der Technik

3.1 Einleitung

Dieses Kapitel befasst sich mit dem aktuellen Stand der Technologie zu Sprachassistenten

und virtuellen Realit¨ats-Systemen. Zun¨achst wird der Sprachassistent Watson von IBM

be-schrieben. Dabei wird die AI und das maschinelle Lernen definiert und die Kommunikation

zwischen Computeranwendungen und der AI beschrieben. Der zweite Teil dieses Kapitels

setzt sich mit den VR-Systemen auseinander, die als HMD auf dem Markt vertreten sind

und die M¨oglichkeit einer Abbildung von 3D-Umgebungen und Objekten bieten. Hierbei

wird die Architektur betrachte und die Unterschiede zum nat¨urlichen Sehen eines Menschen

aufgezeigt.

3.2 Sprachassistenten

Die Verwendung einer AI erm¨oglicht das Erstellen von intelligenten Diensten oder

Pro-grammen, die in nahezu Echtzeit Befehle entgegennehmen, Transkription von

Unterhaltun-gen durchf¨uhren oder Analysen der Eingaben realisieren. Sprachassistenten lassen sich f¨ur

unterschiedliche Sprachen anpassen und beachten beispielsweise Stil, Akzent und weitere

Besonderheiten des Vokabulars der gew¨ahlten Sprache. Dar¨uber hinaus wandeln die

Cloud-Anwendungen die Audiosignale in eine digitale Programmiersprache, wie zum Beispiel

UTF-8, um und k¨onnen diese zur Weiterverarbeitung weiterleiten. Damit sind ¨Ubersetzungen

von verf¨ugbaren Sprachen, die sich je nach Application Programming Interface (API)

un-terscheiden, m¨oglich. Zudem bieten Hersteller Funktionen einer Sprachsynthese an, die mit

benutzerdefinierten Sprachmodellen die Texteingaben nach Tonh¨ohe, Geschwindigkeit und

Lautst¨arke konvertieren. Die Abbildung3.1zeigt den Prozessverlauf, w¨ahrend dem Gebrauch

einer APIvom Nutzer, der ¨uber Ein- und Ausgabeger¨ate mit der Plattform interagiert. Eine

API-Schnittstelle dient zum Austausch von Informationen nach einem vordefinierten System

zwischen einer Anwendung und deren einzelnen Programmabschnitten. Die Abl¨aufe des

Aus-tausches werden durch eine vorgegebene Syntax definiert. Dies erm¨oglicht eine Unterteilung

der Programme in Module. Die Komplexit¨at der Software wird vereinfacht und bietet die

(30)

Der Prozess zur Datenbearbeitung wird vom Nutzer durch Senden einer Anfrage angesto-ßen, die sich je nach Szenario unterscheiden. Die Nutzeranfrage wird wiederum in der Cloud

bearbeitet und auf die gew¨unschte Intent (Absicht) untersucht. Die AIhat Zugriff auf

wei-tere Datenbanken und externeAPIs, die bei der Bearbeitung der Anfrage Informationen zur

Verf¨ugung stellen. Bei erfolgreicher, aber auch bei ergebnisloser Verarbeitung der

Benut-zeranfrage, wird ein verwertbares Resultat zur¨uckgegeben, dass von den Ausgabeger¨aten

auf Client-Seite weiterverarbeitet werden kann. Dieser Vorgang repr¨asentiert das

grundle-gende Prinzip der Datenverarbeitung ¨uber eine API-Schnittstelle und wird typischerweise

durch eine Folge von Anfragen und Resultaten durchlaufen.

Abbildung 3.1: Prozessverlauf und Beziehungen zwischen der API und weiteren

Kompo-nenten. (t1p.de/uolg Stand: 12. Dezember 2020)

Verschiedene Cloudanbieter stellen Services zur Verf¨ugung, mit denen die Generierung eines

individuellen Assistenten erm¨oglicht wird. Cloud-Computing -Plattformen werden

beispiels-weise von dem Technologieunternehmen Microsoft, dem Onlineversandh¨andler Amazon, dem

Google Unternehmen oder dem Informationstechnik (IT)- und BeratungsunternehmenIBM

angeboten. Alle Anbieter stellen ¨ahnliche Programmschnittstellen zur Sprachverarbeitung

bereit, die auf Funktionen und Methoden zur¨uckgreifen, die auf Rechenzentren in einer

Cloud hinterlegt sind. Unterscheiden tun sich die Services Microsoft Azure1, Amazon AWS2,

Google Cloud3 _und _IBM _Watson4 _{in der verarbeiteten Datenmenge, bei der Anbindung}

der SDKs in vorhandene Applikationen und in den Kosten, die der Kunde bei der

Verwen-dung des Dienstes tragen muss. F¨ur diese wissenschaftliche Arbeit wird die API von IBM

verwendet, die eine Unity SDK zur Verf¨ugung stellt, um eine direkte Verbindung mit der

Cloud-basierten artifiziellen Intelligenz herzustellen. Außerdem bietet die

Cloud-Computing-Plattform eine ¨ubersichtliche Serviceverwaltung. In dem folgenden Abschnitt 3.3 wird die

WatsonAPInoch umfassender behandelt.

1 https://t1p.de/9lb0 2_{https://t1p.de/k9ot} 3 https://t1p.de/9w8x 4_{https://t1p.de/vxk4}

(31)

3.3. IBM Watson API

3.3 IBM Watson API

Die International Business Machines Corporation ist seit 1911 als amerikanisches

Beratungs-unternehmen im Bereich der Informationstechnik t¨atig[Cor20a], die bis 1924 unter dem

Namen Computing-Tabulating-Recording Company gef¨uhrt wurde[Cor20b]. Sie bietet

seit-dem eine Vielzahl an Produkten von Hard- und Software an. Des Weiteren geh¨ort sie zu

den Top IT-Unternehmen im Bereich der Unternehmensberatung weltweit5. In den letzten

Jahrzehnten hat sich das Unternehmenskonzept auf cloudbasierte Anwendungen und die Da-tensteuerung innerhalb eines Unternehmens fokussiert, wobei die artifizielle Intelligenz von Computersystemen immer mehr in den Anwendungen zu finden ist.

”Digital is the wires, but digital intelligence, or artificial intelligence as some

people call it, is about much more than that. This next decade is about how you combine those and become a cognitive business. It’s the dawn of a new era.“

-Virginia M. Rometty,IBMCEO (2012 bis 2020)6,7

IBMführte im Jahr 2007 die Plattform Watson ein. Watson repräsentiert eineAI für

Unter-nehmen, mit der unter anderem Sprache analysiert und verarbeitet werden kann. Dar¨uber

hinaus erm¨oglicht Watson das maschinelle Lernen bei L¨osungsfindungen von komplexen

Pro-blemen in Anwendungen f¨ur Nutzer. Benannt wurde die Technologie nach dem ersten Chief

Executive Officer (CEO) und Gr¨under vonIBM, Sir Thomas J. Watson8. Betrieben wird die

Software Watson auf einem sogenannten Supercomputer, der mit einem Power7-Prozessor

und 16 Terabyte Random-Access Memory (RAM) ausgestattet ist. Als Betriebssystem wird

SUSE Enterprise Linux Server 11 verwendet. Die Leistung des Prozessors bei der

Verar-beitung betr¨agt 80 TeraFLOPS. Dies sind umgerechnet 80 Billion Rechenoperationen pro

Sekunde.9Dies erm¨oglicht eine Verarbeitung von bis zu 500 Gigabyte pro Sekunde an Daten,

wodurch Befehle und Rechenoperationen, wie die Durchsuchung, Analyse und Wiedergabe

von Informationen, in wenigen Sekunden f¨ur den Nutzer ausgef¨uhrt wird. 10. Mittlerweile

enth¨alt dieIBMWatson Plattform eine vielf¨altige Sammlung an Services, mit denen das

ma-schinelle Lernen in Programmen eingerichtet, die Sprachver- und Sprachbearbeitung erzeugt

sowie Bilder analysiert werden k¨onnen.

5_{https://t1p.de/rwfv Stand: 13. Dezember 2020} 6

https://t1p.de/wqh6 Stand: 13. Dezember 2020

7_{https://t1p.de/qlqq Stand: 13. Dezember 2020} 8

https://t1p.de/2vw4 Stand: 13. Dezember 2020

9_¨

Ubersicht der FLOPS in AnhangA.1

(32)

3.4 Virtual-Reality-Systeme

Der Markt an Systemen und Brillen, die zur Betrachtung einer virtuellen Realit¨at

verwen-det werden, w¨achst und zeigt die Vielfallt an Einsatzm¨oglichkeiten dieser Technologie. Die

Industrie bietet f¨ur viele Bereiche, wie zum Beispiel der Medizin, der Bildung und der

Gaming-Branche, die passende Hardware. Zur bildlichen Darstellung werden stereoskopische Brillen oder Helme mit Displays verwendet, die am Kopf des Nutzers befestigt werden und typischer-weise eine geschlossene Bauform haben. Durch diese Bauform, die ein markantes Merkmal

der Systeme darstellt, wird die Technologie einer virtuellen Realit¨at h¨aufig mit der Brille

selbst verbunden. F¨ur die Visualisierung wird nicht nur das Display ben¨otigt, sondern noch

ein Hochleistungsrechner, der die 3D-Umgebung mit vorhandenen Objekten erzeugt. Daf¨ur

k¨onnen Desktop-Tower-PCs, portable Notebooks oder leistungsstarke Mobilger¨ate

verwen-det werden. Ebenfalls sind externe Peripherieger¨ate zur Eingabe und Interaktion wichtig, die

den Tastsinn, die Bewegung oder die Sprache entgegennehmen. Die Hersteller bieten hierf¨ur

eigene Controller mit Sensoren und Kn¨opfen, ¨uber die der Nutzer die Interaktion mit der

Anwendung steuern kann. Der Effekt einer virtuellen Realit¨at l¨asst sich somit in mehrere

Komponenten auflisten.[Bry96]

• Einem Head-Mounted-Display, dass durch Stereoskopie dem Benutzer auf Kopfh¨ohe

eine virtuelle Welt pr¨asentiert und die Kopfbewegungen einbindet.

• Einem leistungsstarken Computergrafiksystem, mit dem die virtuelle Welt berechnet und gerendert wird.

• Zus¨atzliche Eingabeger¨ate zur Interaktion im dreidimensionalen Raum.

Steve Bryson definiert den Begriff in der wissenschaftlichen Publikation Virtual Reality in Scientific Visualization mit folgendem Zitat:

”Virtual reality is the use of computers and human-computer interfaces to

crea-te the effect of a three-dimensional world containing increa-teractive objects with a strong sense of threedimensional presence. Important in this definition is that vir-tual reality is computer-generated, three-dimensional, and interactive. We want to create the effect of interacting with things, not with pictures of things.“

-Steve Bryson, wissenschaftlicher Mitarbeiter bei MRJ, Inc.[Bry96]

Die Abbildungen3.2 und 3.3 zeigen zwei unterschiedliche VR-Brillen der Hersteller Oculus

VR und HTC Corporation. Beide besitzen einen Helm mit einem Stereodisplay, welches

die Bilder durch das Lupenprinzip wiedergibt und einen r¨aumlichen Eindruck von Tiefe

erzeugt, der physikalisch in der Anwendung nicht vorhanden ist. Das Lupenprinzip bietet

dem Nutzer die M¨oglichkeit mithilfe von Optiken das Bild zu fokussieren und gleichzeitig

zu vergrößern. Alternativ können für die Bildprojektion Prismen verbaut werden. Integrierte

Sensoren messen an demHMDdie Kopfbewegung und die Position im Raum. Je nach Modell

(33)

3.4. Virtual-Reality-Systeme

Abbildung 3.2: Darstellung der VR-Brille Oculus Quest 2 (t1p.de/ngfx;

htt-ps://t1p.de/720t; https://t1p.de/888i Stand: 12. Dezember 2020)

Abbildung 3.3: Darstellung der VR-Brille HTC Vive (https://t1p.de/c0l4;

htt-ps://t1p.de/dt5j; https://t1p.de/7o7s Stand 12. Dezember 2020)

Eine hohe Bildwiederholungsrate als Merkmal einerVR-Brille ist von hoher Bedeutung zur

Gew¨ahrleistung einer fl¨ussigen Darstellung der VR-Bilder. Die Bildwiederholrate beschreibt

das Aufl¨osungsverm¨ogen innerhalb einer bestimmten Zeit. AktuelleVR-Brillen erreichen eine

Bildwiederholrate von 72 bis zu 144 Hertz (Hz).11Dies erm¨oglicht eine Darstellung von 120

Bilder pro Sekunde ¨uber die Displays. Jedoch ist zu beachten, dass die Rate im Bereich

der Frames per Second (FPS) der Grafikkarte liegt, um einen Bildverlust zu vermeiden. Hat

beispielsweise der Bildschirm ein Signal mit 120 FPS erhalten, unterst¨utzt jedoch nur 90

Hz, erfolgt ein Verlust von 30 FPS. Neben der Bildrate beeinflusst die Bildaufl¨osung das

Erlebnis im virtuellen Raum. Eine detaillierte und scharfe Welt, die ohne erkennbares

Pixel-raster dargestellt wird, l¨asst sich durch entsprechende Aufl¨osung der Displays erreichen. Die

Angaben zur Auflösung werden entweder für jedes Display separat oder für das Displaypaar

angegeben. Aktuelle Modelle vonVR-Brillen haben eine Aufl¨osung zwischen 1280x1440

Pi-xel und 2560x1440 / 2160x2160 PiPi-xel pro Auge.12

11

https://t1p.de/i9o6 Stand: 13. Dezember 2020

(34)

Einbußen entstehen außerdem im Sichtfeld des Nutzers, da dieVR-Brillen nicht das gesamte

Spektrum darstellen k¨onnen, wie es das Auge in der Realit¨at gewohnt ist. Das Sichtfeld eines

HMDim Vergleich mit dem regul¨aren Gesichtsfeld wird in der Abbildung 3.4gezeigt.

Abbildung 3.4: Sichtfeld eines Head-Mounted-Displays im Vergleich zum Gesichtsfeld des

Nutzers. [Jun19]

Deutlich wird, dass der Anwender vor allem am Bildrand Abstriche bei der Visualisierung der

simulierten Welt hat. Jedes Auge deckt ungef¨ahr einen Winkel von 167° ab, wodurch f¨ur die

horizontale Ebene ein Gesamtwinkel von 214° m¨oglich ist. Der Bereich, der von beiden

Au-gen visuell wahrAu-genommen wird, betr¨agt allerdings nur 120° und wird binokulares Deckfeld

genannt.[Jun19] Die Abbildung 3.5 stellt das binokulare Gesichtsfeld und das entstehende

Deckfeld dar. Speziell dieses Deckfeld ist wichtig und sollte von der VR-Brille unterst¨utzt

werden. Der Vergleich von derzeitigen VR-Brillen zeigte, dass ein Sichtfeld von 110° bis

maximale 170° bei der Bildprojektion realisierbar ist.

(35)

3.4. Virtual-Reality-Systeme

Abh¨angig vom Modell werden zus¨atzliche Sensoren im Raum aufgestellt, die Brille und

Con-troller durch sogenanntes Tracking erfassen und somit eine genauere Lokalisierung der Person

ermöglichen. Auch die Art der Steuerung über Controller, die mit den Händen betätigt wird,

ist identisch und stellt die Bewegung der Hand in derVR-Umgebung nach. Die Struktur und

die zugeh¨origen Verbindungen zwischen den Komponenten f¨ur ein virtuelles Erlebnis werden

in der Abbildung3.6dargestellt und werden in vier Elemente unterteilt. DieVR-Engine und

die damit verbundenen Peripherieger¨ate bilden die Architektur der virtuellen Realit¨at. Die

VR-Engine ist Hauptbestandteil jedesVR-Systems und beinhaltet alle Funktionen zur

Aufga-benverwaltung des Programms. DieVR-Engine umfasst die Steuerbefehle der Eingabe- und

Ausgabeger¨ate, wobei dieVR-Engine die entsprechenden Aufgaben von einer Datenbank

be-zieht. All das geschieht in Echtzeit und wirkt sich augenblicklich auf die virtuelle Umgebung

aus. Mittelpunkt des ganzen Systems ist der Benutzer. ¨Uber verschiedene Sensoren wird die

Position der Person im Raum ermittelt. Es besteht dauerhaft ein Wechselspiel zwischen dem

Benutzer mit Peripherieger¨aten, der VR-Engine und der dazugeh¨origen Datenbank.

Abbildung 3.6: Architektur einesVR Systems mit den Komponentenbeziehungen13

F¨ur die Entwicklung desVR Auto Konfigurators wird ein Modell der Oculus Rift-Reihe

ver-wendet, die mit zwei Sensoren im Raum die Bewegungen verfolgt und überträgt. Zusätzlich

werden zwei Handger¨ate unterst¨utzt, die zur Steuerung in der virtuellen Welt verwendet

werden k¨onnen. Die Schnittstelle zwischen virtueller Umgebung und derVR-Brille stellt das

Oculus Integration Package14 her. Das Oculus Integration Package enth¨alt eine Sammlung

anVR-Komponenten, Skripte und Plug-ins zur Vereinfachung des Entwicklungsprozesses in

Unity.

(36)

Das Plug-in übernimmt zusätzlich die Aufgaben der Darstellung der Modelle, die für die

Controller in der VR Umgebung angezeigt werden. Zudem reagiert das Oculus Integration

Package auf die Eingaben durch die Peripherieger¨ate und berechnet die Darstellung des

Modells.

3.5 Erfassung des aktuellen Technologiefortschritts

Das Deutsche Forschungszentrum f¨ur K¨unstliche Intelligenz15 hat in dem Artikel A

Virtu-al ReVirtu-ality Couch Configurator Leveraging Passive Haptic Feedback eine Anwendung, auf

Basis der virtuellen Realität, vorgestellt, die den Beratungsprozess von Möbelgeschäften

un-terst¨utzt. Der Kunde befindet sich bei dem genannten Beispiel in einer simulierten Welt und

steht im Kontakt mit dem Vertriebsexperten, der die Gestaltung und Konfiguration eines

Produktes in derVR-Anwendung ¨ubernimmt. In diesem Fall handelt sich um eine

Sofakon-figuration, die durch Bereitstellung unterschiedlicher Layouts und Stoffmuster realistische

Eindr¨ucke liefert.[Mur20] Der Kunde ist ausschließlich Betrachter der virtuellen Welt und

hat keine direkte M¨oglichkeit der Interaktion. Dieses Beispiel veranschaulicht, dass der

Ein-satz von VR Konfiguration und deren Technologie in der Industrie vielseitig ist.

Durch den Einsatz von zus¨atzlichen Peripherieger¨aten zur Interaktion in derVR-Anwendung,

wird die Handlungsebene f¨ur den Benutzer erweitert. ¨Uber mehrere Jahrzehnte haben sich

zum Beispiel Gamepads als Schnittstelle zwischen Mensch und Maschine etabliert und wer-den bei Computersystemen mit 2D-Display verwendet. Monthir Ali und Rogelio E.

Cardona-Rivera, von der Universit¨at Laboratory for Quantitative Experience Design School of

Compu-ting, untersuchten das konventionelle Gamepad von Microsoft XBOX16und verglichen dieses

mit dem HTC Vive17 Controller, der speziell f¨ur die virtuelle Realit¨at entwickelt wurde. Bei

der Betrachtung der Geschwindigkeit und der Genauigkeit konnte durch die Verwendung

eines VR Controllers eine Leistungssteigerung festgestellt werden. Allerdings gaben bei der

Testreihe mehrere Probanden an, dass sie das klassische Gamepad bevorzugen.[CR20]

Die Autoindustrie nutzt ebenfalls dieVR-Technologie, um die Fahrzeuge und Produkte des

Unternehmens in eine virtuelle Realit¨at zu portieren. Dabei greifen die Unternehmen auf

Hersteller wie zum Beispiel Demodern18oder NORD XR19zur¨uck, die mit eigenen

Entwick-lungsplattformen individuelleVRAuto Konfiguratoren konstruieren. Die Kunden k¨onnen mit

herk¨ommlichen Peripherieger¨aten der VR-Brillen Hersteller in der simulierten Welt

intera-gieren und das Fahrzeug konfigurieren.

15_{https://t1p.de/3puz} 16 https://t1p.de/2orz 17_{https://t1p.de/va36} 18 https://t1p.de/skzk 19_{https://t1p.de/6mst}

(37)

3.6. Zusammenfassung

Die Simulation der virtuellen Welt wird stark von der Technologie der VR-Brille und der

zugeh¨origen Controllern beeinflusst. Die virtuelle Realit¨at soll ein tiefgreifendes Erlebnis

bie-ten und den Anwender in eine emotionale, perfekte Simulation einbinden, die unabh¨angig

von der tats¨achlichen Realit¨at existiert. Hunter Osking und John A. Doucette befassten sich

2019 in ihrer Publikation Enhancing Emotional Effectiveness of Virtual-Reality Experiences with Voice Control Interfaces mit der emotionalen Wirkung von klassischen Dialogsteue-rungssystemen und untersuchten den Effekt von Sprachsteuerungsdialogsystemen in einem

VR-Spiel.[Dou19] Anhand einer Testreihe mit Probanden, die das Spiel mit traditioneller

Point-and-Click Oberfl¨ache und einer Sprachsteuerung gespielt haben, konnte die

Hypothe-se best¨atigt werden, dass die emotionale Empfindung und die Spielfreunde durch den Einsatz

von Sprache in der virtuellen Umgebung erh¨oht wird. Folglich wurde die Schlussfolgerung

gezogen, dass durch die Verwendung von Sprachsteuerung die Attraktivit¨at f¨ur Verbraucher

gesteigert werden kann.

Die Erweiterung einer Sprachsteuerung mit einem AI-basierten Assistenten kann die

Qua-lität und die Zugänglichkeit von Sprachsystemen verbessern. Im Jahr 2020 veröffentlichte das

Institute of Electrical and Electronics Engineers (IEEE)20die Literatur Artificial

Intelligence-based Voice Assistant, in der die Implementierung einer AI-basierten Sprachsteuerung

be-schrieben wird. Dabei sammelt ein Sprachassistent die Audiosignale eines Mikrofons,

kon-vertiert diese mit Google Text to Speech (GTTS) in einen englischen Text und synthetisiert

diese mit dem Soundpaket der Python-Programmiersprache.[San20]

3.6 Zusammenfassung

Sogenannte Cloud-Computing-Unternehmen, wie Microsoft,IBMund Google, bieten diverse

Tools undAPI-Schnittstellen zur Programmierung intelligenter Sprachanwendungen, die

Au-diosignale nach Sprache, Dialekt, Akzent und weiteren Eigenschaften analysieren und

verar-beiten. Der Client steht in einer Wechselbeziehung mit derAPI-Plattform und kommuniziert

¨

uber ein Mikrofon mit dem Assistenten. Eingaben werden auf vorhandene Intents gepr¨uft, mit

Informationen aus Datenbanken oder externen Programmschnittstellen aufbereitet und an

den Client zur¨uckgegeben. Der Prozess innerhalb des Sprachassistenten greift auf

Transkrip-tion und Synthese zu, die auf externen Rechenzentren der Anbieter zur Verf¨ugung stehen.

In dieser wissenschaftlichen Arbeit wird die WatsonAPIdes amerikanischen Beratungs- und

IT-Unternehmen IBM verwendet, die seit 2010 als Cloud-Plattform zur Verf¨ugung gestellt

wird. Neben Programmen zur Sprach- und Bildverarbeitung bietet Watson einen Service zur Integration von maschinellem Lernen, was die Basis eines Sprachassistenten bildet.

(38)

In diesem Kapitel wird der aktuelle Stand der Head-Mounted-Displays, die zur Darstellung

virtueller R¨aume und Objekte dienen, betrachtet und erl¨autert. Stereoskopische Brillen oder

Helme erzeugen eine virtuelle Welt und verwenden Kopfbewegung und Controller-Eingaben zur Simulation der Fortbewegung innerhalb der Scheinwelt, die anhand Tracking-Daten von Sensoren ermittelt werden. Durch das Lupenprinzip wird das erzeugte Bild auf den

in-tegrierten Displays, optimaler Weise mit einer hohen Bildwiederholrate und Aufl¨osungen,

dargestellt. Der Aufbau eines VR-Systems besteht aus der VR-Architektur, die aus einer

VR-Engine und Peripherieger¨aten besteht, der zugeh¨origen Datenbank und dem Benutzer

selbst, die miteinander agieren und Daten austauschen. F¨ur den sp¨ateren Auto Konfigurator

wird alsAPI-Schnittstelle das Oculus Integration Package verwendet, welches von der Firma

Oculus VR bereitgestellt wird und mit derVR-Brille Oculus Rift eine Verbindung herstellt.

Das Konzept f¨ur die Entwicklung eines Auto Konfigurators mit implementierten

Sprachas-sistenten folgt in dem n¨achsten Kapitel und schildert den Prozess der Produktkonfiguration

(39)

Kapitel 4

Konzept eines Sprachassistenten im

virtuellen Auto Konfigurator

4.1 Einleitung

Die Nachfrage nach individuellen Produkten, die an die Anspr¨uche einer K¨aufergruppe

an-gepasst sind, steigt stetig und spielt eine wichtige Rolle beim Kaufverhalten der Kunden. In vielen Bereichen der Wirtschaft werden Konfiguratoren verwendet, damit Kunden die

Pro-dukte ausw¨ahlen, nach eigenen W¨unschen anpassen oder von unterschiedlichen Blickwinkeln

betrachten k¨onnen. Hersteller nutzen auf ihren Webseiten eigene Produkt Konfiguratoren,

die über vordefinierte Konfigurationsmöglichkeiten verfügen. Der Verlauf einer webbasierten

Produktkonfiguration l¨asst sich in 5 Schritte unterteilen, wie in Abbildung 4.1 dargestellt.

Zu Beginn wird ein Kunde mit einem Produktwunsch sich einen Hersteller suchen, der den

gew¨unschten Artikel zur Konfiguration anbietet (1. Phase). Mit einem Computer, der ¨uber

einen Internetzugang verf¨ugt, hat der Kunde die M¨oglichkeit einen Web Konfigurator zu

ver-wenden, mit dem Merkmale wie zum Beispiel Farbe, Gr¨oße, Material oder spezielle

Beson-derheiten des Produktes angepasst werden k¨onnen (2. Phase). Im Hintergrund werden vom

Server verf¨ugbare Optionen mit entsprechenden Eigenschaften aus der Datenbank geladen

und zur Verf¨ugung gestellt (3. Phase). Anschließend wird das Produkt in der konfigurierten

Form simuliert und dem Anwender dargestellt (4. Phase). Nach erfolgreicher Durchf¨uhrung

der Schritte 1-4, kann das System ein Angebot erstellen, welches die individuellen Einstel-lungen beinhaltet und zuletzt an den Kunden weitergeleitet werden kann (5. Phase).

(40)

Abbildung 4.1: Ablauf einer individuellen Produktkonfiguration. (t1p.de/c0qi Stand: 12. Dezember 2020)

4.2 Konzept und Idee

In der Automobilindustrie sind Web Konfiguratoren bei der individuellen Gestaltung und dem Verkauf von Autos fester Bestandteil. Diese Plattformen findet man zumeist auf den

Online-auftritten der Hersteller und erlauben dem Endkunden eine Vielzahl an Einstellungsm¨

oglich-keiten an bereitgestellten Fahrzeugen auszuprobieren. Punkte wie Lackierung, Felgen, In-terieur und viele weitere Bauteile spielen bei der Auswahl des Kunden eine wichtige Rolle.

Die Steuerung wird in der Regel mit den externen Peripherieger¨aten des Computers, wie

beispielsweise Maus und Tastatur, umgesetzt.

F¨ur diese wissenschaftliche Arbeit wird ein Auto Konfigurator f¨ur die Oculus Rift, einer

VR-Brille zur Betrachtung von virtuellen Welten, erstellt. Dieser dient als Basis f¨ur die

Integration eines Sprachassistenten, der von dem Cloud-AnbieterIBMstammt und

entspre-chende Funktionen zur Sprachtranskription, zur Absichts- und Entit¨atserkennung durch AI

und zur Sprachsynthese bietet. Der Nutzer soll die M¨oglichkeit haben das bereitgestellte

Automodell durch den Dialog mit dem Assistenten nach eigenen W¨unschen anpassen zu

(41)

4.3. Erstellung eines VR Auto Konfigurators

In der Umsetzung sind folgende Schritte zu beachten. Zun¨achst muss das Audiosignal,

welches die gesprochenen Befehle des Anwenders repr¨asentiert, in ein digitales Signal

um-gewandelt und als 8−bit Unicode Transformation Format (UTF-8) Text ausgeben werden.

Daraufhin wird der UTF-8 Text dem Cloud-Assistenten ¨ubergeben, der auf vorher

festge-legte Gespr¨ache reagiert und die entsprechenden Antworten liefert. Die Nachricht, die von

der artifiziellen Intelligenz zur¨uckgegeben wird, wird wiederum zur Sprachsynthese

weiter-geleitet und als Audiofile wiedergegeben. Nach dem erfolgreichen Dialog zwischen Nutzer

und Sprachassistent wird nun die entsprechende Aktion ausgef¨uhrt, die das Auto nach den

gew¨unschten Vorgaben generiert.

4.3 Erstellung eines VR Auto Konfigurators

Die Realisierung der virtuellen Umgebung wird mit der Software Unity1 erfolgen. Unity

ist eine Echtzeit-Entwicklungs- und Laufzeitumgebung, mit der 2D-, 3D-, AR und VR

-Darstellungen implementiert werden k¨onnen. Vor allem in der Spieleindustrie ist dieses

Ent-wicklertool weit verbreitet und wird f¨ur die unterschiedlichsten Plattformen genutzt. Dazu

geh¨oren beispielsweise Computer, Spielekonsolen, mobile Endger¨ate und auch Webbrowser.

Bei der Entwicklung unterst¨utzt der Editor den Entwickler mit vielen hilfreichen Tools, die bei

der Erstellung und Bearbeitung von Objekten helfen. F¨ur den VR Auto Konfigurator wird die

High Definition Render Pipeline (HDRP) verwendet, eine von Unity entwickelte, skriptf¨ahige

High-Fidelity-Render-Pipeline, die physikalisch basierte Beleuchtungstechniken, lineare

Be-leuchtung, HDR-Beleuchtung und eine konfigurierbare Hybridarchitektur verwendet[Tec20].

Eine Render-Pipeline, zu deutsch Grafikpipeline, repr¨asentiert ein Model der Computergrafik

und beschreibt die Grafikbefehle zur Darstellung von Objekten2.HDRP liefert Grafiken mit

einer hohen Detailtreue und Aufl¨osung, die f¨ur eine detaillierte Abbildung derVR-Umgebung

ben¨otigt wird.

4.3.1 VR Showroom

Ein Showroom erf¨ullt den Zweck einer Produktpr¨asentation und der Bereitstellung von

Aus-wahlm¨oglichkeiten. Eine Vielzahl an Produkten k¨onnen mit dem Einsatz virtueller

Ausstel-lungsr¨aume auf geringem Raum dem Benutzer interaktiv pr¨asentiert werden. Durch die

Bereitstellung von Interaktionsmöglichkeiten in der virtuellen Realität können

Konfigura-toren realisiert werden und bieten ein unterhaltsame und informative Repr¨asentation des

Produktes. Die Ausarbeitung einer 3D-Kulisse tr¨agt zum emotionalen Empfinden innerhalb

der VR-Anwendung bei.

Die Pr¨asentation des Automodells im VR Konfigurator findet in einer modellierten

Lager-halle statt, die als Showroom fungiert. Platziert wird die LagerLager-halle in einer Naturszene, die

einen Park bei Tageslicht abbildet. Ein helles und aufger¨aumtes Design wird f¨ur die virtuelle

Welt verwendet und soll positiv auf das emotionale Empfinden, w¨ahrend der Konfiguration,

1

https://t1p.de/4woo

(42)

einwirken. Innerhalb der Lagerhalle wird das Automodell im Mittelpunkt der ganzen Szene

positioniert. Die Abbildung 4.2 zeigt zwei Renderings der VR-Szene, die f¨ur den VR Auto

Konfigurator verwendet werden. Ein Rendering ist die Berechnung und Darstellung eines grafischen Inhalts auf einem Display.

Abbildung 4.2: Visualisierung der finalen VR Auto Konfigurator Szene

4.3.2 3D Automodell

In denVRAuto Konfigurator wird ein Automodell der Volvo Car Group3 eingebunden. Das

Modell wurde durch die Firma PCONAS GmbH4 und der Volvo Car Group zur Verf¨ugung

gestellt, welches f¨ur diese wissenschaftliche Arbeit verwendet wird. In der Abbildung4.3wird

das Automodell als Rendering gezeigt, das mit der Software Maya 20195 erstellt wurde.

Abbildung 4.3: Rendering eines Volvos XC-40 mit der 3D-Animationssoftware Autodesk Maya 2019

3_{https://t1p.de/01im} 4

https://t1p.de/ccky

(43)

4.3.3 Farben und Texturen

In der Szene wird f¨ur jedes Objekt ein Material definiert, welches eine Textur und eine

Far-be umfasst. Ein Material kann jedem Objekt zugewiesen werden, wodurch die OFar-berfl¨ache

die Textur- und Farbinformationen annimmt. Im Inspector, dem Programmfenster zur

An-sicht der detaillierten Informationen des ausgew¨ahlten Objekts, k¨onnen diese Informationen

beliebig angepasst werden. F¨ur den VR Auto Konfigurator ist eine Vielzahl an Materialien

nötig, die für die Oberflächengestaltung erforderlich sind. Das Erzeugen und die Zuweisung

von Texturen und Farben sind f¨ur die Lackierung, Felgenfarbe und Innenausstattung des

Autos sowie f¨ur den Boden und die Wand des Showrooms zu definieren. F¨ur die

Erstel-lung solcher Materialien k¨onnen unterschiedliche Maps, also Bilder von einer bestimmten

Textur, verwendet werden, die Einfluss auf die Struktur des Objekts haben.6 Anhand einer

Ziegelstein-Textur, die in Abbildung4.4dargestellt wird, werden die Unterschiede der Maps

veranschaulicht. Albedo-Map

Mithilfe einer Albedo-Map k¨onnen Oberfl¨ache mit einer Textur, bei der zuvor Schatten und

Reflexion von Licht entfernt wurden, eingef¨arbt werden.

Normal-Map

Deutlich erkennbar ist eine Normal-Map anhand der violetten Farbe. Die verwendeten roten,

gr¨unen und blauen Farbt¨one geben der 3D-Anwedung an, in welche Richtung (X-, Y- oder

Z-Achse) die entsprechenden Fl¨achen ausgerichtet werden sollen, mit denen die

Beleuch-tung berechnet wird. Durch die AusrichBeleuch-tung wird eine Illusion von Tiefe auf der Oberfl¨ache

erzeugt, die Details durch Kantenschatten hervorhebt. Height-Map

Durch die Height-Map wird zus¨atzlich ein H¨ohenunterschied erzeugt, in dem eine Abbildung

der Textur erstellt wird, bei der Vertiefungen schwarz und die H¨ohen weiß dargestellt werden.

Folglich kann Unity ein H¨ohenprofil der Oberfl¨ache erstellen, wodurch Unebenheiten zur

Kamera hin vergr¨oßert oder verkleinert werden.

Occlusion-Map

Die Occlusion-Map definiert die St¨arke der indirekten Beleuchtung des GameObjects.

(44)

Abbildung 4.4: Material-Maps von Ziegelsteinen. Oben-Links: Albedo-Map; Oben-Rechts: Normal-Map; Unten-Links: Height-Map; Unten-Rechts: Occlusion-Map.

In der Abbildung4.5werden vier Materialien dargestellt, die imVRAuto Konfigurator f¨ur die

Gestaltung des Showrooms verwendet werden. Der Boden der Lagerhalle erh¨alt eine Textur,

die Bodenfliesen nachempfunden ist. F¨ur die W¨ande werden zwei Materialen erstellt, die

optisch Ziegelsteine und Betonstuck darstellen. Dem Deckengew¨olbe der Lagerhalle wird

eine Betontextur zugewiesen.

Abbildung 4.5: Materialien der VR Szene. Oben-Links: Ziegelsteine; Oben-Rechts: Beton; Unten-Links: Bodenfliesen; Unten-Rechts: Betonstuck.

(45)

Die Objekte des Automodells, die eine farbige Lackierung erhalten, werden mit einem

Mate-rial ausgestattet, welches durch einen sp¨ateren Funktionsaufruf in der Farbe bearbeitet

wer-den kann. Daf¨ur steht ein Color-Attribut zur Verf¨ugung, welches einen Hexadezimal (Hex

)-Farbcode verwendet. Die Abbildung 4.6 verbildlicht einen Farbwechsel des Automodells im

VR Auto Konfigurator und zeigt drei unterschiedliche Farben (Grau, Rot, Schwarz) die zur

Verf¨ugung stehen.

Abbildung 4.6: Visualisierung von drei unterschiedlichen Farben der Auto Lackierung

Die Simulation einer Grasfl¨ache wird durch die Verwendung von Grashalm-Objekten mit

entsprechender Textur, die auf einer Bodenfl¨ache platziert werden, erzielt. Die Bodenfl¨ache

erh¨alt zus¨atzlich eine Grastextur, um einen realistischeren Effekt zu erhalten. In der

nach-folgenden Abbildung 4.7 wird eine Nahaufnahme der Grashalme gezeigt, die außerhalb der

Lagerhalle verwendet werden. F¨ur den Boden werden zwei Texturen mit Grasoptik genutzt,

die das Bild einer Wiese vervollst¨andigen.

Abbildung 4.7: Grasfl¨ache der VR Szene. Links: Darstellung der Grashalme; Rechts: