Zur Machbarkeit von Synthese emotionaler Sprache ohne Modellierung der Stimmqualität

(1)

Zur Machbarkeit von Synthese emotionaler Sprache ohne Modellierung der Stimmqualität

Marc Schröder

Universität des Saarlandes, Institut für Phonetik schroeder@coli.uni-sb.de

Abstract: Die vorliegende Studie widmet sich der Frage, ob emotionale Sprechweise in konkatenativer Sprachsynthese ohne Manipulation der Stimmqualität modelliert werden kann.

Ein Satz wurde von drei Sprechern mit vier Emotionen (Wut, Freude, Angst und Traurigkeit) sowie mit neutraler Sprechweise produziert. Die besterkannten dieser "natürlichen"

emotionalen Äußerungen wurden akustisch analysiert (Segmentdauern, -energie, und F0- Extrema) und mittels Copy-Synthese nachgebildet. Während einige der resultierenden

"synthetischen" Stimuli fast so gut der intendierten Emotion zugeordnet wurden wie die

"natürlichen" Originale, ging bei anderen die Erkennung komplett verloren. In einem offenen Perzeptionstest wurde eine ausgeprägte und nur bedingt vom Stimulus abhängende Präferenz für die Kategorie "Enttäuschung" gefunden.

1. Einführung

Mit zunehmender Verständlichkeit synthetischer Stimmen wächst auch der Wunsch nach mehr Natürlichkeit der modellierten Sprechweise. Das zeigt sich in der neueren Literatur in einer wachsenden Anzahl von Untersuchungen zur Synthese emotionaler Sprache. Dabei unterscheiden sich die Ergebnisse verschiedener Studien, die mit konkatenativen Verfahren arbeiten, allerdings sehr. Während die Ergebnisse einiger Untersuchungen [2,7,13] darauf schließen lassen, daß synthetisierte Emotionen recht gut erkannt werden, weisen andere Studien [3,10] Erkennungsraten nahe am Zufallsniveau auf. Dieser Hintergrund macht deutlich, wie wichtig es gerade im Gebiet der Synthese emotionaler Sprache zu sein scheint, daß die ergebnisrelevanten experimentellen Faktoren genau kontrolliert und auch im Detail wiedergegeben werden, um die Chancen auf Reproduzierbarkeit und damit Kumulativität der Forschung zu erhöhen.

Eines der Hauptprobleme bei der konkatenativen Synthese emotionaler Äußerungen ist die Modellierung der Stimmqualität. In natürlicher Sprache beeinflussen emotionsbedingte physiologische Prozesse die Phonation und somit die Stimmqualität in vielfältiger Weise [11], und perzeptiv gilt Stimmqualität als wichtig für die Wahrnehmung von Emotionen [8, S.

1099]. Letzteres wurde vor kurzem auch für synthetisierte Sprache bestätigt: Insbesondere für

"Ärger" war in [7] die Diphon-Stimmqualität, nicht die Prosodie, entscheidend für die Erkennung.

Die vorliegende Studie widmet sich der Frage, ob es prinzipiell machbar ist, mit einem konkatenativen Synthesesystem Emotionen wiedererkennbar und überzeugend zu vermitteln, ohne die Stimmqualität der Diphone zu verändern. Diese Frage würde mit "ja" beantwortet werden können, wenn einzelne Stimuli sehr gut erkannt und als überzeugend gewertet werden.

Hohe mittlere Erkennungsraten hingegen sind für die Fragestellung nicht wichtig, da es nicht zu erwarten ist, daß alle verwendeten Stimuli sich gut für die Synthese emotionaler Sprache eignen. Ausgehend von der Überlegung, daß der Zusammenhang zwischen akustischen

(2)

Parametern und wahrgenommener Emotion nicht genau bekannt ist (außer globalen Mittelwerten könnten z.B. auch lokale Ereignisse perzeptiv wichtig sein), wurde auf jede Abstraktion im Sinne von Regeln bewußt verzichtet. Stattdessen wurden die mit dem verwendeten konkatenativen Synthesesystem modellierbaren Parameter F0, Segmentdauern und Energie (mit Abstrichen, siehe 3.3) so präzise wie möglich von emotional gesprochenen Äußerungen eines Satzes auf synthetische Versionen dieses Satzes übertragen.

2. Emotionales Stimmmaterial

Als Grundlage für alle Untersuchungen diente der Satz "Er ist einfach weggefahren!". Dieser Satz wurde gewählt, weil er einerseits als unspezifisch angesehen wurde in dem Sinne, daß er in verschiedenen Kontexten sehr verschiedene Bedeutungen tragen kann, und weil andererseits dem Wort "einfach" eine emotional verstärkende Funktion zugeschrieben wurde.

(Zu Problemen mit der Wahl dieses Satzes, siehe 3.5).

Die vier Emotionen "Wut", "Freude", "Traurigkeit", und "Angst" wurden für die Sprecher durch Rahmengeschichten verdeutlicht. Die Geschichten sind zur näheren Definition der untersuchten Emotionen im folgenden zusammengefaßt. Für "Traurigkeit" sagte der Sprecher den Satz, nachdem ein guter Freund abgereist war, ohne sich zu verabschieden ("Ich kann mich nicht mal mehr verabschieden! Er ist einfach weggefahren!"). Für "Angst" sollte sich der Sprecher vorstellen, er sei ein kleines Kind, nachts mit seiner Schwester in einer Hütte im Wald allein, nachdem ihr Vater ohne Erklärung weggefahren war ("Papa ist nicht da! Er ist einfach weggefahren!"). Für "Freude" wurde der Sprecher telefonisch informiert, daß er seinen Traumjob bekommt, weil der einzige andere Kandidat aufgegeben hat ("Ich hab' den Job! Der andere hat aufgegeben! Er ist einfach weggefahren!"). Für "Wut" sah der Sprecher einen unzuverlässigen Kollegen in dem Moment davonfahren, zu dem ein dringendes Treffen stattfinden sollte ("Dieser unzuverlässige Idiot! Er ist einfach weggefahren!").

2.1 Aufnahmen

Drei Sprecher, ein männlicher Phonetiker mit quasi-muttersprachlichem Deutsch (B) und zwei deutschsprachige Amateurschauspielerinnen (C, S) wurden einzeln in einem schallgedämpften Raum sitzend aufgenommen. Sie produzierten zunächst den Satz in einer "emotional neutralen" Weise, wofür keine Rahmengeschichte vorgegeben wurde. Für jede der vier Emotionen lasen die Sprecher still die Beschreibung, und sobald sie sich bereit fühlten, produzierten sie die 2-3 oben aufgelisteten Sätze. Sie konnten ihren Ausdruck wiederholen, bis sie mit ihm zufrieden waren. Jeder Sprecher produzierte so zwei Beispiele für jede Emotion, die beide im Perzeptionstest I verwendet wurden. Alle Sprecher bezeichneten die Rahmengeschichten als gut geeignet, um sich die Emotionen vergegenwärtigen zu können.

Die Äußerungen des Testsatzes wurden mit 16 kHz und 16 bit digitalisiert. Alle Äußerungen eines Sprechers wurden mit gleichbleibender Verstärkung aufgenommen und digitalisiert, wodurch die Äußerungen eines Sprechers bezüglich ihrer Energie verglichen werden konnten.

Vergleiche der absoluten Energie zwischen Sprechern waren nicht möglich.

2.2 Perzeptionstest I

Die Qualität der aufgenommenen Äußerungen als erkennbare emotionale Ausdrücke wurde in einem ersten Perzeptionstest überprüft. Zwei natürliche Äußerungen pro Sprecher und pro

(3)

Ausdruck wurden in einem forced choice-Perzeptionstest über Kopfhörer dargeboten. Jeder der 30 Stimuli wurde fünfmal präsentiert, wobei die Darbietungsreihenfolge aller Stimuli zu Beginn jeder Sitzung automatisch randomisiert wurde. Nach einmaligem Anhören eines Stimulus mußten die Versuchspersonen eine der fünf möglichen Kategorien auswählen und zusätzlich angeben, wie sicher sie sich bei dieser Wahl waren (mit einer "Note" von 1 bis 4, wobei 1=sicher, 2=recht sicher, 3=eher unsicher, 4=unsicher). Vier deutsche Muttersprachler (2 Männer, 2 Frauen, zwischen 25 und 46 Jahre alt) nahmen am Test teil.

Tabelle 1. Erkennungsraten (%) aus Perzeptionstest I für die einzelnen natürlichen Äußerungen. Fettdruck kennzeichnet die Äußerungen, die als Modelle für die Copy-Synthese ausgewählt wurden.

korrekt Wut Freude Angst Traurigkeit Neutral

Sprecher B 80 80 100 40 60 65 15¹ 45 40 25²

Sprecher S 80 70 90 90 55 15 100 95 50 60

Sprecher C 100 100 90 65 75 40 95 75 55 25

Die Ergebnisse des Perzeptionstests I (Tabelle 1) wurden zur Auswahl geeigneter natürlicher Äußerungen als Vorlagen für die Copy-Synthese verwendet. Da für die meisten Kombinationen aus Sprecher und Ausdruck hohe bis sehr hohe Erkennungsraten für mindestens eine der beiden Äußerungen erreicht wurden, konnte je eine Äußerung je Sprecher und Ausdruck benutzt werden, so daß insgesamt also 15 Äußerungen als Vorlagen für die Copy-Synthese verwendet wurden. Wenn beide Versionen eines Sprechers für eine Emotion die gleiche Erkennungsrate aufwiesen, wurde diejenige mit der besseren Sicherheitsnote ausgewählt.

Die Sicherheitsnote korrelierte negativ mit der Korrektheit der Antwort (r = -0.318, p<0.001), d.h. die Hörer waren in gewissem Maße in der Lage, die Richtigkeit ihrer Antwort einzuschätzen. Der Mittelwert von 1.8 (Standardabweichung: 0.8) für die Sicherheitsnote legt die Vermutung nahe, daß die Sprecher es insgesamt eher einfach fanden, die Stimuli den vorgegebenen Antwortkategorien zuzuordnen.

3. Synthetische Stimuli 3.1 Diphondatenbank

Für die konkatenative Synthese wurde eine Diphondatenbank mit der Stimme des professionellen Sprechers B erstellt. Die Diphone wurden aus zwei verschiedenen Versionen des Testsatzes "Er ist einfach weggefahren!" selbst extrahiert, der monoton mit 95 Hz

1In 75% der Fälle als "neutral" bewertet und deshalb als Vorlage für "neutral" ausgewählt.

2In 65% der Fälle als "Traurigkeit" bewertet und deshalb als Vorlage für "Traurigkeit" ausgewählt.

(4)

gesprochen worden war. Die Diphone wurden dem Testsatz selbst entnommen, um unkontrollierbare Einflüsse durch die Konkatenation von Diphonen aus verschiedenen transsegmentalen Kontexten zu vermeiden.

3.2 Messungen der prosodischen Parameter für die Copy-Synthese

Die ausgewählten Äußerungen wurden manuell mit einer Kay CSL 4300B Workstation analysiert. Dauer und Energie der Segmente sowie F0-Zielpunkte (lokale Extrema) wurden bestimmt.

Da alle Äußerungen mit der männlichen Stimme von Sprecher B synthetisiert werden sollten, mußten die F0-Werte der beiden Sprecherinnen auf das Niveau eines männlichen Sprechers reduziert werden; dazu wurden (für jede Sprecherin einzeln) die F0-Werte so abgesenkt, daß der Mittelwert aus allen F0-Werten dieser Sprecherin mit dem Mittelwert aus allen F0-Werten des Sprechers B (140 Hz) übereinstimmte. Auf diese Weise wurden alle F0-Werte von Sprecherin C um 25% und von Sprecherin S um 45% abgesenkt. Der Stimmumfang in Halbtönen bleibt bei dieser Transformation erhalten.

3.3 Erstellung der Stimuli

Die synthetischen Stimuli wurden mit dem CPK-Synthesesystem [5] erstellt, mit dem präzise Dauermodellierung auf der Segmentebene sowie eine sehr flexible F0-Modellierung durch LPC-Resynthese möglich sind. Da mit dem CPK-Synthesesystem z.Zt. eine detaillierte Energiemodellierung nicht möglich ist, wurden die Energieniveaus der Vokale und Nasale von Hand angepaßt (mit der 'scale'-Funktion in CSL). Die Energien der anderen Segmente wurden nicht kontrolliert.

Wegen des Risikos, durch die grobe Energiemodellierung Artefakte zu erzeugen, wurden im Perzeptionstest II auch die synthetisierten Stimuli ohne Energiemanipulation verwendet. Ihre Amplitude wurde halbiert, so daß ihre Energie zwischen jener der lauten und der leisen energiemanipulierten Stimuli lag.

Es ist wichtig, sich bewußt zu machen, daß selbst wenn ein Synthesesystem keine Modellierung der Energie erlaubt, dies nicht bedeutet, daß die Energie konstant gehalten wird.

F0-Modellierung im Zeitbereich beeinflußt indirekt auch die Energie: Zum Anheben (Absenken) der Grundfrequenz wird die energiearme offene Phase in einer Periode verkürzt (gelängt). Dadurch ändert sich das Verhältnis zwischen der energiereichen geschlossenen Phase und der energiearmen offenen Phase innerhalb jeder Periode. Für höhere F0 bedeutet das höhere Energie und umgekehrt. Dieser Effekt mag für neutrale Sprechweise vernachlässigbar sein; bei emotionaler Sprechweise aber ist die F0-Variation viel größer und dadurch auch die Auswirkung auf die Energie stärker (in der vorliegenden Studie sind F0- Werte von unter 100 Hz bis über 220 Hz häufig, was mehr als eine Halbierung der Periodenlänge bedeutet).

In natürlicher emotionaler Sprache drückt sich größere Erregung normalerweise gleichzeitig durch höhere F0 und höhere Energie aus [12]. Solange also ein solcher erregungsbasierter emotionaler Ausdruck synthetisiert werden soll³, hat die erwähnte Kovarianz von Energie und

3im Gegensatz zu einem Ausdruck gemäß Ohala's frequency code [9], wo eine tiefe Stimme darauf abzielt, den Sprecher groß und dadurch stark erscheinen zu lassen. In solchen Fällen sollte tiefe F0 logischerweise von einer lauteren Stimme begleitet sein.

(5)

F0 die gleiche Richtung wie für natürliche emotionale Sprache.

3.4 Perzeptionstest II

Jeder der 15 synthetischen Stimuli wurde in zwei Versionen (mit/ohne Energiemanipulation) präsentiert. Der Ablauf des Tests war ähnlich wie bei Perzeptionstest I, nur daß jeder Stimulus drei- statt fünfmal vorkam, und daß nach der Kategorisierung eines Stimulus nicht die Sicherheit bzgl. der Korrektheit der Antwort zu bewerten war, sondern "wie überzeugend der Stimulus die gewählte Emotion ausdrückt" (1=überzeugend, 2=eher okay, 3=eher schlecht, 4=total schlecht). Zur Illustration des Begriffs "überzeugend" wurde den Hörern "Seifenopern im Fernsehen" als Beispiel für nicht-überzeugende emotionale Ausdrücke genannt. Fünf deutsche Muttersprachler (2 Männer, 3 Frauen, im Alter zwischen 25 und 35 Jahren) nahmen an diesem Test teil. Sie hatten nicht am Perzeptionstest I teilgenommen und waren nicht an synthetische Sprache gewöhnt. Mehrere Hörer erwähnten, daß ihnen die Antwortkategorien nicht immer passend erschienen, und daß ihnen eine Kategorie "Enttäuschung" fehlte.

Tabelle 2. Erkennungsraten (%) aus Perzeptionstest II für die einzelnen synthetischen Stimuli mit Energiemodellierung (+en) und ohne Energiemodellierung (-en).

Die höchsten Erkennungsraten in jeder Kategorie sind fettgedruckt.

korrekt Wut Freude Angst Traurigkeit Neutral +en -en +en -en +en -en +en -en +en -en

Sprecher B 7 7 13 20 13 20 47 67 33 47

Sprecher S 33 20 73 87 13 13 40 60 67 47

Sprecher C 87 80 7 0 40 47 33 13 40 53

Ein erstes interessantes Ergebnis (Tabelle 2) ist die Tatsache, daß für "Wut" und "Freude"

Stimuli mit Erkennungsraten über 80% existieren (C/Wut⁴, S/Freude), also fast so gut erkannt wie die entsprechenden natürlichen Äußerungen. Gleichzeitig werden die anderen Stimuli in denselben Kategorien überhaupt nicht mehr erkannt, obwohl alle natürlichen Vorlagen für

"Wut" und "Freude" mindestens zu 80% erkannt worden waren (Tabelle 1). Anscheinend blieben in C/Wut und S/Freude bei der Copy-Synthese anhand von Segmentdauern und Intonation genügend relevante Parameter erhalten, um eine zuverlässige Erkennung zu erlauben, während bei den schlecht erkannten Stimuli die relevanten Parameter verlorengingen. Es ist zu vermuten, daß für diese Äußerungen, die im Original gut, nach der Copy-Synthese aber nicht mehr erkannt wurden, andere, nicht-modellierte Parameter wie z.B.

Stimmqualität entscheidend für die Wahrnehmung der Emotion waren. Diese Ergebnisse sind möglicherweise auf verschiedene Sprecherstrategien beim Ausdruck einer Emotion zurückzuführen, wie sie öfters in der Literatur erwähnt werden (z.B. [1]).

4d.i. der durch Copy-Synthese erzeugte Stimulus, der auf einem Ausdruck von "Wut" von Sprecher C beruht.

(6)

Ein weiteres interessantes Ergebnis ist die Beobachtung, daß die verwendete Form der Energiemodellierung nahezu ohne jede Auswirkung auf die Testergebnisse blieb.

Tabelle 3. Meistgewählte Kategorie (%) aus Perzeptionstest II für die einzelnen

synthetischen Stimuli. Die Buchstaben geben die meistgewählte Kategorie an:

w=Wut, f=Freude, a=Angst, t=Traurigkeit, n=Neutral. Der angegebene Wert ist die Häufigkeit dieser Antwort. Wenn die korrekte Antwort am häufigsten gewählt wurde, ist kein Buchstabe angegeben und die Häufigkeit fettgedruckt.

häufigste Wut Freude Angst Traurigkeit Neutral Antwort +en -en +en -en +en -en +en -en +en -en Sprecher B 67t 47t 47w 67w 40n 33n 47 67 40w 47

Sprecher S 60t 73t 73 87 60t 40t 40 60 67 47

Sprecher C 87 80 53w 47n 40 47 53n 67n 40t 53

Die am häufigsten gegebene Antwort für jeden Stimulus ist recht systematisch. Alle schlecht erkannten "Wut"-Stimuli wurden als "Traurigkeit" interpretiert, eine Verwechslung, die nie bei natürlichen Stimuli auftritt [1,6]. "Freude" wird als "Wut" interpretiert, was bei natürlichen Stimuli selten ist, obwohl Verwechslungen zwischen elation, einer sehr erregten Form von "Freude", und hot anger, "Wut", auftreten können [1]. "Angst" wurde öfter als

"Traurigkeit" interpretiert als richtig erkannt.

Die Überzeugungsnote korrelierte schwach, aber signifikant mit der Korrektheit der Antwort (r=-0.125, p<0.01). Dies lag offenbar v.a. daran, daß richtig erkannte "neutrale" Stimuli als besonders überzeugend gewertet wurden (für "neutrale" Stimuli: r=-0.438, p<0.001). Die mittlere Überzeugungsnote von 2.5 (Standardabweichung 0.7), genau in der Mitte zwischen den Noten für "überzeugend" und "nicht überzeugend", läßt vermuten, daß die Hörer die Stimuli i.a. weder besonders überzeugend noch besonders schlecht fanden.

3.5 Perzeptionstest III

Mehrere Hinweise aus Perzeptionstest II legten die Vermutung nahe, daß bei der Copy- Synthese andere perzeptive emotionale Kategorien entstanden sind als ursprünglich von den Sprechern intendiert: Zum einen die untypischen Verwechslungen zwischen Kategorien (s.o.);

zum anderen die Bemerkung mehrerer Hörer, ihnen hätte eine Antwortkategorie

"Enttäuschung" gefehlt.

Aus diesen Gründen wurde ein Perzeptionstest zur freien Assoziation durchgeführt: Die Hörer sollten den durch jeden Stimulus vermittelten Ausdruck mit ihren eigenen Worten beschreiben. Auch hier sollte, wie in Perzeptionstest II, nach der Antwort eine Note von 1 bis 4 erteilt werden, wie überzeugend der Stimulus als Beispiel für die beschriebene Emotion war.

Als Stimulusmaterial fungierten in diesem Test nur die 15 synthetisierten, aber nicht energiemanipulierten Stimuli aus Perzeptionstest II. Jeder Stimulus kam im Gegensatz zu den

(7)

vorherigen Tests nur einmal vor, konnte aber mehrmals angehört werden. Acht deutschsprachige Hörer (2 Männer, 6 Frauen, 25-35 Jahre alt) wurden getestet. Sie hatten an keinem der vorhergehenden Perzeptionstests teilgenommen und kannten die Stimuli nicht. Sie wurden vor dem Test nicht über die ursprünglich intendierten Emotionskategorien informiert.

Die Antworten wurden vom Autor zu Klassen zusammengefaßt, wobei versucht wurde, die ursprünglichen Kategorien wieder zu verwenden. So wurde z.B. die Antwort "leicht verärgert"

der Kategorie "Wut" zugerechnet, "amüsiert" als Freude gezählt etc. Für häufige Antworten, die nicht ohne weiteres einer der 5 ursprünglichen Kategorien zugeordnet werden konnten, wurden neue Kategorien gebildet.

Tabelle 4. Häufigkeiten (%) der gegebenen Antworten aus Perzeptionstest III, zu Kategorien gruppiert. Neue Kategorien: Enttäuschung, Überraschung, Resignation,

Unverständnis.

Wut Freude Angst Traur. Neutr. Enttäu. Überr. Resign. Unver. andere

13 6 2 14 10 31 4 6 6 8

Die Ergebnisse weisen eine starke Präferenz der Hörer für die Antwort "Enttäuschung" auf (Tabelle 4). Tatsächlich wurde jeder der 15 Stimuli mindestens einmal als "Enttäuschung"

gewertet, besonders häufig die Stimuli B/Angst, S/Angst und S/Traurig (je 50%). Interessant ist auch, daß die in Perzeptionstest II besonders gut erkannten Stimuli auch hier am häufigsten als die intendierte Kategorie gewertet wurden: C/Wut 63%, S/Freude 38%. Ebenfalls wurden zwei von drei neutral intendierten Stimuli als neutral gewertet: C/Neutral 38%, S/Neutral 50%

(Zufallsniveau: 10%).

Die mittlere Überzeugungsnote von 2.2 war besser als im Perzeptionstest II; insbesondere wurden die Stimuli als überzeugender gewertet, die auf emotionalen Äußerungen von Sprecher B beruhen.

Offenbar gibt es Einflüsse in sämtlichen synthetischen Stimuli, die eine Tendenz zur Wahrnehmung von Enttäuschung herbeiführen, welche nur teilweise von den modellierten prosodischen Parametern modifiziert wird. Zu diesen Einflüssen kann der Text des Testsatzes gehören, der von Hörern in allen drei Perzeptionstests als unpassend für "Freude" bezeichnet wurde. Ebenfalls denkbar ist ein Einfluß der Sprechereigenschaften in der Diphondatenbank, insbesondere der (behauchten) Stimmqualität. Nicht auszuschließen sind außerdem Effekte der Synthesemethode.

4. Schlußfolgerungen

Die Frage nach der Unverzichtbarkeit einer Stimmqualitätsmodellierung stand im Zentrum der vorgestellten Untersuchung. Durch Copy-Synthese wurden sehr gut erkannte emotionale Äußerungen eines Satzes mit einem festen Diphon-Satz synthetisiert. Während für einige synthetische Stimuli die guten Erkennungsraten der Originale nahezu erhalten blieben, ging die ursprüngliche emotionale Qualität bei anderen synthetischen Stimuli völlig verloren. Dies

(8)

deutet darauf hin, daß bei konstanter Stimmqualität, nur durch Modellierung von Segmentdauern und Intonation, eine Teilmenge der sprecherabhängigen, emotionalen Ausdrucksstrategien in der Synthese erfolgreich nachgebildet werden kann. Andere Sprecherstrategien hingegen, die möglicherweise stärker von der Stimmqualität Gebrauch machen, sind nicht mit derselben Methode synthetisierbar. Ein Synthesesystem, das Emotionen ohne die Modellierung von Stimmqualität ausdrücken möchte, sollte also besondere Sorgfalt auf die Auswahl des nachzubildenden emotionalen Materials verwenden, wobei eine große Schwierigkeit darin besteht, daß sich die Ausdrucksstrategien verschiedener Sprecher anscheinend je nach Emotion unterschiedlich gut für die Synthese eignen.

Alle synthetischen Stimuli wiesen eine Tendenz auf, als "Enttäuschung" wahrgenommen zu werden. Hierfür waren offenbar Faktoren verantwortlich, die nur begrenzt zwischen verschiedenen Stimuli variierten. Insbesondere ist es möglich, daß die Stimmqualität der Diphone einen entsprechenden Einfluß hatte; dies sollte in einem folgenden Experiment geklärt werden.

Einige methodische Punkte sind hervorzuheben. Die Verwendung von Rahmengeschichten für die Produktion von emotionalem Stimmmaterial hat Stimuli mit sehr hohen Erkennungsraten hervorgebracht. Es scheint sich also um eine effektive Methode zu handeln.

Die Energiemanipulation in der hier durchgeführten Weise hatte nahezu keinen Einfluß auf die Perzeption. Sie hat weder zur Verbesserung noch zur Verschlechterung weder der Erkennungsraten noch der Überzeugungsnoten geführt.

Die Bewertungen der eigenen Antworten durch die Hörer in den Perzeptionstests haben sich als unterschiedlich sinnvoll erwiesen. Bei den natürlichen Stimuli waren sich die Hörer ihrer Antwort sicherer, wenn sie die "richtige" Antwort gaben. Hingegen wurden die emotionalen synthetischen Stimuli nicht als überzeugender gewertet, wenn sie "richtig" zugeordnet wurden. Als die Hörer ihre eigene Beschreibung der Stimuli angeben konnten, statt nur zwischen vorgegebenen Antworten wählen zu können, wurden die Stimuli im Mittel als etwas überzeugender gewertet. Der Nutzen einer Abfrage der "Überzeugungskraft" von Stimuli ist also fragwürdig, während die Angabe der "Sicherheit" einer Antwort eher sinnvoll erscheint.

(9)

Danksagung

Der Autor möchte sich herzlich bei Jürgen Trouvain und Jacques Koreman für interessante Diskussionen und konstruktives Feedback bedanken. Ebenfalls bedankt er sich bei der Sprachsynthesegruppe des CPK, Aalborg, insbesondere Claus Nielsen, für die Bereitstellung des CPK-Synthesesystems.

Literaturangaben

[1] Banse, R., & Scherer, K. R. (1996). Acoustic Profiles in Vocal Emotion Expression, Journal of Personality and Social Psychology, 170 (3), p. 614-636.

[2] Edgington, M. (1997). Investigating the limitations of concatenative synthesis, Eurospeech '97, Rhodes.

[3] Heuft, B., Portele, T., & Rauth, M. (1996). Emotions in time domain synthesis, ICSLP '96, Philadelphia.

[4] Holmberg, E. B., Hillman, R. E., & Perkell, J. S. (1988). Glottal airflow and transglottal air pressure measurements for male and female speakers in soft, normal, and loud voice, Journal of the Acoustic Society of America, 84(2), p. 511-529.

[5] Jensen, J., Nielsen, C., Andersen, O., Hansen, E., & Dyhr, N.-J. (1998). A speech

synthesizer with modeling of the Danish "stød". Proc. IEEE Nordic Signal Processing Symposium (Norsig '98), p. 121-124.

[6] Leinonen, L., Hiltunen, T., Linnankoski, I., & Laakso, M. (1997). Expression of

emotional-motivational connotations with a one-word utterance, Journal of the Acoustic Society of America, 102 (3), p. 1853-1863.

[7] Montero, J. M., Gutiérrez-Arriola, J., Palazuelos, S., Enríquez, E., Aguilera, S., & Pardo, J. M. (1998). Emotional speech synthesis: From speech database to TTS, ICSLP '98, Sydney, Vol. 3, p. 923-926.

[8] Murray, I. R., & Arnott, J. L. (1993). Toward the simulation of emotion in synthetic speech: A review of the literature on human vocal emotion, Journal of the Acoustic Society of America, 93 (2), p. 1097-1108.

[9] Ohala, J. J. (1996). Ethological theory and the expression of emotion in the voice, ICSLP 96.

[10] Rank, E., & Pirker, H. (1998). Generating emotional speech with a concatenative synthesizer, ICSLP '98, Sydney, Vol. 3, p. 671-674.

[11] Scherer, K. R. (1986). Vocal Affect Expression: A Review and a Model for Future Research, Psychological Bulletin, 99, p. 143-165.

[12] Scherer, K. R. (1996). Adding the affective dimension: A new look in Speech Analysis and Synthesis, ICSLP 96.

[13] Vroomen, J., Collier, R., & Mozziconacci, S. (1993). Duration and intonation in emotional speech, Eurospeech '93, Berlin, Vol. 1, p. 577-580.