• Keine Ergebnisse gefunden

Synthetische Sprache (eigentlich Stimme) 29

ERSTES HALBBYTE

6.2 Synthetische Sprache (eigentlich Stimme) 29

Neben der Kommunikation über tastbare Schriften ist die Verwendung von synthetischer Sprache für blinde Personen von großer Bedeutung. Die zweite Personengruppe, die von der Sprachsynthese profitiert, sind Menschen mit Sprech- oder Sprachbehinderungen, für die der Synthesizer die eigene Stimme ersetzt.

6.2.1 Technische Realisierungsmöglichkeiten

Zur Erzeugung von synthetischer Sprache können zwei Wege eingeschlagen werden:

a) Digitalisierte Sprache

Streng genommen handelt es sich bei der digitalisierten Sprache nicht um synthetische Sprache im engeren Sinn, jedoch werden die Begriffe in der Literatur und vor allem in Gerätebeschreibungen meistens nicht sauber getrennt.

Unter digitalisierter Sprache wird Sprachaufzeichnung und -wiedergabe verstanden, bei der die Stimme eines menschlichen Sprechers / einer menschlichen Sprecherin in geeigneter Weise in ein Digitalsignal umgewandelt und in Form von Daten gespeichert wird. Um den dafür benötigten Speicherplatz gering zu halten, werden spezielle Codierungs- und Kompressionsverfahren angewendet.

Die aufgezeichnete Stimme kann bei Bedarf aus dem Speicher abgerufen werden. Werden einzelne Wörter oder Wortteile abgespeichert, können Sätze baukastenartig aus einzelnen Elementen zusammengefügt werden.

Der Vorteil dieser Vorgehensweise ist unbestritten die hohe erreichbare Sprachqualität, vor allem dann, wenn relativ zur Länge der gespeicherten Texte viel Speicherplatz zur Verfügung steht, wenn also bei der Aufzeichnung mit einer hohen Abtastrate ( = hohe Bandbreite) gearbeitet wurde. Unter diesen Voraussetzungen klingt die Stimme natürlich und durch die Wahl des Sprechers bzw. der Sprecherin existiert eine breite Palette von möglichen Stimmen.

Der entscheidende Nachteil dieser Technik ist jedoch der eingeschränkte Wortschatz. Ein Synthesizer mit digitalisierter Sprache kann nur das wiedergeben, was vorher gespeichert wurde. Auch wenn man die Zahl der möglichen Sätze dadurch vergrößern kann, daß Worte und Wortteile in verschiedenen Sätzen Verwendung finden, wird man insbesondere bei tragbaren Geräten recht bald an Grenzen stoßen. Außerdem führt der Aufbau von Sätzen aus einzelnen vorabgespeicherten Wörtern oder Wortteilen doch zu einem merklichen Verlust in der Sprachqualität, weil es zu Störungen in der Satzmelodie (Prosodie) kommt.

b) Vollsynthese

Darunter wollen wir alle Sprachsynthesizer verstehen, die ein Sprachsignal direkt aus einem eingegebenen Text, also vollkommen ohne Zuhilfenahme eines menschlichen Sprechers / einer menschlichen Sprecherin, bilden können.

In den letzten Jahren hat sich die Sprachqualität dieser Art von Synthesizer zwar deutlich verbessert, dennoch klingen die Stimmen noch nicht menschenähnlich genug, daß ein uneingeschränkter Einsatz möglich wäre. Meistens bieten diese Synthesizer auch nur eine (oder sehr wenige) Stimmen an, sodaß die Auswahl für viele Anwendungen viel zu gering ist.

29 Sprachsynthese wurde bereits in der Vorlesung RT1 behandelt. Hier wird nur kurz darauf eingegangen

6.METHODEN DER ALTERNATIVEN KOMMUNIKATION

Der wesentliche Vorteil ist aber der vollkommen uneingeschränkte Wortschatz. Welcher Text auch immer in den Synthesizer eingegeben wird, er wird gemäß den programmierten Ausspracheregeln umgesetzt werden. Ausnahmen in der Aussprache bzw. in den Text eingestreute Fremdwörter werden jedoch im allgemeinen zu Aussprachefehlern führen.

6.2.2 Benutzerspezifische Grundanforderungen

Bei den Anwendungsformen gilt es vor allem zu unterscheiden, ob die Sprachsynthese dazu verwendet wird, Information zur behinderten Person zu transportieren, oder ob sie im Sinne eines prothetischen Hilfsmittels einen Ersatz für die fehlende Stimme der behinderten Person bildet und in diesem Sinn zu anderen Personen spricht. Demzufolge werden vollkommen andere Anforderungen gestellt.

a) Synthetische Sprache als Informationsquelle für die behinderte Person

In erster Linie dienen Sprachsynthesizer als Informationsquelle für blinde und hochgradig sehbehinderte Menschen. Weiters profitiert der gesamte Personenkreis der "reading impaired"

(also Personen mit Dyslexie, Lernbehinderungen, Behinderungen der Intelligenz, Bewegungsbehinderungen, die den Umgang mit Büchern oder Zeitschriften erschweren oder unmöglich machen) von dieser Technik, da schriftliches Material für sie nicht oder nur schwer zugänglich ist.

Wenn es sich um die Bereitstellung von allgemeinen Texten (also Lesematerial) handelt, muß der Sprachsynthesizer vor allem einen unbeschränkten Wortschatz aufweisen. Es muß sich also unbedingt um Vollsynthese handeln, durch die ein (ASCII) Text vollständig in Sprache umgeformt wird.

Personen mit intellektueller Behinderung können von Geräten profitieren, die einfache Textmitteilungen durch Sprache verstärken (z.B. eine Uhr, die sprechend auf bestimmte Termine im Tagesablauf aufmerksam macht). Hier wird man mit kleinem, vorgegebenem Wortschatz das Auslangen finden und daher auf digitalisierte Sprache zurückgreifen.

Weitere Anforderungen sind:

 Hohe Sprechgeschwindigkeit (insbesondere blinde Anwender erwarten hohe Lesegeschwindigkeiten, selbst so hoch, daß eine ungeübte Person nichts verstehen würde).

 Variationsmöglichkeiten der Tonhöhe (zwecks Anpassung an das Hörvermögen bzw.

persönliche Vorlieben).

 Schnelles Reagieren auf Befehle (Beim Durchsuchen eines Textes muß sich der Synthesizer auch sofort und ohne Probleme mitten im Wort abschalten/unterbrechen lassen. Geräte, die sich erst dann beeinflussen lassen, bis z.B. der ganze Satz oder der gesamte Puffer ausgesprochen ist, sind unbrauchbar).

 Möglichkeiten zur Erkennung und/oder Ansage von Satzzeichen (Satzzeichen sollen an der Sprachmelodie erkannt werden können).

 Möglichkeiten zur Erkennung von Groß- und Kleinbuchstaben (bei der Rechtschreibprüfung von Texten besonders wichtig).

Nicht unbedingt erforderlich ist jedoch:

 Hohe Natürlichkeit der Sprache (An den maschinenartigen Klang der Stimme gewöhnt sich dieser Benutzerkreis relativ schnell).

 Große Auswahl von Stimmen.

b) Synthetische Sprache als prothetisches Hilfsmittel

Hier soll der Sprachsynthesizer die Stimme der behinderten Person ersetzen und zu anderen Personen reden. Das wesentliche Kriterium ist hier die Natürlichkeit der Stimme. Als Prothese soll die Stimme des Synthesizers so beschaffen sein, daß sich der Benutzer / die Benutzerin mit dieser Stimme identifizieren kann. Weiblichen Benutzern muß daher unbedingt eine weibliche Stimme des Synthesizers zur Verfügung stehen (und umgekehrt), was aber nicht bei allen am Markt angebotenen Synthesizern eine Selbstverständlichkeit ist.

Die Stimme sollte auch dem Alter und Wesen der behinderten Person entsprechen und wenn möglich keinen Akzent aufweisen, der nicht zur Person paßt. Beispielsweise beklagt sich der sprechbehinderte Astrophysiker S. Hawking oft darüber, daß seine in britischem Englisch gedachten Formulierungen von seinem Synthesizer mit amerikanischem Akzent wiedergegeben werden.

Es darf auch nicht vergessen werden, daß der Synthesizer als Ersatz für die Stimme einer Person universell und bei jeder Gelegenheit einsetzbar sein muß. Das bedeutet auch, daß Kommunikationspartner, die in keiner Weise auf das Angesprochenwerden durch einen Synthesizer vorbereitet sind (also nicht "eingehört" sind) trotzdem die Mitteilungen gut verstehen sollen. Die Stimme sollte daher auch aus diesem Grund so natürlich wie nur möglich klingen und eine angenehme Satzmelodie (Prosodie) aufweisen. Gerade hier wird für manche Sprachen (so auch für Deutsch) noch viel Entwicklungsarbeit erforderlich sein.

6.2.3 Sprache ist mehr als aneinandergereihte Wörter

Die gesprochene menschliche Sprache ist wesentlich mehr, als die bloße Aneinanderreichung von Buchstaben und Wörtern und deren Umformung in ein phonetisch korrektes Lautbild. Bei einem Internet-Chat wird das schon dadurch deutlich, daß man sich mit Randbemerkungen wie :-) für eine humorvolle Bedeutung, :-( für etwas Trauriges oder :-o für etwas, das in Erstaunen versetzt, behelfen muß.

Die ganze Palette der Emotionen schwingt über unsere Stimme mit und kann von Personen, die ihre Mitteilungen als Texte an einen Synthesizer schicken nicht geäußert werden. Man arbeitet daher an Synthesizern, die in der Lage sind, auch Stimmungen zu vermitteln, zu flüstern oder zu schreien etc.. Das Problem liegt aber hier nicht so sehr in der entsprechenden Aufbereitung der phonetischen Parameter (hier wurden bereits Untersuchungen angestellt und Lösungen dafür vorgeschlagen, wie eine Stimme mit Emotionen nachgebildet werden kann). Die Frage ist vielmehr, in welcher geeigneten und benutzerfreundlichen Weise kann der Anwender / die Anwenderin die momentane Gefühlslage dem Synthesizer mitteilen. Wird man bestimmte Stimmungsknöpfe auf der Tastatur anbringen müssen oder kann schon allein aus der Art des Anschlages (zart oder heftig) auf die Stimmung des Schreiber / der Schreiberin geschlossen werden. Auch hier ist noch Raum für künftige Forschung und Entwicklung.

6.METHODEN DER ALTERNATIVEN KOMMUNIKATION