Die extrinsische und intrinsische Vokalnormalisierung

(1)

Die extrinsische und intrinsische Vokalnormalisierung

Welche Beweise gibt es, dass Vokal-Normalisierung extrinsisch ist?

Hauptseminar: Phonetische Modelle des Spracherwerbs Dozent: Prof. Dr. Jonathan Harrington

Referentin: Veronika Neumeyer

Institut für Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universität München

(2)

Problematik im Alltag

 „cat“ gesprochen von einer Frau und einem Mann

 im Sonagramm unterschiedliche Formantfrequenzen

 Warum wird das Wort trotzdem richtig identifiziert???

(3)

Problematik in der Phonetik

 Vokale gesprochen von Frauen, Männern und Kindern

 unterschiedliche

Frequenzen bei F1 und F2

 Wie werden die Vokale trotzdem richtig

identifiziert???

(4)

ÜBERBLICK

 Grundfrage

 Begriffserklärungen

 Experimente

 Überblick

 Experimente mit Kontext

 Experimente mit F0

 Experimente mit Algorithmen

 Vergleich verschiedener Vokal-Normalisations- Methoden

 Fazit

(5)

Grundfrage

Welche Beweise gibt es, dass Vokal-Normalisierung

extrinsisch ist?

(6)

Begriffserklärung

„Normalisierung“

 Einordnung eines Vokals in eine bei dem Hörer bereits angelegte Vokalnorm

 → Herausfiltern von Variationen aufgrund von anatomischen Unterschieden von

Sprechern

 Problem: Ausmaß der Unterschiede zwischen Sprechern abhängig von der Vokalkategorie

(7)

Begriffserklärung

„intrinsisch“

 ausreichende Information zur

Vokalidentifikation im spektralen Muster des Vokals

z.B. das Verhältnis der Formanten zueinander

 sprecherunabhängige Strategie - außer dem Vokal selbst wir keine Information benötigt

(8)

Begriffserklärung

„extrinsisch“

 Basis für die Identifikation unklarer Vokale:

Informationen über die Größe, Alter und Geschlecht des Sprechers in der

laufenden Aussage

 sprecherabhängige Strategie - außer dem Vokal wird noch weitere Information

benötigt

(9)

Begriffserklärung

„extrinsisch“

 Analyse der durchschnittlichen Formantwerte eines Sprechers

 Hörer legt intern Kategorien von Vokalen dieses Sprechers an

 Festlegung der Grenzen des Referenzbereiches durch die „point vowels“ /a,i,u/

 Vokale des Sprechers werden in die Kategorien eingeordnet

(10)

Experimente

1. Experimente mit Kontext 2. Experimente mit F0

3. Experimente mit Algorithmen

(11)

Experimente mit Kontext

Ladefoged & Broadbent (1957)

 Wahrnehmung des synthetisierten Testworts abhängig von der

vorausgehenden synthetisierten Phrase

 F1 in der vorausgehenden Phrase nach unten verschoben → /bIt/ → /bεt/

 F1 in der vorausgehenden Phrase nach oben verschoben → /bæt/ → /bεt/

(12)

Experimente mit Kontext

Dechovitz (1977)

 Mann und Junge sprechen mit der selben Betonung, Geschwindigkeit und

Grundfrequenz

 unterschiedliche Formantfrequenzen

 /bVt/-Silbe eines Mannes in einen Satz eines 9-jährigen Jungen eingefügt

 Vokalwahrnehmung verändert sich

(13)

Experimente mit Kontext

Assmann, Nearey &Hogan (1982)

 Liste von /CVC/-Silben

 Mixed-Speaker-Test: Sprecher wechselt

 Blocked-Speaker-Test: ein Sprecher

 Blocked-Speaker-Test: weniger Fehler bei der Vokalidentifikation

(14)

Experimente mit Kontext

Creelman (1957)

 Mixed-Speaker-Test: Fehlerfreiheit bei der Worterkennung bei Lärm geringer

Summerfield &Haggard (1973)

 Mixed-Speaker-Test: Reaktionszeit bei der Worterkennung länger

(15)

Experimente mit Kontext

Verbrugge et al. (1976)

 im Mixed-Speaker-Test werden Silben präsentiert

 geringe Fehlerrate

 →Vermutung, dass die Silbe genug Information enthält

 Trotzdem: Ergebnisse beim Blocked- Speaker-Test besser

(16)

Experimente mit F0

 Johnson:

Hörer verwendet F0 als Schlüssel zur Identität des Sprechers

 an F0 kann der Hörer ungefähr anschätzen wie groß der Vokaltrakt des Sprechers ist

 Abschätzung hilfreich für die Erstellung des

„Frame of Reference“

(17)

Experimente mit F0

Lehiste & Meltzer (1973)

 Vokalwahrnehmung schlecht wenn F0 eines Kindes mit den Formantfrequenzen eines

Mannes vorgespielt wird

 umgekehrt noch schlechter

Gottfried & Chew (1986)

 Vokalwahrnehmung schlecht, wenn F0 von

(18)

Experimente mit F0

Was passiert bei geflüsterten Lauten ohne F0?

Eklund & Traunmüller (1997)

 Vokalwahrnehmungsexperiment

 Fehlerrate bei stimmhaften Vokalen: 4,5%

 Fehlerrate bei geflüsterten Vokalen: 12%

(19)

Experimente mit F0

Fujisaki & Kawashima (1968)

Grundfrequenz beeinflusst Vokalidentität wenn Formantfrequenzen fixiert sind

(20)

Experimente mit Algorithmen

 Experimente von Gerstman (1968), Lobanov (1971) und Nearey (1978) basieren auf:

F_n‘ = ( F_n– a ) / b

 F_n = Wert des Formant Nummer n

 F_n‘ = normalisierter Wert des selben Formanten

(21)

Experimente mit Algorithmen

 Gerstman (1968)

 a ist Minimum von F_n

 b ist Intervall von F_n

 Lobanov (1971)

 Normalverteilung

 a ist Mittlewert

(22)

Experimente mit Algorithmen

 Nearey (1978)

F_n‘ = log ( F_n) – a

 a = sprecherabhängige Konstante

 a = Mittel des Logarithmus von F1 und des Logarithmus von F2 aller Vokale eines

Sprechers

(23)

Experimente mit Algorithmen

 Miller (1989)

 dreidimensionaler Normalisationsraum D_n( n = 1,2,3 )

 D_n = log₁₀ ( F_n) – log₁₀( F_n-1); ( n = 2,3 )

 D₁= log₁₀ ( F₁) – log₁₀( SR )

 SR = „sensorische Referenz“

 SR = k ( GMf0 / k)

(24)

Experimente mit Algorithmen Analyse

 Disner (1980)

 Vergleich von extrinsischen Normalisationsmethoden mit Vokaldaten aus 6 Sprachen

 am effektivsten:

 Nearey (1977)

 vor allem bei dänisch und holländisch

 Syrdal (1984)

 Analyse von 8 Normalisationsmethoden

(25)

Vergleich von Vokal-

Normalisations-Methoden

Adank, Smits, van Hout (2004)

 3 Kriterien

 wie effektiv wird:

 phonemische Information konserviert

 Information über den regionalen Hintergrund und soziologische Information konserviert

 anatomische und physiologische Variationen

(26)

Vergleich von Vokal-

Normalisations-Methoden

 80 weibliche und 80 männliche

professionelle holländische Sprecher

 Einteilung nach Geschlecht und Herkunftsregion

 Produktion der neun holländische Vokale /αaεIiouүy/

 jeweils 2x

 Kontext: /sVs/

(27)

Vergleich von Vokal-

Normalisations-Methoden

 Sprachmaterial aus „soziologischem Interview“

 Vielzahl von Aufgaben

 Trägersatz mit Silbe in Interview 2x wiederholt

 unterschiedliche Aufnahmebedingungen

 z.T. in einem leeren Klassenzimmer



(28)

Vergleich von Vokal-

Normalisations-Methoden

(29)

Vergleich von Vokal-

Normalisations-Methoden

 Ergebnis:

 am besten:

 LOBANOV

 NEAREY1

 GERSTMAN

 die drei schlechtesten waren intrinsische Methoden

(30)

Vergleich von Vokal-

Normalisations-Methoden

 Fazit der Studie:

 Vokal-extrinsisch besser wie Vokal-intrinsisch

 Formant-intrinsisch besser wie Formant- extrinsisch

 beste Lösung:

Vokal-extrinisch, Formant-intrinsisch

(31)

Fazit

 nicht eindeutig, ob Vokal-Normalisierung extrinsisch oder intrinsisch ist

 es gibt Beweise für extrinische und für intrinsische Theorien

 Fazit vieler Studien ist, dass wahrscheinlich beides eine Rolle spielt

(32)

Die extrinsische und intrinsische Vokalnormalisierung