Stimmliche
Charakteristika bei globaler und lokaler
Lautstärkevariation
Christine Mooshammer
& Jennifer Schneeberg
Institut für Phonetik und digitale Sprachverarbeitung
Christian-Albrechts-Universität Kiel Deutschland
DAGA 2005 München
Einführung
Globale Lautstärkeerhöhung
primär: größerer subglottaler Luftdruck
Schnelleres Schließen der Stimmlippen
(höhere f0)
Flacher abfallendes Quellspektrum
sekundär: supralaryngale Artikulation
Längung der Vokale
Tieferer Kiefer bei Vokalen und damit höherer F1
Einführung
Lokale Lautstärkeänderung:
= linguistisch bedingt: Akzentuierung
Wortakzent in Sprachen mit dynamischen Akzent (z.B. „Tenor“)
Intensität als Hauptmerkmal neben Dauer und Grundfrequenz
(s. Sweet 1906, Sluijter et al. 1996)
kontrolliert durch subglottalen Luftdruck
Nachweis: Änderung des spectral tilts
Gilt auch in deakzentuierter Position, d.h.
ohne Grundfrequenzunterschiede
DAGA 2005 München
Einführun
Satzbetonung: realisiert durch melodische g
Unterschiede mittels Anpassung der Stimmlippenspannung
Hypothesen:
I.
Nur lexikalischer Wortakzent bewirkt ähnliche Änderungen in den stimmlichen Parametern wie globale Lautstärkeänderungen, nicht
aber der Satzakzent.
II.
Unterschiede in der Wortbetonung sind
unabhängig davon, ob das Wort satzbetont
ist oder nicht.
Korpus
1. Wortakzent
Stressed [+S]
Unstressed [-S]
/ /
Lena/
Lenor /
/ /
Sehnen/
Senat /
DAGA 2005 München
Korpus
2. Satzbetonung: Frage-Antwort Paradigma
(durch Variation des Fokus + Emphase) FOCUS [+F]
Q: Wolltest Du Dir Friedas Buch ausleihen?
A: Nein, ich wollte Lenas Buch ausleihen.
NON-FOCUS [-F]
Q: Wie findest Du Lena?
A: Ich hasse Lena und ihre Schusseligkeit.
Korpus
3. Globale Lautstärkevariation
Sätze mit wortbetonten, fokussierten Testsequenzen wurden in drei
Lautstärkebedingungen gesprochen:
Normal (N)
laut: „Sprich laut ohne zu schreien“ (L)
leise: „Sprich leise ohne zu flüstern“ (S)
8 bis 9 Wiederholungen
DAGA 2005 München
Aufnahmen
6 Sprecher aus Norddeutschland (20-30 Jahre alt, Nichtraucher, männlich)
Akustik und Glottissignal (Lx) mittels Laryngographie (Glottal Enterprises)
Die erste Ableitung des Lx-Signals
(DEGG) wurde mittels Differenzierung berechnet.
Akustische Etikettierung mit Praat
Messungen Lx
Halbautomatische Etikettierung mittels EMU/R
Alle Perioden während des Vokals /e/
Analysierte Parameter:
a) f0 basierend auf dem DEGG Signal b) RMS basierend auf dem Audio-Signal c) Open Quotient OQ
d) Speed Quotient SQ
e) Steigungen der Öffnungs- und
Schließungsbewegungen (Oslope, Cslope)
DAGA 2005 München
Messungen
Open Quotient:
100*top/T
Problem: Festlegung des Zeitpunkts der Öffnung:
752 754 756 758 760
-3-2-10123
times
lxx * 2
T
t
op11. Negativer Gipfel der ersten Ableitung = top1
t
op22. 4/7 Schwellwert
(Howard‘s method) = top2
Messungen
Speed Quotient:
100*t
cl/t
op(10% Schwellwert)
736 738 740 742 744
-6000-4000-200002000400060008000
timesl
datal
SQ= 20.93
Schließung Öffnung
top tcl
Cslope
Cslope
Oslope
Oslope
DAGA 2005 München
Vorhersagen
( basierend auf Marasek (1997), Zwei- Massen-Modell -> Lx-Signal aus
Glottisfläche)
Parameter Stress
Loudness
Focus
Pitch
OQ
SQ ()
Cslope =
Oslope =
Problem: Trennung der Einflüsse des subglottalen Luftdrucks und der Stimmlippenspannung auf die EGG Parameter
Stimmparameter:
globale Lautstärke
• Für alle Sprecher signifikante Unterschiede zwischen den Lautstärkeniveaus
505560657075
RMS [dB] 505560657075
loud normal soft
/l/
/z/
Intensität
• Bei lautem Sprechen: höhere f0 und größerer Bereich
• Signifikant tiefere f0 bei leisem Sprechen
100140180
f0 [Hz] 100140180
loud normal soft
/l/
/z/
Grundfrequenz
DAGA 2005 München
Stimmparameter: globale Lautstärke
• OQ vergrößert sich von laut und normal nach leise
• Konsistent für alle Sprecher
40506070
OQ [%] 40506070
loud normal soft
/l/
/z/
Open Quotient
• Signifikant steilere Steigungen für lautes Sprechen
• Konsistent für laut-normal
• Nur 3 Spr. für normal-leise
20006000
OSlope 20006000
loud normal soft
/l/
/z/
Steigung der Öffnungsbewegung
DAGA 2005 München
Stimmparameter:
Prominenz
Konsonanteneffekt bei [-F]:
• /l/: F0 unterscheidet sich für Wortakzent (aufgrund von 2 Sprechern)f0_stress.jpg
80120160
f0 [Hz] 80120160
[+F,+S] [+F,-S] [-F,+S] [-F,-S]
/l//z/
Grundfrequenz
Fokus Non-Fokus
•/z/: F0 Neutralisation
55606570
RMS [dB] 55606570
[+F,+S] [+F,-S] [-F,+S] [-F,-S]
/l/
/z/
Intensität
Fokus Non-Fokus
• /l/: Wortakzent bewirkt
höhere Intensität bei +F und –F
•/z/: höhere Intensität bei –F nur bei 3 Sprechern
DAGA 2005 München
Stimmparameter:
Prominenz
Vorhersagen:
• Wortakzent: [+S]<[-S]
• Fokus: [+F]>[-F]
Wortakzent:
• niedrigerer OQ für [+S]
• ähnlich laut-normal
45556575
OQ [%] 45556575
[+F,+S] [+F,-S] [-F,+S] [-F,-S]
/l/
/z/
Fokus:
• meist niedriger für [+F]
• entgegen Vorhersage Open Quotient
[+F,+S] [+F,-S] [-F,+S] [-F,-S]
505254565860
/l/
/z/
Fokus Non-Fokus
Stimmparameter:
Prominenz
Wortakzent:
• [+F]: vier Sprecher zeigen steilere Steigungen für [+S]
• [-F]: 4 Sprecher /l/, nur 1 Sprecher /z/
Fokus:
• In beiden Bedingungen meist signifikanter Anstieg der Steigung für [+F]
[+F,+S] [+F,-S] [-F,+S] [-F,-S]
0100020003000 /l/
/z/
Fokus Non-Fokus
Vorhersagen:
•Wortakzent: [+S]>[-S]
•Fokus: [+F]=[-F]
Steigung der Öffnungsbewegung
DAGA 2005 München
Zsf.:
Stimmparameter
Lautes Sprechen: erhöhter subglottaler Luftdruck
Leises Sprechen: weniger konsistente Druckunterschiede
Änderung der Stimmqualität zu behaucht?
Wortakzent: Evidenz für höheren subglottalen Luftdruck nur bei fokussierten Wörter und
hauptsächlich nach /l/
Fokus: kaum Hinweise auf geänderte Stimmlippen- spannung, dafür Evidenz für erhöhten Luftdruck Tentative Erklärung:
1. Bestimmung des Zeitpunkts der glottalen Öffnung
2. Verwendete Parameter könnten abhängig von der Grundfrequenz sein (z.B. Steigungen).
2. Formanalyse
Alternativer holistischer Ansatz: gesamte Wellenform bildet die Basis, z.B. PCA
(Mokhtari et al. 2003) oder Functional Data Analysis (FDA, z.B. Ramsay)
Input:
• Mittlere zwei Perioden
• Zeit- und amplituden- normalisiert
0 200 400 600 800 1000
0.00.20.40.60.81.0
Normalized time
Normalized amplitude
• 317 Items Verarbeitung:
• Berechnung von Spline Funktionen
DAGA 2005 München
Hauptkomponentenanalyse:
Positiv: längere Geschlossenphase, steile Verschließbewegung,
linksschief
Negativ: lange Offenphase,
langsamere Verschließbewegung, symmetrischer Impuls
Faktorscores
Lautstärke:
Laut: pos. Werte
Normal: Werte um null Leise: neg. Werte
Wortakzent:
„Lena“: positive Werte
„Lenor“: negative Werte Fokus: kein Unterschied
++++++++++++++++++++++++++ +
+++++++++++++++++++
+++++++++++++
++++
+++++++++++++++++++++++
+
0.1 0.2 0.3 0.4 0.5 0.6 0.7
0.00.40.8
PCA function 1 (Percentage of variability 64.3 )Normalized time ---------
- -
--------- -------
----- ------
-------
Click to advance to next plot
Hauptkomponente (64.3 %)
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
Alle Sprecher
Faktor 1 -0.050.000.05
Lena
Lenor Lautstärke
X
X
X
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
BD Var= 79
-0.100.000.10
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
DP Var= 75
-0.100.000.10
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
GA Var= 80
-0.100.000.10
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
NU Var= 65
-0.100.000.10
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
SB Var= 76
-0.100.000.10
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
SZ Var= 76
-0.100.000.10
Lena Lenor Lena Lenor
Lautstärke
X
X X
X X
Signifikant für 5 Sprecher
Prominenz: keine signifikanten Effekte
DAGA 2005 München
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
BD Var= 71
-0.100.000.10
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
DP Var= 81
-0.100.000.10
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
GA Var= 76
-0.100.000.10
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
NU Var= 75
-0.100.000.10
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
SB Var= 76
-0.100.000.10
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
SZ Var= 78
-0.100.000.10
Sehnen Senat Sehnen Senat
Prominenz:signifikanten Effekte bei DP
Lautstärke: signifikante Effekte bei 5 Sprechern
Schlussfolgerungen
Globale Lautstärkeveränderung: verändert die Form des glottalen Pulses
Wortakzent:
Sehr inkonsistente Effekte
Nur für einen Sprecher in die erwartete Richtung
Nachdem f0- und Amplitudenunterschiede
entfernt wurden, ergeben sich keine Effekte für
Wortakzent
DAGA 2005 München
Schlussfolgerungen (cont.)
Warum keine Effekte bei Prominenz?
1.
Unterschiede könnten zu subtil sein, um sich signifikant niederzuschlagen.
Keine klare Tendenz erkennbar
2.
Unterschiede zeigen sich nicht im Lx Signal aufgrund der bekannten Probleme
Lautstärkeeffekte sind sehr konsistent
3. Wortakzent wird nicht durch Änderung des subglottalen Luftdrucks realisiert
Neue Hypothese: Flacherer Abfall bei
wortbetonten Vokalen ist eine Folge der laryngalen und/oder supralaryngalen
Artikulation
Ausblick
Parameter des spektralen Abfalls
spectral balance, spectral tilt und spectral emphasis
??? Abhängig von Grundfrequenz ???
Systematischer Vergleich zwischen verschiedenen Maßen mittels Synthese
Supralaryngale Artikulation: Parameter wie Dauern und Formanten
Vorläufige Ergebnisse:
große Unterschiede bei Wortakzent, aber nicht in Richtung lautes Sprechen
nur selten konsistente Unterschiede für Fokus
Erhebung von artikulatorischen Daten