Stimmliche Charakteristika bei globaler und lokaler Lautstärkevariation

(1)

Stimmliche

Charakteristika bei globaler und lokaler

Lautstärkevariation

Christine Mooshammer

& Jennifer Schneeberg

Institut für Phonetik und digitale Sprachverarbeitung

Christian-Albrechts-Universität Kiel Deutschland

(2)

DAGA 2005 München

Einführung



Globale Lautstärkeerhöhung

 primär: größerer subglottaler Luftdruck

Schnelleres Schließen der Stimmlippen

(höhere f0)

Flacher abfallendes Quellspektrum

 sekundär: supralaryngale Artikulation

Längung der Vokale

Tieferer Kiefer bei Vokalen und damit höherer F1

(3)

Einführung



Lokale Lautstärkeänderung:

= linguistisch bedingt: Akzentuierung



Wortakzent in Sprachen mit dynamischen Akzent (z.B. „Tenor“)

 Intensität als Hauptmerkmal neben Dauer und Grundfrequenz

(s. Sweet 1906, Sluijter et al. 1996)

 kontrolliert durch subglottalen Luftdruck

 Nachweis: Änderung des spectral tilts

 Gilt auch in deakzentuierter Position, d.h.

ohne Grundfrequenzunterschiede

(4)

DAGA 2005 München

Einführun

 Satzbetonung: realisiert durch melodische g

Unterschiede mittels Anpassung der Stimmlippenspannung

Hypothesen:

I.

Nur lexikalischer Wortakzent bewirkt ähnliche Änderungen in den stimmlichen Parametern wie globale Lautstärkeänderungen, nicht

aber der Satzakzent.

II.

Unterschiede in der Wortbetonung sind

unabhängig davon, ob das Wort satzbetont

ist oder nicht.

(5)

Korpus

1. Wortakzent

Stressed [+S]

Unstressed [-S]

/  /

^Lena

/

Lenor /

/  /

^Sehnen

/

Senat /

(6)

DAGA 2005 München

Korpus

2. Satzbetonung: Frage-Antwort Paradigma

(durch Variation des Fokus + Emphase) FOCUS [+F]

Q: Wolltest Du Dir Friedas Buch ausleihen?

A: Nein, ich wollte Lenas Buch ausleihen.

NON-FOCUS [-F]

Q: Wie findest Du Lena?

A: Ich hasse Lena und ihre Schusseligkeit.

(7)

Korpus

3. Globale Lautstärkevariation

Sätze mit wortbetonten, fokussierten Testsequenzen wurden in drei

Lautstärkebedingungen gesprochen:



Normal (N)



laut: „Sprich laut ohne zu schreien“ (L)



leise: „Sprich leise ohne zu flüstern“ (S)

8 bis 9 Wiederholungen

(8)

DAGA 2005 München

Aufnahmen

 6 Sprecher aus Norddeutschland (20-30 Jahre alt, Nichtraucher, männlich)

 Akustik und Glottissignal (Lx) mittels Laryngographie (Glottal Enterprises)

 Die erste Ableitung des Lx-Signals

(DEGG) wurde mittels Differenzierung berechnet.

 Akustische Etikettierung mit Praat

(9)

Messungen Lx

 Halbautomatische Etikettierung mittels EMU/R

 Alle Perioden während des Vokals /e/

Analysierte Parameter:

a) f0 basierend auf dem DEGG Signal b) RMS basierend auf dem Audio-Signal c) Open Quotient OQ

d) Speed Quotient SQ

e) Steigungen der Öffnungs- und

Schließungsbewegungen (Oslope, Cslope)

(10)

DAGA 2005 München

Messungen

 Open Quotient:

100*t_op/T

 Problem: Festlegung des Zeitpunkts der Öffnung:

752 754 756 758 760

-3-2-10123

times

lxx * 2

T

t

_op1

1. Negativer Gipfel der ersten Ableitung = t_op1

t

_op2

2. 4/7 Schwellwert

(Howard‘s method) = t_op2

(11)

Messungen



Speed Quotient:

100*t

_cl

/t

_op

(10% Schwellwert)

736 738 740 742 744

-6000-4000-200002000400060008000

timesl

datal

SQ= 20.93

Schließung Öffnung

t_op t_cl

Cslope



Cslope

Oslope



Oslope

(12)

DAGA 2005 München

 Vorhersagen

( basierend auf Marasek (1997), Zwei- Massen-Modell -> Lx-Signal aus

Glottisfläche)

Parameter Stress

 Loudness

Focus

Pitch

OQ  

SQ () 

Cslope  =

Oslope  =

Problem: Trennung der Einflüsse des subglottalen Luftdrucks und der Stimmlippenspannung auf die EGG Parameter

(13)

Stimmparameter:

globale Lautstärke

• Für alle Sprecher signifikante Unterschiede zwischen den Lautstärkeniveaus

505560657075

RMS [dB] 505560657075

loud normal soft

/l/

/z/

Intensität

• Bei lautem Sprechen: höhere f0 und größerer Bereich

• Signifikant tiefere f0 bei leisem Sprechen

100140180

f0 [Hz] 100140180

loud normal soft

/l/

/z/

Grundfrequenz

(14)

DAGA 2005 München

Stimmparameter: globale Lautstärke

• OQ vergrößert sich von laut und normal nach leise

• Konsistent für alle Sprecher

40506070

OQ [%] 40506070

loud normal soft

/l/

/z/

Open Quotient

• Signifikant steilere Steigungen für lautes Sprechen

• Konsistent für laut-normal

• Nur 3 Spr. für normal-leise

20006000

OSlope 20006000

loud normal soft

/l/

/z/

Steigung der Öffnungsbewegung

(15)

DAGA 2005 München

Stimmparameter:

Prominenz

Konsonanteneffekt bei [-F]:

• /l/: F0 unterscheidet sich für Wortakzent (aufgrund von 2 Sprechern)f0_stress.jpg

80120160

f0 [Hz] 80120160

[+F,+S] [+F,-S] [-F,+S] [-F,-S]

/l//z/

Grundfrequenz

Fokus Non-Fokus

•/z/: F0 Neutralisation

55606570

RMS [dB] 55606570

[+F,+S] [+F,-S] [-F,+S] [-F,-S]

/l/

/z/

Intensität

Fokus Non-Fokus

• /l/: Wortakzent bewirkt

höhere Intensität bei +F und –F

•/z/: höhere Intensität bei –F nur bei 3 Sprechern

(16)

DAGA 2005 München

Stimmparameter:

Prominenz

Vorhersagen:

• Wortakzent: [+S]<[-S]

• Fokus: [+F]>[-F]

Wortakzent:

• niedrigerer OQ für [+S]

• ähnlich laut-normal

45556575

OQ [%] 45556575

[+F,+S] [+F,-S] [-F,+S] [-F,-S]

/l/

/z/

Fokus:

• meist niedriger für [+F]

• entgegen Vorhersage Open Quotient

[+F,+S] [+F,-S] [-F,+S] [-F,-S]

505254565860

/l/

/z/

Fokus Non-Fokus

(17)

Stimmparameter:

Prominenz

Wortakzent:

• [+F]: vier Sprecher zeigen steilere Steigungen für [+S]

• [-F]: 4 Sprecher /l/, nur 1 Sprecher /z/

Fokus:

• In beiden Bedingungen meist signifikanter Anstieg der Steigung für [+F]

[+F,+S] [+F,-S] [-F,+S] [-F,-S]

0100020003000 ^/l/

/z/

Fokus Non-Fokus

Vorhersagen:

•Wortakzent: [+S]>[-S]

•Fokus: [+F]=[-F]

Steigung der Öffnungsbewegung

(18)

DAGA 2005 München

Zsf.:

Stimmparameter

 Lautes Sprechen: erhöhter subglottaler Luftdruck

 Leises Sprechen: weniger konsistente Druckunterschiede

 Änderung der Stimmqualität zu behaucht?

 Wortakzent: Evidenz für höheren subglottalen Luftdruck nur bei fokussierten Wörter und

hauptsächlich nach /l/

 Fokus: kaum Hinweise auf geänderte Stimmlippen- spannung, dafür Evidenz für erhöhten Luftdruck Tentative Erklärung:

1. Bestimmung des Zeitpunkts der glottalen Öffnung

2. Verwendete Parameter könnten abhängig von der Grundfrequenz sein (z.B. Steigungen).

(19)

2. Formanalyse

 Alternativer holistischer Ansatz: gesamte Wellenform bildet die Basis, z.B. PCA

(Mokhtari et al. 2003) oder Functional Data Analysis (FDA, z.B. Ramsay)

Input:

• Mittlere zwei Perioden

• Zeit- und amplituden- normalisiert

0 200 400 600 800 1000

0.00.20.40.60.81.0

Normalized time

Normalized amplitude

• 317 Items Verarbeitung:

• Berechnung von Spline Funktionen

(20)

DAGA 2005 München

Hauptkomponentenanalyse:

Positiv: längere Geschlossenphase, steile Verschließbewegung,

linksschief

Negativ: lange Offenphase,

langsamere Verschließbewegung, symmetrischer Impuls

Faktorscores

Lautstärke:

Laut: pos. Werte

Normal: Werte um null Leise: neg. Werte

Wortakzent:

„Lena“: positive Werte

„Lenor“: negative Werte Fokus: kein Unterschied

++++++++++++++++++++++++++ +

+++++++++++++++++++

+++++++++++++

++++

+++++++++++++++++++++++

+

0.1 0.2 0.3 0.4 0.5 0.6 0.7

0.00.40.8

PCA function 1 (Percentage of variability 64.3 )Normalized time ---------

- -

--------- -------

----- ------

-------

Click to advance to next plot

Hauptkomponente (64.3 %)

LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE

Alle Sprecher

Faktor 1 -0.050.000.05

Lena

Lenor Lautstärke

X

(21)

BD Var= 79

-0.100.000.10

DP Var= 75

-0.100.000.10

GA Var= 80

-0.100.000.10

NU Var= 65

-0.100.000.10

SB Var= 76

-0.100.000.10

SZ Var= 76

-0.100.000.10

Lena Lenor Lena Lenor

Lautstärke

X

X X

Signifikant für 5 Sprecher

Prominenz: keine signifikanten Effekte

(22)

DAGA 2005 München

BD Var= 71

-0.100.000.10

DP Var= 81

-0.100.000.10

GA Var= 76

-0.100.000.10

NU Var= 75

-0.100.000.10

SB Var= 76

-0.100.000.10

SZ Var= 78

-0.100.000.10

Sehnen Senat Sehnen Senat

Prominenz:signifikanten Effekte bei DP

Lautstärke: signifikante Effekte bei 5 Sprechern

(23)

Schlussfolgerungen



Globale Lautstärkeveränderung: verändert die Form des glottalen Pulses



Wortakzent:



Sehr inkonsistente Effekte



Nur für einen Sprecher in die erwartete Richtung



Nachdem f0- und Amplitudenunterschiede

entfernt wurden, ergeben sich keine Effekte für

Wortakzent

(24)

DAGA 2005 München

Schlussfolgerungen (cont.)



Warum keine Effekte bei Prominenz?

1.

Unterschiede könnten zu subtil sein, um sich signifikant niederzuschlagen.

 Keine klare Tendenz erkennbar

2.

Unterschiede zeigen sich nicht im Lx Signal aufgrund der bekannten Probleme

 Lautstärkeeffekte sind sehr konsistent

3. Wortakzent wird nicht durch Änderung des subglottalen Luftdrucks realisiert

 Neue Hypothese: Flacherer Abfall bei

wortbetonten Vokalen ist eine Folge der laryngalen und/oder supralaryngalen

Artikulation

(25)

Ausblick

 Parameter des spektralen Abfalls

 spectral balance, spectral tilt und spectral emphasis

??? Abhängig von Grundfrequenz ???

 Systematischer Vergleich zwischen verschiedenen Maßen mittels Synthese

 Supralaryngale Artikulation: Parameter wie Dauern und Formanten

 Vorläufige Ergebnisse:

 große Unterschiede bei Wortakzent, aber nicht in Richtung lautes Sprechen

 nur selten konsistente Unterschiede für Fokus

 Erhebung von artikulatorischen Daten