Phonetik und Sprachverarbeitung

(1)

Phonetik und Sprachverarbeitung

5.1 Wie kann die Grundfrequenz zum Zweck der Stimmverstellung manipuliert werden?

Referat von Dominique Vornwald 20.12.2007

(2)

Gliederung



Fall



Studie

•

Creaky Voice als Stimmverstellung

•

Methode

•

Ergebnisse

•

Diskussion

(3)

Fall

•

Die Frau eines Bankiers wurde entführt



Erpressung



Kassettenaufnahme des Täters

•

Sprechersamples der Verdächtigen standen zur Verfügung

•

Tests ergaben, dass es sich um eine Stimmverstellung handeln muss



Aufgabe: Mit welcher Wahrscheinlichkeit ist einer der 3

Verdächtigen der, der die Aufnahme gemacht hat

(4)

Studie I



creaky Voice:

•

signifikant niedrigere f0

(im Vergleich zur modaler Phonation bei Erwachsenen)



Laver (1980) und Catford (1964) haben sie bei 25 Hz-52 Hz und 40 Hz–60 Hz gemessen

•

im Gegensatz zur modalen Sprache (Brustsprache)

zeichnet sich die Struktur der creaky voice durch große Irregularitäten im unteren Bereich der Tonhöhe (Ball et al 1990) aus

•

niedrige Amplitude der Vibration

(5)

Studie I

•

f0 ist bei dieser Art der Stimmverstellung kein gutes Indiz



die weiteren Auswirkungen auf f0 sind nicht bekannt

•

auch die LTAS Analyse

(Long Term Average Spectra)

führt zu keinen guten Ergebnissen



man geht nicht davon aus, dass die Vokalformanten stark beeinflusst werden



isolierte Vokalformanten aus der fließenden Sprache zu messen, stellt ein Problem dar

•

temporale Aspekte können nicht verwendet werden



es ist noch nicht geklärt warum das Sprechtempo bei c.v. abnimmt

•

aber, koartikulatorische Strategien könnten bei Lauten und

(6)

Studie I



In dieser Studie soll überprüft werden ob phonetisch

trainierte Hörer verstellte Stimmen besser identifizieren

können als untrainierte

(7)

Studie I



10 untrainierte männliche Hörer

•

VP hören Tonband mit verlangsamtem Sprechtempo und creaky voice

•

dann lesen VP den Text: „The North Wind and The Sun“ einmal mit der normalen Stimme und einmal mit creaky voice vor

•

die creaky voice aller Personen wurde von Hirson und

Duckworth als passend befunden

(8)

Studie I

•

der letzte Satz des Textes wurde für das Perzeptionsexperiment genutzt:

•

40 Sets mit ABX



Jeweils 20 mit A und B in Normalsprache von

verschiedenen Sprechern und 20 in creaky voice von verschiedenen Sprechern



1. Gruppe: X (c.v.) passt entweder zu Sprecher A oder B



2. Gruppe: X (c.v.) passt weder zu A noch zu B



3. Gruppe: X (normal) passt entweder zu Sprecher A oder B



4. Gruppe: X (normal) passt weder zu A noch zu B

(9)

Studie I

•

die Reihenfolge von A und B innerhalb der Triplets und die Sequenz der Triplets waren zufällig

•

jedes Triplet wurde 2x präsentiert



15 trainierte Hörer (Gruppe P) und 12 untrainierte Hörer

(Gruppe N) sollten entscheiden ob X vom Sprecher A, B

oder von keinem von beiden gesprochen wurde

(10)

Studie I

(11)

Studie I



Diskussion

•

- sth Frikative sind recht resistent gegen die c.v.

Verstellung (insbesondere [s])

•

c.v. kann leicht produziert werden, auch über einen längeren Zeitraum

•

c.v. kann mit akustischen Analysen schwer herausgefiltert werden

•

instrumentelle Methoden können kombinierte Verstellungstechniken nicht herausfiltern

•

Hörermethoden können dies teilweise

(12)

Studie I



trainierte Hörer sind besser in der Lage die Sprecher zu identifizieren



ihr Können sollte nicht unterschätzt werden



z.B. AX-Experimente



aber, Vorsicht bei der Interpretation der Gruppenergebnisse



einige Hörer von N waren genauso gut wie die Mehrheit der Gruppe P



einige aus P hatten Resultate, die eher denen der

Gruppe N glichen

(13)

Gliederung



Studie

•

Methoden

•

Ergebnisse

•

Diskussion

(14)

Studie II



Fragestellung:

•

Gibt es Vorlieben bei der Wahl der Verstellungsmodi?

•

Verändert sich die Normalsprache im Verlauf der Zeit?

•

Wie gut können die Verstellungen konstant gehalten

werden?

(15)

Studie II



Methode:

•

Sprecherdaten: forensischer Datenpool BKA

•

50 Frauen- und Männerstimmen wurden ausgewählt

•

Text: typische idiomatische, semantische und stilistische Elemente eines Kidnappertextes (Telefonanruf)

•

durchschnittlich 60 sek. am Stück gesprochen

•

um die Langzeitaspekte analysieren zu können, wurden 5 Aufnahmen in Intervallen von ca.6 Wochen gemacht



1476 Aufnahmen

(16)

Studie II

•

3 mögliche Verstellungstypen:

1. Tonhöhe erhöhen (HIGH) 2. Tonhöhe verringern (LOW) 3. Denasalierung (D)

•

2 sollen ausgewählt werden, wenn möglich 1. und 2.



vor allem Frauen entschieden sich für D

(17)

Studie II

•

nur bei der 1.Sitzung durften die VP bei Bedarf üben

•

der Text wurde von den VP vorlesen

•

die Stimmverstellung sollte jedes Mal möglichst gleich sein

•

alle Sitzungen waren vom Ablauf her gleich

(18)

Studie II



Ergebnisse:

•

Normalsprache (Referenzmaterial):

•

Männer: F0-Mittelwerte sind bei 1 und 2 und bei 3,4,5 ähnlich

•

der Unterschied zwischen den beiden Ähnlichkeitsgruppierungen beträgt 2 Hz



leichte Abnahme von f0 über die gesamte Aufnahmedauer

•

Frauen: Unterschiede sind geringer und haben keine

(19)

Studie II

•

Standardabweichung (ANOVA)

•

Männer: F0 sinkt konstant

über die Zeit

(Zeitfaktor signifikant)

•

Frauen: Kein Effekt



mögliche Erklärung: Stressabbau, weil sich die Männer an das Prozedur gewöhnt haben



entweder standen die Frauen die ganze Zeit unter

Stress oder nie

(20)

Studie II

(21)

Studie II

•

Vergleich f0-Mittelwerte bei Normal und Verstellt:

•

die größte Variation gibt es beim Modus HIGH (insbesondere bei Männern -> falsetto)

•

LOW: die Verteilung geht eher gegen 0

•

Denasal: ähnlich zu normal, aber wesentlich tiefer

(22)

Studie II



HIGH

•

Männer: Großer Anstieg der f0-Mittelwerte von 116.6 Hz bis auf 223.9 Hz



11.3 Halbtöne, also fast eine Oktave

•

Frauen: Großer Anstieg der f0-Mittelwerte von 208.5 Hz bis auf 297.8 Hz



6.2 Halbtöne, also knapp über ½ Oktave



beide Geschlechter können f0 stark (signifikant) über

ihre gewöhnliche f0 anheben

(23)

Studie II

•

verschiedene Varianten:

•

Männer: von 30 haben

•

12 f0 erhöht und blieben im modalen Zustand

•

13 f0 erhöht und wechselten das Register zu falsetto

•

5 f0 erhöht und nutzten beide Register



9 von den 13 haben f0 über 100% erhöht, also mehr als 1 Oktave

•

Frauen: von 34 haben

•

30 f0 erhöht blieben im modalen Register

2 f0 erhöht durchgängig falsetto genutzt

(24)

Studie II

•

Einfluss der Zeit:

•

Frauen zeigen einen graduellen Anstieg der f0

(1 Halbton) über die gesamte Aufnahmedauer

(signifikant)

•

Männer weisen die gleiche Tendenz auf

(nicht signifikant)



mögliche Erklärung:

•

bei den Männern wird mehr falsetto genutzt, was zu einem erhöhten f0-Mittelwert führt



keine Signifikanz



es könnte auch ein Lerneffekt aufgetreten sein

(Stabilisierung der Veränderungsmuster)

(25)

Studie II



LOW

•

Einfluss der Zeit:

•

Männer: Abfall der f0 nach der 2.Aufnahme

(ANOVA ->

signifikant p=0.02)

•

Frauen: kein signifikanter Abfall von f0

•

Im Vergleich zur normalen Sprache

•

f0 sinkt bei beiden Geschlechtern



Männer: 116.6 Hz - 100.9 Hz -> 2.5 Halbtöne



Frauen: 208.5 Hz - 189.6 Hz -> 3.56 Halbtöne

(26)

Studie II

•

Männer: von 37 konnten

•

2 f0 nicht konstant senken (Differenz: ½ Halbton)



die f0 von beiden Sprechen liegt unter dem Durchschnitt (93 Hz und 104 Hz)



der mit der stärksten Erhöhung hat lauter gesprochen als in der Normalsprache



erklärt die höhere f0, aber nicht, warum er f0 nicht konstant senken konnte

•

VP war aber überzeugt davon, dass sie tiefer sprach

•

Frauen: von 21 konnten

(27)

Studie II



DENASAL

•

beide Geschlechter zeigen eine leichte Steigung des f0- Mittelwertes im Gegensatz zur normalen Stimme

•

die Veränderungsgröße ist viel geringer als bei den

anderen Modi (Männer: 1 Halbton, Frauen: 0.2 Halbtöne)

•

Männer: der Unterschied vom f0-Mittelwert zur Normalsprache ist signifikant



aber die Signifikanz variiert von p=0.03 bis p=0.05

•

Frauen: Keine Signifikanz

(auch nicht beim t Test p=0.20 bis p=0.59)

(28)

Studie II



Männer: von 33 haben

• 16 f0 gesenkt

• 17 f0 erhöht

• max. Abweichungen von der unverstellten Stimme variieren von -2.1 bis +5.0 Halbtönen



Frauen: von 45 haben

• 19 f0 gesenkt

• 26 f0 angehoben

• max. Abweichung von der unverstellten Stimme von -4.1 bis +2.8 Halbtonschritte

(29)

Studie II

 Diskussion:

•

die VP konnten ihre Stimme relativ konstant über ~6 Monate verstellen

•

VP, die eine hohe f0 haben, tendieren dazu sie weiter zu erhöhen

•

VP mit niedriger f0 tendieren dazu f0 zu senken

•

Trend ist mehr bei Frauen zu beobachten

•

kein Zusammenhang zwischen normaler f0 und der Wahl für D

•

VP haben verschiedene Möglichkeiten zur Verstellung

gewählt

(30)

Studie II

•

Männer haben f0 generell drastischer verändert

•

High und Low: „Lerneffekte“ bei allen Männern

•

High: f0 Wert wurde von Männern stärker erhöht als von Frauen

•

Low: f0 Wert wurde von Frauen stärker gesenkt als von Männern



erklärbar durch geschlechterbedingte f0



Männer haben mehr Spielraum nach oben, Frauen nach

unten

(31)

Studie II

•

Männer haben sich öfter für Low als für High entschieden, Frauen umgekehrt

•

Frauen haben den Modus falsetto viel seltener genutzt als Männer

•

D:

•

war der bevorzugt gewählte Modus der Frauen

•

leichtes Ansteigen der mittleren f0 bei beiden Geschlechtern



für jeden Sprecher konnten allerdings kleine Variationen in

beide Richtungen erkannt werden

(32)

Studie II



Bleiben spezifische Sprechercharakteristika erhalten?

•

bei Low oder D kann die normale f0 vorhergesagt werden

•

bei High nicht, unhabhängig davon ob falsetto oder modale Stimme verwendet wurde



Zurückzuführen auf sehr große Freiheitsgrade zur Variation

•

Vernachlässigt wurde das Phänomen, dass einige

Männer zwischen falsetto und modal kurzzeitig

gewechselt haben

(1 Satz oder weniger)

(33)

Studie II



Inwieweit haben die Verstellungen zu weiteren absichtlichen oder unabsichtlichen Verstellungen anderer Parameter geführt?

•

fast bei allen VP aufgetreten

•

meistens sinkt das Sprechtempo mit steigendem Grad der Verstellung, insbesondere bei High und Low

•

nicht nur langsameres Artikulieren, sondern auch mehr Pausen



ungewohnte artikulatorische Bewegungen und

Gebrauchen der der Artikulationsorgane

(34)

Studie II

•

Lautstärke: bei H wurden VP lauter als Konsequenz des stärkeren subglottalen Luftdrucks, insbesondere bei falsetto

•

LOW:

•

Reduktion der Amplitude im Signal



Ausprägung der Vibrationen an der Glottis

•

teilweise Auftreten von creaky voice und flüstern

(35)