Modul F - Sprachanalyse (2)

(1)

Erstellung Abfrage Analyse

Digitale Zeitsignale akustisch,

artikulatorisch

Etikettieren

Verknüpfung mit Symbolen

Signalverarbeitung

abgeleitete Signale

(z.B. spektrale Daten) Eine Liste ausgewählter Symbole mit Zeiten

Abfrage

Die Signale davon

Abfrage

SignaleEtikettierung

Graphik

Statistik

Weitere

Signalverarbeitung p << 0.001

Modul F - Sprachanalyse (2)

(2)

Analog Signale

digitalisiert

Digitale Zeitsignale

Anwendung von einem Fenster

Zeitsignal-Aufteilung

Anwendung von einem Parameter

Abgeleitete oder Parametrisierte Signale

Berechnung von digitalen Signalen

(3)

Die Abtastfrequenz (fs, Hz)

= die Anzahl der digitalen Werte pro Sekunde = 1/T (in Sekunde) Hier 1/(1/1000) Hz = 1000 Hz

Die Abtastperiode (T, in Millisekunden): die

(konstante) Dauer zwischen den digitalen Werten (hier 10 Punkte pro 10 ms, T= 1 ms)

Abtasten

die digitale Aufteilung der Zeitachse

Dauer (ms)

0 5 10 15 20

-4-2024

0 5 10 15 20

-4-2024

Amplitude

(4)

Quantisierung

= Die digitale Aufteilung der Amplituden-Achse

1 2 0 1

2 4 -1 0 1 2

3 8 -3 –2 –1 0 1 2 3 4

Für die gesprochene Sprache: typischerweise mindestens 12-bit Quantisierung (-2047 bis 2048)

n-bit Quantisierung = bedeutet, dass die Amplitudenachse in 2ⁿ Stufen aufgeteilt wird

bit Stufen mögliche Werte der Amplitudenachse

(5)

0 5 10 15 20

-4-2024

0 5 10 15 20

-4-2024

0 5 10 15 20

-4-2024

3-bit

Quantisierung (fortgesetzt)

Dauer (ms) 12-bit

Quantisierung, fs = 1000 Hz

(6)

Nyquists Theorie (1928)

Alle Frequenzen im Analogsignal bis zur Hälfte der Abtastrate erscheinen im digitalen Signal

zB Analog-Signal 15 Hz, Abtastrate muss mindestens 30 Hz sein, damit das 15 Hz Analog-Signal mit derselben

Frequenz digitalisiert wird.

(7)

0 200 400 600 800 1000

-1.0-0.50.00.51.0

0 200 400 600 800 1000

-1.0-0.50.00.51.0

Mit einer Abtastrate von 20 Hz wäre die Cosinuswelle mit einer Frequenz von 5 Hz digital dargestellt (nennt sich Faltung: die 15 Hz Welle wird auf eine 5 Hz Welle gefaltet)

Frequenz der Cosinuswelle = 15 Hz.

Dauer (ms)

(8)

dB-RMS (Lautstärke)

(dB= decibel, RMS= root-mean-square)

(9)

-402468

Lautstärke ist ca. im Verhältnis zum Logarithmus vom Kraft-Mittelwert. Kraft = Amplitude²

Amplitude

Dauer

29.16667

Kraft-

Mittelwert

020406080

Kraft

8 64

log₁₀(29.1667) = 1.46 Bel Lautstärke =

= 14.6 Decibel

(10)

Fensterlänge = 100 ms, Fensterverschiebung = 100 ms

Fenster-Aufteilung

Die Signalverarbeitung (in diesem Fall Lautstärke-Berechnung) wird auf Intervalle oder Fenster vom Signal angewendet

dB-Wert dB-Wert dB-Wert usw.

(11)

Die Fensterart nennt sich in diesem Fall Rectangular. Dies bedeutet: das Signal wird nur aufgeteilt und nicht vor der Signalverarbeitung geändert.

Fensterart

(12)

Ein Cosinus-Fenster wird manchmal angewendet, um die Amplitude am Anfang und Ende des Fensters zu reduzieren.

Cosinus-Fenster

(Werte liegen zwischen 0 und 1)

Signal

Signal mit dem Cosinus-Fenster multipliziert

Fenster-Art (fortgesetzt)

Signalverarbeitung

(13)

ZCR: Nulldurchgangsrate (zero-crossing-rate)

ZCR (in Hz) ist die Frequenz, mit der das Signal die x-Achse schneidet pro Sekunde, dividiert durch 2.

ZCR kann verwendet werden, um Frikative und Laute mit Friktion (zB Plosiv-Lösung) automatisch zu identifizieren

(14)

Das Signal schneidet die x-Achse ca. 9 Mal in 2 ms

= 9/2 Mal pro ms

= 9000/2 = 4500 Mal pro Sekunde

ZCR = Z / (2t) Hz

ca. 2 ms

ZCR ist daher ca. 4500/2 ca. 2250 Hz

ZCR (fortgesetzt)

(15)

Signale mit hoher Frequenz (wie Frikative und die Lösungen von Plosiven) schneiden die x-Achse mit hoher Frequenz und haben daher hohe ZCR-Werte

U s

(16)

Ich muss Dieter sagen

(17)

Signalverarbeitung: erfolgt über das EMU Tool tkassp – eine grafische Oberfläche (tk) zu den assp Analyseprogrammen

Ausgehend von einem Sprachsignal (Datei) erzeugt tkassp die gewünschten abgeleiteten Signale.

Signalverarbeitung

Abgleitete Signale werden als Dateien gespeichert.

G367A000.wav G367A000.f0

(18)

tkassp – Input wählen

File: eine Datei

Verzeichnis: ein Verzeichnis

File List: Dateiliste – Textdatei mit allen zu bearbeitenden Dateien ^(ein

Dateipfad pro Zeile)

Directory List: Dateiliste - Textdatei mit allen zu bearbeitenden Verzeichnissen (ein Verzeichnispfad pro Zeile)

Utterance List: Äußerungsliste – Textdatei mit allen zu bearbeitenden Äußerungen (wird mit EMU erzeugt)

Segment/Eventlist: Segment- bzw. Eventliste – Textdatei, mit allen zu bearbeitenden Segmenten und Eventen (wird mit EMU erzeugt)

(19)

tkassp – Input wählen

Utterance List: Äußerungsliste wird an tkassp gesendet

Fenster “Select Input Track” erscheint: den Sprachsignal-Track auswählen und mit tkassp weiterarbeiten

(20)

tkassp – Output wählen

Automatic: die neuen Signaldateien werden jeweils in das Verzeichnis gespeichert, in dem sich die

Inputdateien auch befinden

Extended: ein Verzeichnis wird ausgewählt – von diesem Verzeichnis aus wird der Verzeichnisbaum der Eingabe neuerstellt und alle neuen Signaldateien werden in dem neuen Verzeichnisbaum so

gespeichert wie die Inputdateien in ihrem Verzeichnisbaum

Manual: alle neuen Signaldateien werden in ein gewähltes Verzeichnis geschrieben

(21)

assp Funktionen – allgemeine Optionen

begin time: Beginn des Analyseintervals (0 Anfang der Datei) end time: Ende des Analyseintervals (0 Ende der Datei) window shift: Dauer der Fensterverschiebung in ms

window size: Dauer des Analysefensters in ms

extension: Extension der Ausgabedatei im Verzeichnis- und Dateimode, oder das infix der Trackdatei im

Segment- oder Eventlistenmode window function: Typ der Fensterfunktion

(22)

Formanten (fm) - forest

Nominal F1: Richtwert für F1 im /´/ - für Männer 500 Hz Frequency Estimation:Formanten werden vorhergesagt, wenn

Formantwerte fehlen

Prediction Order & Pre-emphasis Factor: abhängig von Nominal F1 und Abtastrate

Number of Formants: Anzahl der Formanten, die berechnet werden soll

(23)

F0 (F0) – f0ana

Amplitude Treshhold: Signalamplitude, die Stimmhaftigkeit enthalten kann – tieffrequentes Untergrundrauschen kann somit

ausgeschlossen werden

(24)

rms – rmsana

Linear Values: Amplitude wird normalisiert (dB)

(25)

zcr – zcrana

Ohne zusätzliche Parameter

(26)

Analysen anwenden

Analysen auswählen Perform Analysis

(27)

neue Tracks in Template definieren

Track Trackname

Sprachsignale samples Formantdaten fm

F0-Daten F0

sonstige nach Wahl

(28)

Korrektur des Analyseergebnisses (fm)

Stift des jeweiligen Formantens auswählen und mit gedrückter linken Maustaste Formant langsam nachmalen.

(29)

Korrektur des Analyseergebnisses (F0)

Stift auswählen und mit

gedrückter linken Maustaste F0- Verlauf langsam nachmalen.