Erstellung Abfrage Analyse
Digitale Zeitsignale akustisch,
artikulatorisch
Etikettieren
Verknüpfung mit Symbolen
Signalverarbeitung
abgeleitete Signale
(z.B. spektrale Daten) Eine Liste ausgewählter Symbole mit Zeiten
Abfrage
Die Signale davon
Abfrage
SignaleEtikettierung
Graphik
Statistik
Weitere
Signalverarbeitung p << 0.001
Modul F - Sprachanalyse (2)
Analog Signale
digitalisiert
Digitale Zeitsignale
Anwendung von einem Fenster
Zeitsignal-Aufteilung
Anwendung von einem Parameter
Abgeleitete oder Parametrisierte Signale
Berechnung von digitalen Signalen
Die Abtastfrequenz (fs, Hz)
= die Anzahl der digitalen Werte pro Sekunde = 1/T (in Sekunde) Hier 1/(1/1000) Hz = 1000 Hz
Die Abtastperiode (T, in Millisekunden): die
(konstante) Dauer zwischen den digitalen Werten (hier 10 Punkte pro 10 ms, T= 1 ms)
Abtasten
die digitale Aufteilung der Zeitachse
Dauer (ms)
0 5 10 15 20
-4-2024
0 5 10 15 20
-4-2024
Amplitude
Quantisierung
= Die digitale Aufteilung der Amplituden-Achse
1 2 0 1
2 4 -1 0 1 2
3 8 -3 –2 –1 0 1 2 3 4
Für die gesprochene Sprache: typischerweise mindestens 12-bit Quantisierung (-2047 bis 2048)
n-bit Quantisierung = bedeutet, dass die Amplitudenachse in 2n Stufen aufgeteilt wird
bit Stufen mögliche Werte der Amplitudenachse
0 5 10 15 20
-4-2024
0 5 10 15 20
-4-2024
0 5 10 15 20
-4-2024
3-bit
Quantisierung (fortgesetzt)
Dauer (ms) 12-bit
Quantisierung, fs = 1000 Hz
Nyquists Theorie (1928)
Alle Frequenzen im Analogsignal bis zur Hälfte der Abtastrate erscheinen im digitalen Signal
zB Analog-Signal 15 Hz, Abtastrate muss mindestens 30 Hz sein, damit das 15 Hz Analog-Signal mit derselben
Frequenz digitalisiert wird.
0 200 400 600 800 1000
-1.0-0.50.00.51.0
0 200 400 600 800 1000
-1.0-0.50.00.51.0
Mit einer Abtastrate von 20 Hz wäre die Cosinuswelle mit einer Frequenz von 5 Hz digital dargestellt (nennt sich Faltung: die 15 Hz Welle wird auf eine 5 Hz Welle gefaltet)
Frequenz der Cosinuswelle = 15 Hz.
Dauer (ms)
dB-RMS (Lautstärke)
(dB= decibel, RMS= root-mean-square)
-402468
Lautstärke ist ca. im Verhältnis zum Logarithmus vom Kraft-Mittelwert. Kraft = Amplitude2
Amplitude
Dauer
29.16667
Kraft-
Mittelwert
020406080
Kraft
8 64
log10(29.1667) = 1.46 Bel Lautstärke =
= 14.6 Decibel
Fensterlänge = 100 ms, Fensterverschiebung = 100 ms
Fenster-Aufteilung
Die Signalverarbeitung (in diesem Fall Lautstärke-Berechnung) wird auf Intervalle oder Fenster vom Signal angewendet
dB-Wert dB-Wert dB-Wert usw.
Die Fensterart nennt sich in diesem Fall Rectangular. Dies bedeutet: das Signal wird nur aufgeteilt und nicht vor der Signalverarbeitung geändert.
Fensterart
Ein Cosinus-Fenster wird manchmal angewendet, um die Amplitude am Anfang und Ende des Fensters zu reduzieren.
Cosinus-Fenster
(Werte liegen zwischen 0 und 1)
Signal
Signal mit dem Cosinus-Fenster multipliziert
Fenster-Art (fortgesetzt)
Signalverarbeitung
ZCR: Nulldurchgangsrate (zero-crossing-rate)
ZCR (in Hz) ist die Frequenz, mit der das Signal die x-Achse schneidet pro Sekunde, dividiert durch 2.
ZCR kann verwendet werden, um Frikative und Laute mit Friktion (zB Plosiv-Lösung) automatisch zu identifizieren
Das Signal schneidet die x-Achse ca. 9 Mal in 2 ms
= 9/2 Mal pro ms
= 9000/2 = 4500 Mal pro Sekunde
ZCR = Z / (2t) Hz
ca. 2 ms
ZCR ist daher ca. 4500/2 ca. 2250 Hz
ZCR (fortgesetzt)
Signale mit hoher Frequenz (wie Frikative und die Lösungen von Plosiven) schneiden die x-Achse mit hoher Frequenz und haben daher hohe ZCR-Werte
U s
Ich muss Dieter sagen
Signalverarbeitung: erfolgt über das EMU Tool tkassp – eine grafische Oberfläche (tk) zu den assp Analyseprogrammen
Ausgehend von einem Sprachsignal (Datei) erzeugt tkassp die gewünschten abgeleiteten Signale.
Signalverarbeitung
Abgleitete Signale werden als Dateien gespeichert.
G367A000.wav G367A000.f0
tkassp – Input wählen
File: eine Datei
Verzeichnis: ein Verzeichnis
File List: Dateiliste – Textdatei mit allen zu bearbeitenden Dateien (ein
Dateipfad pro Zeile)
Directory List: Dateiliste - Textdatei mit allen zu bearbeitenden Verzeichnissen (ein Verzeichnispfad pro Zeile)
Utterance List: Äußerungsliste – Textdatei mit allen zu bearbeitenden Äußerungen (wird mit EMU erzeugt)
Segment/Eventlist: Segment- bzw. Eventliste – Textdatei, mit allen zu bearbeitenden Segmenten und Eventen (wird mit EMU erzeugt)
tkassp – Input wählen
Utterance List: Äußerungsliste wird an tkassp gesendet
Fenster “Select Input Track” erscheint: den Sprachsignal-Track auswählen und mit tkassp weiterarbeiten
tkassp – Output wählen
Automatic: die neuen Signaldateien werden jeweils in das Verzeichnis gespeichert, in dem sich die
Inputdateien auch befinden
Extended: ein Verzeichnis wird ausgewählt – von diesem Verzeichnis aus wird der Verzeichnisbaum der Eingabe neuerstellt und alle neuen Signaldateien werden in dem neuen Verzeichnisbaum so
gespeichert wie die Inputdateien in ihrem Verzeichnisbaum
Manual: alle neuen Signaldateien werden in ein gewähltes Verzeichnis geschrieben
assp Funktionen – allgemeine Optionen
begin time: Beginn des Analyseintervals (0 Anfang der Datei) end time: Ende des Analyseintervals (0 Ende der Datei) window shift: Dauer der Fensterverschiebung in ms
window size: Dauer des Analysefensters in ms
extension: Extension der Ausgabedatei im Verzeichnis- und Dateimode, oder das infix der Trackdatei im
Segment- oder Eventlistenmode window function: Typ der Fensterfunktion
Formanten (fm) - forest
Nominal F1: Richtwert für F1 im /´/ - für Männer 500 Hz Frequency Estimation:Formanten werden vorhergesagt, wenn
Formantwerte fehlen
Prediction Order & Pre-emphasis Factor: abhängig von Nominal F1 und Abtastrate
Number of Formants: Anzahl der Formanten, die berechnet werden soll
F0 (F0) – f0ana
Amplitude Treshhold: Signalamplitude, die Stimmhaftigkeit enthalten kann – tieffrequentes Untergrundrauschen kann somit
ausgeschlossen werden
rms – rmsana
Linear Values: Amplitude wird normalisiert (dB)
zcr – zcrana
Ohne zusätzliche Parameter
Analysen anwenden
Analysen auswählen Perform Analysis
neue Tracks in Template definieren
Track Trackname
Sprachsignale samples Formantdaten fm
F0-Daten F0
sonstige nach Wahl
Korrektur des Analyseergebnisses (fm)
Stift des jeweiligen Formantens auswählen und mit gedrückter linken Maustaste Formant langsam nachmalen.
Korrektur des Analyseergebnisses (F0)
Stift auswählen und mit
gedrückter linken Maustaste F0- Verlauf langsam nachmalen.