Fehler in F0-Analysen

(1)

Modul G: Sprachverarbeitung Teil 2 WinSem 07/08

Fehler in F0-Analysen

Alle F0-Analysen sind heuristisch. Dies bedeutet nicht nur, dass die Verfahren Fehler machen können (und das auch tun!) sondern auch, dass es keinen "richtigen" Wert gibt!

Fehlertypen:

1. Oktavfehler: Der geschätzte Wert ist ziemlich genau ein Faktor 2 höher (Oberoktavfehler) oder tiefer (Unteroktavfehler) als den "richtigen" Wert. In seltene Fälle kann er auch ein Faktor 3 daneben liegen.

2. Stimmhaft-stimmlos Fehler: eine stimmhafte Strecke wird als stimmlos klassifiziert.

3. Stimmlos-stimmhaft Fehler: eine stimmlose Strecke wird als stimmhaft klassifiziert.

4. Sonstige Fehler: in Harmonizitäts-Analysen z.B. sind auch Abweichungen von einem Fak- tor 2/3 möglich; in KSV kann es sein, dass zwei Ketten sich überlagern und sich eine glei- tende Übergang bildet.

Fehlerbehebung:

Zu 1.: Oktavfehler können oft behoben werden durch Einschränkung des F0-Bereichs. Wenn das Verfahren pitch tracking mit variablen Einstellungen enthält (z.B. praat) kann auch versucht werden die "Strafe" für Oktavfehler zu erhöhen.

Zu 2. und 3.: Meistens gibt es mindestens eine Einstellung im Verfahren, die direkt die stimmhaft/stimmlos Entscheidung beeinflusst, z.B. minimale Signalamplitude für stimmhaft in KSV.

Zu 4.: Behebung an sich wie Oktavfehler. In KSV ist es manchmal der Fall, dass sich eine Kette mit einem Oktavfehler überlagert mit der "richtige Kette. Mit der Behebung des Oktavfehlers verschwindet auch die Überlagerung.

Knarrstimme/Glottalisierung ist ein richtiges Problem. Einerseits ist das Signal ziemlich a-peri- odisch und wird deshalb von den Programmen oft als stimmlos klassifiziert, anderseits gibt es Stimmlippen-Schwingungen und möchte man es deshalb als stimmhaft betrachten. Notfalls gibt es nur noch eine Möglichkeit: Per Hand die Dauer vom ersten bis zum letzten Glottisschlag messen und durch den Anzahl der Glottisschläge – 1 teilen.

Verfahren haben auch einen intrinsische Fehler: In KSV z.B. ist der Abstand zwischen Extrema ein ganzzahliges Vielfach der Abtastdauer. Der Fehler in der Schätzung der Periodendauer ist maximal ein Abtastpunkt. Bei einem Abtastrate von 10 kHz z.B. ist für einem F0 von 100 Hz der Fehler 1% oder 1 Hz; bei einem F0 von 300 Hz 3% oder 9 Hz, nimmt also rasch mit F0 zu.

Glücklicherweise wird dies einigermaßen dadurch ausgeglichen, das die Periodenzwillinge in einer Kette sich teilweise überlappen und mittlere Periodendauern berechnet werden. Außerdem liegen je höher F0 desto mehr Perioden innerhalb eines frame und darüber wird auch gemittelt.

Autokorrelations-Verfahren haben einen vergleichbaren Fehler: hier sind die lags ganzzahlige Vielfache der Abtastdauer, was dazu führt, dass es nur eine beschränkte Zahl von mögliche, fes- te, F0-Werte gibt. Durch Interpolation kann die Position des Maximums (ACF) bzw. Minimums (AMDF) genauer geschätzt werden, was der Fehler reduziert und die Einschränkung aufhebt.

Verfahren im Frequenzbereich benutzen typischerweise einen FFT die ebenfalls nur diskrete Frequenzwerte hat. Auch hier kann durch Interpolation die Frequenz einer Komponente mit hö- here Genauigkeit geschätzt werden und damit der intrinsische Fehler reduziert.

1

(2)

Lineare Prädiktion

Grundlage ist ein mathematisches Verfahren um das Verhalten von dynamische Systeme (kann allerhand sein) zu analysieren. Es wird hierbei versucht das Signal aufgrund der Vergangenheit vorherzusagen (Prädiktion). Linear bezieht sich darauf, dass die Werte aus der Vergangenheit nur linear mit einbezogen werden, nicht z.B. quadratisch. Wird seit den 60er Jahren intensiv er- forscht in der digitale Telefonie zwecks Datenreduktion und ist dort unter dem Kürzel LPC (Li- near Predictive Coding) bekannt.

Formel: s[n] =

∑

m=1 M

a_m∗s[n−m] mit M die Prädiktions-Ordnung

Aufgabe der LPC-Analyse ist es die Koeffizienten a₀ ... a_M so zu bestimmen, dass die Vorhersage so gut wie möglich ist. Weil in der Analyse das Signal selbst vorliegt kann der Vor- hersagefehler berechnet werden. Dies kann für jedem Abtastpunkt gemacht werden, wir bekommen also ein Fehlersignal:

e[n]=s[n]−s[n]=s[n]−

∑

m=1 M

a_m∗s[n−m]

als Kriterium für minimalem Fehler wird die Energie des Fehlersignals genommen:

E=

∑

n

e²[n] soll minimal sein. Aus dieser Bedingung lassen sich jetzt Formel ableiten für die Berechnung der LPC-Koeffizienten a_m . Es stellt sich dabei heraus, dass in dieser Formel die Autokorrelationsfunktion auftaucht. Ablauf der Analyse ist also wie folgt: 1, es wird eine Kurzzeit-Analyse der Autokorrelationsfunktion mit der Prädiktions-Ordnung durchgeführt, 2.

aus der Autokorrelations-Koeffizienten, werden die LPC-Koeffizienten berechnet (mittels der sog. Durbin oder Levinson Rekursion).

Interessant für die Sprachforschung ist, dass die LPC-Koeffizienten, die Koeffizienten eines di- gitalen Filters bilden womit das Spektrum des Sprachsignals geglättet wird. Es enthält also Anti-Resonanzen wo im Sprachsignal Resonanzen sind (Formanten). Invertieren wir dieses Fil- ter und schicken wir das Fehlersignal dadurch, bekommen wir das ursprüngliche Sprachsignal wieder zurück (LPC-Synthese). In Termen des Quelle-Filter-Modell der Sprachproduktion, ent- spricht das Fehlersignal das Quellesignal und das invertierte Filter die akustische Filterung des Vokaltraktes. Dies ist allerdings nur annähernd der Fall: das Modell ist ziemlich einfach und das Synthesefilter kann nur Resonanzen bilden, keine Anti-Resonanzen wie die z.B. in Nasale und bei Nasalierung auftreten.

Das LPC-Modell lässt sich direkt in dem Rohrmodell der Sprachproduktion überführen mit der Beschränkung, dass ein parallerer Nasaltrakt nicht modelliert werden kann. In dieser Zusam- menhang lassen sich die LPC-Koeffizienten umrechnen in Reflektions-Koeffizienten die sich direkt auf dem Rohrmodell beziehen.

Die Ordnung der Analyse ist für uns sehr wichtig weil sie bestimmt wie gut Quelle und Filter voneinander getrennt werden. Ist die Ordnung zu hoch, wird das Filter nicht nur die Resonanzen sondern auch stärke Signalkomponenten unterdrücken. Es gerät also Information über z.B. F0 im Filter. Ist die Ordnung zu niedrig, bleibt Information über Formanten im Fehlersignal. Aus dem Rohrmodell lässt sich folgende Formel für die minimale Ordnung ableiten:

M=2∗L_v∗F_s/c mit L_v die Länge vom Vokaltrakt, F_s die Abtastrate und c die Schallgeschwindigkeit. Hieraus folgt die Faustregel: Abtastrate in kHz für eine männliche und etwa 10% weniger für eine weibliche Stimme. In der Regel wird die Ordnung etwas höher ge- wählt (+ 1 bis 3) um Abweichungen der Realität zum Modell kompensieren zu können.

2