• Keine Ergebnisse gefunden

Fehler in F0-Analysen

N/A
N/A
Protected

Academic year: 2022

Aktie "Fehler in F0-Analysen"

Copied!
2
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Modul G: Sprachverarbeitung Teil 2 WinSem 07/08

Fehler in F0-Analysen

Alle F0-Analysen sind heuristisch. Dies bedeutet nicht nur, dass die Verfahren Fehler machen können (und das auch tun!) sondern auch, dass es keinen "richtigen" Wert gibt!

Fehlertypen:

1. Oktavfehler: Der geschätzte Wert ist ziemlich genau ein Faktor 2 höher (Oberoktavfehler) oder tiefer (Unteroktavfehler) als den "richtigen" Wert. In seltene Fälle kann er auch ein Faktor 3 daneben liegen.

2. Stimmhaft-stimmlos Fehler: eine stimmhafte Strecke wird als stimmlos klassifiziert.

3. Stimmlos-stimmhaft Fehler: eine stimmlose Strecke wird als stimmhaft klassifiziert.

4. Sonstige Fehler: in Harmonizitäts-Analysen z.B. sind auch Abweichungen von einem Fak- tor 2/3 möglich; in KSV kann es sein, dass zwei Ketten sich überlagern und sich eine glei- tende Übergang bildet.

Fehlerbehebung:

Zu 1.: Oktavfehler können oft behoben werden durch Einschränkung des F0-Bereichs. Wenn das Verfahren pitch tracking mit variablen Einstellungen enthält (z.B. praat) kann auch ver- sucht werden die "Strafe" für Oktavfehler zu erhöhen.

Zu 2. und 3.: Meistens gibt es mindestens eine Einstellung im Verfahren, die direkt die stimm- haft/stimmlos Entscheidung beeinflusst, z.B. minimale Signalamplitude für stimmhaft in KSV.

Zu 4.: Behebung an sich wie Oktavfehler. In KSV ist es manchmal der Fall, dass sich eine Kette mit einem Oktavfehler überlagert mit der "richtige Kette. Mit der Behebung des Oktavfehlers verschwindet auch die Überlagerung.

Knarrstimme/Glottalisierung ist ein richtiges Problem. Einerseits ist das Signal ziemlich a-peri- odisch und wird deshalb von den Programmen oft als stimmlos klassifiziert, anderseits gibt es Stimmlippen-Schwingungen und möchte man es deshalb als stimmhaft betrachten. Notfalls gibt es nur noch eine Möglichkeit: Per Hand die Dauer vom ersten bis zum letzten Glottisschlag messen und durch den Anzahl der Glottisschläge – 1 teilen.

Verfahren haben auch einen intrinsische Fehler: In KSV z.B. ist der Abstand zwischen Extrema ein ganzzahliges Vielfach der Abtastdauer. Der Fehler in der Schätzung der Periodendauer ist maximal ein Abtastpunkt. Bei einem Abtastrate von 10 kHz z.B. ist für einem F0 von 100 Hz der Fehler 1% oder 1 Hz; bei einem F0 von 300 Hz 3% oder 9 Hz, nimmt also rasch mit F0 zu.

Glücklicherweise wird dies einigermaßen dadurch ausgeglichen, das die Periodenzwillinge in einer Kette sich teilweise überlappen und mittlere Periodendauern berechnet werden. Außerdem liegen je höher F0 desto mehr Perioden innerhalb eines frame und darüber wird auch gemittelt.

Autokorrelations-Verfahren haben einen vergleichbaren Fehler: hier sind die lags ganzzahlige Vielfache der Abtastdauer, was dazu führt, dass es nur eine beschränkte Zahl von mögliche, fes- te, F0-Werte gibt. Durch Interpolation kann die Position des Maximums (ACF) bzw. Minimums (AMDF) genauer geschätzt werden, was der Fehler reduziert und die Einschränkung aufhebt.

Verfahren im Frequenzbereich benutzen typischerweise einen FFT die ebenfalls nur diskrete Frequenzwerte hat. Auch hier kann durch Interpolation die Frequenz einer Komponente mit hö- here Genauigkeit geschätzt werden und damit der intrinsische Fehler reduziert.

1

(2)

Lineare Prädiktion

Grundlage ist ein mathematisches Verfahren um das Verhalten von dynamische Systeme (kann allerhand sein) zu analysieren. Es wird hierbei versucht das Signal aufgrund der Vergangenheit vorherzusagen (Prädiktion). Linear bezieht sich darauf, dass die Werte aus der Vergangenheit nur linear mit einbezogen werden, nicht z.B. quadratisch. Wird seit den 60er Jahren intensiv er- forscht in der digitale Telefonie zwecks Datenreduktion und ist dort unter dem Kürzel LPC (Li- near Predictive Coding) bekannt.

Formel: s[n] =

m=1 M

ams[nm] mit M die Prädiktions-Ordnung

Aufgabe der LPC-Analyse ist es die Koeffizienten a0 ... aM so zu bestimmen, dass die Vorhersage so gut wie möglich ist. Weil in der Analyse das Signal selbst vorliegt kann der Vor- hersagefehler berechnet werden. Dies kann für jedem Abtastpunkt gemacht werden, wir bekom- men also ein Fehlersignal:

e[n]=s[n]−s[n]=s[n]−

m=1 M

ams[nm]

als Kriterium für minimalem Fehler wird die Energie des Fehlersignals genommen:

E=

n

e2[n] soll minimal sein. Aus dieser Bedingung lassen sich jetzt Formel ableiten für die Berechnung der LPC-Koeffizienten am . Es stellt sich dabei heraus, dass in dieser Formel die Autokorrelationsfunktion auftaucht. Ablauf der Analyse ist also wie folgt: 1, es wird eine Kurzzeit-Analyse der Autokorrelationsfunktion mit der Prädiktions-Ordnung durchgeführt, 2.

aus der Autokorrelations-Koeffizienten, werden die LPC-Koeffizienten berechnet (mittels der sog. Durbin oder Levinson Rekursion).

Interessant für die Sprachforschung ist, dass die LPC-Koeffizienten, die Koeffizienten eines di- gitalen Filters bilden womit das Spektrum des Sprachsignals geglättet wird. Es enthält also Anti-Resonanzen wo im Sprachsignal Resonanzen sind (Formanten). Invertieren wir dieses Fil- ter und schicken wir das Fehlersignal dadurch, bekommen wir das ursprüngliche Sprachsignal wieder zurück (LPC-Synthese). In Termen des Quelle-Filter-Modell der Sprachproduktion, ent- spricht das Fehlersignal das Quellesignal und das invertierte Filter die akustische Filterung des Vokaltraktes. Dies ist allerdings nur annähernd der Fall: das Modell ist ziemlich einfach und das Synthesefilter kann nur Resonanzen bilden, keine Anti-Resonanzen wie die z.B. in Nasale und bei Nasalierung auftreten.

Das LPC-Modell lässt sich direkt in dem Rohrmodell der Sprachproduktion überführen mit der Beschränkung, dass ein parallerer Nasaltrakt nicht modelliert werden kann. In dieser Zusam- menhang lassen sich die LPC-Koeffizienten umrechnen in Reflektions-Koeffizienten die sich direkt auf dem Rohrmodell beziehen.

Die Ordnung der Analyse ist für uns sehr wichtig weil sie bestimmt wie gut Quelle und Filter voneinander getrennt werden. Ist die Ordnung zu hoch, wird das Filter nicht nur die Resonanzen sondern auch stärke Signalkomponenten unterdrücken. Es gerät also Information über z.B. F0 im Filter. Ist die Ordnung zu niedrig, bleibt Information über Formanten im Fehlersignal. Aus dem Rohrmodell lässt sich folgende Formel für die minimale Ordnung ableiten:

M=2∗LvFs/c mit Lv die Länge vom Vokaltrakt, Fs die Abtastrate und c die Schallgeschwindigkeit. Hieraus folgt die Faustregel: Abtastrate in kHz für eine männliche und etwa 10% weniger für eine weibliche Stimme. In der Regel wird die Ordnung etwas höher ge- wählt (+ 1 bis 3) um Abweichungen der Realität zum Modell kompensieren zu können.

2

Referenzen

ÄHNLICHE DOKUMENTE

- Eine Steinbrücke (an Stelle einer früheren Zugbrücke) verbindet dieses äußere Tor mit dem inneren, dem Hau p t tor; sie führt über den breiten, tiefen äußeren

Schreibe das richtige Wort darüber (siehe S.24 im Buch). Schreibe die Geschichte

Birgit Meixner 2005 http://vs-material.wegerer.at.. Martin ist

Sind zwei Gruppen (G, ?) und (H, ◦) gegeben, so lässt sich leicht eine neue Gruppe dar-

Unsere Schwerpunkte liegen im Sozialen: etwa hohe Kopierkosten, eine echte Woh- nunterstützung für Studierende oder billigere Mensen.. Die Uni ist kein von Politik

Durch die Zugangsbeschränkungen wird erneut versucht, die soziale Selek- tion an den heimischen Universitäten einzuführen, da die oft sehr teuren Vorbereitungskurse für

a) Nein, man muß bei keiner Partei oder Fraktion sein um sich zu enga- gieren (und man muß auch später keiner beitreten). b) Nein, man wird nicht sofort mit Arbeit eingedeckt,

Auch aus der sogenannten Friedensmedizin wissen wir, daß es nicht mehr behandel- bare, ja von vornherein un- heilbare Erkrankungen gibt, ohne daß wir uns hier der Aufgabe,