• Keine Ergebnisse gefunden

Maße f¨ur den turbulenten Rauschanteil

Im Dokument Das Göttinger Heiserkeits-Diagramm (Seite 36-39)

3. Computermethoden der akustischen Stimmanalyse 25

3.3. Maße f¨ur den turbulenten Rauschanteil

Neben der ¨Unregelm¨aßigkeit kann Rauschen als weitere Abweichung im Signal auftreten [28]. Im Folgenden werden Methoden besprochen, die diesen Rauschanteil messen.

Yanagihara

Die erste bekannte Arbeit zu diesem Thema von Yanagihara wurde 1967 [155] vorgestellt.

Er beschreibt drei Faktoren, um den subjektiven optischen Eindruck von Sonagrammen zu klassifizieren: 1. Rauschkomponenten in den Hauptformanten der Vokale, 2. Hoch-frequentes Rauschen ¨uber 3000 Hz und 3. der Abfall der harmonischen Komponenten zu h¨oheren Frequenzen. Diese Art der Klassifizierung ist bis heute bei den Phoniatern gebr¨auchlich, aber nicht leicht durch Automatisierung zu objektivieren.

Harmonics-to-Noise Ratio (HNR)

Ein Ansatz, um die Heiserkeit mit einem Computer zu bestimmen, stammt von Yumoto [156]. Der Stimmparameter Harmonics-to-Noise Ratio (HNR) gibt die relative St¨arke der harmonischen Signalenergie zur Energie des Rauschanteils an. Dazu werden n = 50 Perioden fi(τ) der Periodendauern Ti gemittelt und zur mittleren Periode

fA(τ) =

n

X

i=1

fi(τ)

n ; 0<=τ <=T (3.13)

mit der PeriodendauerT = max{Ti;i= 1, ..., n}zusammengefasst. Dabei wirdfi(τ) = 0 gesetzt, wennTi <=τ <=T ist. Die Energie der mittleren Periode

H =n

T

Z

0

fA2(τ)dτ (3.14)

steht f¨ur den harmonischen Signalanteil. Die Rauschenergie wird durch die Abweichung der einzelnen Perioden von der mittleren Periode definiert:

N =

n

X

i=1 T

Z

0

[fi(τ)−fA(τ)]2dτ (3.15)

Der Heiserkeitsparameter HNR ist der Quotient H/N. Yumoto schreibt, dass sich der Jitter wegen der Annahme fi(τ) = 0 f¨ur Ti <= τ <= T auf dem Rauschwert nieder-schl¨agt, d.h. der Parameter HNR wird zu klein, wenn ein relativ starker Jitter vorliegt.

Diese Methode wurde bei dem kommerziellen

”Computer Speech Lab“, einem System zur Stimmanalyse, implementiert. Es stellte sich jedoch heraus, dass diese Methode bei manchen Stimmen HNR-Werte liefert, die im Widerspruch zur auditiven Einsch¨atzung der Stimmqualit¨at stehen.

Harmonische Intensit¨at

Hiraoka [45] benutzt die auf die Gesamtintensit¨at des Spektrums P bezogene Summe der Intensit¨aten der harmonischen Komponentenpi ausschließlich der Grundfrequenzp1

Hr = µ P

i≥2pi

P

100(%) (3.16)

zur Analyse von normalen und heiseren Stimmen. Er findet einen kritischen Wert von 67,2%, unterhalb dessen sich nur noch heisere Stimmen finden. Wie beim HNR ist jedoch auch dieser Parameter vom Aufsuchen der Grundfrequenz und vom Jitter abh¨angig.

Spektrale Rekonstruktion

Klingholtz rekonstruiert in [58] den harmonischen Anteil des Spektrums aus gaußf¨ormi-gen Komponenten, wobei die Bandbreite der Komponenten f¨ur jede Stimme angepasst wird. Die hierf¨ur ben¨otigte Grundfrequenz wird mit Hilfe des Produktspektrums [121]

berechnet. Der Quotient aus der Energie des rekonstruierten harmonischen Anteils und dem restlichen Rauschanteil wird als Signal-to-Noise Ratio bezeichnet und dient als Heiserkeitsparameter. Die Grenzen der Einsetzbarkeit sind auch hier durch Stimmen gegeben, die keine harmonische Struktur im Spektrum zeigen.

Periodensynchrone und cepstrale Methoden

Gleiches gilt f¨ur die Methode von Muta und Baer [94]. Sie benutzen genau vier Perioden, um dann im Spektrum aus der Tiefe der T¨aler zwischen den Harmonischen auf den Rauschanteil zu schließen. Diese Methode basiert wiederum auf der Harmonizit¨at der Stimmen und ist so in ihrem Einsatz begrenzt.

Normalized Noise Energy (NNE)

Um die Nachteile des HNR-Parameters auszugleichen, benutzt Kasuya 1986 [53] die Fal-tung mit einem adaptiven Kammfilter im Zeitbereich zur Mittelung der Perioden, wobei die Zinken des Kammfilters nicht ¨aquidistant sind, sondern den Abstand der jeweiligen Periodenl¨ange haben. Außerdem werden der Start- und Endpunkt der Perioden in einem iterativen Verfahren so linear angepasst, dass die Perioden m¨oglichst ¨ahnlich werden.

Der Energieunterschied von gefiltertem und ungefiltertem Signal bildet als Normalized-Noise-Energy (NNE) ein Maß f¨ur die Heiserkeit. Da die Periodengrenzen genau bestimmt werden m¨ussen, ist die Anwendbarkeit dieser Methode auf Stimmen mit definierbarer Grundperiode beschr¨ankt.

Der Stimmg¨utemesswert Normalized Noise Energy (NNE) wird 1986 ein weiteres mal definiert [55]. Hierbei wird der Quotient aus einem Sch¨atzwert der Rauschenergie und der gesamten Signalenergie im Spektralbereich berechnet.

Unterteilt man das Spektrum eines (harmonischen) Signals in Spitzen und T¨aler, so ergibt sich der Sch¨atzwert der Rauschenergie aus der Summe der spektralen Energie in den T¨alern und dem gesch¨atzten Rauschenergieanteil an den (harmonischen) Spitzen.

Der Rauschanteil an den Spitzen wird dabei einfach als Mittelwert der Energie der angrenzenden T¨aler angenommen.

Zur Analyse wird zun¨achst auf dem gesamten Vokal in 40ms–Fenstern bei 20ms Fen-stervorschub jeweils das erste Nebenmaximum der Autokorrelationsfunktion bestimmt.

Der Medianwert dieser Maxima legt die Periodenl¨ange fest. Nun werden Fenster analy-siert, die genau 7 Perioden enthalten (M Abtastwerte). Diese Fenster werden mit einem Hamming–Fenster versehen und bei einer Abtastfrequenz von 10kHz auf 102,4ms (ent-sprechend N=1024 Abtastwerten) mit Nullen aufgef¨ullt. Nach einer diskreten Fourier–

Transformation (DFT) wird nun im Spektrum die Gesamtenergie und die Rauschenergie berechnet. Die Breite der Spitzen wird dabei als Breite des Hamming-Fensters mit 2N/M angenommen.

Zur Beurteilung der Leistung des NNE wurden die NNE–Werte von 250 Stimmen, von denen 64 Normalstimmen und der Rest pathologische Stimmen waren, berechnet.

Als G¨utekriterium diente die Diskriminationsf¨ahigkeit des NNE bei verschiedenen Fre-quenzbereichen: 0-1kHz, 0-3kHz, 0-5kHz, 1-3kHz, 1-5kHz. Die beste Diskriminationsg¨ute ergab sich f¨ur den Frerquenzbereich 1-5kHz (13 Fehler).

Cepstral Harmonic to Noise Ratio CHNR

Einen anderen Ansatz zur Bestimmung des Verh¨altnisses von harmonischer Energie zu der Rauschenergie wurde 1993 von de Krom [17] vorgestellt: Der Rauschanteil wird hier in zwei Stufen approximiert: Zuerst werden die so genannten Rahmonischen aus dem Cepstrum (hier als die Cosinustransformierte des logarithmierten Leistungsspektrums) entfernt. Dazu werden nach einer initialen Grundperiodensch¨atzung (wie beim NNE) die Spitzen im Cepstrum bei Vielfachen der Periodenl¨ange auf Null gesetzt, und zwar vom Spitzenwert ausgehend nach links und rechts, bis sich das Vorzeichen der Ablei-tung umkehrt. Nach R¨ucktransformation des gelifterten Cepstrums erh¨alt man eine erste Sch¨atzung des Rauschanteils. Auf der zweiten Stufe wird eine sogenannte Basislinien-korrektur durchgef¨uhrt, so dass bei keiner Frequenz das gesch¨atzte Rauschen ¨uber dem Originalspektrum liegt. Aus der Differenz von diesem Rauschen und dem originalen lo-garithmierten Leistungsspektrum wird nun der Signal-Rauschabstand berechnet. CHNR wird wie auch NNE in verschiedenen Frequenzbereichen berechnet. In dieser Arbeit wer-den der im Spektrum berechnete NNE und CHNR zu Vergleichszwecken verwendet.

3.4. Computer Speech Lab (CSL), Multidimensional

Im Dokument Das Göttinger Heiserkeits-Diagramm (Seite 36-39)