• Keine Ergebnisse gefunden

Bestimmung einzelner Periodenl¨angen

Im Dokument Das Göttinger Heiserkeits-Diagramm (Seite 27-32)

3. Computermethoden der akustischen Stimmanalyse 25

3.1.3. Bestimmung einzelner Periodenl¨angen

Zur Bestimmung der Periodenl¨ange von jedem einzelnen Schwingungszyklus muss man zun¨achst definieren, was unter der Periodenl¨ange bei realen, endlichen Signalen verstan-den werverstan-den soll. Da man bei gemessenen Signalen nicht mit der exakten Wiederholung ganzer Zeitabschnitte rechnen kann, reduziert man die Definition der Periodenl¨ange oft auf das Wiedereintreten ausgezeichneter Schwingungszust¨ande. Sei das Signal s(t) nun endlich (0 ≤ t ≤ tmax), so kann man diese ausgezeichneten Schwingungszust¨ande ta

anordnen und nummerieren: ta[i]< ta[i+ 1];i= 1, ..., imax. Die Periodenl¨ange des i-ten Schwingungszyklus T[i] kann dann als

T[i] = ta[i+ 1]−ta[i];i= 1, ..., imax−1 (3.4) definiert werden. Damit haben wir die Schwierigkeit der Periodenl¨angenbestimmung auf die Definition und das Auffinden der ausgezeichneter Schwingungszust¨andeta verlagert.

Die Bestimmung der Periodenl¨ange anhand von ausgezeichneten Schwingungszust¨anden wird auch als ereignisbasierte (event based) Methode bezeichnet [141].

Peakpicking, Zerocrossing

Die einfachsten ausgezeichneten Schwingungszust¨ande, die h¨aufig zur Periodenl¨angen-bestimmung benutzt werden, sind der Durchgang des Signals durch die Nulllinie (ze-rocrossing) und die Bestimmung des (positiven oder negativen) Maximums in einem Schwingungszyklus (peakpicking).

Je st¨arker das betrachtete Signal jedoch von einem periodischen Signal abweicht, umso gr¨oßer werden die Schwierigkeiten, die man beim Auffinden der ausgezeichne-ten Schwingungszust¨ande bekommt. Ein extremes Beispiel m¨oge dies verdeutlichen: Bei selbst¨ahnlichen Signalen (Fraktalen) [123] tritt jeder ausgezeichnete Signalzustand auf jeder L¨angenskala auf, so dass ohne zus¨atzliche Einschr¨ankungen die Definition 3.4 nicht angewendet werden kann. Dass es sich hier nicht um ein rein akademisches Problem han-delt wird schon daran deutlich, dass fraktale Methoden zur Kompression von Sprachda-ten mit Erfolg angewendet werden [115]. Selbst¨ahnlichkeit tritt also auch bei Sprachsi-gnalen auf.

Die Kunst in der Anwendung von Definition 3.4 besteht deshalb darin, die m¨oglichen Zeitpunkte der ausgezeichneten Ereignisseta von vornherein einzuschr¨anken. Dazu gibt es prinzipiell zwei M¨oglichkeiten: Die eine besteht darin das, Signal so vorzubearbeiten (filtern), dass die gesuchten Schwingungszust¨ande eindeutig werden. Die andere M¨oglich-keit ist, aufgrund von Vorwissen ¨uber das Signal den Bereich einzuschr¨anken, in dem nach den Ereignissen gesucht wird. H¨aufig werden auch beide M¨oglichkeiten kombiniert angewandt.

Beispiele f¨ur die erste M¨oglichkeit sind: 1) Tiefpassfilterung mit Grenzfrequenzen knapp oberhalb der erwarteten Grundfrequenz. Die Filterung f¨uhrt dazu, dass das Si-gnal nur noch wenige, bestenfalls nur noch zwei Nulldurchg¨ange pro Periode besitzt, die sich durch die Richtung des Nulldurchgangs eindeutig identifizieren lassen. Probleme sind hierbei erstens, dass die Grenzfrequenz abh¨angig vom zu analysierenden Signalst¨uck gew¨ahlt werden muss, und zweitens, dass durch die Filterung die so gefundenen Peri-odenl¨angen von denen des Originalsignals abweichen, da das Signal

”verschmiert“ wird.

2) Festlegung eines Schwellenwertes beim Peakpicking. Hier muss die Schwelle z.B. in Abh¨angigkeit von der Kurzzeitenergie des analysierten Signalst¨ucks laufend angepasst werden.

Ein Beispiel f¨ur die Einschr¨ankung des Suchbereiches ist die Bestimmung der mittle-ren Periodenl¨angenTM in einem mehrere Schwingungszyklen enthaltenden Segment mit einer der oben beschriebenen Methoden (Autokorrelation, Cepstrum oder andere). Ist die mittlere Periodenl¨ange bekannt, so kann man ausgehend von einem geeignet gew¨ahl-ten Anfangsereignis ta[1] den jeweiligen Suchbereich auf ein Gebiet der Breite 2aTM

einschr¨anken:

ta[i+ 1]∈ {t:ta[i] + (1−a)TM ≤t≤ta[i] + (1 +a)TM; 0< a < 1}. (3.5) Der freie Parameter a wird dem Signal entsprechend gew¨ahlt. Bei gehaltener Pho-nation (d.h. stimmhafte PhoPho-nation bei gleichbleibender Tonh¨ohe) ist oft die Wahl von a = 0.49 sinnvoll, da so der Bereich groß genug ist, damit die Periodenl¨ange auch bei

Schwankungen der Tonh¨ohe in dem Suchintervall bleibt, und klein genug, um Oktavfeh-ler auszuschließen.

Ist die Tonh¨ohe nicht konstant, so ist es sinnvoll, bei festem a den Suchbereich von Periode zu Periode anzupassen. Dies geschieht, indem man f¨ur ta[i+ 1]

TM =ta[i]−ta[i−1] (3.6)

setzt, also TM entsprechend der zuletzt gefundenen Periodenl¨ange anpasst.

Inverse Filterung

Als wiederkehrender Schwingungszustand bietet sich besonders der Verschlusszeitpunkt der Stimmlippen an. Denn beim Schließen der Glottis entsteht der Knick in der Glot-tis¨offnungsfl¨achenfunktion und damit im Volumenstrom, der dazu f¨uhrt, dass im Ver-schlussmoment der Vokaltrakt bei seinen Resonanzstellen (im Wesentlichen im Frequenz-bereich von 0-5 kHz) zu akustischen Schwingungen angeregt wird. Ohne die Theorie der linearen Pr¨adiktion (Anwendung der linearen Pr¨adiktion zur Sprachkodierung: [4–6], Ubersicht: [74]) hier aufzuf¨uhren, sei hier eine Konsequenz der Theorie erw¨ahnt, n¨amlich,¨ dass zum Zeitpunkt des Glottisverschlusses das Frequenzspektrum von einem linearen ModellM-ter Ordnung mit Koeffizienten ai

s(t) +e(t) =

M

X

i=1

ais(t−i) (3.7)

nur sehr schlecht vorausgesagt werden kann, so dass der Voraussagefehler e(t) zur Be-stimmung dieses Zeitpunktes herangezogen werden kann (siehe auch Strube 1974 [132]).

Bei der inversen Filterung werden die Koeffizientenai dazu benutzt, um aus dem Signal das Fehlersignal e(t) zu berechnen. Das Fehlersignal hat ein ann¨ahernd glattes Spek-trum. Die Resonanzstellen des Vokaltraktes sind herausgefiltert. Im Fehlersignal treten die Verschlusszeitpunkte als deutliche Spitzen hervor, wie weiter hinten in Abb. 5.11 zu sehen ist.

Der Nachteil dieser Methode ist, dass die inverse Filterung nur dann zufriedenstellend arbeitet, wenn die Sprachsignale kein Rauschen im hochfrequenten Bereich beinhalten, in dem keine Stimminformation mehr enthalten ist. Das bedeutet, dass man sich bei der Abtastfrequenz auf ca. 10 kHz beschr¨anken muss, denn das Anheben der Frequenzen gr¨oßer als 5 kHz f¨uhrt zu einem Fehlersignal, bei dem die Spitzen, die vom Glottisver-schluss herr¨uhren, nicht mehr zu erkennen sind. Da man also die Abtastfrequenz auf 10 kHz herabsetzt, ist die zeitliche Aufl¨osung dieses Verfahrens vergleichsweise gering.

Oversampling

Durch Einf¨ugen von Nullen zwischen den Abtastwerten und digitale Tiefpassfilterung steigert Hess in [38] die Abtastrate von 16 kHz auf 128 kHz. Er bestimmt die Peri-odenl¨angen aus den Abst¨anden von zwei Punkten des Elektroglottogramms, an denen die Steigung maximal ist (Abb. 2.2). Er zeigt, dass die Abweichung der bei 128 kHz

gefundenen Perioden von den bei 16 kHz gefundenen normalverteilt, also nicht systema-tisch, ist und schließt deshalb auf die Berechtigung der Methode.

Ahnlichkeitsmodell: Waveform-Matching¨

Neben der ereignisbasierten Periodenl¨angenbestimmung hat sich in letzten Jahren mehr und mehr ein sogenanntes integrales Verfahren durchgesetzt, das sogenannte Waveform-Matching [76, 89]. Diese Verfahren nutzt die gesammte Information von zwei aufeinan-derfolgenden Schwingungszyklen, um die Periodenl¨ange zu berechnen.

Die Berechnung der Periodenl¨angen anhand des Waveform-Matching- Verfahren mit parabolischer Interpolation soll kurz skizziert werden: Ein zeitdiskretes Signals(t);t ∈Z werde untersucht. Der Startpunkt der Analyse liege bei t=t0. Gesucht wird eine lokale Periodenl¨ange T (im Kontrast zu einer globaleren Periodenl¨ange, die ¨uber viele Peri-oden mittelt). Außerdem sei aufgrund plausibler Annahmen der Bereich der m¨oglichen Periodenl¨angen aufTmin ≤T ≤Tmax eingeschr¨ankt. Weiterhin seien

x(t0, τ, t) =s(t);t0 ≤t < t0+τ (3.8) und

y(t0, τ, t) = s(t);t0+τ ≤t < t0+ 2τ (3.9) Signalabschnitte, die bei t0 bzw. t0+τ beginnen und jeweils die L¨ange τ haben. Diese gleich langen Abschnitte x und y des Signales s(t) seien als τ-dimensionale Vektoren aufgefasst. Dann wird die Periodenl¨ange T als

T = argmax

Tmin≤τ≤Tmax

( xy

|x||y|) (3.10) definiert. Durch eine parabolische Interpolation des Maximums zur Bestimmung von T kann die Genauigkeit der Periodenl¨angen weit ¨uber die Abtastperiode hinaus gestei-gert werden. Dies ist in Abbildung 3.1 daran zu erkennen, dass die so definierten Pe-riodenl¨angen (mittlere Kurve) konsistent mit denen sind, die durch Peakpicking (obere Kurve), also durch einfache Maximalwertbestimmung und parabolischer Interpolation in jeder Periode des Zeitsignals, bestimmt wurden. Der Maximale Korrelationswert in Glei-chung 3.10 gestattet neben der Messung der Periodenl¨ange auch eine Aussage ¨uber die Ahnlichkeit aufeinanderfolgender Perioden. Der maximale Korrelationswert umso klei-¨ ner, je un¨ahnlicher die aufeinanderfolgenden Perioden sind. Dieser Wert wird hier als ein weiteres wichtiges Stimmg¨utemaß definiert und mit Periodenkorrelationwert oder Mean Waveform-Matching Coefficient (MWC) bezeichnet.

Der große Nachteil dieses Verfahrens liegt darin, dass die Lage von Beginn und Ende des Schwingungszyklus nicht stabil ist, wenn man es auf sehr viele Schwingungszyklen anwendet. Die Lage der Grenzen innerhalb der Schwingungszyklen (d.h. die Phasenlage der Grenzen) k¨onnen dabei ¨uber den kompletten Zyklus variieren. Dies wurde besonders bei eigenen Versuchen mit Waveform-Matching am EGG festgestellt, die im Kapitel 8

0.0 3.42 3.44 3.46 3.42 3.44 3.46

0 200 400 600 800 1000 1200

Periodenlaenge [ms]

Nummer der Periode

Peakpick

Wavematch

Differenz

Abbildung 3.1.: Veranschaulichung der Genauigkeit und der ¨Ubereinstimmung des Waveform-Matching und des Peakpicking. Abtastperiode: 0,02ms.

beschrieben werden. Hier bietet sich (bei hinreichend gutm¨utigen Signalen) eine mehr-stufige Methode an: 1) Berechnung der Periodengrenzen mit einer ereignisbasierten Me-thode. 2) Ausgehend von den Periodengrenzen Berechnung der Periodenl¨ange mit dem Waveform-Matching. Dabei kann Schritt 1) zum Beispiel relativ robust am differenzier-ten EGG durchgef¨uhrt werden, und Schritt 2) dann am Mikrofonsignal. Dabei muss man jedoch ggf. den Laufzeitunterschied zwischen EGG und Mikrofonsignal ber¨ucksichtigen.

Dieses mehrstufige Verfahren wird im Kapitel 8 angewendet.

Mit den beschriebenen Methoden lassen sich jeweils f¨ur gehaltene Vokale Sequenzen von Periodenl¨angen ermitteln. Aus diesen Periodenl¨angensequenzen werden nun Gr¨oßen abgeleitet, die ¨uber das statistische Verhalten der Periodenl¨angen Auskunft geben. F¨ur die Stimmanalyse ist es von Interesse, die Zusammenh¨ange zwischen der Stimmqualit¨at und diesen statistischen Gr¨oßen zu finden.

3.2. Akustische Messgr¨ oßen zur Quantifizierung der

Im Dokument Das Göttinger Heiserkeits-Diagramm (Seite 27-32)