• Keine Ergebnisse gefunden

Low Level Descriptoren

N/A
N/A
Protected

Academic year: 2022

Aktie "Low Level Descriptoren"

Copied!
26
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Low Level Descriptoren

(2)

Aufbau des Vortrags

 LLD Kategorien

 Signaldarstellung

 Zeitbasierte Signaldarstellung und Merkmalsextraktion

 Transformation zwischen Signaldarstellungen

 Frequenzbasierte Signaldarstellung und Merkmalsextraktion

 MfCC (Begriffsdefinition und Berechnung)

 Rhythmus Content Feature

(3)

Kategorien der Low Level Descriptoren (nach Tzanetakis)

 Timbral Texture Features (Klangfarbe)

Sub Features , MFCC, Spectral Rolloff, Spectral Centroid, RMS

 Pitch Content Features (Tonhöhe)

Pitch Histogramme Subfeatures u.a. Amplitudendifferenz

 Rhytmic Content Features (Rhytmus)

Beat Histogramme u.a Merkmalsextraktion wie SUM

(4)

Signaldarstellung

Grundlegende Darstellungsmöglichkeit von Signalen:

 Zeitbasiert (Amplitude über Zeit), d.h. die Informationen liegen als Zeitreihen vor.

 Frequenzbasiert (Energiemenge über Frequenz in db) als Frequenzanteil, um Aussagen über das Frequenzspektrum machen zu können.

 Aus unterschiedlichen Darstellung lassen sich unterschiedliche Merkmale extrahieren.

(5)

 Merkmale werden nicht über das ganze Signal berechnet sondern über kleine Fensterausschnitte, die sich überlappen, so genannte Analysefenster.

 Wie viele Analysefenster und wie groß sollten diese gewählt sein ?

(6)

Sampling

 Abtastung: Die Registrierung von Messwerten zu diskreten, meist äquidistanten Zeitpunkten. Aus einem zeitkontinuierlichen Signal wird so ein zeitdiskretes

Signal gewonnen.

 Abtastrate: Die Abtastrate bezeichnet die Rate, mit der Signalwerte aus einem kontinuierlichen Signal entnommen werden.

 Analoge Signale: Wenn eine wert- und zeitkontinuierliche Zuordnung von einer physikalischen Messgröße zu einer anderen (z.B. Temperatur) vorgenommen wird.

 Digitale Signale: Gegenteil von analogen Signalen. Digitale Signale liegen als wert- und zeitdiskrete Zahlenfolgen vor.

(7)

Shannon-Nyquist Abtasttheorem

Wenn man ein analoges Signal in ein digitales Signal umwandeln möchte, kann man die dafür notwendige Abtastrate durch das Abtasttheorem von Nyquist und Shannon bestimmen. Dabei gilt: Die Abtastrate muss mindestens doppelt so hoch wie die höchste im Signal vorhandene Frequenz sein.

Untere Grenzfrequenz = 0

 Allgemein

 Der Kehrwert der Abtastrate entspricht dem zeitlichen Abstand zwischen zwei Abtastungen.

(8)

Zeitbasierte LLD - Zero Crossing Rate

Charakterisiert die Häufigkeit des Vorzeichenwechsels im Signal, d.h. wie oft überquert das Signal die 0-Amplitude

(9)

Zeitbasierte LLD – Silent Ratio

Anteil der Stille einer Periode, d.h. die Anzahl der Messwerte einer Periode mit Amplitude = 0 ( quasi )

Gebräuchliche Schwellenwerte zur Berechnung:

1. Amplitudenwert unterhalb dessen Stille angenommen wird

2. Mindestanzahl von direkt aufeinander folgenden Messwerten, die Kriterium 1 erfüllen, um eine Stilleperiode zu bilden

(10)

Darstellungstransformation

Um Aussagen über das Frequenzspektrum zu machen, muss von der zeitbasierten in die frequenzbasierte Darstellung gewechselt werden.

Hierfür stehen mehrere Möglichkeiten zur Verfügung:

 Eindimensionale Fourier Transformationen ( DFT, FFT )

 Wavelet Transformationen

 Cosinus Transformationen

(11)

Fourier Transformationen FT

Jean-Baptiste-Joseph Fourier:

Man kann Funktionen durch die Summe von Sinus- und Cosinusfunktionen darstellen.

Grundlagen:

Direkte Betrachtung der diskreten Fourier Transformation, da wir durch das digitalisierte Signal von einem diskreten Definitionsbereich ausgehen.

(12)

Diskrete Fourier Transformation DFT

Komplexität O ( n² ) Anmerkung:

(13)

Schnelle Fourier Transformation FFT

Die FFT ist ein Algorithmus von Cooley und Tukey der das selbe Ergebnis wie die DFT hat die Laufzeit aber auf O ( n log(n)).

Idee:

 Voraussetzung: Anzahl der Abtastpunkte Zweierpotenz, somit Länge des Eingangsvektor z.B. 1,2, 4,8 , 16 usw. ( Radix 2 FFT)

 Divide And Conquer: Problem der Größe n in zwei Hälften der Größe n/2 Teilen.

Der Messwertevektor wird nach geraden, ungeraden Indizes in Teilvektoren gesplittet.

 Die Ergebnisse der beiden Hälften werden dann zusammengeführt.

(14)

Magnitude

 Bei der Transformation von der Zeit- in die Frequenz-Ebene entstehen aus Amplitude und Zeit eine reelle und eine imaginäre Zahl, die für die

Berechnung der Magnitude dienen.

 Die Formel für diese Berechnung lautet :

(Mag = Magnitude / R = Reelle Zahl / I = Imaginäre Zahl)

Die Magnitude wird in db angegeben und ist auf der „Y-Achse des Spektrums“

(15)

Spektrumbasierte LLD - Rolloff Grenzfrequenz

 Gibt an bis zu welcher Frequenz sich ein bestimmter Prozentsatz a des Gesamtspektrums aufsummieren lässt ( Cook/Tzanetakis a = 85)

Mt[n] Magnitudenwert des Spektrums an der Stelle n

 Höherer Rolloff = höhere / stärkere Frequenzen

(16)

Spektrumbasierte LLD - Spectral Centroid

Spectral Centroid, auch Brightness genannt, basierend auf der DFT, umgangssprachlich Klangfarbe

Mt[n] Magnitudenwert des Spektrums an der Stelle n

C ist höher wenn bei gleich bleibender Tonhöhe viele Harmonien (d.h. Vielfaches der Grundfrequenz) vorkommen.

(17)

Mel Frequency Cepstral Coefficients (MFCC)

Was ist Mel ?

Mel Z ist die Einheit für die psychoakustischen Größe der Toneinheit und beschreibt die

wahrgenommene Tonhöhe. ( 1937 )

Basis für die Mel Skala ist der Ton C mit f = 131 Hert / Z = 131 mel

Mit Hilfe psychoakustischer Versuche kann so eine Tonheitsskala bestimmt werden (doppelt so hoch

wahrgenommener Ton kriegt doppelten

(18)

MFCC – elementare Begriffe

 Verfahren kommt ursprünglich aus der Spracherkennung

 Mel Cepstrum Koeffizient ist ein geeigneter Satz von Merkmalen zur automatischen Erkennung für die Musik

 Cepstrum = „Spektrum des Spektrums“, d.h. DCT eines logarithmischen Spektrums (ursprünglich für seismische Echos erfunden)

 Sprache verwendet 13 Koeffizienten

 Musik benötigt für effektive Ergebnisse nur die ersten 5 Koeffizienten (Tzanetakis/Cook)

(19)

Ablauf MFCC

(20)

Mathematik MFCC 1/4

1. PreEmphasis: Bewusste Verstärkung des Signals zur Anhebung der hohen Frequenzen. Da das Signal bereits diskret vorliegt, geschieht dieses mit Hilfe eines diskreten Filters, z.B. ein Fir-Filter.

3. Framing: Aufteilen des Signals in Bereich konstanter Größe, auf denen dann separat weitere Berechnungen durchgeführt werden. Die typischen

Fenstergrößen sind 25 – 50 ms. (ms = Millisekunden)

5. Fensterung: Auf jeden dieser Bereich (Frame) wird nun die Fensterfunktion angewendet. Typisch bei MFCC ist das Hamming-Fenster, wobei generell die Auswahl der Fensterfunktion von der zugrunde liegenden Anwendung abhängt. Anwenden heißt, dass jeder Frame mit der Hamming-Fenster Funktion ausmultipliziert wird.

(21)

Mathematik MFCC 2/4

1. DFT: Auf jeden Frame wird nun die DFT angewendet (2. Beachte die

Framegröße, sie muss eine zweier Potenz sein, wenn FFT gewünscht wird).

Das Signal liegt nun als Frequenzspektrum vor.

3. Mel Filter: Nun wird der Mel Filter angewendet, d.h. es wird eine Filterbank bestehend aus Dreiecksfiltern erstellt. Die Filter der Filterbank schwanken je nach Anwendung. Durch die Dreiecksfilter werden die Frequenzbänder

(Frequenzbereiche) zusammengefasst, also die Komplexität reduziert, das Ergebnis ist das so genannte Mel-Spektrum.

5. Logarithmieren: Auf dem Mel Spektrum erfolgen nun weitere Berechnungen, deren Ergebnis Mel Koeffizienten (auch Kanalenergien) sind. Durch

Logarithmieren dieser erfolgt eine weitere Zusammenfassung. Genauere Analysen sind jedoch erst nach Schritt 7. möglich.

(22)

Mathematik MFCC 3/4

1. Cosinus Transformation: Das logarithmierte Mel Spektrum wird nun die diskrete Kosinus Transformation unterworfen. Im Unterschied zur FT werden nicht alle Frequenzen gleichmäßig behandelt, was zu einer Redundanzreduktion führt.

Veranschaulicht wird das Spektrum geglättet, d.h. hochfrequente kleine Änderungen zwischen Werten entfernt. Ergebnis: Koeffizienten unkorreliert (Folge : eigene Aussagekraft einzelner Koeffizienten).

Alternativ Dekorrelation (Reduzieren der Redundanz): Principal Component Analyse, Karhunen-Loeve-Transformation

Definition Korrelation:

Kovarianz = Zusammenhang von Variablen, K = 0 unkorelliert, sonst korreliert

(23)

Mathematik MFCC 4/4

Ergebnis: N Koeffizienten, zusammengefasst zu einem Merkmalsvektor X, die aus dem Mel-Frequenz-Spektrum gewonnen wurden und daher auch Mel-Frequency- Cepstral-Coefficients heißen.

Für die Merkmalsextraktion aus Musikdaten konnte gezeigt werden, dass die 5 ersten Werte aus dem gewonnenen Vektor ausreichend zur „Klassifizierung“ sind.

In der Sprecherkennung sind ersten 13 Koeffizienten aus dem gewonnen Vektor der gebräuchliche Wert.

Niedrige Cepstralwerte in Vektoren weisen auf hohe Frequenzen hin.

(24)

Rhytmic Content Features

 Wavelet Transformation: Funktionen können auch durch die Summe von anderen Funktionen (Basisfunktionen) dargestellt werden.

Als Basisfunktion kann jede orthogonale Funktion genommen werden, für die gilt:

Daher auch die Bezeichnung Wavelet engl. Wave = Welle

 Rhythmische Regelmäßigkeiten suchen

(25)

Beispiel Beat Histogramm

(26)

Vielen Dank für Ihre

Aufmerksamkeit

Referenzen

ÄHNLICHE DOKUMENTE

3.A Decibels and Signal Strength 4.1 Guided Transmission Media 5.1 Digital Data, Digital Signals 5.2 Digital Data, Analog Signals. B.1 Fourier Series Representation of

receptor inactivation, the cascade will quickly attain a in a strongly activated pathway, upstream phospha- tases have a greater effect on signaling time and dura- quasi-steady

Moving mirror Light source.

(Dlyone braid should be run between any two enclosures. 'lbe braid should be treated exactly as a cable duct with respect to insulation and

The previously introduced Fourier transform can also be called euclidean Fourier transform, since the functions are defined on the whole euclidean space R n. Now we will introduce

technische Systeme werden auch als Abbildung einer Menge von Eingabegrößen auf eine Menge von Ausgabegrößen betrachtet:?. „A system is a mapping of a set of inputs into a

Émile Baudot erfand 1874 den Baudot-Code • Baudrate gibt die Geschwindigkeit (Bd / sec.) der Übertragung digitaler Übermittlungen, wie auch z.B. Fernschreiben,

A DISP consists of a control unit a number of identical Processing Modules and 2 shift registers permodule. Each module can process 2 samples of an FWT or FFT or