• Keine Ergebnisse gefunden

Verarbeitung gesprochener Sprache

N/A
N/A
Protected

Academic year: 2022

Aktie "Verarbeitung gesprochener Sprache"

Copied!
44
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Proseminar

Verarbeitung gesprochener Sprache

Timo Baumann

baumann@informatik.uni-hamburg.de

Universität Hamburg, Department of Informatics

nats-www.informatik.uni-hamburg.de/VGS20/WebHome

(2)

Heute

Wissenschaftliches Schreiben

Was für Sorten von Proseminararbeiten gibt es?

Was ist die Kernfrage meiner Arbeit? ...und wo kommt sie her?

(Wie strukturiere ich, wie argumentiere ich?)

Wie zitiere ich?

(3)

Recap: Typen von Proseminararbeiten

(4)

Review eines wiss. Papers Survey über Artikel

zu einem Thema

Vertiefung eines Teilthemas

(5)

Review eines wiss. Papers Survey über Artikel

zu einem Thema

Vertiefung eines Teilthemas

→ es entsteht

also etwas Neues!

(6)

Grundsatz für die Inhalte

kein reines Nacherzählen/Erlebnisbericht, sondern Mehrwert durch neue Perspektive:

Systematisierung und Einordnung des Themas in den Proseminarkontext

subjektive Bewertung auf Grundlage von (erarbeiteten) objektiven Kriterien

für unsere Themen: substanziierte(!) Einordnung des Themas in das Gesamtgebiet Verarbeitung Gesprochener Sprache:

in welchen Kontexten, Stärken/Schwächen

(7)

Literaturangaben

(8)

Literaturangaben

bisher haben wir diese vernachlässigt

warum sind sie wichtig?

Zweck:

Nachvollziehbarkeit

Abgrenzung Eigenleistung / Vorleistungen

„we're standing on the shoulders of giants“

Urheberrecht (und -pflicht...)

(9)

Literaturangaben

(10)

Literaturangaben

was muss überhaupt belegt werden?

wörtliche Zitate

(immer mit Seitenzahl und Anführungsstrichen!)

Belege für Behauptungen

JEDE Behauptung wird belegt, KEINE unbelegten Behauptungen!!

Existenz von beispielhaft genannten Anwendungen, ...

auch Strukturübernahmen müssen kenntlich gemacht werden

(11)

Literaturangaben

im Text wird an der entsprechenden Stelle mit einer Kurzangabe (=Schlüssel) auf die Quelle verwiesen

im Literaturverzeichnis stehen die vollständigen Angaben

wie Kurzangabe und Literaturverzeichnis zu formatieren

sind, ist üblicherweise durch den Verleger festgelegt

(12)

Kurzangabe

drei wesentliche Varianten für die Kurzangabe:

Der Kuckuck und der Esel hatten einen Streit (Fallersleben 1835).

Der Kuckuck und der Esel hatten einen Streit. [1]

Der Kuckuck und der Esel hatten einen Streit. [FAL35]

Der Kuckuck und der Esel hatten einen Streit.1

suchen Sie sich eine aus

Eindeutigkeit der Schlüssel: (Fallersleben 1835a, 1835b)

mehrere Angaben zusammenfassen: [1-5,7]

Seitenzahlen: [2, p. 5], (McTear 2002, p. 105).

„... wie schon McTear (2002, p. 105) schrieb ...“

„... wie schon McTear [2] schrieb ...“

1Hoffmann von Fallersleben, August, Heinrich: Kinderlieder, Rororo, Reinbek, 1835, Nachdruck 1987.

(13)

Literaturverzeichnis

am besten mithilfe einer Literaturverwaltungssoftware erzeugen lassen

! auf vollständige Angaben achten !

(14)

Exkurs: Literaturverwaltung

am Beispiel JabRef

verwaltet Angaben in einer Tabelle

(zugrundeliegende Textdatei )

Primärschlüssel der Tabelle können von LaTeX aus referenziert werden:

\cite{zhu1997software} → Kurzangabe je nach gewähltem Stil

alle zitierte Literatur (und nur diese) ins Literaturverzeichnis:

\printbibliography

(15)

komplexe Anwendungen

aus separaten Modulen

(16)

Themen

(17)

Themen

Sprachsignalrepräsentation

Spektrogramme, f0, Merkmalsvektoren

Sprachsignalverarbeitung

PSOLA, VAD, Geräuschunterdrückung

Worte und Laute

G2P, Morphologie, N-Gramme

Suprasegmentalia

Prosodie, Emotion

Sprachsynthese

Unit Selection (+PSOLA), HMM-basiert, Training

Spracherkennung

Stand und Fortschritte, HMMs, Token-Passing, Training

(18)

Themen

Sprachsignalrepräsentation

Spektrogramme, f0, Merkmalsvektoren

Sprachsignalverarbeitung

PSOLA, VAD, Geräuschunterdrückung

Worte und Laute

G2P, Morphologie, N-Gramme

Suprasegmentalia

Prosodie, Emotion

Sprachsynthese

Unit Selection (+PSOLA), HMM-basiert, Training

Spracherkennung

Stand und Fortschritte, HMMs, Token-Passing, Training

(19)

Themen

Sprachsignalrepräsentation

Spektrogramme, f0, Merkmalsvektoren

Sprachsignalverarbeitung

PSOLA, VAD, Geräuschunterdrückung

Worte und Laute

G2P, Morphologie, N-Gramme

Suprasegmentalia

Prosodie, Emotion

Sprachsynthese

Unit Selection (+PSOLA), HMM-basiert, Training

Spracherkennung

Stand und Fortschritte, HMMs, Token-Passing, Training

(20)

Themen

Sprachsignalrepräsentation

Spektrogramme, f0, Merkmalsvektoren

Sprachsignalverarbeitung

PSOLA, VAD, Geräuschunterdrückung

Worte und Laute

G2P, Morphologie, N-Gramme

Suprasegmentalia

Prosodie, Emotion

Sprachsynthese

Unit Selection (+PSOLA), HMM-basiert, Training

Spracherkennung

Stand und Fortschritte, HMMs, Token-Passing, Training

(21)

Themen

Sprachsignalrepräsentation

Spektrogramme, f0, Merkmalsvektoren

Sprachsignalverarbeitung

PSOLA, VAD, Geräuschunterdrückung

Worte und Laute

G2P, Morphologie, N-Gramme

Suprasegmentalia

Prosodie, Emotion

Sprachsynthese

Unit Selection (+PSOLA), HMM-basiert, Training

Spracherkennung

Stand und Fortschritte, HMMs, Token-Passing, Training

(22)

Anwendungsbereiche

(23)

Kleingruppenarbeit:

Wählt einen der Anwendungsbereiche, die wir am Anfang des Seminars erarbeitet haben (vgl. Etherpad).

Welche Module braucht Euer Anwendungsbereich?

Was braucht es noch?

Wie werden sie verbunden? Welche

Herausforderungen/Probleme sehr ihr an den Schnittstellen?

Welche weiteren Herausforderungen gibt es mit Bezug auf die

Verknüpfung von Modulen?

(24)

typische Module zur Sprachverarbeitung

(25)

typische Module zur Sprachverarbeitung

Spracherkennung (Audio → Wortsequenz)

Sprachverstehen

(Wortsequenz → aussagen?logische Formel)

Sprachgenerierung (Formel → Wörter (mit Satzzeichen))

Sprachsynthese (Satz → Audio)

Module

haben meist sehr beschränkte Schnittstellen

berechnen erneut, was andere Module schon wussten

müssen raten, obwohl Wissen vorhanden wäre

(26)

Zusammenarbeit von Modulen

in interaktiven Anwendungsfällen

(27)

Beispiel: Dialogsystem

speech recognition

Language- generation Dialog-Manager

NLU

speech synthesis

Sound Words

DA

Words

Sound

DA

(28)

ein modulares Dialogsystem

speech recognition

Language- generation Dialog-Manager

NLU

speech synthesis

Sound Words

DA

Words

Sound

DA

small individual delays add up!

(29)

ein modulares Dialogsystem

speech recognition

Language- generation Dialog-Manager

NLU

speech synthesis

Sound Words

DA

Words

Sound

DA

small individual delays add up!

Outputerzeugung beginnt erst nach Ende des Inputs

(30)

Incremental Processing

Processing module Input

Input

(31)

Incremental Processing

input consists of individual units that are consumed one-by-one (e.g. speech audio, words, ideas, …)

input is consumed unit-by-unit, and output is generated

input units may be aggregated to larger units

Processing module Input

Input

(32)

Incremental Processing

input consists of individual units that are consumed one-by-one (e.g. speech audio, words, ideas, …)

input is consumed unit-by-unit, and output is generated

input units may be aggregated to larger units

Processing module Input

Input

(33)

Incremental Processing

input consists of individual units that are consumed one-by-one (e.g. speech audio, words, ideas, …)

input is consumed unit-by-unit, and output is generated

input units may be aggregated to larger units

Processing module Input

Input

(34)

Incremental Processing

input consists of individual units that are consumed one-by-one (e.g. speech audio, words, ideas, …)

input is consumed unit-by-unit, and output is generated

input units may be aggregated to larger units

Processing module Input

Input

(35)

ein modulares Dialogsystem

speech recognition

Language- generation Dialog-Manager

NLU

speech synthesis

Sound Words

DA

Words

Sound

DA

forward partial hypotheses!

(36)

ein modulares Dialogsystem

speech recognition

Language- generation Dialog-Manager

NLU

speech synthesis

Sound Words

DA

Words

Sound

DA

forward partial hypotheses!

Output kann vor Abschluss der Inputverarbeitung beginnen

(37)

Incremental Processing: Limitations

hypotheses are based on what has been seen so far

later input may result in changes

example speech recognition:

input: [f O 6] → this sounds like “four”!

addition of [t i:] → together, this sounds like “fourty”!

what happens if [n] is next? then [EI dZ 6 z]?

limited context as future input is not considered

either, results will deteriorate, or:

allow to revise previous hypotheses

as a result, the input of following modules is revised,

which will then also have to reconsider their output and so on

(38)

IU Model

Incremental Units (IUs)

encapsulate minimal amounts of information

at the current level of abstraction (phones, words, ideas, …)

linked to other units on the same level to form hypotheses

linked to units they are based on to track dependencies

network of units stores information states

Updates to the network reflect changes in understanding:

add units when new information becomes available

revoke units if they turned out to be wrong

notify about degree of commitment/certainty to a unit

Schlangen & Skantze (2009, 2011)

(39)

Datenmodell für inkrementelle Just-in-Time-Verarbeitung

lege das kreuz in

ack take

put(cross,Y)

DM reasoning/decision: need to grab to be able to put confirm→ confirm

ack(take(X),put(X,Y))

put piece:cross X=cross

okay ich nehm

Analyseseite des Systems Syntheseseite des Systems

Baumann (2013)

(40)

Modularisierung

notwendig um das Problem handhabbar zu machen

behindert das Finden der „optimalen“ Lösung

insbesondere: Schnittstellenproblematik

... kannst nicht mit / kannst nicht ohne ...

einzige Lösung: WISSEN um die „Nachbarmodule“ der

eigenen Forschung, ihrer Eigenschaften, Einschränkungen,

und der üblichen Schnittstellen

(41)

Wie geht es weiter im Studium?

Vorlesung Dialogsysteme im Wintersemester (yours truly)

diverse Veranstaltungen im Master zu

language technology

signal and speech processing

statistical methods

deep learning

einschlägige Projekte

vielfältige Möglichkeiten für Abschlussarbeiten

(42)

Vielen Dank.

baumann@informatik.uni-hamburg.de

Universität Hamburg, Department of Informatics

(43)

Lernziele

was muss belegt werden:

(wörtliche) Zitate, Angaben, Struktur

was ist geeignete Literatur:

Fachaufsätze (Zeitschriften, Konferenzbände, ...)

Fachbücher / Lehrbücher

bedingt: Wikipedia, Webseiten

nicht: Zeitungen, Lexika, ...

wie zitieren: es gibt dafür Standards, sowas sollte man nicht (mehr) von Hand machen

Kombination von Modulen zu Systemen

(44)

Notizen

Gruppenarbeit war nicht konkret genug: hätte ein paar

Module zur Auswahl benennen sollen, darüber nachdenken lassen, wie gut die wohl zusammen passen, was bedacht

werden muss. DeepLearning+f0+TokenPassing ist für eine

sinnvolle Diskussion eine zu absurde Kombination.

Referenzen

ÄHNLICHE DOKUMENTE

Further evidence is offered by the loss of 126 Da in both spectra from fragments containing the N-terminus indicating the presence of the octanoic acid amide structure, and by

speak about your household duties (Speaking A2) talk about rules at home and at school (Speaking A2) discuss the pros and cons of school uniforms (Speaking A2) make up

Input port lines and output port lines are accessed at 16-pin DIP sockets on the card.. A reset line is

La domanda finale, quindi il "consumo" delle risorse entrate nel sistema si compone invece di 7,3 miliardi di euro di Spesa delle famiglie, 4,3 miliardi di Spesa

Three types of information based on acoustic analysis are used for the agent control at the moment: speech pauses, pitch, and the level of the user’s interest.. These

However, as the company used the land to carry out taxable supplies and the company itself did not deduct VAT from the acquisition costs of the land, the

It signals the central control or the processor (depending on the Medium Data Processing System) to au- tomatically translate EBCDIC to BCL informa- tion as it is

signal on this line indicates that the external equipment has accepted the word of information and will turn off the output data ready signal at the com- puter; this causes