• Keine Ergebnisse gefunden

Projektion von gesprochener Sprache auf eine Handlungsrepräsentation

N/A
N/A
Protected

Academic year: 2022

Aktie "Projektion von gesprochener Sprache auf eine Handlungsrepräsentation"

Copied!
27
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

IPD Tichy, Fakultät für Informatik

Projektion von gesprochener Sprache auf eine Handlungsrepräsentation

Markus Kocybik

Betreut von Sebastian Weigelt Bachelorarbeit

(2)

Kontext und Ziel der Bachelorarbeit

Kontext: Gesamtprojekt „PARSE“

ARMAR-III neue Anweisungen mit gesprochener Sprache beibringen

Ziel: Ausgabe eines ASR auf eine Handlungsrepräsentation projizieren

ASR

Gehe zum Kühlschrank

BA

Gehe POS: VB Chunk: B-VP

Zum POS: IN Chunk: B-PP

Kühlschrank POS: VB Chunk: B-NP

(3)

Herausforderungen

Exemplarischer Eingabetext:

Okay ARMA go to the the ehm fridge open the fridge

grab the orange juice close the fridge bring the orange juice to me

Herausforderungen

Wortfehler

Wortwiederholungen Füllwörter

Mehrere Sätze ohne Satztrennungszeichen

(4)

Verwandte Arbeiten

Natural Language Interface to Databases

([Giordani10] und [Popescu03])

Natürlichsprachliche Programmiersysteme

Pegasus [Knoell06]

Metafor [Hugo05]

Maschinelle Übersetzung [Ha13]

CALO-Projekt [Hodjat03]

 Keine verwandte Arbeit erfüllt alle Herausforderungen

(5)

Ansatz

Welche Informationen kann man extrahieren?

Wortartenerkennung, Phrasenerkennung usw.

Welche NLP-Werkzeuge gibt es?

CoreNLP, OpenNLP, SENNA usw.

Ansatz: Standard-Sprachverarbeitungswerkzeuge zur Informationsextraktion verwenden

Problem

Nur auf geschriebener Sprache optimiert

Fragestellung

Welche Werkzeuge kann man für gesprochene Sprache nutzen

(6)

Analyse – Durchführung

Wortartenerkennung, Phrasenerkennung, Syntaxanalyse und semantische Rollen

11 Sprachverarbeitungswerkzeuge Analysekorpus

14 Texte, insgesamt 468 Wörter

Jeder Text liegt in zwei Ausführungen vor:

Mit Satztrennungszeichen Ohne Satztrennungszeichen

Go ehm to the fridge and open the door. Locate the orange juice and take it. Close the door.

Go ehm to the fridge and open the door locate the orange

juice and take it close the door

(7)

Analyse – Wortartenerkennung (Allgemein)

Beispiel: Go/VB to/TO the/DT fridge/NN

Musterlösungen für den Analysekorpus erstellt Analyseergebnis:

Werkzeuge Genauigkeit mit

Satztrennungszeichen

Genauigkeit ohne

Satztrennungszeichen

OpenNLP 0,9338 0,9338

Illinois POS 0,9124 0,9103

Stanford POS 0,9359 0,9380

ClearNLP 0,9423 0,9230

MBSP 0,9252 0,9081

SENNA 0,9103 0,9487

(8)

Analyse – Wortartenerkennung (Verben)

Erkennung von Verben besonders wichtig

Analyseergebnis (ohne Satztrennungszeichen):

Werkzeuge Inkorrekt erkannt

OpenNLP 10

Illinois POS 22

Stanford POS 7

ClearNLP 10

MBSP 13

Senna 12

(9)

Analyse – Phrasenerkennung

Beispiel: [

VP

Take] [

NP

the green cup]

Musterlösungen für den Analysekorpus erstellt Analyseergebnis:

Auch Illinois und ClearNLP

Schon nach den ersten Texten schlechter als BIOS Werkzeuge Genauigkeit mit

Satztrennungszeichen

Genauigkeit ohne

Satztrennungszeichen

BIOS 0,9915 0,9871

OpenNLP 0,9316 0,9316

(10)

Analyse – Heuristik zum Erkennen von Befehlen

Syntaxanalyse und Zuweisung von semantischen Rollen (SRL)

 Keine verwertbaren Ergebnisse

Texte des Sprachkorpus betrachtet []

Imperative Satzstruktur (Verb gefolgt von Nicht-Verben)

Heuristik entworfen

Go to the fridge open it grab the juice

VB TO DT NN VB PRP VB DT NN

(11)

Analyse – Heuristik zum Erkennen von Befehlen

Syntaxanalyse und Zuweisung von semantischen Rollen (SRL)

 Keine verwertbaren Ergebnisse

Texte des Sprachkorpus betrachtet [Guenes15]

Imperative Satzstruktur (Verb gefolgt von Nicht-Verben)

Heuristik entworfen

Go to the fridge open it grab the juice

VB TO DT NN VB PRP VB DT NN

0 0 0 0 1 1 2 2 2

(12)

Ergebnis der Analyse

Ausgabe für den Satz: Go to the fridge

Informationsextraktion Durchführbar

Wortartenerkennung 

Phrasenerkennung 

Syntaxanalyse 

semantische Rollen 

Befehlsnummern 

(13)

Entwurf des Werkzeuges

Eingabetext

SENNA* Stanford*

POS_Unifier

BIOS*

Commander

AGGCreator

Wortartenerkennung

Phrasenerkennung

Befehlsnummern

Graphen erstellen

(14)

Evaluation

Evaluationskorpus mit Gold-Standard Verwendung des Sprachkorpus

20 Texte zufällig ausgewählt (414 Wörter) Jeder Text in zwei Ausführungen

Besteht aus händischen Transkriptionen und Sprachaufnahmen AT&T WATSON API zur Erzeugung der ASR-Texte

Musterlösungen erstellt

(15)

Evaluation - Wortartenerkennung

65%

75%

85%

95%

Transkriptionen ASR-Texte

Optimierungsliste SENNA+Stanford SENNA

93,72 95,66 99,23

71,26

Genauigkeit

(16)

Evaluation - Phrasenerkennung

75%

85%

95%

Optimierungsliste SENNA+Stanford SENNA

91,06 93,00 94,69

71,01

Genauigkeit

(17)

Evaluation - Befehlsnummern

65%

75%

85%

95%

Optimierungsliste SENNA+Stanford SENNA

95,17 99,03 99,76

68,60

Genauigkeit

(18)

Fazit

Standard-Sprachverarbeitungswerkzeuge

Wortarten- und Phrasenerkennung anwendbar

Keine syntaktischen oder semantischen Informationen verwertbar

Syntaktische und semantische Informationen nur durch weitere Annahmen extrahierbar (hier: imperative Satzstruktur)

Werkzeug zeigt in der Evaluation gute Ergebnisse

Aber: Wortfehler führen zu schlechten Ausgaben

Ausblick

Geeigneten Spracherkenner finden Wortartenerkennung optimierbar

(19)

Die 11 Sprachverarbeitungswerkzeuge

Apache OpenNLP [Apa]

Illinois POS Tagger [I14]

Stanford POS Tagger [Toutanova03]

ClearNLP [Choi03]

MBSP [VanAsch05]

SENNA [Collobert11]

BIOS [Mihai]

Berkeley Parser [Petrov06]

Charniak Parser [Charniak00]

Stanford Parser [KleinDan03]

Collins Parser [Collins99]

(20)

Literatur

[Guenes15] Guenes, Zeynep: Aufbau eines Sprachkorpus zur Programmierung autonomer Roboter mittels natürlicher Sprache, KIT IPD Tichy, Bachelor's

Thesis, Mai 2015

[Giordani10] Giordani, Alessandra: Semantic Mapping Between Natural Language Questions and SQL Queries via Syntactic Pairing. In: Natural Language Processing and Information Systems, 2010

[Popescu03] Popescu, Ana-Maria: Towards a theory of natural language interfaces to databases. In: IUI '03 Proceedings of the 8th international conference on Intelligent user interfaces, 2003

[Ha13] Ha, Thanh-Le: The KIT Translation Systems for IWSLT 2013. In: IWSLT 2013

[Knoell06] Knoell, Roman: Pegasus: rst steps toward a naturalisticprogramming language. In: OOPSLA '06 Companion to the 21st ACM SIGPLAN symposium on Object-oriented programming systems, languages, and applications, 2006

(21)

Literatur

[Hugo05] Liu, Hugo: Metafor: Visualizing stories as code. In:10th International Conference on Intelligent User Interfaces, ACM Press, 2005

[Hodjat03] Hodjat, Babak : Iterative Statistical Language Model Generation for Use with an Agent-Oriented Natural Language Interface. 2003

[Nivre96] Nivre, Joakim : Tagging Spoken Language Using Written Language Statistics. In: Proceedings of the 16th Conference on Computational

Linguistics, 1996

[Collobert11] Collobert, Ronan: Natural Language Processing (Almost) from Scratch, 2011

[VanAsch05] Van Asch, Vincent: Clips - Memory-based Shallow Parser for Python. In: CLiPS Technical Report Series (CTRS) Bd. 2, Cambridge

University Press, 2005

[Mihai] Mihai, Surdeanu : BIOS - A suite of syntactico-semantic analyzers for English.

[I14] Cognitive Computation Group-Software Packages - http://cogcomp.cs.illinois.edu/page/software/

(22)

Literatur

[Apa] openNLP. http://opennlp.apache.org/

[Choi03] Choi, Jinho D.: Optimization of Natural Language Processing

Components for Robustness and Scalability, University of Pennsylvania, Diss., 2003

[Toutanova03] Toutanova, Kristina : Feature-rich Part-of-speech Tagging with a Cyclic Dependency Network. In: Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology - Volume 1. Stroudsburg, PA, USA : Association for Computational Linguistics, 2003

[Klein03] Klein, Dan: Accurate Unlexicalized Parsing. In: Proceedings of the 41st Meeting of the Association for Computational Linguistics, 2003

[Petrov06] Petrov, Slav: Learning Accurate, Compact, and Interpretable Tree Annotation. In: ACL-44 Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for

(23)

Literatur

[Charniak00] Charniak, Eugene: A Maximum-Entropy-Inspired Parser. In:

Proceedings of the 1stNorth American chapter of the Association for Computational Linguistics conference, 2000

[Collins99] Collins, Michael: Head-Driven Statistical Models for Natural Language Parsing, University of Pennsylvania, Diss., 1999

(24)

Evaluation - Wortartenerkennung

Variante Inkorrekt Genauigkeit

SENNA1 26 0,9372

SENNA + Stanford1 18 0,9565

Optimierungsliste13 3 0,9928

ASR-Ausgabe2 119 0,7126

1Transkriptionen verwendet

2ASR Ausgaben verwendet, über 2/3 auf Wortfehler zurückzuführen

3ARMAR-Eigenname, please-Adverb, Okay/Hey-Interjektion

(25)

Evaluation - Phrasenerkennung

Variante Inkorrekt Genauigkeit

SENNA1 37 0,9106

SENNA + Stanford1 29 0,9300

Optimierungsliste13 22 0,9469

ASR-Ausgabe2 120 0,7101

1Transkriptionen verwendet

2ASR Ausgaben verwendet, über 2/3 auf Wortfehler zurückzuführen

3ARMAR-Eigenname, please-Adverb, Okay/Hey-Interjektion

(26)

Evaluation - Befehlsnummern

Variante Inkorrekt Genauigkeit

SENNA1 20 0,9517

SENNA + Stanford1 4 0,9903

Optimierungsliste13 1 0,9976

ASR-Ausgabe2 130 0,6860

1Transkriptionen verwendet

2ASR Ausgaben verwendet, über 2/3 auf Wortfehler zurückzuführen

3ARMAR-Eigenname, please-Adverb, Okay/Hey-Interjektion

(27)

Tokenisierung POS-Tagging Phrasenerkennung

Lemmatisierung NER

Syntaxanalyse SRL

Sequentielle

Ausführungsreihenfolge

Referenzen

ÄHNLICHE DOKUMENTE

meine Unterstiitzung erhielten die Forderungen der Schulgeographen fiir die Errichtung neuer Lehrstiihle fiir deutsche geographische Landeskunde, fiir die aus schliefiliche

In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages

In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computa- tional Linguistics: Human Language Technologies, Volume 1 (Long Papers),

To validate the Salt model, we define Pepper, a Salt based converter framework. This framework was developed to convert data from x formats into y different formats, with a

Secondly, the traditional baseband equipment can complete demodulation of low code rate signal with serial processing, but the principle prototype for reentry telemetry with high

This work outlines the building-blocks for providing an individ- ual, multimodal interaction experience by shaping the robot’s humor with the help of Natural Language Generation and

„Auf den Wunsch nach der Ökonomisierung des beim Tippen zu betreibenden Aufwands lassen sich auch viele Eigentümlichkeiten des Satz- und Textbaus zurückführen:

To appear in the Proceedings of Semantics and Linguistic Theory IX, CLC Publications, Cornell University, Ithaca, N.Y..