• Keine Ergebnisse gefunden

Korrektur von „Nicht - Wörtern“

N/A
N/A
Protected

Academic year: 2022

Aktie "Korrektur von „Nicht - Wörtern“"

Copied!
23
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Korrekturprogramme

Von Emine Senol & Gihan S. El Hosami

(2)

Einleitung

Millionen von Texten werden mit dem Computern täglich erfasst

Æ Fehler schleichen sich ein

Korrekturprogramme helfen diese

{ zu finden

{ zu korrigieren

(3)

Arten der Korrekturprogramme

Es gibt drei verscheidene Arten:

{ Korrektur von „Nicht-Wörtern“

{ Kontextabhängige Korrektur

{ Grammatikkorrektur

(4)

Korrektur von „Nicht - Wörtern“

(5)

Anwendung auf durch Tippfehler hervorgerufene Nicht-Wörter

Nicht-Wörter

= Zeichenketten ohne lexikalische Zuordnung

z.B. Fehjler anstatt Fehler

Anwendungsgebiet

(6)

Allgemeines Verfahren

{ Wörter werden mit einem Systemlexikon verglichen

{ Nicht-Wörter werden aufgespürt

{ Vorschläge zur Verbesserung werden gegeben

{ Meisten Programme bieten auch Erweiterungsmöglichkeiten des Wörterbuches

(7)

Die bloße Verwendung eines Lexikons nicht ausreichend!

Grund:

Neubildung oder Änderung von Wörtern

{ durch morphologische Prozesse

{ durch Komposition und Derivation

Verfahren - Problem

(8)

Æ Einige Programme besitzen eine Liste mit Flexions- und

Derivationsaffixen

z.B. UNIX- Tool ispell

Aber:

Nur hilfreich bei Sprachen mit relativ wenigen und regelmäßigen

Flexionsformen (z.B. Englisch)

Verfahren - Problem

(9)

Zwei-Ebenen-Morphologie auf der Basis von endlichen Automaten

Æ Morphologie und Lexikon bilden einen großen endlichen Automaten

Æ Sehr erfolgreich zur Beschreibung vieler verschiedener Sprachen (z.B. Deutsch, Arabisch und Finnisch)

Lösungsansatz

(10)

Korrekturverfahren der nicht im Lexikon vorhandenen Wörter:

Suche nach dem ähnlichsten String

o Basierend auf einer Funktion die den Abstand zwischen 2 Strings angibt

Verfahren

(11)

Andere Tippfehlerarten

Nicht immer entsteht ein Nicht-Wort:

{ Buchstabenvertauschung:

Die Erkennung vom Licht-Wörtern reicht nicht aus.

{ Groß- oder Kleinschreibung:

Die Korrekturprogramme Erkennen nicht alle Fehler.

{ Transposition:

Die Erkennung von Nicht-Wörtern riecht nicht aus.

{ Überschüssige Buchstaben:

Die Erkennung von Nicht-Wörtern reichst nicht aus.

{ Fehlende Buchstaben:

Die Erkennung von Nicht-Wörter_ reicht nicht aus

(12)

Kontextabhängige Korrektur

(13)

Anwendungsgebiet

Durch Tippfehler können auch andere lexikalische Wörter

entstehen, die jedoch kontextfremd sind

z.B. Kennst du dir Haustür schließen?

Allgemeine Verfahren zur Korrektur solcher Fehler fehlen noch

(14)

1. Zusammenfassung von ähnlich

geschriebenen oder gesprochenen Wörtern zu einer „Verwechslungsmenge“

Æ Beim Auftauchen einer dieser Wörter, werden zugeschnittene Heuristiken angewandt, wodurch mögliche Fehler gefunden werden sollen

Æ Verwendet von IBM Critique-System und Microsoft Word

Nachteil:

o Funktioniert nur wenn genau ein Wort der

Verwechslungsmenge mit einem anderen dieser Menge vertauscht wurde

o Für jedes Wort müssen eigene Heuristiken entwickelt werden

Mögliche Verfahren

(15)

2. N-Gramm-Wahrscheinlichkeit von Wörter

= die Wahrscheinlichkeit das n benachbarte Wörter zusammen auftraten

Æ Hat eine eingegebene Wortgruppe eine niedrigere N-Gramm-Wahrscheinlichkeit als eine vom Programm erzeugte, wird diese als Korrektur vorgeschlagen

Nachteil:

o Analyse von sehr großen Textsammlungen ist notwendig

Mögliche Verfahren

(16)

Grammatikkorrektur

(17)

Anwendungsgebiet

Wird angewendet, wenn die

Erkennung und Korrektur eines Fehlers nicht nur den lokalen

Kontext, sondern die Analyse eines ganzen Satzes oder evtl. Textes

voraussetzen.

(18)

Anwendungsgebiete - Beispiele

{ Kongruenzfehler:

z Subjekt-Prädikat:

Die Erkennung von Nicht-Wörtern reichst nicht aus.

z Adjektiv-Substantiv:

Die Korrekturprogramme erkennen keine grammatische_ Fehler.

{ Fehlende Wörter:

Die Korrekturprogramme _____ Erkennen nicht alle Fehler.

{ Falscher Kasus:

Die Erkennung vom Nicht-Wörter_ reicht nicht aus.

(19)

Verfahren

{ Constraint Relaxation

z Bestimmte Grammatikalitätsbedingungen werden innerhalb der Grammatik nicht als absolut feststehend berachtet

{ Fehlerantizipation

z Fehler werden durch ein Musterabgleich gefunden

Æ In der Praxis werden beide Verfahren Kombiniert

(20)

Kritik

{ Für den alltäglichen Gebrauch zu wenig Präzision (Precision)

Æ maximal 50% der Fehlermeldungen sind richtig

{ Auch zu geringe Vollständigkeit (Recall)

Æ Viele Fehler werden nicht gefunden

(21)

Fazit

(22)

Programme arbeiten noch ungenau

Verbesserungsmöglichkeit:

Æ Pflege des Wörterbuches über

regelmäßiges Einfügen von neuen Wörtern

(23)

Quellen

{ K.-U. Carstensen et al. (2004): Computerlinguistik und

Sprachtechnologie. Eine Einführung. Spektrum, Akademischer Verlag

Referenzen

ÄHNLICHE DOKUMENTE

Aber als James den Clydebank Blitz miterleben muss, den schwersten deutsche Luftangriff auf Schottland während des Krieges, ändern sich seine Prioritäten: Er will

Das Potential einer ausgedehnten Ladungsverteilung durh Superposition, siehe oben... Denition der Multipolmomente: siehe Blatt 4, Aufg. Musterl osung 4, Aufg. 1b) ist eine

Frau Holle hat beim Schütteln der Federbetten alle

Bei ihre__ geringen Einkommen kann sie sich einen Urlaub in Italien nicht leisten.. bei mir

2) Lies dir den Satz auf den ersten Papierstreifen genau durch. 3) Leg diesen Papierstreifen wieder zurück in das Briefkuvert. 4) Versuch nun den Satz aus deinem Gedächtnis

Æ Welche Aussagen sind richtig, welche falsch!.

Beeinflussung durch Sprache – am Beispiel der Politik Wir werden morgen den Staats- und Regierungschefs und den europäischen Institutionen vorschlagen, einen Prozess in Gang zu

[r]