Vorgehen - Praktikumsbericht HochschuleWismar

Im Projekt conTEXT liegen die Daten als ungrammatische⁷ Texte vor. Dadurch sind linguistische Verfahren nicht anwendbar, wie zum Beispiel⁸ Stemming⁹, PoS-Tagging¹⁰ oder Parsing¹¹. Statt dessen werden gr¨oßtenteils statistische Verfahren eingesetzt.

Daraus leitete sich das Vorgehen w¨ahrend des Praktikums ab: zuerst wurden ver-schiedene Text Mining Verfahren recherchiert, dann deren Eignung f¨ur das Projekt experimentell gepr¨uft.

3 Text Mining

In Anlehnung an [HQW08] lassen sich Text Mining Methoden in zwei Klassen teilen:

statistische und musterbasierte Verfahren.

3.1 Sprachstatistik

Das unmittelbar messbare Merkmal eines Textes ist die H¨aufigkeitsverteilung einzel-ner W¨orter. Die innere Struktur des Textes wird ignoriert; nur die Anzahl der W¨orter ist entscheidend. Daher wird dieser Ansatz auch als

”Bag Of Words“ bezeichnet.

4HR06.

5HQW08, S. 4.

6HR06.

7im linguistischen Sinne

8HR06.

9R¨uckf¨uhren auf Stammform

”gesehen“→

”sehen“

10Part-of-Speech-Tagging: Annotieren einzelner Terme mit Wortart

11Satzbauanalyse

Die Semantik wird hierbei zun¨achst außer Acht gelassen, respektive nur indirekt betrachtet. Bedeutung wird einzig ¨uber die Wortfrequenz modelliert. Von besonde-rer Relevanz sind dabei W¨orter, die h¨aufiger auftreten, als im Vergleich zu einem m¨oglichst ausgewogenen Referenzkorpus. Diese sind Indikatoren f¨ur das Thema des Textes.

Doch die absolute H¨aufigkeit allein ist kein verl¨assliches Anzeichen. So sind zum Beispiel deutschen Fließtexten die h¨aufigsten W¨orter

”der“,

”die“,

”und“,

”in“ sowie

”den“.¹² Diese, zwar h¨aufigen, aber wenig bedeutungstragenden W¨orter werden als Stoppw¨orter bezeichnet und werden meist in der weiteren Verarbeitung ignoriert.

3.1.1 Zipfverteilung

Die charakteristische Verteilung von W¨ortern in einem nat¨urlichsprachlichen Text ist die Zipfverteilung.

Nach absteigender H¨aufigkeit sortiert f¨allt auf: nur wenige W¨orter kommen sehr h¨aufig vor, aber der Großteil vergleichsweise selten. Eben dieser Zusammenhang liegt der Zipfverteilung zugrunde. Danach kann aus der Position in der Liste, also dem Rang eines Wortes, seine relative H¨aufigkeit gesch¨atzt werden.

Diser Zusammenhang zwischen Rang und Anzahl des Auftretens ist umgekehrt

proportional. In doppelt logarithmischer Darstellung bilden die H¨aufigkeiten n¨aherungsweise eine Gerade.¹³

Anwendung findet die Zipfverteilung unter anderem um n¨otige Textgr¨oßen ab-zusch¨atzen. Beispielsweise muss eine Wortformen f¨ur einige Untersuchungen mit ei-ner Mindestzahl auftreten. Der erforderliche Umfang des Textes kann so im Voraus bestimmt werden.

3.1.2 Kookkurrenzen

Die einfach H¨aufigkeitsanalyse betrachtet W¨orter isoliert; die innere Struktur eines Dokuments wird ignoriert.

Einen Schritt weiter geht die Kookkurrenzanalyse. Hierbei werden

”zwei[. . . ] oder mehrere[. . . ] W¨orter in einem Kontext von fest definierter Gr¨oße“¹⁴ untersucht.

Interessant sind besonders die Kookkurrenzen, bei denen die beiden W¨orter ¨uberzuf¨allig zusammen vorkommen. Denn das Auseinanderfallen von erwartetem und gez¨ahltem Auftreten wird als Indikator f¨ur einen starken semantischen Zusammenhang ge-wertet. Mittels Signifikanzmaß kann die St¨arke dieses Zusammenhangs ausgedr¨uckt werden. Das in der Literatur¹⁵ ¨ubliche Maß daf¨ur ist:

sig(A, B) =

13siehe Abschnitt 4.2, Abbildung 4

14LZ06, Glossar.

15HQW08, S. 139.

Dabei istλ definiert als:

λ = ab

n (2)

aund b sind jeweils die Anzahl der S¨atze (Positionen) die den Begriff A, respektive B, enthalten; n die Gesamtanzahl der S¨atze. Die Zahl der Kookkurrenzen, also der S¨atze, in denen A und B gemeinsam vorkommen, ist k.

F¨ur die so berechneten Signifikanzwerten, kann ein Schwellwert festgelegt werden.

Die signifkanten Kookkurrenzen bilden dann die Grundlage f¨ur das automatisierte Finden von Kollokationen.

Kollokationen sind nicht kompositionale¹⁶ Kookkurrenzen; die also aus mehr als der Summe der Einzelbedeutungen¹⁷ bestehen. Ein Beispiel hierf¨ur ist

” Blin-der Passagier“. Solche Zusammensetzungen ben¨otigen

”interpretierende Schritte“¹⁸. Eine automatisierte Verarbeitung ist dadurch nur schwer m¨oglich.

Kollokationen sind allerdings eher von linguistischem Interesse. Außerdem sind Leistungspositionen, wie sie dem Projekt zugrunde liegen, ¨uberlicherweise komposi-tional. Es werden explizit alle Eigenschaften eines Produktes aufgez¨ahlt, die es von Ahnlichen abgrenzen. Somit sollten Kookkurrenzen ausreichen, um die relevanten¨ sprachliche Muster zu entdecken.

Im Projekt conTEXT werden Kookkurrenzen zwischen zwei Termen betrachtet.

EinTermist dabei eine semantisch eigenst¨andige, zusammenh¨angende Zeichenket-te. Sie lassen sich einteilen in W¨orter, Zahlen, oder sonstige Folgen von Buchstaben, Ziffern und Sonderzeichen.

Zum einen werden Kookkurrenzen auf Termebene betrachtet, also als das ge-meinsames Vorkommen zweier eindeutiger Terme. Zum anderen in Hinblick auf die Termklasse des Nachbarn. Sind zum Beispiel links eines Wortes fast ausschließlich Zahlen zu finden, so kann dies eine physikalische Gr¨oße anzeigen. Dann ist diese Zahl im Positionsvergleich wichtiger als Andere, zum Beispiel herstellerinterne Ka-tegoriebezeichnungen.

Ein weitere m¨ogliche Anwendung sind Kookkurrenzen h¨oherer Ordnung. Dabei werden Terme gesucht, die zwar nicht direkt zusammen h¨aufig vorkommen, aber oftmals zusammen mit den gleichen Termen. So kommen zum Beispiel verschiedene Farben nicht als direkte Kookkurenz vor. Aber verschiedene Produkte haben gleiche Farbvarianten, so dass die gleichen Terme in verschiedenen Kontexten auftreten. Mit Hilfe der Kookkurrenzanalyse sollen solche Zusammenh¨ange entdeckt werden.

3.1.3 Clustering

Clustering-Verfahren dienen im Text Mining den gleichen Zweck wie beispielsweise im Data-Mining: eine Menge von Elementen in homogene Gruppen einzuteilen¹⁹. Da meist Dokumente gruppiert werden sollen, wird im Folgenden TF-IDF als typisches Verfahren erl¨autert.

16MS99, S. 151.

17Bub09, S. 115.

18Bub09, S. 113.

19HQW08, S. 196.

Das ¨ublicherweise relevante Cluster-Kriterium ist der Inhalt²⁰. Dokumente, die thematisch ¨ahnlich sind, sollen auch nah beieinander liegen. Daf¨ur wird jedes Do-kument durch einen Merkmalsvektor dargestellt, um dann deren Abstand mit be-kannten Cluster-Algorithmen zu bestimmen.

Wie wird nun der Inhalt eines Dokuments ermittelt? Dazu werden Schl¨usselw¨orter gesucht, die f¨ur den Text charakteristisch sind. Diese

”diskriminierende Merkmale“²¹ sind Terme, die in dem Dokument m¨oglichst h¨aufig, in Allen aber selten vorkom-men. Kandidaten daf¨ur k¨onnen mit Hilfe der H¨aufigkeitsverteilung ausgew¨ahlt wer-den. Die so bestimmten Terme aller Dokumente bilden dann die Dimensionen des Merkmalsvektors:

d_i = (w_i,1, w_i,2, w_i,3, . . . , w_i,n) (3) Die Auspr¨agungen w_m,i des Vektors folgen aus der Formel:

w_i,m = tf_i,m∗idf_i (4)

Dabei steht der Indexi f¨ur den Term und m f¨ur das Dokument.

Die Relevanz eines Terms f¨ur das jeweilige Dokument findet sich im ersten Faktor wieder. Diese sogenannte Termfrequenz (tf_i,m) errechnet sich aus der H¨aufigkeit, mit der der Termiim Dokument mvorkommt. Die absolute H¨aufigkeit ist aber nur begrenzt aussagekr¨aftig. Denn im Allgemeinen wird kein linearer Zusammenhang zwischen Anzahl und Relevanz angenommen wird. So w¨urden Merkmalsvektoren verzerrt, wenn nur infolge eines gr¨oßere Textumfangs die H¨aufigkeit eines Termes steigt. Daher wird die Termfrequenz normalisiert.

Ein Ansatz ist als relative H¨aufigkeit²² in Bezug auf die Summe aller absoluten H¨aufigkeiten der Dimensionsterme im Dokument.

ntf_i,m= tf_i,m

max_jtf_j,m (6)

ist die

”Normierung mittels Frequenz des h¨aufigsten Terms“²³.

In [MRS08] finden sich zwei weitere Normalisierungsmethoden. Zum einen durch Logarithmus:

ntf_i,m = 1 + log tf_i,m (7)

Zum anderen mit einen D¨ampfungsfaktora, um gr¨oßere Ausschl¨age innerhalb ntf_i,m zu vermeiden:

ntfi,m =a+ (1−a) tf_i,m

max_jtf_j,m (8)

a hat einen Wert zwischen 0 und 1, typisch²⁴ ist 0,4.

20Denkbar w¨are auch andere, wie zum Beispiel die Dokumentl¨ange

21HQW08, S. 202.

22HQW08, S. 203.

23HQW08, S. 203.

24MRS08, S. 127.

Der zweite Faktor, die inverse Dokumentenfrequenz (idf_i), verk¨orpert die Relevanz eines Terms in Hinblick auf alle Dokumente. Sie ergibt sich als

idf_i = log |d|

|d : ti ∈d| (9) Hier ist|d|die Gesamtanzahl der Dokument, respektive |d:t_i ∈d|die Zahl der Do-kumente, die den Termtienthalten. Terme, die nur in einem Dokument vorkommen, erhalten den gr¨oßtm¨oglichen Wert²⁵; die in allen vorhanden sind den Wert 0. Das korrespondiert mit der Absicht, Termen, die nur f¨ur das Dokument charakteristisch sind, mit einem gr¨oßeren Gewicht zu versehen.

Das Produkt aus Termfrequenz und inverser Dokumentenfrequenz weist jedem Term f¨ur jedes Dokument einen Wert zu. Aus diesen setzen sich die Merkmalsvekto-ren zusammen, mit denen der Abstand zwischen zwei Dokumenten bestimmt werden kann. Es bieten sich verschiedeneAhnlichkeitsmaße¨ ²⁶ an: das Skalarprodukt:

sim_Skal−→

Bei diesen Maßen steht ein hoher Wert f¨ur eine hohe ¨Ahnlichkeit zwischen den beiden Dokumenten.

Die euklidische Distanz hingegen ist einDistanzmaß. Hier steht ein kleiner Wert f¨ur große ¨Ahnlichkeit.

dist_Eukl−→ Ahnlichkeits- und Distanzmaße lassen sich aber ineinander ¨¨ uberf¨uhren²⁷, beispiels-weise ¨uber Die paarweise Abst¨ande zwischen allen Dokumenten bilden die Dokument-Dokument-Matrix. Diese bildet die Grundlage f¨ur bekannte Cluster-Verfahren wie

”k-Means, Support Vector Machines oder Kohonen Feature Maps“²⁸.

25MS99, S. 543.

26HQW08, S. 206.

27HQW08, S. 207.

28IAI11, S. 9.

Die Intention der Cluster-Verfahren gleicht dem Anliegen des Projekts: zu einem Element sollen m¨oglichst ¨ahnliche gefunden werden. Allerdings spricht eine Reihe von Gr¨unden gegen den Einsatz: TF-IDF ist ein recht simpler Ansatz, der Inhalt eines Dokuments findet sich nur in den ausgew¨ahlten Termen wieder. Homony-me, W¨orter mit unterschiedlicher Bedeutung aber gleicher Schreibweise, werden nicht unterschieden. Sollten zum Beispiel die W¨orter

”Baum“,

”Wurzel“,

”Blatt“,

”Ast“ und

”Daten“ als relevante Terme identifiziert werden, k¨onnten ein Text ¨uber Graphentheorie und eine forstwirtschaftliche Untersuchung zu nah beieinander an-geordnet werden. Synonyme, verschiedene W¨orter mit gleicher oder ¨ahnlicher Be-deutung, werden ebenfalls nicht identifiziert. Bei diesen beiden Problemen kann versucht werden, die Terme manuell zu bearbeiten, oder die Verzerrung ¨uber den Kontext auszugleichen. Speziell f¨ur das Projekt conTEXT ist TF-IDF ungeeignet, da Leistungspositionen einen zu geringen Textumfang haben, als dass angemessene Merkmalsvektoren nur mittels Termen aufgestellt werden k¨onnen. Außerdem ist es erkl¨artes Projektziel, sich von den unmittelbaren Termen zu l¨osen und die Bedeu-tung ¨uber andere Merkmal zu modellieren.

Trotzdem sollen Clusterverfahren im weiteren Verlauf eingesetzt werden. Jedoch werden nicht ganze Positionen miteinander verglichen, sondern nur einzelne Terme.

Im Dokument Praktikumsbericht HochschuleWismar (Seite 7-12)