Praktikumsbericht HochschuleWismar

(1)

Hochschule Wismar

Fakult¨ at Wirtschaftswissenschaften Wirtschaftsinformatik binational

Praktikumsbericht

Tobias Aagard Matrikelnummer 113716

tobias@aagard.net

¨

uber das abgeleistete Praktikum bei IAIB e.V.

Alter Holzhafen 17c 23966 Wismar

vom 20. Februar 2012 bis 11. Mai 2012

(2)

Einleitung

Texte verstehen kann jedes Schulkind. Doch was für den Menschen so einfach, ist für den Rechner ungleich schwieriger. Die Bedeutung einer Aussage in einem gegebenen Kontext zu neuem Wissen zu verarbeiten, ist eine äußerst komplexe Aufgabe.

Dies zu erreichen versucht Text Mining¹. Der Fokus liegt hierbei ¨uberlicherweise auf nat¨urlichsprachlichen Fließtexten. Ungrammatische Texte werden kaum untersucht.

Hier liegt der Schwerpunkt des Projektes conTEXT des IAIB: Leistungspositio- nen, wie sie zum Beispiel in Lieferscheinen vorkommen, sollen miteinander verglichen werden.

Inhalt des Praktikums waren die Datenvorverarbeitung und Aufbereitung sowie Text Mining Verfahren zu recherchieren.

1HR06.

(3)

Inhaltsverzeichnis

Abbildungsverzeichnis 3

Tabellenverzeichnis 4

1 Kurzportrait IAIB e.V. 5

2 Praktikumsaufgabe 5

2.1 conTEXT . . . 5

2.2 Text Mining . . . 6

2.3 Vorgehen . . . 6

3 Text Mining 6 3.1 Sprachstatistik . . . 6

3.1.1 Zipfverteilung . . . 7

3.1.2 Kookkurrenzen . . . 7

3.1.3 Clustering . . . 8

3.2 Musteranalyse . . . 11

4 H¨aufigkeitsanalysen 11 4.1 Vorverarbeitung / Termgrenzen . . . 12

4.1.1 W¨orter . . . 12

4.1.2 Zahlen . . . 13

4.1.3 Kombinationen . . . 13

4.2 Zipfverteilung . . . 14

5 Kookkurrenzen 16 5.1 Signifikanz . . . 16

5.2 Semantisches Clustern von Termen . . . 17

5.3 Termklassen . . . 19

6 Ergebnisse 19

A Anhang 21

Literatur 28

(4)

Abbildungsverzeichnis

1 H¨aufigkeitsverteilung der Terme nach Lieferant . . . 15

2 Verteilung der Signifikanzwerte bei Termabstand 1 . . . 17

3 Terme in Relation zu Kookkurrenten . . . 18

4 Verteilung der Terme ¨uber alle Lieferanten in doppellogarithmischer Darstellung . . . 21

5 Verteilung der Terme ¨uber alle Lieferanten in logarithmischer Dar- stellung . . . 21

6 H¨aufigkeitsverteilung der Termanzahl aller Positionen . . . 23

7 Verteilung der Termklassen nach Lieferant . . . 24

8 Verteilung der Signifikanzwerte nach Abstand . . . 26

9 Kookkurrenzen zum Term ”anschlussbogen“ . . . 27

(5)

Tabellenverzeichnis

1 Termanzahl nach Klassen über alle Lieferanten . . . 14 2 Matrix der Termvektoren ti mit den Dimensionen dj . . . 18 3 Die ersten zehn Ränge der Häufigkeitsverteilung nach Lieferant . . . . 22 4 Ausgewählte Ränge der Häufigkeitsverteilung über alle Lieferanten . . 23 5 Anzahl der Kookurrenzen nach Abstand über alle Lieferanten . . . . 24 6 Die fünf signifikantesten Kookkurrenz nach Termabstand . . . 25

(6)

1 Kurzportrait IAIB e.V.

Das Institut f¨ur angewandte Informatik im Bauwesen e. V. ist ein Forschungs- und Entwicklungsinstitut mit Sitz im Technologie- und Forschungszentrum am Wismarer Hafen. Das Leistungsspektrum des An-Instituts der Hochschule Wismar umfasst Studien, Gutachten, Schulungen und Forschungsprojekte auf dem Gebiet Geb¨aude- energieeffizienz.

Die Forschungsschwerpunkte sind intelligente Steuer- und Regelungsverfahren für Gebäudetechnik und Betriebsfehlerüberwachung Gebäudetechnischer Anlagen.

Seit kurzem werden auch Verfahren zur kontextsensitiven Textanalyse untersucht.

Besonderes Augenmerk liegt dabei auf Dokumenten aus dem ingenieurtechnischen Gebiet.

2 Praktikumsaufgabe

Aktuell f¨uhrt das IAIB unter anderem das Projekt

”conTEXT“ durch. Im Rah- men dieses Projektes stellt sich die Praktikumsaufgabe als

”Datenaufbereitung und Vorverarbeitung ungrammatischer Datens¨atze“. Es gilt, Text Mining Verfahren und Methoden zu recherchieren und auf deren Verwendbarkeit zu untersuchen.

2.1 conTEXT

conTEXT ist

”[e]in Verfahren f¨ur den automatischen Abgleich von Leistungsposi- tionen in ERP-Systemen“.²

Im Verlaufe eines Projektes eines mittelst¨andischen Unternehmens fallen verschieden Dokumente mit prinzipiell gleichen Leistungspositionen an. Angebot, Be- stellung, Rechnung und Lieferschein sollen die gleichen Inhalte haben. Allerdings nennen verschiedene H¨andler gleiche Produkt anders, oder belegen unterschiedliche Produkte mit gleichen Begriffen. Auch kann eine Positionen in anderen Dokumente auf mehrere Positionen verteilt worden sein.

Der inhaltliche Abgleich zwischen den Dokumenten erfolgt bisher manuell; und ist dementsprechend fehleranf¨allig und zeitintensiv. ConTEXT zielt darauf ab, diesen Abgleich zu teilautomatisieren: zu einer gegebenen Positionen sollen m¨oglichst

¨

ahnliche Positionen gefunden, und dem Nutzer zur Zuordnung empfohlen werden.

Es soll die

”Ahnlichkeit von Textabschnitten [. . . ] hinsichtliche ihres Inhaltes und¨ unabh¨angig vom [. . . ] Wortlaut berechne[t]“³ werden.

Das Verfahren soll in möglichst vielen Domänen anwendbar sein. Deswegen sind Annahmen über Inhalt weitestgehend zu vermeiden. Die Semantik der Positionen wird darum ausschließlich über deren Syntax modelliert.

Dafür ist ein Merkmalsvektor für Texte zu definieren. Darauf aufbauend kann mit einem, ebenfalls zu entwickelnden Distanzmaß die Ähnlichkeit zweier Texte bestimmt werden.

2IAI11.

3IAI11.

(7)

2.2 Text Mining

Zur Definition des Merkmalsvektors werden unter anderem Verfahren des Text Mi- nings untersucht.

Text Mining ist der

”weitgehend automatisierte[. . . ] Prozess“⁴, neue

”relevante Informationen“⁵ aus textuellen Daten zu gewinnen. Die

’relevanten Informationen‘

ergeben sich aus dem jeweiligen Anwendungsfall: zu einem gegeben Begriff relevante Dokumente finden, inhaltlich ¨ahnliche Dokumente clustern, Texte automatisch zusammenfassen.

Nach [KK11] umfasst Text Mining dabei die

”Teilbereiche Information Retrieval, Text Clustering, Textklassifikation und Informationsextraktion“.

Text Mining ist mit der Disziplin des Data Mining verwandt. Diese hat aber mit strukturierten Daten einen anderen Untersuchungsgegenstand: Daten liegen im Data Mining als

”atomare Werte“⁶ vor. Text Mining hingegen basiert auf schwach oder unstrukturierte Daten.

2.3 Vorgehen

Im Projekt conTEXT liegen die Daten als ungrammatische⁷ Texte vor. Dadurch sind linguistische Verfahren nicht anwendbar, wie zum Beispiel⁸ Stemming⁹, PoS- Tagging¹⁰ oder Parsing¹¹. Statt dessen werden gr¨oßtenteils statistische Verfahren eingesetzt.

Daraus leitete sich das Vorgehen während des Praktikums ab: zuerst wurden verschiedene Text Mining Verfahren recherchiert, dann deren Eignung für das Projekt experimentell geprüft.

3 Text Mining

In Anlehnung an [HQW08] lassen sich Text Mining Methoden in zwei Klassen teilen:

statistische und musterbasierte Verfahren.

3.1 Sprachstatistik

Das unmittelbar messbare Merkmal eines Textes ist die Häufigkeitsverteilung einzelner Wörter. Die innere Struktur des Textes wird ignoriert; nur die Anzahl der Wörter ist entscheidend. Daher wird dieser Ansatz auch als

”Bag Of Words“ bezeichnet.

4HR06.

5HQW08, S. 4.

6HR06.

7im linguistischen Sinne

8HR06.

9R¨uckf¨uhren auf Stammform

”gesehen“→

”sehen“

10Part-of-Speech-Tagging: Annotieren einzelner Terme mit Wortart

11Satzbauanalyse

(8)

Die Semantik wird hierbei zunächst außer Acht gelassen, respektive nur indirekt betrachtet. Bedeutung wird einzig über die Wortfrequenz modelliert. Von besonde- rer Relevanz sind dabei Wörter, die häufiger auftreten, als im Vergleich zu einem möglichst ausgewogenen Referenzkorpus. Diese sind Indikatoren für das Thema des Textes.

Doch die absolute Häufigkeit allein ist kein verlässliches Anzeichen. So sind zum Beispiel deutschen Fließtexten die häufigsten Wörter

”der“,

”die“,

”und“,

”in“ sowie

”den“.¹² Diese, zwar häufigen, aber wenig bedeutungstragenden Wörter werden als Stoppwörter bezeichnet und werden meist in der weiteren Verarbeitung ignoriert.

3.1.1 Zipfverteilung

Die charakteristische Verteilung von W¨ortern in einem nat¨urlichsprachlichen Text ist die Zipfverteilung.

Nach absteigender Häufigkeit sortiert fällt auf: nur wenige Wörter kommen sehr häufig vor, aber der Großteil vergleichsweise selten. Eben dieser Zusammenhang liegt der Zipfverteilung zugrunde. Danach kann aus der Position in der Liste, also dem Rang eines Wortes, seine relative Häufigkeit geschätzt werden.

Diser Zusammenhang zwischen Rang und Anzahl des Auftretens ist umgekehrt

proportional. In doppelt logarithmischer Darstellung bilden die H¨aufigkeiten n¨aherungsweise eine Gerade.¹³

Anwendung findet die Zipfverteilung unter anderem um nötige Textgrößen ab- zuschätzen. Beispielsweise muss eine Wortformen für einige Untersuchungen mit einer Mindestzahl auftreten. Der erforderliche Umfang des Textes kann so im Voraus bestimmt werden.

3.1.2 Kookkurrenzen

Die einfach H¨aufigkeitsanalyse betrachtet W¨orter isoliert; die innere Struktur eines Dokuments wird ignoriert.

Einen Schritt weiter geht die Kookkurrenzanalyse. Hierbei werden

”zwei[. . . ] oder mehrere[. . . ] W¨orter in einem Kontext von fest definierter Gr¨oße“¹⁴ untersucht.

Interessant sind besonders die Kookkurrenzen, bei denen die beiden Wörter überzufällig zusammen vorkommen. Denn das Auseinanderfallen von erwartetem und gezähltem Auftreten wird als Indikator für einen starken semantischen Zusammenhang ge- wertet. Mittels Signifikanzmaß kann die Stärke dieses Zusammenhangs ausgedrückt werden. Das in der Literatur¹⁵ übliche Maß dafür ist:

sig(A, B) =

−log

1−e^−λ

k−1

P

i=0 1 i!λⁱ

logn (1)

12HQB12.

13siehe Abschnitt 4.2, Abbildung 4

14LZ06, Glossar.

15HQW08, S. 139.

(9)

Dabei istλ definiert als:

λ = ab

n (2)

aund b sind jeweils die Anzahl der Sätze (Positionen) die den Begriff A, respektive B, enthalten; n die Gesamtanzahl der Sätze. Die Zahl der Kookkurrenzen, also der Sätze, in denen A und B gemeinsam vorkommen, ist k.

F¨ur die so berechneten Signifikanzwerten, kann ein Schwellwert festgelegt werden.

Die signifkanten Kookkurrenzen bilden dann die Grundlage f¨ur das automatisierte Finden von Kollokationen.

Kollokationen sind nicht kompositionale¹⁶ Kookkurrenzen; die also aus mehr als der Summe der Einzelbedeutungen¹⁷ bestehen. Ein Beispiel hierf¨ur ist

”Blin- der Passagier“. Solche Zusammensetzungen ben¨otigen

”interpretierende Schritte“¹⁸. Eine automatisierte Verarbeitung ist dadurch nur schwer m¨oglich.

Kollokationen sind allerdings eher von linguistischem Interesse. Außerdem sind Leistungspositionen, wie sie dem Projekt zugrunde liegen, ¨uberlicherweise komposi- tional. Es werden explizit alle Eigenschaften eines Produktes aufgez¨ahlt, die es von Ahnlichen abgrenzen. Somit sollten Kookkurrenzen ausreichen, um die relevanten¨ sprachliche Muster zu entdecken.

Im Projekt conTEXT werden Kookkurrenzen zwischen zwei Termen betrachtet.

EinTermist dabei eine semantisch eigenständige, zusammenhängende Zeichenket- te. Sie lassen sich einteilen in Wörter, Zahlen, oder sonstige Folgen von Buchstaben, Ziffern und Sonderzeichen.

Zum einen werden Kookkurrenzen auf Termebene betrachtet, also als das ge- meinsames Vorkommen zweier eindeutiger Terme. Zum anderen in Hinblick auf die Termklasse des Nachbarn. Sind zum Beispiel links eines Wortes fast ausschließlich Zahlen zu finden, so kann dies eine physikalische Gr¨oße anzeigen. Dann ist diese Zahl im Positionsvergleich wichtiger als Andere, zum Beispiel herstellerinterne Ka- tegoriebezeichnungen.

Ein weitere mögliche Anwendung sind Kookkurrenzen höherer Ordnung. Dabei werden Terme gesucht, die zwar nicht direkt zusammen häufig vorkommen, aber oftmals zusammen mit den gleichen Termen. So kommen zum Beispiel verschiedene Farben nicht als direkte Kookkurenz vor. Aber verschiedene Produkte haben gleiche Farbvarianten, so dass die gleichen Terme in verschiedenen Kontexten auftreten. Mit Hilfe der Kookkurrenzanalyse sollen solche Zusammenhänge entdeckt werden.

3.1.3 Clustering

Clustering-Verfahren dienen im Text Mining den gleichen Zweck wie beispielsweise im Data-Mining: eine Menge von Elementen in homogene Gruppen einzuteilen¹⁹. Da meist Dokumente gruppiert werden sollen, wird im Folgenden TF-IDF als typisches Verfahren erl¨autert.

16MS99, S. 151.

17Bub09, S. 115.

18Bub09, S. 113.

19HQW08, S. 196.

(10)

Das üblicherweise relevante Cluster-Kriterium ist der Inhalt²⁰. Dokumente, die thematisch ähnlich sind, sollen auch nah beieinander liegen. Dafür wird jedes Do- kument durch einen Merkmalsvektor dargestellt, um dann deren Abstand mit bekannten Cluster-Algorithmen zu bestimmen.

Wie wird nun der Inhalt eines Dokuments ermittelt? Dazu werden Schlüsselwörter gesucht, die für den Text charakteristisch sind. Diese

”diskriminierende Merkmale“²¹ sind Terme, die in dem Dokument möglichst häufig, in Allen aber selten vorkommen. Kandidaten dafür können mit Hilfe der Häufigkeitsverteilung ausgewählt werden. Die so bestimmten Terme aller Dokumente bilden dann die Dimensionen des Merkmalsvektors:

d_i = (w_i,1, w_i,2, w_i,3, . . . , w_i,n) (3) Die Auspr¨agungen w_m,i des Vektors folgen aus der Formel:

w_i,m = tf_i,m∗idf_i (4)

Dabei steht der Indexi f¨ur den Term und m f¨ur das Dokument.

Die Relevanz eines Terms für das jeweilige Dokument findet sich im ersten Faktor wieder. Diese sogenannte Termfrequenz (tf_i,m) errechnet sich aus der Häufigkeit, mit der der Termiim Dokument mvorkommt. Die absolute Häufigkeit ist aber nur begrenzt aussagekräftig. Denn im Allgemeinen wird kein linearer Zusammenhang zwischen Anzahl und Relevanz angenommen wird. So würden Merkmalsvektoren verzerrt, wenn nur infolge eines größere Textumfangs die Häufigkeit eines Termes steigt. Daher wird die Termfrequenz normalisiert.

Ein Ansatz ist

ntf_i,m = tf_i,m P

tj∈dm

tfj,m

(5) als relative H¨aufigkeit²² in Bezug auf die Summe aller absoluten H¨aufigkeiten der Dimensionsterme im Dokument.

ntf_i,m= tf_i,m

max_jtf_j,m (6)

ist die

”Normierung mittels Frequenz des h¨aufigsten Terms“²³.

In [MRS08] finden sich zwei weitere Normalisierungsmethoden. Zum einen durch Logarithmus:

ntf_i,m = 1 + log tf_i,m (7)

Zum anderen mit einen Dämpfungsfaktora, um größere Ausschläge innerhalb ntf_i,m zu vermeiden:

ntfi,m =a+ (1−a) tf_i,m

max_jtf_j,m (8)

a hat einen Wert zwischen 0 und 1, typisch²⁴ ist 0,4.

20Denkbar w¨are auch andere, wie zum Beispiel die Dokumentl¨ange

21HQW08, S. 202.

22HQW08, S. 203.

23HQW08, S. 203.

24MRS08, S. 127.

(11)

Der zweite Faktor, die inverse Dokumentenfrequenz (idf_i), verk¨orpert die Relevanz eines Terms in Hinblick auf alle Dokumente. Sie ergibt sich als

idf_i = log |d|

|d : ti ∈d| (9) Hier ist|d|die Gesamtanzahl der Dokument, respektive |d:t_i ∈d|die Zahl der Do- kumente, die den Termtienthalten. Terme, die nur in einem Dokument vorkommen, erhalten den größtmöglichen Wert²⁵; die in allen vorhanden sind den Wert 0. Das korrespondiert mit der Absicht, Termen, die nur für das Dokument charakteristisch sind, mit einem größeren Gewicht zu versehen.

Das Produkt aus Termfrequenz und inverser Dokumentenfrequenz weist jedem Term f¨ur jedes Dokument einen Wert zu. Aus diesen setzen sich die Merkmalsvekto- ren zusammen, mit denen der Abstand zwischen zwei Dokumenten bestimmt werden kann. Es bieten sich verschiedeneAhnlichkeitsmaße¨ ²⁶ an: das Skalarprodukt:

sim_Skal−→ d_i−→

d_j

=

n

X

k=1

(w_k,i·w_k,j) (10)

oder das Cosinus-Maß:

simCos

−→ di

−

→dj

=

n

P

k=1

(w_k,i·w_k,j) s n

P

k=1

(w_k,i)²· s n

P

k=1

(w_k,j)²

(11)

Bei diesen Maßen steht ein hoher Wert f¨ur eine hohe ¨Ahnlichkeit zwischen den beiden Dokumenten.

Die euklidische Distanz hingegen ist einDistanzmaß. Hier steht ein kleiner Wert f¨ur große ¨Ahnlichkeit.

dist_Eukl−→ d_i−→

d_j

= v u u t

n

X

k=1

(w_k,i−w_k,j)² (12) Ahnlichkeits- und Distanzmaße lassen sich aber ineinander ¨¨ uberf¨uhren²⁷, beispielsweise ¨uber

sim−→ d_i−→

d_j

= 1

dist−→ d_i−→

d_j + 1

(13) Die paarweise Abst¨ande zwischen allen Dokumenten bilden die Dokument-Dokument- Matrix. Diese bildet die Grundlage f¨ur bekannte Cluster-Verfahren wie

”k-Means, Support Vector Machines oder Kohonen Feature Maps“²⁸.

25MS99, S. 543.

26HQW08, S. 206.

27HQW08, S. 207.

28IAI11, S. 9.

(12)

Die Intention der Cluster-Verfahren gleicht dem Anliegen des Projekts: zu einem Element sollen möglichst ähnliche gefunden werden. Allerdings spricht eine Reihe von Gründen gegen den Einsatz: TF-IDF ist ein recht simpler Ansatz, der Inhalt eines Dokuments findet sich nur in den ausgewählten Termen wieder. Homony- me, Wörter mit unterschiedlicher Bedeutung aber gleicher Schreibweise, werden nicht unterschieden. Sollten zum Beispiel die Wörter

”Baum“,

”Wurzel“,

”Blatt“,

”Ast“ und

”Daten“ als relevante Terme identifiziert werden, könnten ein Text über Graphentheorie und eine forstwirtschaftliche Untersuchung zu nah beieinander angeordnet werden. Synonyme, verschiedene Wörter mit gleicher oder ähnlicher Be- deutung, werden ebenfalls nicht identifiziert. Bei diesen beiden Problemen kann versucht werden, die Terme manuell zu bearbeiten, oder die Verzerrung über den Kontext auszugleichen. Speziell für das Projekt conTEXT ist TF-IDF ungeeignet, da Leistungspositionen einen zu geringen Textumfang haben, als dass angemessene Merkmalsvektoren nur mittels Termen aufgestellt werden können. Außerdem ist es erklärtes Projektziel, sich von den unmittelbaren Termen zu lösen und die Bedeu- tung über andere Merkmal zu modellieren.

Trotzdem sollen Clusterverfahren im weiteren Verlauf eingesetzt werden. Jedoch werden nicht ganze Positionen miteinander verglichen, sondern nur einzelne Terme.

3.2 Musteranalyse

Die Voraussetzung f¨ur den Einsatz von musterbasierten Verfahren ist eine große Regelm¨aßigkeit in der Sprache.

Dies ist in der deutschen Allgemeinsprache, durch die vielen Sonderf¨alle und Ausnahmen, nicht gegeben. Fachsprachen jedoch besitzen meist

”spezielle Wortbil- dungsmuster“²⁹. Das ermöglicht den Einsatz regulärer Ausdrücke, um zum Beispiel Fachtermini aus Texten zu extrahieren. In syntaktisch annotierten³⁰ Texten kann nach festen Wendungen³¹ gesucht werden.

Im Projekt sind die Voraussetzungen nicht gegeben. Allerdings werden reguläre Ausdrücke in der Vorverarbeitung der Leistungspositionen eingesetzt. Genaueres ist in Abschnitt 4.1 aufgeführt.

4 H¨ aufigkeitsanalysen

Die in Kapitel 3 vorgestellten Methode wurden nun auf realen Daten angewendet.

Es wurden die Produktkataloge von vier verschiedenen Lieferanten für Heizungs-, Lüftungs- und Sanitärtechnik benutzt. Beispiele für Positionen sind:

• tuer m.f.seg.m.sw cosima tg re.Uebergroesse rund esg matt pflegepx gr.b chrom vigour

29HQW08, S. 238.

30PoS-Tagging, Bsp:

”Das [ART] Kind [NOMEN] schl¨aft [VERB].“

31siehe auch: Abschnitt 3.1.2, Kollokationen

(13)

• innengewindemuffe pe 25mm x 1/2?

m.gfk-verstaerkt.haltemut.z.stumpfschw.

• sur rauchrohrbogen schwarz 2mm 130mm gesch.45grad m.tuer pulverbesch.b.650grad

• ju gasart-umbausatz 23>31 fuer zwbr 8-37a > zwbr 11-37a

• kugelhahnhalterung typ175-7/275-7 dn25

An einer kleinen Stichprobe wurde die erste Schwierigkeit deutlich: die Positionen bestehen nicht nur aus Wörtern und Zahlen. Es wurden unregelmäßige Bezeichnungen verwendet wiePlattenhkörper,m.kombi-abdeckpl.,w250..s0201ta,ta1 oderstiftl.kfz.m.rastf..

Weiterhin traten Formatierungsartefakte auf. So wurde m² zu m2 oder Leerzei- chen, die beispielsweise Zahlen von Einheiten trennen, gingen beim Konvertieren verloren.

Um die Daten automatisiert zu verarbeiten, war somit eine Datenaufbereitung n¨otig. Es galt, die Zeichenketten in einzelne Terme zu trennen.

4.1 Vorverarbeitung / Termgrenzen

Vor jeglicher weiteren Verarbeitung wurden die Daten ges¨aubert. So wurde alles klein geschrieben, einige Sonderzeichen entfernt und Umlaute ersetzt. Außerdem wurden alle Kommata entfernt, die nicht zwischen zwei Ziffern standen.

Um die Termgrenzen festzulegen wurden inkrementell regul¨are Ausdr¨ucke entwi- ckelt.

4.1.1 W¨orter

Es wird nicht gefordert, dass alle als

”Wort“ identifizierten Terme auch tats¨achlich lexikalische W¨orter sind.

”Wort“ ist in diesem Zusammenhang eher als Abgrenzung zu Zahlen und sonstigen Termen zu verstehen.

Der unmittelbare Ansatz W¨orter zu identifizieren, sind Zeichenketten, die nur aus Buchstaben bestehen. Sie setzen sich zusammen aus einer nichtleeren Folge von Buchstaben und sind eingeschlossen von Leerzeichen, Zeilenanfang oder -ende.

sed ’s/$ \|ˆ$$[a-z]\+$$ \|$$/ \2 /g’

Beispiele sind steckmuffeoder verzinkt

Einige W¨orter haben Interpunktionszeichen am Anfang oder Ende. Diese Zei- chenketten sollen auch als W¨orter erkannt werden; jedoch nur mitmaximal einem Interpunktionszeichen als Affix.

sed ’s/$ˆ\| $[[:punct:]]\?$[a-z]\+$[[:punct:]]\?

$ \|$$/ \2 /g’

Hier finden sich Terme wie inliner:, steckanschl. oder(abgasrohr)

(14)

Schließlich sind noch W¨orter vorhanden, die nur durch Interpunktion getrennt sind, und nicht durch Leerzeichen. Deshalb wurde erst Interpunktion zwischen Buchstabenentfernt, und dann die W¨orter einzeln identifiziert.

sed ’s/$[a-z]$[[:punct:]]$[a-z]$/\1 \2/g’

sed ’s/$ˆ\| $[[:punct:]]\?$[a-z]\+$[[:punct:]]\?

$ \|$$/ \2 /g’

4.1.2 Zahlen

Analog zu den W¨ortern ist der erste Versuch, Zahlen zu finden, Zeichenketten, die nur aus Ziffernbestehen.

sed ’s/$ \|ˆ$$[0-9]\+$$ \|$$/ \2 /g’

Terme wie30,12000 oder 90wurden damit gefunden

Der n¨achste Schritt ist das Einbeziehen von Dezimaltrennzeichen. Nach einer nichtleeren Folge von Ziffern kann ein Punkt oder Komma stehen, muss dann aber vonmindestens einer Ziffer gefolgt werden.

sed ’s/$ \|ˆ$$[0-9]\+$$[.,][0-9]\+$\?$ \|$$ / \1\2 /g’

Beispiele daf¨ur sind35.8, 1.4301 und 21,23.

Semantisch zur Zahl gehören auchVorzeichen. Diese können, müssen aber nicht vorhanden sein.

sed ’s/$ \|ˆ$$[+-]\?[0-9]\+$$[.,][0-9]\+$\?$ \|$$ / \2\3 /g’

Damit wurden auch Terme wie-476,+180und+19,99als Zahlen identifiziert.

Wie auch bei den W¨ortern, k¨onnen nach den Zahlen Interpunktionszeichen vorkommen. Diese wurde mit dem folgenden Ausdruck entfernt.

sed ’s/$ˆ\| $$[+-]\?[0-9]\+$$[.,][0-9]\+$\?

[[:punct:]]\?$ \|$$/ \2\3 /g’

4.1.3 Kombinationen

W¨orter und Zahlen werden bisher nur erkannt, wenn Sie von Leerzeichen oder Zei- lenenden umgeben sind. Allerdings kommen sie auch in Verbindungen vor, teilweise durch Interpunktion getrennt.

Wort-Zahl-Kombinationen finden sich zum Beispiel bei Normen oder anderen Typ-Bezeichnungen. Identifiziert werden sie mit:

sed ’s/$ˆ\| $$[a-z]\+$$[[:punct:]]$\?

$[+-]\?[0-9]\+$$[.,][0-9]\+$\?$[[:punct:]]\?$$ \|$$ / \2 \4\5 /g’

Damit gefunden werden Termkombinationen wiehandtuchhaken-3,jz-001.000 und pe-100.

Zahl-Wort-Kombinationen sind zum ¨uberweigenden Teil physikalische Gr¨oßen.

In ihre Bestandteile zerlegt werden sie mittels

(15)

sed ’s/$ˆ\| $$[+-]\?[0-9]\+$$[.,][0-9]\+$\?

$[[:punct:]]\?$$[a-z]\+$$[[:punct:]]\?$$ \|$$ / \2\3 \5 /g’

Verbindungen wie+1200gr,-55cmund-460lkwerden damit identifiziert und zerlegt.

Zwei Zahlen hintereinander stehen meist f¨ur Bereiche oder Abmessungen. Ge- trennt werden sie durchInterpunktion oder denBuchstaben

”x“.

sed ’s/$ˆ\| $$[+-]\?[0-9]\+$$[.,][0-9]\+$\?

$[[:punct:]x]$ $[+-]\?[0-9]\+$$[.,][0-9]\+$\?

[[:punct:]]\?$ \|$$ / \2\3 \5\6 /g’

Beispiele sind 600x1800, 500/1200, 110-280, 0.75/80 oder15x1.15.

Weiterhin treten noch zwei oder drei Zahlen mit anschließendem Wort auf. Auch dies sind gew¨ohnlich Maße.

Termklasse Anzahl W¨orter 90.509 Zahlen 51.829 Sonstige 167.836

Tabelle 1: Termanzahl nach Klassen ¨uber alle Lieferanten

Insgesamt wurden aus 1.350.664 Positionen 310.174 Terme identifiziert.

Nachdem die Positionen in Terme zerlegt worden sind, konnte die H¨aufigkeitsverteilung ermittelt werden.

4.2 Zipfverteilung

In Abbildung 1 sind die H¨aufigkeitsverteilungen der Terme nach Lieferant abgebil- det.

Obwohl die Daten ungrammatisch sind, ist die f¨ur die Zipf-Verteilung typische Ge- rade in der doppeltlogarithmischen Darstellung zu erkennen. Die H¨aufigkeitsverteilung

¨uber alle Lieferanten approximiert ebenfalls die Gerade³². Der h¨aufigste Term bei allen Lieferanten ist

”mm“³³.

Dies ¨uberrascht nicht in Hinblick auf den Datenursprung. Zudem wurde eben gerade versucht, die physikalische Einheiten von den Maßzahlen zu trennen.

In den nächsten Rängen sind einzelne Ziffern und Buchstaben. Auch diese lassen sich durch die Quelle der Daten erklären. So werden Abmaße teilweise mit

”x“ von- einander getrennt; oder es finden sich Angaben wie

”bt“ (Breite×Tiefe). Genormte Rohrgr¨oßen werden als

”dnX“ angegeben, wobei

”X“ f¨ur eine Zahl steht.

Weitere ausgewählte Ränge sind in Tabelle 4 aufgeführt.

32siehe Abbildung 4

33siehe Tabelle 3

(16)

Abbildung 1: H¨aufigkeitsverteilung der Terme nach Lieferant

(17)

Der Rang dieser Terme erschließt sich oft nur mit anwendungsbezogenem Wissen.

Ob weitere Formalismen wie Norm- oder Typbezeichnungen vorhanden sind, kann mit der Kookkurrenzanalyse ermittelt werden.

5 Kookkurrenzen

Das für eine erste Auswertung relevante Fenster wurde auf einen maximalen Ab- stand von fünf Termen festgelegt, da vor allem lokale Zusammenhänge interessieren.

Außerdem entspricht dieses Betrachtungsfenster in etwa der mittleren L¨ange aller Positionen, welche bei 9,73 Termen liegt. Eine Verteilung der Positionsl¨angen findet sich in Diagramm 6.

Es wurden nur rechte Nachbarn extrahiert, da sich korrespondierende linke Nach- barn durch Vertauschen ergeben.

Durch diesen Schritt wurde der Aufwand halbiert. In Anbetracht der Anzahl der auftretenden Kookkurrenzen (vgl. Tabelle 5) ergeben sich daraus bedeutsame Effizienzsteigerungen.

Die erwartete Anzahl der Kookkurrenzen ergab sich aus:

k(d) =X

i=1

max (0;ni(i−d)) (14)

Dabei istd der Termabstand und n_i die Anzahl der Positionen mit L¨ange i.

Bei welchen Kookkurrenzen sich eine genauere Betrachtung lohnt, wird ¨uber den Signifikanzwert ermittelt.

5.1 Signifikanz

Die f¨unf signifikantesten Kookkurrenzen aus jedem Datensatz sind in Tabelle 6 aufgef¨uhrt.

Da in der Formel aus Abschnitt 3.1.2 die Reihenfolge der beiden Terme irrele- vant ist, wurde auch hier nur mit den rechten Nachbarn gerechnet. Auch hier sind entsprechende linke Nachbarn durch Vertauschen zu ermitteln.

F¨ur den Termabstand 1, also direkte Nachbarn, ergibt die Verteilung der Signifi- kanzwerte das Diagramm 2.

Um die Größenordnungen zu vergleichen, wurde die logarithmische Darstellung gewählt. Dadurch fehlen die Werte kleiner gleich 0 in der Abbildung. Auffällig ist, dass nur ein kleiner Teil der Kookkurrenzen über einem Signifikanzwert von 1 liegt (14,13%), zwischen 0 und 1 aber mit 71,34% die Mehrheit. Ein möglicher Grund ergibt sich aus dem Verhältnis der möglichen und tatsächlichen Termpaare. 310.174 verschieden Terme kommen vor, somit sind 9,6×10¹⁰ Paare möglich. Da aber mit 0,0013% aller mögliche Kookkurrenzen nur ein Bruchteil tatsächlich vorkommt, ist durch Vorhandensein einer Kookkurrenz automatisch eine gewissen Relevanz zuzu- messen.

Die Termanzahl hat keinen direkten Einfluss auf die Signifikanz. Aber bei weitgehend konstanter Verteilung der Positionsl¨angen ist Positionsanzahl proportional

(18)

Abbildung 2: Verteilung der Signifikanzwerte bei Termabstand 1

zur Anzahl der Kookkurrenzen³⁴. Somit l¨asst sich ein indirekter Zusammenhang zwischen Termanzahl und Anzahl der Kookkurrenzen und somit der Signifikanz einzelner Kookkurrenzen finden.

Die anderen Termabst¨ande ergeben ein ¨ahnliches Bild³⁵. In Abbildung 9 sind die Kookkurrenzen zum Term

”anschlussbogen“ dargestellt.

Es stellt sich die Frage, ob semantisch ¨ahnliche Begriffe ¨ahnliche Kookkurrenzen haben. Kann man also anhand ausreichender Signifikanzwerte als Merkmalsvektor auf die Bedeutung einzelner Terme schließen³⁶?

5.2 Semantisches Clustern von Termen

Zuerst ist der Merkmalsvektor zu definieren: Ein Term könnte in Relation zu allen vorhandenen Termen betrachtet werden. Dies ist aber in Anbetracht der zu erwar- tenden Matrixgröße vorerst nicht empfehlenswert. Dieses Problem wäre durch eine Reduktion der Dimensionen, wie zum Beispiel mit der Hauptkomponentenanalyse, noch lösbar. Aber die Vergleichbarkeit zwischen verschiedenen Datensätzen ist nicht gewährleistet. Da verschiedene Lieferanten verschieden Vokabulare nutzen, hätten die Vektoren unterschiedliche Dimensionen.

Erfolg versprechender ist, die Terme zu verwenden, die in allen Datens¨atze der

34vgl. Formel 14

35vgl. Abbildung 8

36HQW08, vgl. S. 209 ff.

(19)

verschieden Lieferanten vorkommen. DiesesGemeinsame Vokabularbildet somit die Dimensionen des Vektors.

Eine m¨ogliche Fehlerquelle ist, dass Terme in mehreren Bedeutungen verwendet werden. Dies kann sowohl innerhalb eines Datensatzes, als auch zwischen Ver- schiedenen auftreten. Allerdings sind im Anwendungskontext jedoch kaum bis keine Ambiguit¨aten zu erwarten, oder meist manuell zu beheben. Dadurch kann diese Fehlerquelle weitgehend ausgeschlossen werden.

d₁ d₂ d₃ . . . d_n

t₁ sig(t₁, d₁) sig(t₁, d₂) sig(t₁, d₃) . . . sig(t₁, d_n) t₂ sig(t₂, d₁) sig(t₂, d₂) sig(t₂, d₃) . . . sig(t₂, d_n) t₃ sig(t₃, d₁) sig(t₃, d₂) sig(t₃, d₃) . . . sig(t₃, d_n)

... ... ... ... . .. ...

t_m sig(t_m, d₁) sig(t_m, d₂) sig(t_m, d₃) . . . sig(t_m, d_n) Tabelle 2: Matrix der Termvektoren t_i mit den Dimensionen d_j

Die so definierten Vektoren k¨onnen mit bekannten Verfahren geclustert werden.

Da im Vorfeld keine Vermutungen ¨uber Clusteranzahl und -gr¨oße bestehen, bieten sich zum Beispiel selbstorganisierende Karten an.

So können Homonyme, oder zumindest einander inhaltlich ähnliche Wörter entdeckt werden. Da diese wahrscheinlich in gleichen Kontexten auftreten, wie in Ab- bildung 3a skizziert, werden sie nah zusammen angeordnet.

Eine Konfiguration wie in Abbildung 3b dargestellt ergibt sich bei Synonymen.

Weil verschiedene Bedeutung in einem Term zusammenfallen, sind nicht eindeutig einem Cluster zuzuordnen.

(a) Zwei homonyme Terme (a,b)

(b) Ein synonymer Term (a) mit drei verschiedenen Bedeutungen

Abbildung 3: Terme in Relation zu ihren Kookkurrenten – Kantenst¨arke korrespondiert mit Signifikanz

(20)

5.3 Termklassen

Ein anderer Ansatz, Kookkurrenzen zu betrachten, ist die Klasse des zweiten Terms.

Die in Abschnitt 4.1 entwickelten regulären Ausdrücke können verwendet werden, um dem Term die Klasse

”Wort“ oder

”Zahl“ zuzuweisen. Die restlichen Terme werden unter

”Sonstige“ subsumiert.

Die allgemeine Verteilung ist in Abbildung 7 dargestellt.

Interessant sind die Terme, bei denen die Verteilung der Termklassen signifikant von der durchschnittlichen Verteilung abweicht.

Um diese zu identifizieren, muss im weiteren Verlauf des Projekts ein geeignetes Maß gefunden werden.

6 Ergebnisse

Ziele des Praktikums waren die Datenaufbereitung und Verfahren auf ihre Eignung f¨ur den Einsatz im Projekt zu pr¨ufen.

Der erste Teil, die Datenaufbereitung, besteht aus der Trennung der Positio- nen in einzelne Terme und anschließender Extraktion der Kookkurrenzen. Durch Unregelm¨aßigkeiten, Formatierungs- und Konvertierungsartefakte mussten die Po- sitionen erst in einzelne Terme getrennt werden. Die Einteilung in die syntaktischen Kategorien

”Wort“,

”Zahl“ und

”Sonstiges“ bildet dabei Grundlage f¨ur die sp¨atere Analysen.

Die Häufigkeitsanalyse ergab das für natürlichsprachliche Texte bekannte Bild der Zipfverteilung. Wenige Terme komme sehr häufig und viel sehr selten vor.

Die häufigsten Terme wie mm, m oder dn erklären sich aus der Datenquelle, Lie- feranten für Heizung, Lüftung und Sanitär. Auch wurde festgestellt, dass keine Stoppwörter vorhanden sind. In natürlichsprachlichen Texten sind Wörter wie Ar- tikel oder Präpositionen häufig vorhanden, tragen aber wenig zur Bedeutung des gesamten Textes bei. Solche Wörter sind in den vorliegenden Daten aber nicht vorhanden, sondern im Gegenteil: auch die häufigsten Terme sind semantisch relevant.

Problematisch hingegen kann sich die Tatsache auswirken, dass 60% der Ter- me nur einmal vorkommen³⁷. Da darunter auch 27,8% aller als

”Wort“ klassifizier- ten Terme sind, wird ein einfacher Vergleich der Terme zwischen Positionen nicht gen¨ugen.

Ein erster Ansatz, den Kontext eines Wortes zu betrachten, ist die Kookkurrenz- analyse. Auch hier erkl¨aren sich die prominentesten R¨ange durch die Datenquelle.

Für die Verteilung der Signifikanzwerte³⁸ wurde die Korpusgröße aus Erklärung gefunden. Wie auch in der Häufigkeitsanalyse, sind die Terme problematisch, die nur einmal vorkommen. Diese können durch ihre Kookkurrenten nur unzureichend bestimmt werden. Ziel der Kookkurrenzanalyse ist allerdings auch eher das Entdecken syntaktischer Auffälligkeiten wie Einheiten oder Typ-Bezeichnungen.

37vgl. Abb. 5

38vgl. Abb. 2

(21)

Um diese Auff¨alligkeiten zu identifizieren, werden im weiteren Verlauf des Pro- jekts Kookkurrenzen in Hinblick auf die Klasse des zweiten Terms untersucht.

Auch Kookkurrenzen h¨oherer Ordnung, also das Auftreten zweier Terme in gleichen Kontexten, sind noch zu untersuchen.

Zu ¨Uberpr¨ufen ist ebenfalls, ob Terme semantisch zu clustern sind, wie in Ab- schnitt 5.2 beschrieben.

So ist auch das zweite Ziel des Praktikums, Verfahren f¨ur das weitere Vorgehen ermitteln, erreicht worden.

(22)

A Anhang

Abbildung 4: Verteilung der Terme ¨uber alle Lieferanten in doppellogarithmischer Darstellung

Abbildung 5: Verteilung der Terme ¨uber alle Lieferanten in logarithmischer Darstel- lung

(23)

Lieferant1Lieferant2Lieferant3Lieferant4 Positionen313.454323.918566.938146.354 Terme58.06172.554208.24061.518 RangTermHäufigkeitTermHäufigkeitTermHäufigkeitTermHäufigkeit 1mm134.056mm110.944mm103.274mm367748 2m67.519l51.985287.789m21.207 3x63.382h50.659587.217cm18.648 4dn51.569134.312#82.274117.852 5f47.579bl29.625181.317216.088 6143.845bh29.335m73.317f15.029 7240.218b29.111361.800dn12.067 8typ29.073bt25.401pho51.777fuer11.097 9323.291acova25.151a49.082weiss10.488 10cm22.190lackiert24.803448.401mit9.916 Tabelle3:DieerstenzehnRängederHäufigkeitsverteilungnachLieferant

(24)

Rang Wort H¨aufigkeit

1 mm 385.022

2 m 185.450

3 1 177.326

4 2 167.015

5 x 125.467

6 5 116.293

7 f 111.400

8 3 110.361

9 dn 106.450

10 cm 105.022

20 v 63.628

50 lackiert 31.231

100 hk 17.685

200 anschl 9.746

500 67 3.552

1.000 freistromventil 1.616

2.000 topperg 697

5.000 akzent 204

10.000 uel. 76

100.000 f03/04/05 2

Tabelle 4: Ausgewählte Ränge der Häufigkeitsverteilung über alle Lieferanten

Abbildung 6: H¨aufigkeitsverteilung der Termanzahl aller Positionen

(25)

Abbildung 7: Verteilung der Termklassen nach Lieferant

Abstand Anzahl Kookkurrenzen

1 11.792.513

2 10.445.877

3 9.114.610

4 7.804.975

5 6.548.435

Tabelle 5: Anzahl der Kookurrenzen nach Abstand ¨uber alle Lieferanten

(26)

Rang

1 2 3 4 5

Termabstand 1

Signifikanz 5.105,512 4.290,094 3.835,260 3.030,315 2.599,781

Wort low bt lackiert nach glied

Nachbar h2o bl in farbkarte ab

Termabstand 2

Signifikanz 2.743,240 2.662,949 2.523,991 2.440,230 2.335,240 Wort sonderfarben element acova minicanal h

Nachbar farbkarte charleston clarian h2o l

Termabstand 3

Signifikanz 2.683,404 2.493,145 2.367,890 1.990,856 1.797,209

Wort minical ze glied in lackiert

Nachbar komplett charleston bt farbkarte nach Termabstand 4

Signifikanz 2.798,829 2.152,241 1.956,296 1.746,262 1.385,561

Wort clarin glied lackiert h2o bh

Nachbar glied bl farbkarte l ab

Termabstand 5

Signifikanz 2.389,324 2.242,479 1.732,880 1.489,818 1.371,246

Wort clarin modell low glied komplett

Nachbar ab glied l 95 b

Tabelle 6: Die f¨unf signifikantesten Kookkurrenz nach Termabstand

(27)

Abbildung 8: Verteilung der Signifikanzwerte nach Abstand

(28)

Abbildung 9: Kookkurrenzen zum Term

”anschlussbogen“ – Kantenst¨arke korrespondiert mit Signifikanz, Rote Kante kennzeichnen rechte Nachbarn, blaue Kanten repr¨asentieren linke Nachbarn

(29)

Literatur

[Bub09] N. Bubenhofer. Sprachgebrauchsmuster: Korpuslinguistik Als Methode Der Diskurs- Und Kulturanalyse. Sprache Und Wissen. De Gruyter, 2009. isbn: 9783110215847.

[HQB12] Gerhard Heyer, Uwe Quasthoff und Volker Boehlke. Deutscher Wort- schatz – Wortlisten. http : / / wortschatz . uni - leipzig . de / html/wliste.html. [Online; Zugriff am 31. Mai 2012]. 2012.

[HQW08] Gerhard Heyer, Uwe Quasthoff und Thomas Wittig. Text Mining: Wis- sensrohstoff Text – Konzepte, Algorithmen, Ergebnisse. W3L-Verlag, 2008.

[HR06] Hajo Hippner und Ren´e Rentzmann. “Text Mining”. In: Informatik- Spektrum 29 (4 2006). 10.1007/s00287-006-0091-y, S. 287–290. issn: 0170-6012. url: http://dx.doi.org/10.1007/s00287- 006- 0091-y.

[KK11] Carolin Kaiser und Johannes Kr¨ockel. “Meinungsanalyse in Onlinenetz- werken mittels Schwarmintelligenz”. In:Informatik-Spektrum34 (4 2011).

10.1007/s00287-010-0444-4, S. 355–363. issn: 0170-6012. url: http : //dx.doi.org/10.1007/s00287-010-0444-4.

[LZ06] L. Lemnitzer und H. Zinsmeister. Korpuslinguistik: Eine Einf¨uhrung.

Narr Studienb¨ucher. Narr, 2006.isbn: 9783823362104.

[MRS08] C.D. Manning, P. Raghavan und H. Sch¨utze.Introduction to Information Retrieval. Cambridge University Press, 2008. isbn: 9780521865715.

[MS99] C. Manning und H. Sch¨utze. “Foundations of Statistical Natural Lan- guage Processing”. In: MA, USA: MIT Press, 1999.

[IAI11] IAIB e. V. Projektbeschreibung conTEXT. 2011.