• Keine Ergebnisse gefunden

Moderne Produktentstehungsprozesse: Erfassung von Simulationswissen

Breitsprecher et al. beschreiben im Folgenden die Anwendung von Text Mining, um bereits gewonnenes Wissen aus Simulationsergebnissen und Berechnungsberichten weiter-hin Mitarbeiten zur Verfügung stellen zu können. Der Fokus wird dabei auf die Effizienz-steigerung der Produkt- und Prozessentwicklung gelegt. Das Ziel ist die Erstellung eines wissensbasierten FEA-Assistenzsystems, das weniger erfahrene Simulationsanwender bei der Erstellung und Auswertung von FEA-Analysen unterstützt. Die genutzten Daten sind bereits validierte Simulationsmodelle aus Berichten, Informationen über geometrische Ver-einfachungen sowie Kontakt- und Randbedingungen [Breitsprecher et al. 2015, S.744f].

Zunächst müssen für das geplante Vorhaben alle Informationen der notwendigen Da-tenbestände zusammengestellt werden. Die Überführung von Simulationsparametern und Einstellungen aus validierten Modellen in Tabellen ist noch mit vergleichsweise überschau-barem Aufwand durchzuführen. Bei einer Vielzahl von unstrukturierten Daten (z. B. Be-rechnungsberichte) ist der Arbeitsaufwand erheblich höher. Diese Daten müssen zunächst aufbereitet und strukturiert werden. Dies geschieht mit Methoden aus dem Bereich des Text Minings. Vor allem nutzen Breitsprecher et al. für diesen Prozess Textklassifikation und Informationsextraktion.

Durch die Textklassifikation werden Berechnungsberichte nach Klassen (z. B. FE-Analyseart) der Ergebnisgröße oder der betrachteten Bauteile gruppiert. Für diesen Vor-gang werden die Häufigkeiten der Wörter (Token) aus den Berichten in einer Term-Dokumenten-Matrix dargestellt. Eine solche Darstellung ist in Abbildung 3.1 abgebildet.

Diese Form eignet sich zum Auffinden von Schlüsselwörtern, welche für den jeweiligen Bericht von besonders hoher Wichtigkeit sind. Breitsprecher et al. untersuchten, dass der Begriff „Kraft“ wesentlich häufiger in Berichten aus statischen Analysen zu finden ist, als aus Modalanalysen. Der Begriff „Frequenz“ verhält sich genau entgegengesetzt [Breitspre-cher et al. 2015, S.747f].

Betreffende Begriffe werden mittels Stemming auf den Wortstamm zurückgeführt, um deren Signifikanz zu steigern. In siehe Abbildung 3.1 wird dies für die Attribute 2 und 5 durchgeführt. Mittels Klassifikationsmethoden (z.B k-Nearest-Neighbour) werden die Be-richte schließlich anhand ihrer Ähnlichkeit gruppiert. Dazu werden die Häufigkeiten der Term-Dokumenten-Matrix genutzt.

Abb. 3.1: Analyse unstrukturierter Berechnungsberichte durch Text Mining [Breitsprecher et al. 2015, S.747]

Nach der Klassifikation aller Berichte können nun relevante Textauszüge ausgegeben werden. Um die angefragte Information zu liefern, werden Kategorien und Suchbegriffe verwendet. Die Aufbereitung dafür erfolgt durch Informationsextraktion. Mit dieser Me-thode lassen sich die relevanten Bestandteile der Berichte extrahieren [Breitsprecher et al.

2015, S.747].

Mittels POS Tagging werden den einzelnen Wörtern ihre jeweiligen Wortarten im Satz zugeordnet. In Abbildung 3.1 sind die Artikel „ART“, Verben „VVFIN“ und Präpositionen

„APPR“ dargestellt. Für diesen Vorgang wird ein Tagset verwendet wie z. B. das bekannte Stuttgart-Tübingen-Tagset. Weiterhin werden mittels Named-Entitiy-Recognition Ober-begriffsklassen gebildet, diese sind in der Abbildung durch die zugeordneten Wortklassen

„Elementtyp“ und „Bauteil“ der Substantive/Eigennamen ersichtlich.

Im letzten Schritt werden betreffende Textausschnitte mit regulären Ausdrücken ab-gebildet, um weitere Passagen automatisch erfassen zu können. Die Ausdrücke werden dabei wie Schablonen genutzt, die sich über wichtige Textpassagen legen lassen können.

Dargestellt sind in Abbildung 3.1 die Operatoren regulärer Ausdrücke, um Wiederholun-gen (+) oder optionale Textbestandteile zu definieren (?). Der Schritt der Zuweisung von Wortarten und Oberbegriffsklassen dient dazu, den Ausdrücken die notwendige Flexibilität zu geben, um diese auf andere Texte anwenden zu können [Breitsprecher et al. 2015, S.748].

Die beschriebene Anwendung von Text Mining führt zu einem Prozess, welcher au-tomatisiert erforderliches Simulationswissen erfasst. Die Informationen werden dabei aus unstrukturierten Berechnungsberichten und validierten Modellen gewonnen. Dieser Vor-gang kann parallel zu manuellen Akquisitionsmethoden genutzt werden, um somit eine fundierte Basis an Wissen für das FEA-Assistenssystem zu erhalten. Abschließend kann so sichergestellt werden, dass für Simulationsaufgaben brauchbare Simulationsmodelle au-tomatisiert generiert werden können [Breitsprecher et al. 2015, S.748].

Die vorliegende Arbeit hatte als Ziel Text Mining und dessen Verfahren aufzuberei-ten. Durch die zunehmende Nutzung des Internets und der steigenden Informationsmenge in Form von Textdokumenten gewinnt Text Minig zunehmend an Bedeutung. Für das Wissensmanagement, besonders für Unternehmen, ist es ein sehr wichtiger Baustein, um beschäftigen Personen den Zugang zu Unternehmenswissen zu ermöglichen. Dieses Wis-sen ist entscheidend für den zukünftigen Erfolg des Unternehmens. Weiterhin lasWis-sen sich genauere Analysen erstellen und es kann besser auf die Anforderungen der Kunden einge-gangen werden. Dabei können überflüssige Prozesse eingespart werden, die sowohl Kapital einsparen, als auch der Umwelt zu Gute kommen.

Im Themenumfeld der Logistik scheint die Thematik noch nicht flächendeckend einge-setzt werden und es ist noch Potenzial für die Implementierung vorhanden. Die Recherche nach Beispielen aus der Logistik erwies sich als schwierig. Dies kann eventuell aber auch an der Informationspolitik der Unternehmen liegen, dass derartige IT-Strukturen nicht de-tailliert und gut dokumentiert nach außen getragen werden. Ebenfalls auffällig war, dass größtenteils englischsprachige Literatur zum Thema Text Mining existiert.

Zusammenfassend ist festzuhalten, dass es sich bei Text Mining aufgrund der sehr vielfältigen Anwendungsgebiete um ein sehr großes und dynamisches Gebiet der Forschung handelt. In der Zukunft wird sich die Anwendung vermehrt auf das Internet abzeichnen;

im Zuge der zunehmenden Vernetzung. Die Bereitstellung von Wissen wird auch zukünftig immer wichtiger, sei es durch das bloße Verfügbarmachen oder die Generierung von neuem Wissen, aus bereits vorhandenen Daten. Aus diesem Grund ist Text Mining eine sinnvolle Möglichkeit, um die Datenflut kontrollierbar zu halten.

Breitsprecher, Thilo, Philipp Kestel, Christof Küster, Tobias Sprügel und Sandro Wart-zack (Nov. 2015). „Einsatz von Data-Mining in modernen Produktentstehungsprozessen:

Ganzheitliche Forschung für Ingenieure von morgen“. In:ZWF Zeitschrift für wirtschaft-lichen Fabrikbetrieb 110, S. 744–750. doi:10.3139/104.111423.

Christopher Manning, Prabhakar Raghavan und Hinrich Schuetze (2009). Introduction to Information Retrieval. New York, NY, USA: Cambridge University Press. isbn: 9780521865715.

Feldman, Ronen und Ido Dagan (1995). „Knowledge Discovery in Textual Databases (KDT)“. In: Proceedings of the First International Conference on Knowledge Disco-very and Data Mining. KDD’95. Montreal, Quebec, Canada: AAAI Press, S. 112–117.

url:http://dl.acm.org/citation.cfm?id=3001335.3001354.

Feldman, Ronen und James Sanger (2008).The text mining handbook: Advanced approa-ches in analyzing unstructured data. Reprinted. Cambridge: Cambridge Univ. Press.

isbn: 978-0-521-83657-9.

Gliozzo, Alfio, Or Biran, Siddharth Patwardhan und Kathleen McKeown (Aug. 2013). „Se-mantic Technologies in IBM Watson“. In: Proceedings of the Fourth Workshop on Tea-ching NLP and CL. Sofia, Bulgaria: Association for Computational Linguistics, S. 85–

92.url:https://www.aclweb.org/anthology/W13-3413.

Hearst, Marti A. (1999). „Untangling Text Data Mining“. In:Proceedings of the 37th An-nual Meeting of the Association for Computational Linguistics on Computational Lin-guistics. ACL ’99. College Park, Maryland: Association for Computational Linguistics, S. 3–10. isbn: 1-55860-609-3.doi:10.3115/1034678.1034679.

Heyer, Gerhard, Uwe Quasthoff und Thomas Wittig (2012).Text Mining: Wissensrohstoff Text (Konzepte, Algorithmen, Ergebnisse). Korrigierter Nachdr. Herdecke: W3L-Verl.

isbn: 3-937137-30-0.

High, Rob (2012). „The era of cognitive systems: An inside look at IBM Watson and how it works“. In:Redbooks (REDP-4955-00), IBM Corporation.

Hotho, Andreas, Andreas Nürnberger und Gerhard Paaß (Mai 2005). „A Brief Survey of Text Mining“. In: LDV Forum - GLDV Journal for Computational Linguistics and Language Technology 20.1, S. 19–62.issn: 0175-1336.

Jo, Taeho (2019). Text Mining. Bd. 45. Cham: Springer International Publishing. isbn: 978-3-319-91814-3.doi:10.1007/978-3-319-91815-0.

Kosala, Raymond und Hendrik Blockeel (Juni 2000). „Web Mining Research: A Survey“.

In: SIGKDD Explor. Newsl. 2.1, S. 1–15. issn: 1931-0145. doi: 10 . 1145 / 360402 . 360406.

Lanquillon, Carsten (2001). „Enhancing Text Classification to Improve Information Filte-ring“. Diss. Otto-von-Guericke-Universität, Magdeburg.

Mehler, Alexander und Christian Wolff (2005). „Einleitung: Perspektiven und Positionen des Text Mining“. In:LDV-Forum20.1, S. 1–18.url:https://epub.uni-regensburg.

de/6844/.

Pfeifer, Katja (2014). „Serviceorientiertes Text Mining am Beispiel von Entitätsextrahie-renden Diensten“. Diss. Technische Universität Dresden.

Reinsel, David, John Gantz und John Rydning (2018). The Digitization of the World:

From Edge to Core. url: https : / / www . seagate . com / files / www content / our -story/trends/files/idc-seagate-dataage-whitepaper.pdf.

Rijsbergen, C. J. Van (1979).Information Retrieval. 2nd. Newton, MA, USA: Butterworth-Heinemann.isbn: 0408709294.

Sebastiani, Fabrizio (März 2002). „Machine Learning in Automated Text Categorization“.

In:ACM Comput. Surv.34.1, S. 1–47. issn: 0360-0300. doi:10.1145/505282.505283.

Walsh, Gianfranco und Michael Möhring (Feb. 2014). „Retourenvermeidung im E-Commerce – Kann Big Data helfen?“ In:Marketing Review St. Gallen31.1, S. 68–78.doi:10.1365/

s11621-014-0322-6.

Weiss, Sholom M., Nitin Indurkhya und Tong Zhang (2015).Fundamentals of Predictive Text Mining. London: Springer London. isbn: 978-1-4471-6749-5. doi: 10.1007/978-1-4471-6750-1.

Abb. 2.1: Beispieltext als XML dargestellt [Weiss et al. 2015, S.16] . . . 6 Abb. 2.2: Beispieltext POS-Tagging in XML-Darstellung [Heyer et al. 2012, S.53] . 8 Abb. 2.3: Luhns Anwendung des Zipfschen Gesetzes [Lanquillon 2001, S.37] . . . . 10 Abb. 2.4: Systemarchitektur von IBM Watson [High 2012, S.4] . . . 13 Abb. 3.1: Analyse unstrukturierter Berechnungsberichte durch Text Mining

[Breit-sprecher et al. 2015, S.747] . . . 19

Tab. 2.1: Abgrenzung wissensgewinnender Disziplinen [Heyer et al. 2012] . . . 2 Tab. 2.2: Sortierung nach Häufigkeit [Heyer et al. 2012, S.88] . . . 9 Tab. 3.1: Schritte des Text Minings im Retourenmanagement [Walsh und Möhring

2014, S.71] . . . 15 Tab. 3.2: Ergebnisauswertung der Kundenbewertungen mittels Text Mining [Walsh

und Möhring 2014, S.75] . . . 17

HTML Hypertext Markup Language PDF Portable Document Format POS Part-of-Speech

STTS Stuttgart-Tübingen-Tag-Set

TF Term Frequency

TF-IDF Term Frequency-Inverse Term Frequency XML Extensible Markup Language