• Keine Ergebnisse gefunden

Begriffsbestimmung und Anwendungsgebiete

Im Dokument Data Mining (Seite 4-8)

2 Begriffsbestimmung und Anwendungsgebiete

Der Begriff Data Mining wurde in den 90er Jahren geprägt. „Während man im Bergbau, zum Beispiel beim Coal Mining, die Kohle sucht, und abbaut, will man im Data Mining nicht die Daten ,abbauen‘, sondern man sucht nach Schätzen, die in den Daten verborgen sind“ (Cleve/ Lämmel 2014: 2).

Data Mining bezeichnet den Prozess, Korrelationen und Strukturen1 beziehungs-weise Muster aus einer großen Datenmenge zu entdecken. Shi beschreibt diesen Prozess als „extracting the unknown but potentially useful information and know-ledge that is hidden inside mass, noisy, fuzzy, and random practical applied data“

(Shi 2014: 3). Um relevante und bisher unbekannte Informationen aufzudecken, werden große Datenbestände mittels mathematischer Verfahren analysiert.

Für die Analyse greift die „Crossdisziplin“ Data Mining auf verschiedene Metho-den aus der Statistik, der Künstlichen Intelligenz (maschinelles Lernen) und der Informatik (Datenbanksysteme) zurück2 (vgl. Müller/ Lenz 2013: 75). Die analy-sierten Daten sind elektronisch gespeichert und werden größtenteils automatisch durch Computer verarbeitet (vgl. Witten et al. 2011: 4). Dennoch ist eine manuel-le Bearbeitung der Daten sowie die Interpretation der Ergebnisse durch Menschen notwendig: „Ultimately, defining which structures are ,interesting enough‘ to be deemed ,knowledge‘ is up to the human user3“ (Fayyad 1998: 116).

In der wissenschaftlichen Auseinandersetzung mit dem Begriff Data Mining exis-tieren zwei unterschiedliche Perspektiven. Auf der einen Seite wird Data Mining als ein Schritt des Prozesses Knowledge Discovery in Databases (KDD) nach Fa-yyad et al. (1996) gesehen (vgl. FaFa-yyad et al. 1996; vgl. Gabriel et al. 2009). Auf

1 „Structure can be a simple set of patterns, a parameterized model, or a mixture of models“ (Fa-yyad 1998: 116).

2 „Today’s data mining algorithms [...] draw on mathematical techniques from probability theory, information theory, estimation, uncertainty, graph theory, and database techniques“ (Fayyad 2001: 64).

3 „Data mining is not about automating data analysis. Data mining is about making analysis more convenient, scaling analysis algortihms to large databases, and providing data owners with easy-to-use tools to help them navigate, visualize, summarize, and model data. It is not the “ro-bot” that is finding interesting patterns. The “ro“ro-bot” is merely enumerating, sifting, and filtering patterns. The human user is the ultimate judge of what is interesting or useful. [...]. Data mining tools serve their role in the KDD process as a step in an otherwise interative, and highly human-centric process“ (Fayyad 1998: 6).

2 Begriffsbestimmung und Anwendungsgebiete 3

der anderen Seite wird dieses mit dem KDD-Prozess synonym verwendet und um-fasst alle Prozessschritte (vgl. Müller/ Lenz 2013; vgl. Cleve/ Lämmel 2014).

Die vorliegende Arbeit betrachtet Data Mining als Synonym zum KDD, der im folgenden dargestellt wird.

2.1 KDD-Prozess

Fayyad et al. definieren den KDD-Prozess als „the nontrivial process of identi-fying valid, novel, potentially useful, and ultimately understandable patterns in data“ (Fayyad et al. 1996: 30). In ihrem Modell (vgl. ebd. 30ff.) besteht Know-ledge Discovery in Databases aus folgenden Schritten (vgl. Abb. 1):

§ Selektion der Daten

§ Datenvorverarbeitung

§ Transformation

§ Data Mining

§ Interpretation der Ergebnisse

(Abb. 1: KDD-Modell nach Fayyad et al. 1996: 29)

Im ersten Schritt werden die verfügbaren Daten gesichtet sowie daraus die zu ver-arbeitenden, hinsichtlich der Fragestellung relevanten Daten ausgewählt (Selekti-on). Der folgende Schritt dient der Beseitigung von Datenqualitätsproblemen. Die ausgewählten Daten werden vorverarbeitet und bereinigt. Dabei werden bei-spielsweise Ausreißer identifiziert und fehlerhafte Werte korrigiert (Datenvorver-arbeitung). Im Prozessschritt Transformation werden die Daten in für das Data Mining angemessene Datenformate umgewandelt. So werden zum Beispiel metri-sche Werte in Intervalle gruppiert (vgl. Cleve/ Lämmel 2014: 5).

Der vierte Schritt Data Mining ist die eigentliche Datenanalyse, die Suche nach Mustern. Somit wird zunächst eine geeignete Methode für die Analyse der Daten, wie etwa Klassifikation oder Clustering (vgl. Kapitel 3), ausgewählt. Dabei wird

2 Begriffsbestimmung und Anwendungsgebiete 4

zwischen zwei Aufgaben des Data Mining unterschieden: Die Beschreibung und die Vorhersage. Ziel der Beschreibung ist es, die Realität abzubilden, indem die Daten charakterisiert werden. So werden zum Beispiel typische Verhaltensregeln (Muster) der analysierten Kundengruppe aufgedeckt. Bei der Prognose geht es um die Aufstellung von Regeln auf Basis der analysierten Daten, mit deren Hilfe eine Vorhersage für das zukünftige Verhalten anderer Kunden mit ähnlichen Eigen-schaften getroffen werden kann.

Im letzten Prozessschritt Interpretation werden die entdeckten Muster und Re-gelmäßigkeiten interpretiert und in verständlicher Form aufbereitet bzw. visuali-siert. (Vgl. Fayyad et al. 1996: 29ff.)

Das von einem Konsortium entwickelte Modell CRISP wird aufgrund der Ähn-lichkeit der Prozessschritte zum beschriebenen KDD-Modell in der vorliegenden Arbeit vernachlässigt.

2.2 Datentypen und Anwendungsgebiete

Die Anwendungsbereiche von Data Mining sind sehr vielfältig und reichen von Kreditwürdigkeits- über Warenkorbanalysen hin zu Verbrechensvorhersagen der Polizei. Dabei geht es unter anderem darum, Risiken zu minimieren, Wettbe-werbsvorteile herauszuarbeiten, eine Grundlage für Entscheidungen zu schaffen oder dem Gegner einen Schritt voraus zu sein.

„Data Mining ist besonders für Probleme geeignet,

§ die eine komplexe, wissensbasierte Entscheidung verlangen,

§ in der eine richtige Entscheidung einen Mehrwert erzeugt,

§ die momentan mit sub-optimalen Methoden gelöst werden und

§ in der genügend relevante Daten vorhanden sind“ (Müller/ Lenz 2013: 81).

Große Datenmengen existieren heutzutage in sehr vielen Bereichen. So wird Data Mining unter anderem für die Optimierung von industriellen Fertigungsprozessen eingesetzt, was der Steigerung der Wettbewerbsfähigkeit dienen soll.

Im Marketing werden Kunden- und Produktdaten in Form von den bereits er-wähnten Warenkorbanalysen verarbeitet. Ausgewertet wird insbesondere, welche Produkte im Supermarkt zusammen gekauft werden (zum Beispiel Windeln und Bier), um die Preisgestaltung oder die Produktplatzierung zu optimieren. Durch die Kundensegmentierung mit Hilfe von Data Mining können gezielte Kundenan-gebote und Werbemaßnahmen entwickelt werden.

2 Begriffsbestimmung und Anwendungsgebiete 5

In der Wissenschaft findet Data Mining zum Beispiel in der Erbgutanalyse der biomedizinischen Informatik Verwendung. So können mithilfe von Datenbanken mit Genomdaten Genfunktionen bestimmt werden.

Neben numerischen Daten werden Textdaten und strukturierte Daten betrachtet.

Die Analyse von Textdokumenten und internetbasierten Dokumenten trägt unter anderem dazu bei, das Filtern oder die Suche nach Informationen zu verbessern.

Seit der Verbreitung von Digitalkameras ist auch die Menge an Bilddaten enorm.

Analyseverfahren werden für die Suche und Erkennung von Objekten, Analyse und Klassifizierung von Szenen sowie der Inbeziehungsetzen der Bilddaten mit anderen Informationen eingesetzt. (Vgl. Runkler 2010: 1 f.)

Müller und Lenz unterscheiden zehn verschiedene Datentypen. Strukturierte Da-ten finden sich in DaDa-tenbanktabellen und können BuchhaltungsdaDa-ten in Unter-nehmen sein. Produkte wie Milch, Brot und Bier werden in Warenkorbanalysen als Menge bezeichnet. Der Klickpfad eines Besuchers einer Webseite wird als quenz abgespeichert. Wichtig dabei ist die Reihenfolge der Daten, die in einer Se-quenz zusammengefasst werden.

Texte sind unstrukturierte Daten, die zum Beispiel auf Webseiten oder in E-Mails zu finden sind. Beim Web Mining (vgl. Kapitel 4.2) kommt die Analyse von se-mistrukturierten Texten zum Einsatz, die auf die Tags einer Auszeichnungsspra-che wie HTML zugreift. Zeitreihen sind ebenfalls wie Sequenzen, zeitlich geord-nete Folgen. Zusätzlich wird jedoch auch der Mess- oder Beobachtungszeitpunkt mit erfasst. Auf diese Weise werden unter anderem Betriebsunfälle je Schicht ausgewertet.

Die Verbindungen der einzelnen Mitglieder in sozialen Netzwerken können in Graphen dargestellt werden. Diese bestehen aus Knoten, die mit gerichteten oder ungerichteten Kanten miteinander verbunden sind. Räumliche Muster werden durch die Analyse von Geodaten aufgedeckt. Mit Hilfe von Geodaten können un-ter anderem Clusun-ter der Adressdaten von Kunden gebildet werden. Bilder werden, wie bereits beschrieben, für die Bildmustererkennung analysiert. Die Gesichtser-kennung von Apple erfasst nach einer Lernphase automatisch Gesichter. Bei die-sem Datentypen ist jedoch eine aufwändige Vorverarbeitung nötig.

Multimediale Daten wie Audio oder Video sind aufgrund des Speicherbedarfs und des Laufzeitverhaltens ebenfalls nicht einfach in der Handhabung. Programme wie der MusicMiner analysieren den Rhythmus, um eine Musiksammlung auf

Im Dokument Data Mining (Seite 4-8)