• Keine Ergebnisse gefunden

In modernen Zeiten gewinnen die intelligenten Methoden der Analyse von elektronischen Verkaufsplattformen immer mehr an Bedeutung. Die Verbreitung solcher Systeme führt dazu, dass ihre Komplexität weiter steigt. Andererseits entstehen aber gerade durch die immer größer werdende Akzeptanz dieser Systeme mehr Möglichkeiten, größere Datenmengen zur Durchführung ihrer wissenschaftsbasierten Analyse zu bekommen. Viele Unternehmen, die die so genannte „electronic-Comerce“ betreiben, sind an solcher Analyse zwecks Verbesserung und Weiterentwicklung ihrer Systeme interessiert. Viele bekannte Online-Kaufhäuser setzen auf wissenschaftlich ausgearbeitete Ansätze bei der Analyse ihrer Systeme.

Ein solcher vielfach bewährter Ansatz besteht in der Analyse der Bestelldaten, die bei der Nutzung eines Bestellsystems über einen längeren Zeitraum gesammelt werden. Dabei handelt es sich um große Datenmengen, deren manuelle Verarbeitung natürlicherweise nicht möglich ist. Vielmehr soll gerade die Größe der Datenmenge bei den intelligenten, rechnergestützten Verarbeitungsmethoden der Wissensentdeckung sogar ein Vorteil bieten.

Sehr oft werden die Bestelldaten einer Untersuchung unterzogen, deren Ziel die Entdeckung von Zusammenhängen zwischen den bestellten Produkten ist, insbesondere der zeitlichen oder räumlichen. Manchmal, aber viel seltener, werden die semantischen Zusammenhänge der Produkte gesucht. Mit anderen Worten, man sucht die Produkte, die „zusammenhängend“

sind, oder Gruppen von Produkten bilden. Manchmal sind die Produkte bereits in solche Gruppen organisiert. Manchmal fehlt aber diese Information. In Warenwirtschaftsystemen, in denen die Produktgruppen vorhanden sind, können die Produktgruppen wiederum in größere Gruppen organisiert sein. Diese Zuordnung kann im Prinzip viele Stufen haben. Das bedeutet, dass eine hierarchische Struktur der Gruppierung vorliegt, oder eventuell gesucht wird.

Besteht in dieser Hierarchie eine systematische Einordnung und Zuordnung der Unterstrukturen zu Oberstrukturen, so spricht man von einer Taxonomie, oder von einer hierarchischen Ordnung. Die Aspekte der Analyse von Bestelldateien im Bezug auf solche Taxonomien werden in dieser Arbeit untersucht.

Welche Fragen werden in der Arbeit diskutiert und wie ist die Arbeit aufgebaut?

1.1. Ziele

Der Schwerpunkt der Analyse in dieser Arbeit ist die Entdeckung von häufigen Itemsets, Assoziationsregeln und insbesondere von so genannten „generalisierten“ Assoziationsregeln1. Deshalb wird das Thema der Entdeckung von Assoziationsregeln und häufigen Itemsets behandelt, die eine weit verbreitete Analysemethode in der Bestelldatenanalyse darstellt.

Dieses Thema wird zunächst auf dem „hierarchielosen“ Niveau eingeführt und später im Bezug auf Taxonomien vertieft. Um an dieser Stelle den Begriff „generalisierte“ Regeln kurz vorzustellen, kann man sagen, dass es solche Regeln sind, die mit Einbezug von Taxonomien erzeugt werden.

Die generalisierten Assoziationsregeln und ihre Bedeutung werden unter verschiedenen Blickwinkeln diskutiert. Unterschiedliche Konzepte der Generalisierungen und Ansätze zu Definition und Entdeckung der generalisierten Regeln werden vorgestellt. Ein

1 Definitionen der Begriffe s. in Kapitel 3.1.1

Bewertungsmaß der Generalisierung im Zusammenhang mit verschiedenen Gruppierungsmöglichkeiten wird untersucht.

Ferner wird ein Verfahren entwickelt, das auf der Basis von häufigen Itemsets eine Bildung von neuen oder Überprüfung von vorhandenen Taxonomien ermöglicht. Die Aspekte der Regelentdeckung bei parallel vorhandenen Taxonomien von verschiedenen Attributen werden untersucht. Es wird versucht, die Rolle der Taxonomien und die Vor- und Nachteile der Analyse mit und ohne Taxonomien zu diskutieren. Die Schwierigkeiten, neue Erkenntnisse und zu beachtenden Aspekte werden diskutiert. Die theoretischen Überlegungen werden größtenteils mit praktischen Experimenten ausprobiert.

Zusammengefasst kann man die wesentlichen Fragen, die in der Arbeit behandelt werden, so formulieren:

1. Was ist der aktuelle Wissensstand auf dem Gebiet der Bestelldatenanalyse und insbesondere der Entdeckung von häufigen Itemsets und Assoziationsregeln im Hinblick auf Taxonomien?

2. Welche Arten von generalisierten Regeln werden unterschieden und welche Ansätze gibt es bei ihrer Entdeckung?

3. Wie können die Regeln bewertet und verbessert werden?

4. Welche Vorteile bzw. Nachteile bieten die Taxonomien in Zusammenhang mit Entdeckung und Analyse der Regeln?

5. Wie können parallel vorhandene Taxonomien benutzt werden?

6. Wie können Hierarchien überprüft oder neu gebildet werden?

7. Wie können die Ergebnisse der Analyse praktisch eingesetzt werden?

1.2. Aufbau

Zuerst wird das Informationssystem beschrieben, das einerseits die Datenquelle für diese Arbeit darstellt, und andererseits als Integrationsplattform für die praktische Experimente und Weiterentwicklung dienen soll. Das Informationssystem wurde von der Firma Intensis GmbH entwickelt, deren kurze Beschreibung sowie ein Überblick über das Informationssystem und seine Bestellsystem-Komponente im Anfangskapitel gegeben werden. Einige Überlegungen im Hinblick auf den Einsatz der Ergebnisse der Arbeit werden gesammelt.

Danach folgt ein theoretischer Teil, in dem mehrere wichtige Arbeiten auf dem Gebiet der Entdeckung von Assoziationsregeln im Überblick vorgestellt werden. Verschiedene Konzepte und Ansätze für die Entdeckung der generalisierten Assoziationsregeln werden dabei diskutiert. Der für die Entdeckung der Assoziationsregeln meist angewandte Algorithmus

„Apriori“ wird erklärt. Er wird als Kernalgorithmus für den praktischen Teil der Arbeit fungieren. Am Anfang dieses theoretischen Teils werden fachliche Begriffe und Definitionen eingeführt. Danach werden die Ansätze verschiedener Autoren diskutiert. Dabei wird jeder Ansatz in mehreren Teilen vorgestellt, die eine kurze Motivation, den Ansatz selbst und die abschließende Diskussion beinhalten. Die Besonderheiten einiger Ansätze werden in expliziten Unterkapiteln vorgestellt. Darauf folgend werden die Aspekte der Interessensmaße der gefundenen Regeln und deren Filterungsmöglichkeiten vorgestellt.

Nach dem größeren theoretischen Teil folgt ein Kapitel, das eine Planung und einführende Beschreibung der praktischen Experimente beinhaltet. Es wird festgelegt, welche Experimente durchgeführt werden können und was diese bezwecken. Anschließend folgt ein Abschnitt, der über die durchgeführten Experimente berichtet und deren Ergebnisse analysiert.

Die Arbeit schließt eine Zusammenfassung und Ausblick ab, wo rückblickend die Ergebnisse der Arbeit vorgestellt und Überlegungen für weitere mögliche Entwicklung gemacht werden.