Hochschule Wismar

(1)

Hochschule Wismar

Fachbereich Wirtschaft

Diplomarbeit

Web Log Mining - Analyse der Eignung von Data Mining-Verfahren zur Auswertung von internetbasierten Nutzungsdaten und Unterstützung von unternehmerischen Entscheidungen bei der Optimierung von Internetangeboten

Diplomarbeit zur Erlangung des Grades eines Diplom-Wirtschaftsinformatiker (FH)

der Hochschule Wismar

eingereicht von: Norman Wahnschaff

geboren am 18. März 1979 in Magdeburg Studiengang Wirtschaftsinformatik, WI 1998 Betreuer Prof. Dr. rer. nat. Jürgen Cleve

weitere Gutachter Prof. Dr. oec. Erhard Alde Schwerin, d. 21. Januar 2003

(2)

(3)

Kurzreferat

In dieser Arbeit wird die Anwendbarkeit von Data Mining-Verfahren zur Untersuchung des Verhaltens der Besucher von Webpräsenzen, anhand ihrer internetbasierten Nutzungsda- ten, analysiert und auf ihre unterstützende Wirkung auf betriebswirtschaftliche Entscheidun- gen im Kontext der Optimierung der Webpräsenz geprüft. Die Auswertung dieser Daten wird unter dem Einsatz von Data Mining-Konzepten vorgenommen. Diese Konzepte werden theoretisch fundiert und auf ihre Übertragbarkeit auf praktische Problemfälle geprüft. In diesem Rahmen werden Softwareprodukte vorgestellt, die die Auswertung der Besuchernutzungs- daten unterstützen. Die Analyseergebnisse sollen die Grundlage für eine Optimierung des Internetangebotes in wirtschaftlicher und ergonomischer Hinsicht bilden.

(4)

(5)

Inhaltsverzeichnis

1. Einleitung 1

1.1. Motivation . . . 1

1.2. Inhaltsübersicht . . . 2

2. Knowledge Discovery in Databases und Data Mining 5 2.1. Begriffsdefinitionen und -abgrenzung . . . 5

2.2. KDD-Prozess . . . 6

2.2.1. Datenselektion . . . 6

2.2.2. Datenvorbereitung . . . 7

2.2.3. Datentransformation . . . 9

2.2.4. Data Mining . . . 10

2.2.5. Evaluation und Interpretation . . . 11

3. Web Log Mining 13 3.1. Begriffsdefinitionen und -abgrenzung . . . 13

3.2. Datenschutz . . . 17

4. Datenkomponenten 19 4.1. Server-Logdateien . . . 19

4.1.1. Access-Logdatei . . . 21

4.1.2. Error-Logdatei . . . 23

4.1.3. Referrer-Logdatei . . . 23

4.1.4. Agent-Logdatei . . . 24

4.1.5. Extended Logfile-Format . . . 24

4.2. Cookies . . . 25

4.2.1. Aufbau . . . 25

4.2.2. Anwendungen . . . 26

4.3. Technische Probleme . . . 28

4.3.1. Caching . . . 28

4.3.2. Proxy-Server . . . 29

4.3.3. Dynamische Internetadressen . . . 30

4.4. Messgrößen . . . 30

5. Prozess des Web Log Mining 33 5.1. Datengenerierung . . . 33

5.2. Datenselektion . . . 34

5.3. Transaktionsidentikation und Datentransformation . . . 37

5.3.1. Transaktionsidentikation . . . 37

(6)

Inhaltsverzeichnis

5.4. Data Mining . . . 44

5.4.1. Aufgaben des Data Mining . . . 44

5.4.2. Verfahren des Data Mining . . . 45

5.4.2.1. Clusteranalyse . . . 46

5.4.2.2. Neuronale Netze . . . 48

5.4.2.3. Entscheidungsbauminduktion . . . 51

5.4.2.4. Assoziationsanalyse . . . 52

5.4.2.5. Pfad- und Sequenzanalyse . . . 54

5.4.2.6. Deskriptive Statistik . . . 56

5.5. Evaluation und Interpretation . . . 57

6. Vorstellen von Data Mining-Programmen im Kontext des Web Log Mining 59 6.1. Websuxess 4.0 . . . 59

6.2. XAffinity 3.0 . . . 61

6.3. KnowledgeStudio 3.0 . . . 62

7. Web Log Mining der PLANET internet commerce GmbH-Homepage 65 7.1. Datengenerierung . . . 66

7.2. Datenselektion . . . 67

7.3. Transaktionsidentifikation und Datentransformation . . . 68

7.3.1. Transaktionsidentifikation . . . 68

7.4. Data Mining . . . 76

7.4.1. Clusteranalyse . . . 76

7.4.2. Entscheidungsbauminduktion . . . 77

7.4.3. Neuronale Netze . . . 82

7.4.4. Assoziationsanalyse . . . 83

7.4.5. Pfadanalyse . . . 84

7.4.6. Deskriptive Statistik . . . 86

7.5. Evaluation und Interpretation . . . 87

7.5.1. Clusteranalyse . . . 88

7.5.2. Entscheidungsbauminduktion . . . 88

7.5.3. Neuronale Netze . . . 93

7.5.4. Assoziationsanalyse . . . 94

7.5.5. Pfadanalyse . . . 97

7.5.6. Deskriptive Statistik . . . 100

7.6. Zusammenfassung . . . 102

8. Fazit und Ausblick 105

A. Thesen 111

(7)

Tabellenverzeichnis

3.1. Vergleich der KDD-Definition mit der Web Log Mining-Definition . . . 14

3.2. Web Log Mining-Definition . . . 16

4.1. Wichtige Statuscodes . . . 22

4.2. Überblick der Logdatei-Informationen . . . 25

5.1. Logdateieintrag eines Seitenabrufs . . . 34

5.2. Logdateieintrag eines Seitenabrufs mit eingebetteten Elementen . . . 35

5.3. Logdateieinträge mit unterschiedlichen Übertragungsmethoden . . . 35

5.4. Fehlerhafter Ressourcenabruf . . . 36

5.5. Verfälschende Elemente in Logdateien . . . 36

5.6. Aufspaltung zusammengesetzter in einzelne Attribute . . . 37

5.7. Transaktionsidentifikation mittels Vergleich von Internetadresse und Agentfeld 38 5.8. Transaktionen mittels Vergleich von Internetadresse und Agentfeld . . . 38

5.9. Exemplarische Logdatei . . . 40

5.10.Transaktionsidentifikation mit einem Zeitfenster . . . 41

5.11.Datenmatrix . . . 42

5.12.Kodierung des Transaktionsfeldes . . . 42

5.13.Ermittlung der Referenzdauer . . . 43

5.14.Diskretisierung der Verweildauer . . . 43

7.1. Bereiche der PLANET GmbH-Homepage . . . 66

7.2. Umfang der PLANET GmbH-Logdateien . . . 67

7.3. Doppelte Logdateieinträge . . . 68

7.4. Unangereicherte Transaktionsdaten . . . 70

7.5. Angereicherte Transaktionsdaten . . . 74

7.6. Zusätzliche Attribute mit Hilfe von Identifizierungsmechanismen . . . 75

7.7. Datenbasis für die Assoziationsanalyse . . . 76

7.8. Ergebnisse der Clusteranalyse . . . 77

7.9. Verteilung der Ausprägungen des Attributs „Besucherverhalten“ . . . 78

7.10.Ausprägungsverteilung in Trainings- und Validierungsmenge (Verhältnis 50/50) 80 7.11.Vorhersageergebnisse der Entscheidungsbauminduktion (Verhältnis 50/50) . 81 7.12.Ausprägungsverteilung in Trainings- und Validierungsmenge (Verhältnis 70/30) 81 7.13.Vorhersageergebnisse der Entscheidungsbauminduktion (Verhältnis 70/30) . 82 7.14.Vorhersageergebnisse der Neuronalen Netze . . . 83

7.15.Häufigste Assoziationsregeln . . . 84

7.16.Häufigste Pfade . . . 85

7.17.Traffic nach Wochentagen . . . 86

(8)

Tabellenverzeichnis

7.18.Die beliebtesten Ressourcen . . . 87 7.19.Vorhergesagte und tatsächliche Gruppenverteilung mit der Entscheidungs-

baumvorhersage . . . 93 7.20.Vorhergesagte und tatsächliche Gruppenverteilung mit Neuronalen Netzen . 94 7.21.Interessante Assoziationsregeln . . . 94 7.22.Dokumente, die die Besucher zum Anklicken des Kontaktformulars animiert

haben . . . 99

(9)

Abbildungsverzeichnis

2.1. KDD-Prozess . . . 7

3.1. Taxonomie des Web Log Mining . . . 14

4.1. Konzept der serverseitigen Protokollaufzeichnung . . . 20

4.2. Ausschnitt einer typischen Logdatei im CLF-Format . . . 20

4.3. Ausschnitt einer typischen Logdatei im ELF-Format . . . 24

4.4. Ausschnitt einer Logdatei im ELF-Format mit Kennungsfeld . . . 28

4.5. Caching-Mechanismus . . . 29

4.6. Funktionsweise eines Proxy-Servers . . . 29

4.7. Hierarchie der Messgrößen . . . 31

5.1. Web Log Mining-Prozess . . . 33

5.2. Data Mining-Ziele und Data Mining-Aufgaben . . . 44

5.3. Data Mining-Aufgaben und Data Mining-Verfahren . . . 46

5.4. Clusteranalyse von Besuchern . . . 47

5.5. Schema eines Neurons . . . 48

5.6. Darstellung eines Neuronalen Netzes . . . 49

5.7. Neuronales Netz für die Vorhersage des Besucherverhaltens . . . 50

5.8. Ergebnisnetz für die Vorhersage des Besucherverhaltens . . . 50

5.9. Exemplarischer Entscheidungsbaum . . . 52

5.10.Navigationspfad einer Transaktion . . . 55

5.11.Beispielchart von täglichen Page Views . . . 57

6.1. Oberfläche von Websuxess 4.0 . . . 60

6.2. Oberfläche von XAffinity 3.0 . . . 62

6.3. Segmentansicht einer Datenmenge mit KnowledgeStudio 3.0 . . . 63

6.4. Entscheidungsbaum des KnowledgeStudios . . . 64

7.1. Homepage der PLANET internet commerce GmbH . . . 65

7.2. Traffic nach Stunden . . . 86

7.3. Beziehungen zwischen HTML-Dokumenten . . . 95

7.6. Häufigste Klickpfade . . . 98

7.7. Aufrufmöglichkeit des Kontaktformulars aus einem Produktbereich . . . 99

(10)

Abbildungsverzeichnis

(11)

Abkürzungsverzeichnis

Abb. Abbildung

Abs. Absatz

AG Aktiengesellschaft

AOL America Online

Art. Artikel

ASCII American Standard Code for Information Interchange

Bd. Band

BDSG Bundesdatenschutzgesetz

Bit Binary Digit

bzw. beziehungsweise

ca. circa

CD Compact Disc

CERN Conseil Europeén pour la Recherche Nucléaire

CGI Common Gateway Interface

CHAID Chi-Squared Automatic Interaction Detection CART Classification and Regression Trees

CLF Common Logfile

CMS Content-Management-System

CSS Cascading Stylesheets

CSV Comma Separated Values

d.h. das heißt

DIN Deutsches Institut für Normung

DNS Domain Name System

DSL Digital Subscriber Line e.V. eingetragener Verein E-Commerce Electronic Commerce

ELF Extended Logfile

E-Mail Electronic Mail

GIF Graphic Interchange Format

GmbH Gesellschaft mit beschränkter Haftung

GMT Greenwich Meridian Time

Hrsg. Herausgeber

HTML Hypertext Markup Language HTTP Hypertext Transfer Protocol

HTTPS Hypertext Transfer Protocol Secure

i.a. im allgemeinen

ICANN The Internet Corporation for Assigned Names and Numbers

(12)

Abbildungsverzeichnis

i.d.R. in der Regel

ID Identifer

ID3 Interactive Dichotomiser 3 IIS Internet Information Server

IP Internet Protocoll

ISP Internet Service Provider IuK Information und Kommunikation

IuKDG Informations- und Kommunikationsdienstegesetz

IVW Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e.V.

Jg. Jahrgang

JPG Joint Photographic Expert Group

KB Kilobyte

KDD Knowledge Discovery in Databases

KI Künstliche Intelligenz

LAN Local Area Network

MB Megabyte

Min. Minuten

NCSA National Center for Supercomputing Applications

Nr. Nummer

o.V. ohne Verfasser

ODBC Open Database Conncetivity

PDF Portable Document Format

PNG Portable Network Graphic

ROI Return on Investment

RFC Request for Comment

S. Seite

SQL Structured Query Language

SSL Secure Sockets Layer

Tab. Tabelle

TDDSG Teledienstdatenschutzgesetz

TDG Teledienstgesetz

u.a. unter anderem

u.U. unter Umständen

u. und

überarb. überarbeitete

URL Uniform Resource Locator

VD Verweildauer

vgl. vergleiche

W3C World Wide Web Consortium

WI Wirtschaftsinformatik

Win Windows

WWW World Wide Web

z.B. zum Beispiel

z.T. zum Teil

(13)

1. Einleitung

1.1. Motivation

Das Internet hat sich in den letzten Jahren zu einem bedeutenden Medium für die Abwick- lung geschäftlicher Prozesse entwickelt. Da die Webpräsenz eines Unternehmens immer häufiger den ersten Kontakt zwischen einem potentiellen Kunden und dem Unternehmen herstellt, hat sie stark an Bedeutung gewonnen. Gerade in einem so stark umkämpften Markt wie dem Internet, ist es von immenser Bedeutung sich Wettbewerbsvorteile gegen- über der Konkurrenz zu verschaffen, denn der Kunde ist nur einen Mausklick von dem näch- sten Angebot entfernt. Unternehmungen, die über eigene Webpräsenzen verfügen, sammeln automatisch Nutzungsdaten in sogenannten Logdateien über die virtuellen Besuche ihrer (potentiellen) Kunden. Die hierbei anfallenden Daten werden aber häufig nur unzureichend verwertet. Da sich die Nutzungsdaten aus wirtschaftlichem Hintergrund auf das Verhalten von Marktpartnern beziehen, sind sie zur Unterstützung wirtschaftlicher Entscheidungen von großer Bedeutung. Das Management muss wissen, wer die Website besucht und, was noch wichtiger ist, wer etwas kauft bzw. warum nichts gekauft wird. Websites werden heute als Investition gesehen und müssen ihre Notwendigkeit, wie jede andere Marketinginvestition, begründen. Je mehr man darüber weiß, wie viele Kunden die Website besuchen, wer sie sind und für welche Bereiche sie sich interessieren, desto mehr wird die Website davon pro- fitieren. Werden diese Informationen zur Optimierung der Website genutzt und mit anderen gängigen Marketingaktivitäten verbunden, kann der gesamte Internetauftritt stark verbessert werden. Einen Ansatzpunkt, um diese Nutzungsdaten effektiv verwenden zu können, liefern dabei die Konzepte des Knowledge Discovery in Databases und Data Mining. Vor dem internetbasierten Hintergrund der Datenanalyse wird dieser Sachverhalt als Web Log Mining bezeichnet.

Diese Arbeit beschäftigt sich mit der Untersuchung von Data Mining-Verfahren zur Auswer- tung von internetbasierten Nutzungsdaten (Logdateien) und deren Nutzen zur Unterstützung unternehmerischer Entscheidungen im Kontext der Optimierung von Internetangeboten. In diesem Rahmen werden zunächst die konzeptionellen Grundlagen für die Datenanalyse untersucht. Darauf aufbauend wird geprüft, ob diese Konzepte wirksam auf das Gebiet des

(14)

Kapitel 1. Einleitung

Web Log Mining anwendbar sind. In diesem Zusammenhang werden Softwareprodukte vorgestellt, die bei der Lösung der Analyseprobleme Anwendungfinden. Abschließend wird die Übertragbarkeit dieser Konzepte auf praktische Problemstellungen und deren Nutzen zur Unterstützung unternehmerischer Entscheidungen bezüglich der Verbesserung des Interne- tangebotes analysiert. Die Untersuchungsergebnisse sollen die Grundlage für eine Optimie- rung von Internetangeboten in wirtschaftlicher und ergonomischer Hinsicht bilden.

1.2. Inhaltsübersicht

Zunächst werden die konzeptionellen Grundlagen für die Datenanalyse untersucht. In diesem Rahmen wird im zweiten Kapitel, Knowledge Discovery in Databases und Data Mining, ein inhaltlicher Bezugsrahmen, mit der Definition von Knowledge Discovery in Databases und Data Mining, für das Web Log Mining geschaffen.

Auf dieser Basis erfolgt im dritten Kapitel, Web Log Mining, die Definition und prozessorientierte Darstellung des Web Log Mining. Dabei werden auch die rechtlichen Rahmenbedin- gungen betrachtet.

Im vierten Kapitel, Datenkomponenten, wird auf die Datenkomponenten, die die Datenbasis des Web Log Mining bilden, eingegangen. In diesem Zusammenhang werden technische Probleme aufgezeigt und die Messgrößen vorgestellt.

Im Rahmen des fünften Kapitels, Prozess des Web Log Mining, erfolgt die detaillierte Defini- tion und prozessorientierte Darstellung der einzelnen Phasen des Web Log Mining. Hierbei werden Data Mining-Verfahren dargestellt, die im weiteren Verlauf der Arbeit Anwendung finden.

Im sechsten Kapitel, Vorstellen von Data Mining-Programmen im Kontext des Web Log Mi- ning, werden Data Mining-Produkte vorgestellt, die im Rahmen dieser Arbeit eingesetzt werden.

Der praxisorientierte Teil der Arbeit folgt in Kapitel sieben, Web Log Mining der PLANET internet commerce GmbH-Homepage. Dabei wird das in Kapitel drei und fünf theoretisch fundierte Web Log Mining-Konzept auf seine praktische Anwendbarkeit geprüft. In diesem Zusammenhang wird die in Kapitel sechs vorgestellte Data Mining-Software, mit den internetbasierten Nutzungsdaten der Internetpräsenz der Planet internet commerce GmbH, eingesetzt. Am Ende des siebten Kapitels erfolgt eine Zusammenfassung der Analyseer- gebnisse und eine Beurteilung der praktischen Bedeutung dieser Resultate.

Das achte Kapitel, Fazit und Ausblick, gibt eine abschließende Zusammenfassung der Unter- suchungsergebnisse der Arbeit. Es erfolgt eine Bewertung des Web Log Mining-Konzeptes und deren Nutzen zur Unterstützung unternehmerischer Entscheidungen bezüglich der Ver-

(15)

1.2. Inhaltsübersicht besserung des Internetangebotes. Dabei werden auch Möglichkeiten aufgezeigt, wie die Analyseergebnisse des Web Log Mining bei zukünftigen Projekten Anwendungfinden kön- nen.

Anhang A, Thesen, rundet die Arbeit, mit abschließenden Feststellungen bezüglich zur Ana- lyse der Eignung von Data Mining-Verfahren zur Auswertung von internetbasierten Nut- zungsdaten und Unterstützung von unternehmerischen Entscheidungen bei der Optimierung von Internetangeboten, ab.

(16)

Kapitel 1. Einleitung

(17)

2. Knowledge Discovery in Databases und Data Mining

2.1. Begriffsdefinitionen und -abgrenzung

Die Anzahl und Größe der weltweit routinemäßig anfallenden Datensammlungen und Daten- banken nimmt ständig zu. Es wird geschätzt, dass sich die weltweit vorhandene Datenmenge alle 20 Monate verdoppelt - bei Datenbanken ist die Rate wahrscheinlich noch höher¹. Vie- le dieser Datenbanken speichern riesige Datenmengen mit Tausenden oder Millionen von Datensätzen. Die Daten werden ursprünglich meist für andere Zwecke als die Verwendung in Data Mining-Systemen erfasst und routinemäßig archiviert. Sie resultieren aus verschiedenen Erfassungsprozessen, und oft ist der Grund für ihre Speicherung, die ausreichend zur Verfügung stehende, preisgünstige Speicherkapazität. Ausgangspunkt für die Entwick- lung der Konzepte des Data Mining und des Knowledge Discovery in Databases (KDD) ist diese Informationsflut. Wie oft bei jungen Forschungsrichtungen, ist das Begriffsverständnis zu Beginn recht uneinheitlich. Während sich in der englischsprachigen Literatur bspw. eine deutliche Abgrenzung der Begriffe Knowledge Discovery in Databases und Data Miningfin- det, werden beide aufgrund einer inhaltlichen Deckungsgleichheit im Deutschen oft synonym gebraucht². Im Folgenden soll versucht werden beide Begriffe voneinander zu differenzie- ren und zu definieren. Der Begriff Data Mining wurde vorwiegend von Statistikern, Daten- analysten und der Management-Informationssystem-Gemeinde, KDD von den Vertretern für Künstliche Intelligenz und dem Maschinellen Lernen verwendet³. Fayyad schlug 1996 eine heute weithin anerkannte Definition vor, in der die beiden Begriffe getrennt wurden⁴:

„Knowledge Discovery in databases is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.“

1[MENA00] S. 63 ff.

2[WIED01] S. 19

3Vgl. [KÜPP99] S. 23

4[FAYY96] S. 6 und S. 9

(18)

Kapitel 2. Knowledge Discovery in Databases und Data Mining

„Data Mining is a step in the KDD-Process consisting of particular data mining algorithms that, under some acceptable computational efficiency limitations, pro- duce a particular enumeration of patterns.“

Knowledge Discovery in Databases ist eine interdisziplinäre Forschungsrichtung, zu deren Entstehung und Entwicklung insbesondere die Forschungsgebiete Maschinelles Lernen, Da- tenbanksysteme und Statistische Datenanalyse beigetragen haben⁵. Dieser in der Literatur auch als „Knowledge Extraction“ oder „Data Analysis“ bezeichnete Prozess ist darauf aus- gerichtet, in umfangreichen Datenbeständen implizit vorhandenes Wissen zu entdecken und explizit zu machen. Der Prozessbegriff beinhaltet mehrere iterative Schritte wie Datenvorver- arbeitung, Mustererkennung und Evaluation, die notwendig sind, um verwertbare Ergebnisse zu erhalten, was im nächsten Abschnitt noch einmal verdeutlicht wird. KDD bezeichnet also den gesamten Prozess der Wissensentdeckung in großen Datenbeständen, während Da- ta Mining die Anwendung verschiedener Algorithmen zur Musterextraktion zum Inhalt hat.

Die gefundenen Muster müssen für einen möglichst großen Teil der Daten Geltung haben und bislang unbekannte, potentiell nützliche und leicht verständliche Zusammenhänge in den Daten zum Ausdruck bringen. Aus den ermittelten Beziehungsmustern wird schließlich durch Interpretation und Evaluation explizites Wissen abgeleitet⁶.

2.2. KDD-Prozess

Im Vorfeld des KDD-Prozesses wird relevantes und bereits vorhandenes Wissen über den gewünschten Anwendungsbereich gesammelt sowie die Zielsetzung der Anwendung fest- gelegt. Die Analyse von Rahmenbedingungen bildet einen weiteren Bestandteil der Vorbe- reitung. Diese lassen sich mit Hilfe eines Lösungsszenarios herauskristallisieren. Dabei wird festgestellt, welche Optionen der KDD-Prozess beinhalten kann und welche ausfinanziellen, organisatorischen oder politischen Gründen nicht in Frage kommen⁷. Die Abbildung 2.1 zeigt die Schritte, die bei dem KDD-Prozess iterativ durchlaufen werden. Im Folgenden werden die einzelnen Phasen des KDD-Prozesses erläutert.

2.2.1. Datenselektion

In der ersten Phase des KDD- Prozesses sind die Daten, die für die vom Anwender angeforderte Analyse benötigt werden oder geeignet erscheinen, zu bestimmen und aus den gege- benen Datenquellen zu extrahieren. Neben dem Basisdatenbestand können auch externe

5[DÜSI98] S. 291 f., [BENS01a] S. 61 f.

6[KIMM00] S. 12

7[DAST00] S. 1

(19)

2.2. KDD-Prozess

Abbildung 2.1.:KDD-Prozess, Vgl. [FAYY96] S. 10

Daten für die Analyse herangezogen werden. So bieten bspw. Adressbroker⁸Informationen an, mit denen Kunden oder Interessenten zusätzlich qualifiziert werden können. In der Pha- se der Datenselektion wird geprüft, welche Daten notwendig und verfügbar sind, um das gesetzte Ziel zu erreichen. Können die selektierten Daten aufgrund technischer oder recht- licher Restriktionen nicht in einen Zieldatenbestand überführt werden, ist die Datenselektion erneut vorzunehmen⁹. Technische Restriktionen, die die Überführung in einen Zieldatenbe- stand verhindern, sind z.B. Kapazitäts- und Datentypbeschränkungen des Zielsystems oder fehlende Zugriffsrechte des Anwenders. Eine Möglichkeit diese Probleme zu umgehen, ist die Beschränkung der Auswahl auf eine repräsentative Teildatenmenge des Gesamtdaten- bestands. Jedoch können in diesem Zusammenhang verfälschte Analyseergenisse hervorgerufen werden. Bei der Verarbeitung personenbezogener Daten sind in Deutschland die rechtlichen Bestimmungen¹⁰ des Bundesdatenschutzgesetzes zu beachten.

2.2.2. Datenvorbereitung

Da die Zieldaten aus den Datenquellen lediglich extrahiert wurden, ist im Rahmen der Daten- vorbereitung die Datenqualität des Zieldatenbestands festzustellen und, sofern notwendig,

8Einen umfangreichen Überblick bietet [MENA00] S. 314 ff.

9[BENS01a] S. 74

10Vgl. Abschnitt 3.2

(20)

durch den Einsatz geeigneter Verfahren zu steigern¹¹. Aufgrund technischer oder mensch- licher Fehler können die Daten operativer Systeme fehlerhafte Elemente enthalten. In der Praxis wird damit gerechnet, das ein bis fünf Prozent der Felder des Datenbestands falsche Angaben aufweisen¹². Die Kenntnis der Schwächen der Analysedaten ist elementar für die Qualität der Untersuchungsergebnisse. Die Anwender der Analysewerkzeuge müssen auf die Zuverlässigkeit und Korrektheit der Daten vertrauen können. Fehlerhafte Daten verfäl- schen möglicherweise die Resultate, ohne dass der Anwender von diesen Mängeln Kenntnis erlangt, und fehlende Informationen verhindern eventuell die Berechnung wichtiger Kennzah- len. Die zunehmende Durchführung (teil-) automatisierter Datenanalysen hat eine erhöhte Anfälligkeit gegenüber Datenmängeln zur Folge, der durch geeignete Mechanismen zur Er- kennung und Beseitigung solcher Schwächen zu begegnen ist¹³. Eine häufige, leicht zu identifizierende Fehlerart besteht in fehlenden Werten. Zur Behandlung von fehlenden Wer- ten stehen unterschiedliche Techniken zur Verfügung. Gängige Ersetzungsstrategien für numerische Attributausprägungen sind das Einsetzen eines Nullwertes, eines Mittel-, Maximal- oder Minimalwertes oder des Medians von Attributwerten innerhalb der Grundgesamtheit, einer repräsentativen Teilmenge oder einer Klasse. Bei nichtnumerischen Attributausprä- gungen kann es dagegen sinnvoll sein, die häufigste Attributausprägung einzusetzen¹⁴. Ei- ne weitere Möglichkeit Attribute zu ersetzen, ist die nachträgliche manuelle Erhebung der fehlenden Daten, das kann aber zu einem unverhältnismäßig hohen Aufwand führen. Eine weitere potentielle Fehlerart wird durch Ausreißer¹⁵ hervorgerufen. Dabei handelt es sich um Wertausprägungen, die deutlich vom Niveau der übrigen Werte abweichen. Bei diesen Ausprägungen kann es sich um korrekt erfasste Daten handeln, die damit Eingang in die Analyse finden oder aber um falsche Angaben, die nicht berücksichtigt werden dürfen und daher aus dem Datenbestand zu löschen sind. Die Erkenntnisse, die der Nutzer eines Data- Mining-Systems in dieser Phase über den Datenbestand gewinnt, können Hinweise auf die Verbesserung der Datenqualität der operativen Systeme geben¹⁶. Mithilfe von geeigneten Dienstprogrammen¹⁷ ist es möglich, ein grundlegendes Verständnis dieser Daten zu erlan- gen und eventuell schon neues Wissen zu ermitteln.

11[BENS01a] S. 74

12[GROB99]S. 8

13[KNOB00] S. 90 f.

14[BENS01a] S. 75

15Umfassendere Informationen bietet [RUNK00] S. 17 ff.

16[GROB99] S. 8

17 [MENA00] S. 188 f. stellt in diesem Zusammenhang die leistungsstarken Editoren UltraEdit-32 und Data Junction vor.

(21)

2.2. KDD-Prozess 2.2.3. Datentransformation

Die im Unternehmen verfügbaren Rohdatenbestände erweisen sich häufig in ihrer Ursprungs- form nicht für Data-Mining-Analysen geeignet oder als fehlerhaft. In der Phase der Daten- transformation wird der analyserelevante Zieldatenbestand in ein Datenbankschema transformiert, das von dem verwendeten Data-Mining-System verarbeitet werden kann. Dabei werden neue Attribute oder Datensätze generiert bzw. vorhandene Attribute transformiert.

Dieser Schritt ist notwendig, da Analyseverfahren spezifische Anforderungen an die Daten- struktur der Eingangsdaten stellen. Ziel der Transformation ist insbesondere die Gewährlei- stung invarianter Datendarstellungsformen (z.B. durch Übersetzung textueller Informationen in eindeutige Schlüssel oder Kodierungen) sowie die Einschränkung von Wertebereichen zur Verringerung der Anzahl zu betrachtender Ausprägungen (Dimensionsreduktion). Letz- teres kann durch Verallgemeinerung von Attributwerten auf eine höhere Aggregationsstufe, z.B. durch Nutzung von Taxonomien oder durch Bildung von Wertintervallen geschehen, wodurch sich die Granularität der Daten ändert¹⁸.

Die Transformation der Attribute wird unter Verwendung von Kodierungsverfahren durchge- führt. Dabei können neue Attribute durch Anwendung logischer oder mathematischer Ope- ratoren auf eines oder mehrere Attribute des Zieldatenbestandes erzeugt werden. Gängi- ge Kodierungsverfahren sind z.B. Normalisierung, Binärkodierung oder Diskretisierung, die nachfolgend kurz erläutert werden sollen:

• DieBinärkodierung erzeugt aus Attributen mit einer bestimmten Anzahl Merkmals- ausprägungen eine Menge binärer Attribute. Jeder Merkmalsausprägung wird ein bi- näres Merkmal zugeordnet, das den Wert 1 annimmt, wenn die Ausprägung in einem einzelnen Datensatz vorkommt und sonst den Wert 0 besitzt¹⁹. Dieses Verfahren kann z.B. das Attribut Kaufverhalten mit den Ausprägungen Käufer und Nichtkäufer so kodiert, das alle Käufer den Wert 1 annehmen und alle Nichtkäufer den Wert 0. Auf diese Weise kann ein qualitatives Attribut in mehrere binärkodierte Attribute überführt werden. Das Binärkodierungsverfahren bereitet qualitative Attribute für Algorithmen vor, die quantitative Eingabefolgen erfordern. Bei der Anwendung der Binärkodierung ist zu beachten, dass die Performanz der Mustererkennung durch die steigende Attribu- tanzahl beeinträchtigt werden kann²⁰.

• DieNormalisierung ist ein Kodierungsverfahren, bei der sämtliche Merkmalsausprä- gungen eines Attributs auf die Werte einer stetigen, numerischen Skala (z.B. [0;1]) transformiert werden. Dabei werden alle Werte durch den ermittelten Maximalwert dividiert oder mit dem Minimalwert subtrahiert und mit dem Bereich zwischen Maximal-

18Vgl. [KNOB00] S. 91 ff.

19Vgl. [GRIM98] S. 114

20Vgl. [BENS01a] S. 78

(22)

und Minimalwert dividiert. Eine andere Normalisierungstechnik bestünde darin, den statistischen Mittelwert und die Standardabweichung der Attributwerte zu berechnen, den Mittelwert von jedem Wert zu subtrahieren und das Ergebnis durch die Standard- abweichung zu dividieren. Das Verfahren der Normalisierung kann dann angewendet werden, wenn Minimum und Maximum eines Attributes gegeben sind²¹. Die Normali- sierung kann z.B. zur Kodierung des Alters eingesetzt werden. Der Minimalwert hierbei sind 0 Jahre und der Maximalwert bspw. 100 Jahre. Ein Alter von 40 Jahren würden dann, auf einer Skala von 0 bis 1, mit 0,4 kodiert werden.

• Das Kodierungsverfahren Diskretisierung wird angewendet, um den Wertebereich von quantitativen Attributausprägungen in endlich viele Teilmengen zusammenzufas- sen. Die Diskretisierung kann z.B. bei der Verallgemeinerung des Alters sinnvoll sein, da auf diese Weise die Altersinformationen zu Altersgruppen zusammengefasst werden können und so eine Reduzierung der Attributausprägungen erreicht wird²². Die bisher dargestellten Aktivitäten der Datenselektion, Datenvorbereitung und Datentrans- formation verbrauchen einen erheblichen Teil der Gesamtressourcen des KDD-Prozesses.

In der Praxis kann nach Expertenschätzungen die Datenvorbereitung ca. 80 Prozent der Zeit und Kosten des gesamten KDD-Prozesses beanspruchen²³.

2.2.4. Data Mining

Liegen geeignete Datenbestände in befriedigender Qualität vor, können die Analysen durch- geführt werden. In dieser Phase erfolgt die Verfahrensauswahl und deren Einsatz zur Identifi- kation von Mustern auf der Basis des vorbereiteten Datenbestandes. In einem ersten Schritt wird zunächst entschieden, welche grundlegende Data Mining-Operation²⁴(z.B. Klassifizie- rung oder Segmentierung ) eingesetzt werden soll. Daran schließt sich die Auswahl eines geeigneten Data Mining-Verfahrens²⁵ (z.B. Clusteranalyse oder Neuronale Netze) an. Nach der Auswahl eines für die konkrete Problemstellung geeigneten Verfahrens muss diese konfiguriert werden. Diese Parametrisierung bezieht sich auf die Vorgabe bestimmter methoden- spezifischer Werte, wie z.B. die Festlegung minimaler relativer Häufigkeiten zur Realisierung eines Interessantheitsfilters, die Auswahl der bei der Musterbildung oder -beschreibung zu berücksichtigenden Attribute oder die Einstellung von Gewichtungsfaktoren für einzelne Ein- gabevariablen²⁶. Wenn eine zufriedenstellende Konfiguration gefunden wurde, kann mit der Suche nach interessanten Mustern in den Daten begonnen werden.

21[WITT01] S. 56, [PYLE99] S. 251 ff.

22[SCHM00a] S. 19 f., [BÖHM00] S. 1 ff.

23[ALPR00a] S. 38 f.

24Vgl. Abschnitt 5.4.1

26[KNOB00] S. 97 ff.

(23)

2.2. KDD-Prozess 2.2.5. Evaluation und Interpretation

In dieser Phase des KDD-Prozesses werden die entdeckten Muster und Beziehungen bewertet und interpretiert. Diese Muster sollen den Anforderungen der Gültigkeit, Neuartigkeit, Nützlichkeit und Verständlichkeit genügen, um neues Wissen zu repräsentieren und einer Interpretation zugänglich zu sein. Letztere ist Voraussetzung für die Umsetzung der gewon- nenen Erkenntnisse im Rahmen konkreter Handlungsmaßnahmen. Bei Weitem nicht alle der aufgedeckten Muster erfüllen jedoch diese Kriterien. Die Analyseverfahren fördern vielmehr eine Vielzahl von Regelmäßigkeiten zutage, die irrelevant, trivial, bedeutungslos, bereits be- kannt waren, aus denen dem Unternehmen kein ökonomischer Nutzen erwachsen kann oder die unverständlich und nicht nachvollziehbar sind. Die Bewertung von Mustern kann anhand des Kriteriums der Interessantheit vollzogen werden. Im Folgenden werden Dimensionen der Interessantheit dargestellt²⁷:

• Die Validität eines Musters ist ein objektives Maß dafür, mit welcher Sicherheit ein Muster auch in Bezug auf neue Daten gültig ist.

• Das Kriterium der Neuartigkeit erfasst, inwieweit ein Muster das bisherige Wissen ergänzt oder im Widerspruch zu diesem steht.

• DieVerständlichkeit misst, wie gut eine Aussage von einem Anwender verstanden werden kann.

• Das Kriterium derNützlichkeiteines Musters erfasst die praktische Anwendbarkeit für den Anwender.

Die korrekte Interpretation von Data-Mining-Ergebnissen erfordert ein hohes Maß an Domä- nenkenntnissen. Die Interpretation soll dazu dienen, das Domänenwissen des Anwenders effektiv zu verändern. Im Idealfall sollte ein Team von Experten aus unterschiedlichen Berei- chen gebildet werden, um sicherzustellen, dass die Bewertung korrekt ist und die gewonne- nen Informationen der bestmöglichen Nutzung zugeführt werden. Die Interpretationsphase lässt sich durch geeignete Präsentationswerkzeuge sowie durch die Verfügbarkeit zusätz- licher Informationen über die Anwendungsdomäne unterstützen. Typischerweise erfolgt in dieser Phase ein Rücksprung in eine der vorherigen Phasen. So ist meist eine Anpassung der Parameter notwendig oder die Auswahl einer anderen Data Mining-Technik erforderlich.

Es kann auch nötig sein, zu der Datenselektionsphase zurückzukehren, wenn festgestellt wird, dass sich die gewünschten Ergebnisse nicht mit der genutzten Datenbasis erreichen lassen²⁸.

27Vgl. [KÜPP99] S. 88 ff., [KNOB00] S. 99 ff., [BENS01a] S. 88 f.

28Vgl. [KNOB00] S. 99

(24)

(25)

3. Web Log Mining

3.1. Begriffsdefinitionen und -abgrenzung

Ansätze des Data Mining, die das Internet als Datenquelle für die Mustererkennung her- anziehen, werden unter dem Themengebiet des Web Mining zusammengefasst. In Abhän- gigkeit von der inhalts- oder nutzungsorientierten Analyse des World Wide Web (WWW) lassen sich die Teilgebiete des Web Content Mining und des Web Usage Mining voneinander abgrenzen¹. Web Content Mining befasst sich mit der Analyse von den im WWW befindlichen Daten. Dazu gehören textuelle und multimediale Informationen jeglichen For- mats und auch die Verbindungen (Links) zu den Nachbarseiten. Diese Richtung des Web Mining trägt nicht dazu bei, Informationen über Online-Kunden zu gewinnen und soll daher hier nicht näher betrachtet werden. Web Usage Mining dagegen beschäftigt sich mit dem Verhalten von Internet-Nutzern. Bei dieser Ausprägungsform des Web Mining werden Da- ta Mining-Methoden auf die Protokolldateien² des Webservers angewandt, um Aufschlüsse über Verhaltensmuster und Interessen der Online-Kunden zu erhalten³. Eine Ausprägungs- form des Web Usage Mining, bei der sich die Analyse ausschließlich auf die Protokolldateien des Web-Servers beschränkt, wird als Web Log Mining bezeichnet. Sofern neben den Pro- tokolldateien noch weitere Datenbestände in den Mustererkennungsprozess einfließen, wird diese Ausprägung als Integrated Web Usage Mining bezeichnet. Die Taxonomie des Web Log Mining wird in der Abbildung 3.1 dargestellt.

1Vgl. [BENS99a] S. 426, [COOL97] S. 1 f.

2Vgl. Abschnitt 4.1

3Vgl. [HIPP02] S. 89 f.

(26)

Kapitel 3. Web Log Mining

Abbildung 3.1.:Taxonomie des Web Log Mining, [BENS99a] S. 427, [COOL97] S. 1 Die Definitionsgrundlage des Web Log Mining bilden die in den Abschnitten 2.1 und 2.2 dargestellten Definitionen des Data Mining und des KDD-Prozesses. Die sprachliche Ähn- lichkeit der Begriffe Data Mining und Web Log Mining legt eine definitorische Ableitung des Web Log Mining aus den Begriffsinhalten nahe. Bensberg definiert das Web Log Mining, auf Basis des im Abschnitt 2.2 dargestellten KDD-Prozess, als einen⁴:

„... informationstechnologisch und methodisch integrierten Prozess, der durch Anwendung von Methoden auf Protokolldaten Muster entdeckt und anwenderori- entiert aufbereitet.“

Für die Definition des Web Log Mining modifiziert Bensberg⁵das Modell des KDD-Prozesses.

Die Tabelle 3.1 zeigt zusammenfassend die Phasen des KDD-Prozesses nach Fayyad⁶und das modifizierte Modell nach Bensberg.

Tabelle 3.1.:Vergleich der KDD-Definition mit der Web Log Mining-Definition

5[BENS01a] S. 70 f. und S. 133 ff.

6[FAYY96] S.10

(27)

3.1. Begriffsdefinitionen und -abgrenzung Als erste Abänderung des KDD-Prozesses nach Fayyad führt Bensberg die Phase der Da- tengenerierung ein, in dieser Phase erfolgt die Aufzeichnung der Protokolldaten. Durch die Integration dieser Phase als Teil des Web Log Mining-Prozesses wird sichergestellt, das die internetbasierte Anwendung in den Prozess der Datenanalyse eingegliedert wird und so ein kontinuierlicher Entwicklungsprozess sichergestellt werden kann⁷. Weiterhin führt Bensberg die Phasen Datenvorbereitung und Datentransformation zu der Phase zusammen. Diese Zusammenführung begründet er damit, das eine eindeutige Differenzierung zwischen der Datenvorbereitung und der Datentransformation nicht immer sinnvoll oder möglich ist. So ist unter dem Begriff der Transformation im engeren Sinne die Schemakonversion der Daten zu verstehen. Da dieser Vorgang automatisch erfolgen kann, ist keine Benutzerinteraktion notwendig⁸. Unter Transformation kann aber auch die Änderung der Datenbankstruktur und der Datenbankinhalte verstanden werden. Diese Aktivitäten sind, nach Bensberg, Gegen- stand der Datenvorbereitung, so das die Zusammenfassung beider Phasen möglich ist. Die letzte Modifikation die Bensberg durchführt, betrifft die Phase der Evaluation und Interpre- tation. Diese Phase gliedert er in drei einzelne Teilprozesse: Evaluation, Präsentation und Interpretation. Bensberg legt besonderen Wert auf die Organisation der entdeckten Hypo- thesen, sodass er die Phase der Evaluation explizit in den Web Log Mining-Prozess einglie- dert. Der Präsentation der Ergebnisse der Mustererkennung widmet er eine eigene Phase, um die Wichtigkeit dieser Aktivität im Wissensentdeckungsprozess hervorzuheben, denn nur durch eine geeignete Visualisierung der Ergebnisse der Mustererkennung bzw. des Web Log Mining-Prozesses wird eine effektive Wissensveränderung des Anwenders gewährleistet⁹. Die meisten Analyseprogramme bieten bereits umfassende und skalierbare Präsentations- bzw. Visualisierungsmöglichkeiten, die eine effektive Evaluation und Interpretation der Ana- lyseergebnisse, mit entsprechendem Domänenwissen seitens des Anwenders oder geeigneter Experten, ermöglicht. Da die Visualisierungsergebnisse der Analyseprogramme meist automatisch generiert werden, wird Bensbergs Aufspaltung der Evaluations- und Interpre- tationsphase nach Fayyad für nicht notwendig erachtet. Weiterhin wird Bensbergs Phase der Datenvorbereitung und Datentransformation nachfolgend Transaktionsidentifikation und Datentransformation genannt, weil im Kontext des Web Log Mining die Datenvorbereitung vorrangig im Zeichen der Identifikation von Transaktionen steht. Im weiteren Verlauf der Ar- beit wird dem in Tabelle 3.2 dargestellten Web Log Mining-Prozess gefolgt.

8[BENS01a] S. 71

9[BENS01a] S. 70 f.

(28)

Tabelle 3.2.:Web Log Mining-Definition

Mit Hilfe von Web Log Mining lässt sich das Verhalten der Online-Besucher detailliert do- kumentieren und analysieren. Auch können die Ergebnisse des Web Log Mining zur optimalen Konfiguration des Internetauftrittes sowie zur optimalen Werbeplatzierung genutzt werden. Beispielsweise sollte die Seitenstruktur an häufigen Bewegungspfaden ausgerich- tet sein, um die Navigation zu erleichtern. Außerdem bietet es sich an, wichtige Seiteninhal- te (Werbung, Produktinformationen) auf diesen Pfaden zu platzieren. Für die Strategische Planung spielen die Ergebnisse des Web Log Mining auch eine wichtige Rolle. Beispiels- weise können strategische Partnerschaften mit anderen Websites, Bannerschaltungen und Einträge in Suchmaschinen hinsichtlich ihrer Effizienz bewertet werden, da sich detailliert feststellen lässt, über welche externen Links die meisten Besucher auf die Website gelang- ten. Die Einsatzmöglichkeiten für das Web Log Mining werden nachfolgend aufgezeigt¹⁰:

Dokumentation:

• Dokumentation des Nutzerverhaltens

• Erstellung von umfangreichen skalierbaren Statistiken Erfolgskontrolle:

• Erfolgskontrolle der Website

• Werbeerfolgskontrolle Layout-Planung:

• Verbesserung der Websitestruktur

• Gruppierung der Websiteinhalte und Struktur für unterschiedliche Nutzergruppen

• Optimale Werbe- und Produktplatzierung

10Vgl. [HIPP02] S. 101

(29)

3.2. Datenschutz Personalisierung:

• Personalisierte Seiteninhalte

• Zielgruppenspezifische Marketingkampagnen Verkaufsmuster entdecken:

• Warenkorbanalyse

• Cross Selling-Angebote

Da im Rahmen des Web Log Mining-Prozesses personenbezogene Daten verarbeitet und analysiert werden, sind auch datenschutzrechtliche Aspekte dieses Prozesses zu betrach- ten.

3.2. Datenschutz

Die Nutzung personenbezogener Daten durch privatwirtschaftliche Unternehmen unterliegt dem Gültigkeitsbereich des Bundesdatenschutzgesetzes (BDSG). Das Internet birgt viele Risiken, die das Recht auf informelle Selbstbestimmung beschneiden. Deshalb hat der bun- desdeutsche Gesetzgeber in Form des Informations- und Kommunikationsdienste-Gesetzes (IuKDG) bereichsspezifische Datenschutzvorschriften für die Anbieter und Nutzer von Te- lediensten¹¹ erlassen, die die bestehenden Rechtsvorschriften des BDSG ergänzen. Da diese Dienste im Rahmen internetbasierter Marktsysteme realisiert werden, sind die Da- tenschutzvorschriften des IuKDG zur Prüfung der datenschutzrechtlichen Zulässigkeit der Logdatei-Speicherung und Analyse anzuwenden¹². Im Artikel 2 des IuKDG, dem Gesetz über den Datenschutz bei Telediensten (Teledienstdatenschutzgesetz; TDDSG), werden folgende Grundsätze definiert¹³:

• Keine Verarbeitung personenbezogener Daten ohne Notwendigkeit dazu

• Zweckbindung der Verarbeitung an die Erbringung von IuK-Diensten

• Transparente Darstellung der Datenverwendung

• Technische Sicherung der Nutzeranonymität

11Im Artikel 1 des IuKDG, dem Gesetz über die Nutzung von Telediensten (Teledienstgesetz; TDG), §2 Abs. 1 werden „... Angebote von Waren und Dienstleistungen in elektronisch abrufbaren Datenbanken mit interakti- vem Zugriff und unmittelbarer Bestellmöglichkeit“ als Teledienst ausgewiesen.

13[SCHW00] S. 16 f.

(30)

• Kontrolle durch eine unabhängige Instanz

Die Verwendung personenbezogener Daten zu Marketingzwecken oder für die Gestaltung von Websites ist ausschließlich mit Einwilligung des Nutzers zulässig (§3 Abs. 1 TDDSG).

Verarbeitungsschritte, wie z.B. das Speichern, Ändern, Übermitteln und Nutzen der Daten für andere Zwecke, sind laut §3 Abs. 2 TDDSG nur dann zulässig, wenn eine Rechtsvor- schrift dies erlaubt oder die Einwilligung des Nutzers vorliegt. Um Nutzungsdaten in Log- dateien verwenden zu dürfen, ist darauf zu achten, dass die Daten anonymisiert vorliegen und keinen Personenbezug aufweisen. Andernfalls wären diese Nutzungsdaten sofort nach Ende der Nutzung wieder zu löschen, es sei denn, sie werden für Abrechnungszwecke be- nötigt. Zur technischen Wartung und Weiterentwicklung der Website sind Logdateien mit anonymen Einträgen in den meisten Fällen ausreichend. Fehler, die bei der Nutzung auf- treten oder benötigte Übertragungskapazitäten in einem bestimmten Zeitraum, lassen sich auch unabhängig von der Zuordnung zu individuellen Nutzern erfassen. Die darauf basieren- den Anpassungsmaßnahmen betreffen nur selten einzelne Nutzer, sondern eher allgemeine Veränderungen der technischen Gestaltung einer Website. Im Marketingbereich ist hinge- gen die Verbindung erhobener Nutzungsdaten mit vorliegenden Bestandsdaten von Kunden von hohem Interesse. Gelingt die Verbindung von objektiven Verhaltensdaten und demogra- phischen Daten entstehen detaillierte Persönlichkeitsprofile, die es erlauben, Kunden indi- viduell anzusprechen und zu betreuen. Die Erstellung von Persönlichkeitsprofilen ist nach dem Gesetz nur bei Verwendung von Pseudonymen erlaubt; eine Zusammenführung personenbezogener Daten ist unzulässig (§ 4 Abs. 4 TDDSG)¹⁴. Die gesetzlichen Vorschriften kommen vor allem immer dann zum tragen, wenn Softwareprodukte aus anderen Ländern eingesetzt werden. In diesem Zusammenhang muss geprüft werden, ob diese Produkte mit den deutschen Gesetzesvorgaben konform sind.

14[SCHW00] S. 17 f.

(31)

4. Datenkomponenten

Jeder Besuch auf einer Website erzeugt einen Datensatz, in dem sämtliche Vorgänge der Sitzung aufgezeichnet werden. So wird eine beträchtliche Menge an Besucher- bzw. Kun- dendaten erfasst und entweder in Server-Logdateien oder in einer anderen Art Datenbank gespeichert. Da der Kontakt zwischen dem Unternehmen und den bestehenden bzw. potentiellen Kunden immer häufiger über die Website stattfindet, kann eine umfassende Analyse dieser webbasierten Daten zu einem wichtigen Unternehmensprozess werden. Das Unter- nehmen wird vor allem wissen wollen, wer seine Website besucht, was ihn dorthin zieht und wie er dorthin gelangt ist. Die Grundsteine für die Datenanalyse liegen in den Online-Daten.

Genauer gesagt, in den verschiedenen Komponenten, die für die Erzeugung der Server- Logdateien und anderer webbasierter Datenbanken verwendet werden. In den folgenden Abschnitten sollen die für den Web Log Mining-Prozess relevanten Datenkomponenten aufgezeigt werden¹.

4.1. Server-Logdateien

WWW-Server haben die Aufgabe, auf Anfrage von WWW-Clients Dateien (z.B. HTML-Dokumente) zur Anzeige zur Verfügung zu stellen. Um die Zugriffe auf die bereitgestellten Dateien nachvollziehbar zu machen, führt der WWW-Server Logbücher über die Anfragen von Clients.

Diese Logbücher heißen Server-Logdateien. Die Einträge in diesen, von dem WWW-Server erstellten, in der Regel ASCII-Textdateien, sind durch Kommata, Leerzeichen oder Tabstops getrennt. Als Logdatei werden Dateien bezeichnet, in denen eingetretene Ereignisse automatisch protokolliert werden. Dem Betreiber eines WWW-Servers liegen damit Protokolle vor, die die Beanspruchung einer Website und von Websiteteilbereichen objektiv abbilden.

Der Aufruf einer Internet-Seite basiert auf dem Übertragungsverfahren Hypertext Transfer Protocol (HTTP). Dabei gibt der Nutzer auf der Client-Seite in einem Internet-Browser die Adresse (URL²) eines gewünschten Dokumentes an. Der Browser veranlasst die Herstel-

1[MENA00] S. 266 f.

2Das URL-Format (Uniform Resource Locator) macht eine eindeutige Bezeichnung aller Dokumente im Inter- net möglich, es beschreibt die Adresse eines Dokuments oder Objekts, das von einem WWW-Client gelesen werden kann.

(32)

Kapitel 4. Datenkomponenten

lung einer Verbindung zu demjenigen Web-Server, auf dem das Dokument vorliegt und sendet eine Anfrage zur Übertragung. Der Server sendet das Dokument bzw. dessen In- halte an die Adresse des Nutzers und protokolliert die Übertragung in der Logdatei³. Ein WWW-Server erstellt in der Regel mindestens zwei Logdateien: für die Protokollierung der Zugriffe (Access-Logdatei) und für die Fehlerprotokollierung (Error-Logdatei). Die meisten Server unterstützen darüber hinaus zwei weitere Typen von Logdateien. Zum einen ist das die Referrer-Logdatei für die Protokollierung der Herkunftsadressen und zum anderen die Agent-Logdatei die protokolliert mit welchem Browser bzw. Betriebssystem auf die Website zugegriffen wurde. Die Abbildung 4.1 soll diesen Sachverhalt verdeutlichen.

Abbildung 4.1.:Konzept der serverseitigen Protokollaufzeichnung, [BENS01a] S. 40 Logdateien treten in einer Vielzahl von Formaten auf, die sich nach Art und Reihenfolge der enthaltenen Angaben unterscheiden. Trotz unterschiedlicher technischer Ansätze der Webserverprodukte wird das ehemals von der NCSA (National Center for Supercompu- ting Applications) entworfene Common Logfile-Format (CLF-Format) eingesetzt, das sich als Standard für Protokolldaten etabliert hat. Die meisten WWW-Server unterstützten neben proprietären auch dieses Format⁴. Einen Ausschnitt einer typischen Logdatei im CLF-Format wird in der Abbildung 4.2 dargestellt. Im Folgenden sollen die unterschiedlichen Logdateiar- ten aufgezeigt und erläutert werden.

Abbildung 4.2.:Ausschnitt einer typischen Logdatei im CLF-Format

3[SCHW00] S. 8 f.

4Vgl. [MENA00] S.268

(33)

4.1. Server-Logdateien 4.1.1. Access-Logdatei

Eine der wichtigsten Informationsquellen, aus denen Daten über die Online-Besucher gewonnen werden können, ist die Access-Logdatei⁵, die auch als Transfer-Logdatei bezeichnet wird. Hier werden sämtliche Transaktionen zwischen dem Server und dem Browser aufgezeichnet. Eine Access-Logdatei im Common Logfile-Format enthält sieben Datenfelder. Ein typischer Eintrag einer Access-Logdatei wird nachfolgend gezeigt.

Das Hostfeld ist das erste Feld des Common Log Formats. In der Regel ist das der Ser- ver, der eine Anfrage an die Website stellt und als Wert entweder eine DNS-Adresse⁶(z.B.

planet.de) oder eine IP-Adresse (z.B. 208.48.21.10) beinhaltet. Aus dem Hostfeld ist die Top Level-Domain (Länderkennung: z.B. de oder Organisationstyp: z.B. edu) des anfragenden Servers ersichtlich. Da Internetadressen eindeutig vergeben werden, kann dieses Feld als Identifikationskriterium für Besucher der Website herangezogen werden. In der Praxis ist dieses Identifikationskriterium aber mit Vorsicht zu genießen, denn die Identifizierung eines Anwenders anhand seiner Internetadresse ist nicht immer eindeutig. Die meisten Anwen- der wählen sich über einen Internet Service Provider (ISP; z.B. T-Online oder AOL) in das Internet ein, d.h. jedes Mal, wenn sich der Anwender einwählt, bekommt er eine neue (dynamische) Internetadresse zugewiesen. Außerdem gibt es Fimennetzwerke, die sich über einen Proxy-Server⁷ mit dem Internet verbinden und sich dabei mehrere Personen einen Zugang teilen.

Das zweite Feld im Common Log Format ist dasIdentifikationsfeld. In diesem Feld wird die Benutzerkennung des Anwenders protokolliert, mit der die Anmeldung am lokalen Netzwerk erfolgt. Diese Kennung kann von dem WWW-Server jedoch nur dann aufgezeichnet werden, wenn auf dem Rechnersystem des Besuchers der hierfür erforderliche Identifikationsdienst aktiviert ist. Die Anwendung ist aber mit hohen Leistungseinbußen verbunden, so das die Verfügbarkeit dieses Feldes in der Praxis kaum vorkommt⁸.

Das dritte Feld ist das Authuserfeld. Dieses enthält den authentifizierten Benutzernamen, den ein Besucher benötigt, um Zugriff auf ein geschütztes Verzeichnis zu erhalten, das nur mit Passwort zugänglich ist. Dieses Attribut besitzt nur dann einen Wert, wenn eine Zugriffs- berechtigung für den Aufruf eines Dokuments erforderlich ist.

Als viertes Feld folgt der Zeitstempel. Dieses Feld gibt das Datum und die Uhrzeit des Zugriffes sowie die Zeitzone des anfragenden Servers an. Das Format für das Datum lau-

5Vgl. [MENA00] S. 268 ff., [BROD00] S. 61 f.

6 Das DNS (Domain Name System) ist ein verteilter Namensdienst des Internets, der symbolische Adressen auf numerische Adressen (IP-Adressen) abbildetet.

(34)

tet TT/MMM/JJJJ (im Beispiel: 29/Apr/2002) und für die Uhrzeit HH:MM:SS (im Beispiel:

10:25:52). Der letzte Eintrag des Zeitstempelfeldes zeigt die Abweichung der lokalen Ser- verzeit von der Greenwich Meridian Time (GMT).

Das fünfte Feld ist das Transaktionsfeld. Es enthält meistens den GET-Befehl. Er meldet dem Server, auf welches Dokument der ihn ansprechende WWW-Client zugreifen möch- te (im Beispiel: /index_e.html). Es gibt zwei weitere Zugriffsmethoden: der POST- und der HEAD-Befehl. Der POST-Befehl wird ausgeführt, wenn Daten vom Client zum Server über- tragen werden, bspw. wenn in Formularen der Versenden-Button gedrückt wird. Der zweite, weniger gebräuchliche Befehl ist der HEAD-Befehl. Er arbeitet wie der GET-Befehl, mit dem Unterschied, dass der Server nur den <HEAD>-Abschnitt des angeforderten HTML- Dokuments zurückgibt. Der letzte Bereich des Transaktionsfeldes ist der Name und die Ver- sionsnummer des HTTP-Protokolls.

DasStatuscodefeldist das sechste Feld im Common Log Format. Es beschreibt, mit welchem Resultat die Transaktion verlaufen ist. In der Regel ist dies der Statuscode 200, was bedeutet, dass der Server die durch den Client angeforderte Seite erfolgreich übertragen hat. Es gibt mehrere Klassen des Statuscode, von denen die wichtigsten in Tabelle 4.1 auf- gelistet werden⁹.

Tabelle 4.1.:Wichtige Statuscodes

Das siebte und letzte Feld ist dasTransfervolumenfeld. Es zeigt die Gesamtzahl der wäh- rend der Transaktion vom Server zum Client übertragenen Bytes an (im Beispiel: 1170 By- tes).

9Eine genauere Beschreibung der einzelnen Statuscodes bietet [o.V.01c] S. 1.

(35)

4.1. Server-Logdateien 4.1.2. Error-Logdatei

Die Error-Logdatei zeichnet Meldungen auf, die der Fehleranalyse und Administration des WWW-Servers dienen. Dabei werden die aufgetretenen Fehler genauer protokolliert als in der Access-Logdatei. Die folgenden Meldungen können erfasst werden:

• administrative Meldungen (z.B. beim Start eines WWW-Servers)

• Fehlermeldungen (z.B. bei Anforderung nicht vorhandener Ressourcen)

Der folgende Error-Logdatei-Eintrag zeigt einen Zugriffsfehler, der durch die Anforderung einer auf dem Server nicht existierenden Ressource verursacht wurde.

In diesem Beispiel wird das HTML-Dokument index_e.html nicht gefunden. Werden solche Fehlermeldungen öfter protokolliert, kann davon ausgegangen werden, dass sich in der Na- vigation ein nicht-referenzierender Link befindet.

4.1.3. Referrer-Logdatei

Die Referrer-Logdatei enthält die URL, von der die Anfrage an die Website stammt. Die- se Logdatei erfasst den Ort im Internet von dem aus ein Online-Besucher zu der Website weitergeleitet wurde. Dies kann ein Link von einer anderen Seite oder das Ergebnis einer Suchmaschine sein. Diese Logdatei kann auch aussagen, welche Suchbegriffe benutzt wurden, um das Online-Angebot zu finden. Ein Eintrag der Referrer-Logdatei kann wie folgt aussehen:

Im Beispiel wurde im Webverzeichnis Yahoo nach den Begriffen „web“ und „mining“ gesucht.

Dies ist eine sehr aufschlussreiche Information, die großen Einfluss auf den Entwurf von strategischen Marketingkampagnen haben kann. Die Aufzeichnung der URL des Referenten stellt den Zusammenhang zwischen Einzelinteraktionen her und ermöglicht die Ermittlung des Navigationspfades eines Besuchers¹⁰.

10[MENA00] S. 273

(36)

Kapitel 4. Datenkomponenten 4.1.4. Agent-Logdatei

Im Agent-Log stehen Angaben zur Software-Ausstattung des WWW-Clients, darunter Typ und Version von Browser und Betriebssystem. Aus diesen Angaben ergibt sich ein Bild der technischen Ausstattung der Nutzer¹¹. Die Website sollte dementsprechend so gestaltet sein, dass der überwiegende Teil der Nutzer die Seite ohne Darstellungsprobleme aufrufen kann. Mögliche Einträge einer Agent-Logdatei werden nachfolgend aufgezeigt:

MSIE ist die Abkürzung des Internet Explorers von Microsoft, dahinter wird die entsprechende Browserversion protokolliert. Weiterhin werden die verwendeten Betriebssysteme gespeichert (z.B. Windows NT). Der WWW-Server speichert aber auch Anfragen von „nicht- menschlichen“ Besuchern, wie die Zugriffe von Suchmaschinen-Robotern¹² (z.B. Google- bot).

4.1.5. Extended Logfile-Format

Die meisten Webserver können so konfiguriert werden, das die Access-, Referrer- und Agentdaten in einer Logdatei gespeichert werden. Dabei werden die Informationen der Referrer- und Agent-Logdatei an die Access -Logdatei angehängt. Dieses Format wird als Exten- ded oder Combined Logfile-Format bezeichnet. Ein Ausschnitt einer Logdatei im Extended Logfile-Format (ELF-Format) wird in Abbildung 4.3 gezeigt.

Abbildung 4.3.:Ausschnitt einer typischen Logdatei im ELF-Format

Abschließend sollen noch einmal alle Informationen, die aus den Feldern der Logdateien gewonnen werden können, tabellarisch aufgezeigt werden (Tabelle 4.2). Dabei ist die Ex-

11[SCHW00] S. 10

12 Roboter, auch Crawler oder Spider genannt, sind Programme von Suchmaschinen die selbstständig nach Dokumenten und Objekten im Internet suchen und für die Suchmaschinen indizieren.

(37)

4.2. Cookies traktion von mehreren Informationen aus einem Feld möglich¹³. Bei der Darstellung wurde auf die Einordnung der Error-Logdatei verzichtet, da diese Informationen nur für administrative Zwecke (Websitewartung) relevant sind. Außerdem enthält das Statusfeld der Access- Logdatei ausreichende Informationen über den Verlauf einer Transaktion.

Tabelle 4.2.:Überblick der Logdatei-Informationen

4.2. Cookies

Cookies sind kleine Textdateien, die von Servern auf der Festplatte das Besuchers erzeugt werden können, wenn dessen Browser auf eine Seite zugreift. Jedes Mal, wenn ein Online- Besucher zu der Website zurückkehrt, kann der Server, der den Cookie erzeugt hat, prüfen und lesen, was zuvor in die Datei geschrieben wurde, z.B. welche Seiten also bei der letzten Anwendersitzung aufgerufen wurden. Jeder Besuch eines Kunden auf einer Website ist eigentlich ein einzelner, von vorherigen Besuchen losgelöster Vorgang. Cookies sind eine Möglichkeit, um diese voneinander unabhängigen Besuche miteinander in Beziehung zu setzen und so eine realitätsnahe Verkaufssituation zu schaffen¹⁴. Sehr viele Internetseiten setzen Cookies. Damit der Client-Rechner vor einer zu großen Cookieflut geschützt werden kann, können Restriktionen auf der Client-Seite gesetzt werden. Die meisten WWW-Clients stellen entsprechende Konfigurationsoptionen zur Verfügung.

4.2.1. Aufbau

Der Aufbau eines typischen¹⁵ Cookies soll anhand folgenden Beispiels erklärt werden:

13In Abschnitt 5.2 wird genauer auf zusammengesetzte Felder eingegangen.

14Vgl. [MENA00] S. 280 ff.

15In dem Beispiel wird ein Netscape-Cookie gezeigt. Die Cookiedateien von anderen Browsern, wie dem Inter- net Explorer von Microsoft, sind ähnlich aufgebaut.

(38)

Dieser Cookie enthält sieben Felder. Das erste Feld speichert den Hostnamen des Cookies (im Beispiel: planet.de). Bei der Voreinstellung ist dies meist der Server, der den Cookie erzeugt und an den Besucher geschickt hat. Nur der Server, der den Cookie speicherte, kann ihn auch lesen. Dies bedeutet, dass planet.de nicht die gespeicherten Cookies von z.B. google.de oder yahoo.de lesen kann.

Das folgende Feld zeigt an, ob der Cookie von allen Rechnern (TRUE) der Domain gelesen werden darf oder nur von einem (FALSE), d.h. das bei einem Eintrag „planet.de TRUE“

jeder Rechner der Domain planet auf den Cookie zugreifen darf, also auch die Rechner wall.planet oder test.planet. Bei einem Eintrag „wall.planet.de FALSE“ darf nur von der Do- main wall.planet.de auf den Cookie zugegriffen werden, test.planet.de hat keine Berechti- gung.

Als nächstes folgt ein variabler Pfad (im Beispiel: /), von dem aus von jeder Seite der Website (planet.de) auf diesen Cookie zugegriffen werden kann. Dabei ist der Zugriff auf den Cookie auf diejenigen beschränkt, die ihn erzeugt haben. Cookies ohne eingestellten Pfad werden nur temporär gespeichert, und wenn der Anwender den Browser schließt, gelöscht.

Die Verschlüsselung eines Cookies zeigt das nächste Feld. Ist dieser Parameter auf TRUE gesetzt, wird die Information nur dann übertragen, wenn eine sichere Verbindung zwischen Client und Server vorliegt, d.h. wenn HTTPS (Hypertext Transmission Protocol Secure) oder SSL (Secure Sockets Layer) verwendet wird.

Als nächstes folgt das Datum, an dem der Cookie verfällt. Es wird in Sekunden seit dem 1.

Januar 1970, 0.00 Uhr GMT dargestellt (im Beispiel: 1054806622 Sekunden). Der Standard- wert ist 0, d.h. der Cookie wird nicht auf der Festplatte des Besuchers gespeichert.

Das nächste Feld identifiziert den Cookie (im Beispiel: PLANET_Cookie). Der Cookiena- me darf weder Kommata, noch Semikola oder Leerzeichen enthalten. Der neueste Cookie ersetzt den älteren Cookie mit derselben Domain, demselben Pfad und demselben Namen.

Als letztes wird der Wert des Cookies gespeichert. In diesem Feld hinterlegt der Versender des Cookies seine Informationen. Der Wert darf weder Kommata, noch Semikola oder Leer- zeichen enthalten. Hier kann zum Beispiel die Anzahl der Besuche auf der Seite, aber auch Benutzer-ID, Name oder Adresse des Besuchers gespeichert werden.

4.2.2. Anwendungen

In den Cookies können kurze Informationen von einem Kontakt mit einem WWW-Server bis zum nächsten Kontakt mit demselben Server zwischengespeichert werden¹⁶. Die Verwen-

16Vgl. [OEBB00] S. 1

(39)

4.2. Cookies dungsmöglichkeiten sind sehr variabel:

• Cookies wurden unter anderem für Warenkorb-Applikationenentwickelt. Mit einem Warenkorb hat der Käufer die Möglichkeit, während eines Einkaufs in einem Super- markt (Website) mehrere Produkte gleichzeitig zu kaufen und diese beim Verlassen des Ladens an der Kasse (per Formular) zu bezahlen. Bei diesem Vorgang werden wichtige Informationen festgehalten, zum Beispiel welche Produkte der Kunde beson- ders mag und welche Zahlungsart er verwendet.

• Weiterhin werden Cookies zur Personalisierung von Websites eingesetzt. Da der WWW-Server durch die Cookies auf dem Rechner des Besuchers Informationen speichern kann, besteht auch die Möglichkeit, Buch darüber zu führen, wie oft und wann der Besucher das letzte Mal den jeweiligen Server besucht hat. Auch können persönli- che Vorlieben, zum Beispiel ob in einer Online-Buchhandlung eher nach Fachbüchern zum Thema Computer oder Kochen gesucht wird, erfasst und ausgewertet werden.

Beim nächsten Besuch dieses Nutzers auf der Website, wird er auf Neuerscheinungen in dem bevorzugten Bereich hingewiesen.

• Ein wichtiges Einsatzgebiet für Cookies ist dieBesucheridentifikation. Viele ISP ar- beiten mit dynamischen Internetadressen. Das bedeutet, dass der Besucher bei jeder Internet-Verbindung eine neue anonyme Identität erhält. Der Server weiß, an welche Adresse er die angeforderten Daten schicken soll, weiß aber nicht wirklich, welche Person sich hinter dieser Internetadresse verbirgt. Mit Hilfe eines Cookies, der eine eindeutige Benutzerkennung enthält und mit einer langen Lebensdauer versehen ist, wird der Nutzer auch beim nächsten Besuch eindeutig identifiziert, obwohl er eine andere Internetadresse erhalten hat.

Zur Besucheridentifikation bietet z.B. der Apache-Webserver ein entsprechendes Mo- dul¹⁷ an. Dabei identifiziert der Server jeden neuen Besucher und gibt ihm eine eindeutige Kennung, die in Form eines Cookies auf dem Client-Rechner gespeichert wird.

Diese Kennung setzt sich aus der Internetadresse des Client-Rechners, der System- zeit und der Server-Prozess-ID zusammen. Der Server kann so konfiguriert werden, das er die Logdatei um ein weiteres Feld, das diese eindeutige Kennung beinhaltet, er- gänzt. In der Abbildung 4.4 wird eine Logdatei im ELF-Format und diesem zusätzlichen Kennungsfeld des Apache-Webservers gezeigt.

17Der Apache-Webserver setzt zur Besucheridentifikation das Modul mod_usertrack ein. Nähere Informationen werden im WWW unter http://httpd.apache.org/docs/mod/mod_usertrack.html gegeben.

(40)

Abbildung 4.4.:Ausschnitt einer Logdatei im ELF-Format mit Kennungsfeld

4.3. Technische Probleme

Bedingt durch die einfache Konzeption von Logdateien und der Architektur des Internets entstehen technische Probleme, welche die Qualität und Quantität des Datenbestandes be- einflussen¹⁸. Eine Beurteilung von Informationen, die auf den Logdateien basieren, sollte die nachfolgenden Fehlerquellen berücksichtigen.

4.3.1. Caching

Caches sind Speicher, die Daten temporär zwischenlagern, um den Zugriff bei einer er- neuten Anforderung zu beschleunigen. Im Internet-Verkehr wird so die Auslastung der Ver- bindungen reduziert. Dazu werden aus dem Internet abgerufene Webseiten und Grafiken entweder lokal durch den WWW-Client oder auf einem speziellen Computer auf dem Weg zwischen WWW-Client und WWW-Server (Proxy-Cache) abgespeichert. Erfolgt ein weiterer Zugriff auf dieselbe Seite (entweder mit demselben WWW-Client oder durch einen anderen den Proxy-Server¹⁹ nutzenden Besucher), wird diese nicht ein weiteres Mal vom WWW- Server angefordert, wo diese Anforderung protokolliert werden könnte, sondern aus dem Zwischenspeicher geladen. Die Folge ist, dass nicht mehr alle Seitenkontakte in den Log- dateien verzeichnet werden. Die ausgewiesene Nutzung des Online-Angebotes ist potentiell niedriger als die tatsächliche. Die Abbildung 4.5 stellt diesen Sachverhalt dar.

Ohne zusätzliche Maßnahmen führt eine Logdatei-Analyse zu verzerrten Ergebnissen. Das Verfahren der Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e.V. (IVW)²⁰ zur Reichweitenmessung von Online-Medien nutzt das Prinzip der Teildynami-

18Vgl. [SCHW00] S. 12, [BROD00] S. 65 ff.

20 Das Zählverfahren der IVW hat sich im deutschen Markt für Online-Werbung als Standard etabliert. Dabei wird in jede HTML-Seite eine ein Pixel große, unsichtbare Grafik eingefügt, die bei jedem Seitenzugriff neu

(41)

4.3. Technische Probleme

Abbildung 4.5.:Caching-Mechanismus, [SCHW00] S. 13

sierung von Webseiten. Dies hat den Effekt, dass mindestens ein Element jeder Webseite nicht von Caches gespeichert wird, so dass der Abruf einer Ressource vom WWW-Server aufgezeichnet werden kann²¹.

4.3.2. Proxy-Server

Proxy-Server werden häufig als zentrale Schnittstelle zwischen dem Intranet einer Organisa- tion und dem Internet eingesetzt²². Zum einen haben sie die Funktion eines großen Caches, um die Netzwerklast und damit die Kosten der Internetanbindung einer Organisationseinheit zu reduzieren. Die resultierenden Probleme wurden im vorangegangenen Abschnitt dargestellt. Zum anderen verbirgt ein Proxy-Server häufig ein gesamtes Netzwerk hinter seiner eigenen Internetadresse. Dieser Zusammenhang wird in Abbildung 4.6 gezeigt.

Abbildung 4.6.:Funktionsweise eines Proxy-Servers

geladen und nicht in einem Cache zwischengespeichert wird. Durch die geringe Größe der Grafik von nur 43 Byte entsteht nur eine geringe Mehrbelastung der Übertragungswege. Ein Eintrag in die Logdatei erfolgt bei jedem Aufruf der Grafik. Ausführlichere Informationen werden im WWW unter http://www.ivw.de gegeben.

21Vgl. [SCHW00] S. 13

22Vgl. [POHL99] S. 10