Data Mining und Statistik: Gemeinsamkeiten und Unterschiede

(1)

Universität Ulm

Seminararbeit zum Thema

Data Mining und Statistik:

Gemeinsamkeiten und Unterschiede

vorgelegt von: Daniel Meschenmoser betreut von: Dr. Tomas Hrycej

Dr. Matthias Grabert

Ulm, im Februar 2004

(2)

,QKDOW

1. Einleitung . . . 3

2. Gemeinsamkeiten von Data Mining und Statistik . . . .3

3. Unterschiede zwischen Data Mining und Statistik . . . 3

4. Beispiel 1: Assoziationsregeln . . . 4

a. Definition . . . 4

b. Verallgemeinerung zu Korrelationsregeln . . . 6

5. Beispiel 2: Multi – Layer – Perceptron . . . 7

a. Einleitung . . . 7

b. Lagrange – Multiplier – Test . . . 9

c. Wald – Test . . . 10

6. Literaturverzeichnis . . . 11

(3)

(LQOHLWXQJ

Mit Data Mining und Statistik stehen sich zwei sehr verschiedene aber doch ähnliche

Disziplinen gegenüber. Das Data Mining ist noch relativ jung, basiert aber zu grossen Teilen auf Statistik. In dieser Seminararbeit wird versucht, die Unterschiede und Gemeinsamkeiten zwischen diesen beiden Gebieten hervorzuheben. Am Beispiel von Assoziationsregeln wird erläutert, wie die Statistik Methoden des Data Mining verallgemeinern kann. An Neuronalen Netzen wird gezeigt, wie die (oft heuristischen) Methoden des Data Mining durch bekannte statistische Verfahren verbessert werden können.

*HPHLQVDPNHLWHQYRQ'DWD0LQLQJXQG6WDWLVWLN

Prinzipiell geht es sowohl im Data Mining als auch in der Statistik darum, Daten zu

analysieren. In der Statistik geschieht dies zum Beispiel mit Hilfe der linearen Regression; im Data Mining zum Beispiel durch Neuronale Netze oder Assoziationsregeln.

Da die Grundgesamtheit aller Daten meist unbekannt ist, muss man meist mit einer (mehr oder weniger zufälligen) Stichprobe Vorlieb nehmen. Im Data Mining existiert aber evtl. gar keine Grundgesamtheit, da die Daten sich ständig verändern (man denke zum Beispiel an das World Wide Web) und deshalb nur schwer eine Aussage über die Zufälligkeit einer

Stichprobe möglich ist.

Ein Ziel im Data Mining – wie auch in der Statistik – ist oft die Prognose unbekannter Werte bzw. die Klassifikation von Objekten und das Abschätzen des dabei auftretenden Fehlers.

Damit sich dieser Fehler in akzeptablen Grenzen hält, ist es in beiden Gebieten unerlässlich, die Daten gründlich vorzubereiten. Anderenfalls können verzerrte oder sogar falsche

Ergebnisse auftreten.

8QWHUVFKLHGH]ZLVFKHQ'DWD0LQLQJXQG6WDWLVWLN

Ein grundlegender Unterschied zwischen Data Mining und Statistik ist die Einordnung der Disziplinen in andere Gebiete. Data Mining ist keineswegs ein Teilgebiet der Statistik, auch wenn viele Methoden auf statistischen Verfahren beruhen. Ebenso sind Erkenntnissen des Maschinellen Lernens und Datenbanktechnologien Grundlagen des Data Mining.

Ein weiterer Unterschied ist die Benutzung von Computern. Klassische statistische Methoden wurden lange vor Erfindung des Computers entwickelt und sind deshalb auch von Hand durchführbar. Data Mining ohne Computer hingegen wäre undenkbar.

(4)

Nur durch Verwendung von Computern zur Erzeugung von Daten entstehen die gewaltigen Datenmengen, die beim Data Mining untersucht werden. Deshalb müssen auch zur Analyse dieser Daten Computer eingesetzt werden. Denn allein schon aufgrund der Menge der Daten sind bekannte statistische Verfahren schnell überfordert und müssen weiterentwickelt werden.

Die Verwendung von Computern führt natürlich auch zu einer höheren Komplexität der verwendeten Modelle. In der Statistik wird oft nur lineare Regression betrieben, da diese ausreichend erforscht und leicht anzuwenden ist. Im Data Mining hingegen können zum Beispiel durch Neuronale Netze sehr viel komplexere Zusammenhänge mit vertretbarem Aufwand modelliert werden. Allerdings werden diese Modelle oft gar nicht oder nur unzureichend theoretisch begründet. Es werden eher verschiedene Modelle ausprobiert und falls eines vielversprechend erscheint, wird es einfach angewendet.

Später möchte ich am Beispiel der Neuronalen Netze aber zeigen, wie man dieses

Ausprobieren durch bekannte statistische Verfahren, nämlich ² –Tests, ersetzen kann, um fundierte Aussagen treffen zu können.

Mit Data Mining – Methoden ist es auch möglich, computergestützte Analysen mit nur geringer Zeitverzögerung zu erhalten. Dies ist zum Beispiel wichtig, um Kreditkartenbetrug zu erkennen, da kein Unternehmen bereit wäre, wochenlang auf die genau statistische Analyse zu warten.

%HLVSLHO$VVR]LDWLRQVUHJHOQ

D 'HILQLWLRQ

Eine Assoziationsregel ist eine Aussage des Typs: „45 % der Kunden, die Weisswein kaufen, kaufen auch Rotwein; insgesamt kaufen 20 % aller Kunden beide Artikel.“ Oder kurz: „Wenn ein Kunde Weisswein kauft, kauft er wahrscheinlich auch Rotwein.“ Oder noch kürzer:

„Weisswein Rotwein“

Ein bekanntes Beispiel für die Anwendung von Assoziationsregeln ist die Warenkorbanalyse.

In der Warenkorbanalyse wird das Käuferverhalten von Kunden eines Supermarktes

untersucht. Ziel ist es, das Käuferverhalten zu strukturieren und für Marketingzwecke etc. zu nutzen. Ein Problem dabei ist die grosse Zahl an Produkten und Kombinationsmöglichkeiten.

Deshalb ist es unumgänglich, aus der Vielzahl von Kombinationen diejenigen herauszufiltern, die wichtig bzw. interessant erscheinen.

Dazu betrachtet man zwei Eigenschaften von Assoziationsregeln: den Support und die Konfidenz. Der Support einer Regel ist ein Mass für die Häufigkeit der Produktkombination, im obigen Beispiel beträgt der Support also 20 %.

(5)

Die Konfidenz ist ein Schätzer der bedingten Wahrscheinlichkeit P ( Rotwein | Weisswein ), im Beispiel beträgt die Konfidenz also 45 %.

Um Assoziationsregeln nicht nur zur Warenkorbanalyse sondern auch für andere Untersuchungen verwenden zu können, ist eine allgemeine Definition nötig. Es werden deshalb folgende Begriffe eingeführt:

- , sei die Menge aller Items (Produkte)

- ' sei die Menge aller relevanten Teilmengen von ,

- 7 sei eine Transaktion, 7 ,7 ' (in der Warenkorbanalyse ist 7 ein bestimmter Warenkorb)

Eine Transaktion 7 erfüllt eine Regel ; < (mit ;< , und ; < =Ø), falls gilt:

7

<

; .

Der Support einer Menge ; ist definiert durch:

VXSS; { }

'; 7 '

7

Der Support einer Regel ; < ist definiert durch:

VXSS; < VXSS; < { }

' < 7

; ' 7

Die Konfidenz einer Regel ; < ist definiert durch:

{ }

{₇ ^'_'^;_;^< ₇}⁷ 7

; S VXSS; <

VXS

<

;

FRQI = =

Um mit Hilfe des Supports und der Konfidenz relevante Regeln zu finden, geht man schrittweise vor: Zuerst überlegt man sich minimale Werte für Support (PLQVXSS) und Konfidenz (PLQFRQI). Später gelten nur die Regeln als relevant, deren Werte für Support und Konfidenz die Minimalwerte überschreiten, die also von ausreichend vielen Transaktionen unterstützt werden. Es werden also alle Mengen ;< ,mitVXSS; <!PLQVXSS gesucht und auf FRQI; <>PLQFRQI überprüft. Alle so gefunden Regeln können als wichtig angesehen werden, da durch Support und Konfidenz gewährleistet ist, dass die Regel oft genug erfüllt wird, um zum Beispiel die Durchführung und Finanzierung einer

Marketingkampagne zu rechtfertigen.

(6)

E 9HUDOOJHPHLQHUXQJ]X.RUUHODWLRQVUHJHOQ

Bei Verwendung von Assoziationsregeln ergibt sich ein Problem mit Aussagen des Typs:

„ Wenn ein Kunde Produkt a kauft, kauft er Produkt b wahrscheinlich nicht.“ Deshalb wird das Konzept der Assoziationsregeln verallgemeinert zu Korrelationsregeln.

Eine Menge 0 =

{

L₁L

}

, heisst Korrelationsregel, falls zwei Elemente aus 0 korreliert sind. Da die Korrelation nicht direkt untersucht werden kann, wird mit einem

2 – Unabhängigkeitstest auf Korrelation getestet.

Dazu definiert man ₅=

{ }

_L₁ _L₁ ××

{ }

_L _L und einen Vektor U=U₁U 5. Ein Vektor U entspricht also gerade einer Transaktion 7.

Die Nullhypothese lautet: H0: alle Ereignisse aus 5 sind unabhängig.

Zur Überprüfung der Hypothese definiert man die Teststatistik = wie folgt:

( )

[ ]

( )

[ ]

2

=

U(

U ( U

= 2 ,

wobei ₂( )_U die Anzahl der Versuche bezeichnet, bei denen das Ereignis U auftritt und ₍

[ ]

_U

die erwartete Anzahl an Versuchen, bei denen das Ereignis U auftritt. ₂( )_U ist also ein Schätzer für _Q3( )_U , wenn die Gesamtanzahl an Versuchen mit Q bezeichnet wird. ₍

[ ]

_U kann geschätzt werden durch:

[ ]

_U _Q

( = ·¹ 2

( )

U₁ ··¹₂

( )

_U .

Die so erhaltene Teststatistik = ist asymptotisch ² – verteilt mit einem Freiheitsgrad. Wenn also die Nullhypothese erfüllt wäre und somit alle Ereignisse aus R unabhängig, dann hätte = den Wert 0. Unterscheidet sich = hingegen signifikant von 0, so wird die Nullhypothese verworfen. Als Schwellenwert benutzt man üblicherweise das 95 % – Quantil der

2

1 – Verteilung.

(7)

%HLVSLHO0XOWL±/D\HU±3HUFHSWURQ

D (LQOHLWXQJ

Ein Multi – Layer – Perceptron ist ein vorwärtsgerichtetes Neuronales Netz bei dem die Neuronen in Schichten angeordnet sind. Es gibt eine Schicht von Eingabeneuronen, beliebig viele Schichten von verdeckten Neuronen und eine Schicht von Ausgabeneuronen (siehe Abbildung).

MLP – Netzwerk (aus: U. Anders, Statistische Neuronale Netze, Verlag Vahlen, 1997)

Ein MLP – Netz ist also nichts anderes als eine Verallgemeinerung der linearen Regression, denn durch ein MLP – Netz kann eine beliebige Funktion auf einem kompakten Intervall beliebig genau approximiert werden, falls die Zahl der verdeckten Neuronen unbegrenzt ist.

Entscheidend für die Approximationsqualität ist die Netzwerkarchitektur. Diese wird bestimmt durch die Anzahl der verdeckten Neuronen und die Verbindungen zwischen den Neuronen.

Dabei hat die Anzahl an verdeckten Neuronen starken Einfluss auf die Art der zu approximierenden Funktion. Ein linearer Zusammenhang zwischen erklärenden und zu erklärenden Variablen kann bereits durch ein MLP – Netz ohne verdeckte Neuronen

modelliert werden. Je komplizierter die zu approximierende Funktion jedoch ist, desto mehr verdeckte Neuronen sind nötig. Andererseits können zu viele verdeckte Neuronen bei der Modellierung einer einfachen Funktion dazu führen, dass sich das Netz zu stark an die Trainingsdaten anpasst, aber der Approximationsfehler bei unbekannten Daten sehr gross ist.

Die Anzahl der verdeckten Neuronen sollte deshalb unter Berücksichtigung des vermuteten funktionalen Zusammenhangs zwischen erklärenden und zu erklärenden Variablen, der Anzahl der zur Verfügung stehenden Beobachtungen und der relativen Stärke des Rauschens in den Beobachtungen bestimmt werden.

(8)

Von der Anzahl der Verbindungen zwischen den Neuronen schliesslich hängt der Aufwand für das Trainieren des Netzes ab. Wenn bestimmte Verbindungen als irrelevant erkannt werden, können sie aus dem Netz entfernt und der Lernaufwand somit reduziert werden.

Anschliessend möchte ich erläutern, wie statistische Verfahren benutzt werden können, um die Netzwerkarchitektur optimal zu bestimmen. Die Netzwerkarchitektur ist optimal, wenn gerade genug verdeckte Neuronen vorhanden sind, um die gewünschte Funktion zu

approximieren (d. h. Bias = 0) ohne jedoch auch das Rauschen in den Daten zu approximieren (d. h. minimale Varianz). Aus praktischen Erwägungen kann es jedoch manchmal sinnvoll sein, einen geringen Bias in Kauf zu nehmen, um die Varianz zu verringern.

Bei der Bestimmung der Netzwerkarchitektur beginnt man am besten mit einem linearen Modell, d. h. einem Netzwerk ohne verdeckte Neuronen. Dieses wird schrittweise um verdeckte Neuronen erweitert und mit Lagrange – Multiplier – Tests wird die optimale Anzahl an verdeckten Neuronen ermittelt. Schliesslich wird mit Wald – Tests die Relevanz einzelner Verbindungen überprüft.

Eine Voraussetzung für die Anwendung von statistischen Hypothesentests ist die

Identifikation der Parameter. Ein Parameter heisst identifiziert, wenn der wahre (unbekannte) Wert des Parameters eindeutig ist. Davon wollen wir hier jedoch ausgehen. Falls die

Parameter identifiziert sind, sind sie auch konsistent, d. h. mit wachsender Zahl an

Beobachtungen konvergieren sie zum wahren Wert Z des Parameters. Ausserdem sind die Parameterschätzer normalverteilt mit Erwartungswert Z und Kovarianzmatrix ¹&. Werden die Parameter mit der Methode der kleinsten Quadrate geschätzt, so ist & % Z0

= 1 mit

0 = Z

%

( ) ( )











 ′



 





∂

 ∂



 





∂

ZZ / ZZ

( ln/ ln ⁰

.

Ein konsistenter Schätzer für %Z0 ist gegeben durch

( ) ( )

_^′



 





∂

 ∂



 





∂

=

∑

∂

=

Z Z;I

Z Z

; Q I

%

1

2 , ˆ , ˆ

1 ˆ

ˆ ε ,

wobei Q die Anzahl der Beobachtungen sei, Ö der Residuenvektor und _I

(

_;_Z

)

die Netzwerkfunktion.

(9)

E /DJUDQJH±0XOWLSOLHU±7HVW

Mit LM – Tests kann die optimale Anzahl von verdeckten Neuronen in einem MLP – Netz ermittelt werden. Voraussetzung dafür ist das Modell _\=₎( )_[ + , wobei )(·) die wahre Funktion bezeichnet. stellt einen unabhängig und identisch normalverteilten Fehlerterm dar mit (

[ ]

=0, ₍

[ ]

= ²_, und (

[ ]

; =0. Die wahre Funktion sei bereits durch eine

Funktion _I

(

_;_ZÖ

)

approximiert, dies kann am Anfang zum Beispiel eine lineare Funktion sein.

Die Frage, die mittels LM – Tests beantwortet werden soll, ist: Ist das Modell _I

(

_;_ZÖ

)

richtig gewählt? Wenn ja, existiert mit Wahrscheinlichkeit 1 kein Approximationsfehler. Dies

entspricht der Nullhypothese:

+ 3

(

[ ]

\; = I

(

;Z₀

) )

=1 für ein Z0 :, wobei : die Menge aller Parametervektoren bezeichnet.

Im alternativen Fall ist das Modell nicht korrekt gewählt, d. h.:

+ ₃

(

₍

[ ]

_\_; = _I

(

_;_Z

) )

< 1 für alle Z : .

Falls also die Nullhypothese abgelehnt wird, kann die Approximation der Funktion )(·) verbessert werden, indem man das Netzwerk um 4 verdeckte Neuronen erweitert.

Die praktische Durchführung eines LM – Tests gestaltet sich folgendermassen:

Zuerst regressiert man \ auf _I

(

_;_Z

)

und berechnet die Residuen Ö. Dann führt man eine lineare Hilfsregression durch, um Ö durch ÖÖ zu schätzen und berechnet das sogenannte unzentrierte Bestimmtheitsmass 5² als:

1

= 2 1

= 2

2 =

Ö

5 ÖÖ .

Die Teststatistik Q5² LVWDV\PSWRWLVFK ² – verteilt mit 4 Freiheitsgraden. Entsprechend wird die Nullhypothese verworfen, falls der Wert von Q5² grösser ist als das entsprechende 4XDQWLOGHU ² – Verteilung mit 4 Freiheitsgraden.

(10)

F :DOG±7HVW

Mit LM – Test lässt sich leicht die Relevanz eines Neurons (und damit die Relevanz aller Verbindungen von oder zu diesem Neuron) testen. Um aber einzelne Verbindungen zwischen den Neuronen auf Signifikanz zu testen, eignet sich der Wald – Test.

Voraussetzung für die Anwendung des Wald – Tests ist, dass keine verdeckten Neuronen mehr vorhanden sind. Dies ist jedoch durch die vorherige Durchführung von LM – Tests sichergestellt.

Die Wald – Teststatistik ist wie folgt definiert:

(

5ZÖ U

) (

5&Ö5

) (

5ZÖ U

)

Q

: = ¹

Der Vektor 5 wählt aus den geschätzten Gewichten ZÖ diejenigen aus, für die eine Hypothese überprüft werden soll; r ist der Vektor der entsprechenden Restriktionen und ¹&Ö ist die geschätzte Kovarianzmatrix der Parameter mit &Ö =%Ö ¹ und

( ) ( )

_^′



 





∂

 ∂



 





∂

=

∑

∂

=

Z Z;I

Z Z

; I

% Q

1

2 , ˆ , ˆ

1 ˆ

ˆ ε .

Es gilt: : a ² , wobei 4 die Anzahl der restringierten Parameter bezeichnet.

Falls eine Hypothese lediglich für ein einzelnes Gewicht überprüft werden soll, ergibt sich die Wald – Teststatistik

( )

₂

1 2

2

= ZÖÖ U a :

,

wobei sich die geschätzte Varianz Ö² auf der Hauptdiagonalen der Matrix ¹&Ö befindet.

Besondere Beachtung verdient das Testen der Signifikanz eines Eingabeneurons: + 5Z , wobei der Vektor R diejenigen Gewichte auswählt, die mit dem zu testenden Eingabeneuron verbunden sind.

(11)

/LWHUDWXUYHU]HLFKQLV

• D.J. Hand: „ Data Mining: Statistics and More?“ , The American Statistician, May 1998, Vol. 52, No. 2

• D.J. Hand: „ Statistics and Data Mining: Intersecting Disciplines“ , SIGKDD Explorations, June 1999

• D. Michie, D.J. Spiegelhalter, C.C. Taylor (ed.): “ Machine Learning, Neural and Statistical Classification”, 1994

• J. Hipp: „ Association Rules“ , The RIC/AM Technology Book, DaimlerChrysler, S. 141 – 154

• S. Brin, R. Motwani, C. Silverstein: „ Beyond Market Baskets: Generalizing Association Rules to Correlations“

• T. Hrycej: „ Neural Networks“ , The RIC/AM Technology Book, DaimlerChrysler, S. 55 – 92

• U. Anders: „ Statistische Neuronale Netze“ , Verlag Vahlen, 1997