• Keine Ergebnisse gefunden

3. Literaturüberblick

3.3. Interessensmaße und Filtern von Regeln

Das Problem der Entdeckung von interessanten Assoziationsregeln in drei Stufen aufgeteilt werden:

1. Finden aller häufigen Itemsets (entsprechend dem minimum-Support-Wert) 2. Finden aller Assoziationsregeln (entsprechend dem minimum-Confidence-Wert)

3. Filtern von uninteressanten Regeln (anhand des Interessensparameters) aus der Gesamtmenge der Assoziationsregeln.

Die vorherigen Kapitel haben die ersten beiden Stufen behandelt. Dieses Kapitel soll sich mit der dritten Stufe beschäftigen.

3.3.1. Interessensmaß für die Regeln von Agrawal und Srikant.

Wie kann man das Interesse einer Regel bewerten? Verschiedene Autoren haben unterschiedliche Antworten auf diese Frage vorgeschlagen. Weiter unten werden einige Kriterien für die Interessensbewertung der Regeln dargestellt.

An dieser Stelle wird aber der Ansatz von Agrawal und Srikant in diesem Aspekt weiter vorgestellt. Die Autoren finden nämlich, dass der Ansatz von [Piatetsky-Shapiro 91] nicht sehr geeignet ist, da sich dabei relativ wenig statistisch nicht signifikanten Regeln herausfiltern lassen. Und zwar, wird bei diesem Ansatz eine Regel als nicht interessant betrachtet, wenn folgendes gilt:

Y X

) ( )

( )

(X Y Support X Support Y

Support ⇒ ≈ × .

Die Autoren führen in [Agrawal und Srikant, 1995] ein Kriterium ein, um eine interessante Regel von einer uninteressanten zu unterscheiden, das zunächst spachlich so formuliert werden kann:

Wenn der Support oder die Confidence einer Regel sich von dem erwarteten Support oder der erwarteten Confidence einer Regel um mehr als einen vom Benutzer vorgegebenen Faktor unterscheiden (also kleiner oder größer sind), gilt diese Regel als interessant.

Für die Formalisierung werden noch einige Begriffe benötigt:

Ein Itemset Zˆ ist ein Vorfahre vom Itemset Z, (Zˆ,ZI), wenn Zˆ von Z abgeleitet werden kann, indem die Elemente von Z mit ihren Vorfahren aus der Hierarchie ersetzt werden und die Gesamtanzahl der Elemente in Z und Zˆ gleich ist. Die letztere Restriktion bedeutet, dass es nur dann Sinn macht, den erwarteten Support von Zˆ aus Z zu berechnen, wenn diese die

gleiche Anzahl von Elementen haben. Die Regeln werden

Vorfahren von der Regel genannt. Aus einer gegebenen Menge von Regeln wird die Regel direkter Vorfahre der Regel genannt, wenn es keine Regel ' gibt, so dass ' ein Vorfahre von und ein Vorfahre von wären.

(Ähnliche Definitionen gelten auch für ).

Y

24 P(Z) bedeutet hier die Wahrscheinlichkeit von Z

Die Regel ist “R Mal interessanter“ als die Vorfahren-Regel , wenn der Support (oder die Confidence) um Rmal sich von dem erwarteten Support (oder die Confidence von der erwarteten Confidence) unterscheiden, der (die) auf Werten von der Regel basieren.

Y

XXˆ ⇒Yˆ

Y Xˆ ⇒ ˆ

Definition 26

Gegeben seien eine Menge der Regel S und ein Minimum-Interesse R. Die Regel heißt interessant in S, wenn sie keine Vorfahren hat, oder sie ist Rmal interessanter als ihr nächster Vorfahre aus allen interessanten Vorfahren.

Y X

Wie die Autoren Han und Fu (vgl. [Han und Fu, 1999] ) vorgeschlagen haben, können aus den gefundenen Regelnmengen die redundanten Regeln gelöscht werden. Den Begriff der redundanten Regel hatten die Autoren so formuliert:

„Eine AR ist redundant, wenn sie von einer AR der höheren Stufe berechnet werden kann

…unter der Annahme der gleichen Daten-Verteilung…“

und wie folgt formal definiert:

Definition 27

eine AssoziationsregelR,A1A2...AnB1B2...Bm ist redundant, wenn es eine

Assoziationsregel gibt, wobei jedes Element in der

Assoziationsregel

m n

'1

' ,A A A B B B

R '2 '

'1 2 '

' ... ⇒ ∧ ...

R ein Nachkommen des Elementes des korrespondierenden Elements oder dasselbe Element in der AR R' ist, und ϕ(R)[exp(ϕ(R))α,exp(ϕ(R))+α],

wobei exp(ϕ(R))=(σ(Bn)/σ(Bn'))×(σ(Bn)/σ(Bn'))×...×(σ(Bn)/σ(Bn'))×ϕ(R')und α eine vom Benutzer definierte Abweichungs-Konstante und σ der Support von einem Itemset ist.

Für das Löschen solcher AR wird ein minimum-confidence Test durchgeführt, bei dem für jede starke AR R geprüft wird, ob AR R’ von ihr ein Nachkomme ist. Wenn die Confidence von R ϕ(R), innerhalb der Grenzen von der erwarteten Confidence mit Abweichung liegt, wird die Regel verworfen.

α

Dieser Filter-Ansatz ähnelt sehr dem oben beschriebenen Interessensmaße von Agrawal und Srikant, da sowohl bei Agrawal und Srikant, als auch bei Han un Fu die Erwartungswerte, die auf Basis der Hierarchieinformationen und den Nachkommen-Regeln berechnet werden den tatsächlichen Werten gegenübergestellt werden und eine vom Benutzer frei definierbare Grenze für Abweichungen als Entscheidungskriterium benutzt wird.

3.3.2. Interessensmaße von Webb und Zhang.

Bei der Entdeckung der Assoziationsregeln ist die Voraussagbarkeit einer Regel nicht das einzige Kriterium für die Bewertung des Interesses der Regel. Oft sind die Stärke der Korrelation zwischen Hypothese und Konklusion und der erwartete Wert dieser

Korrelationsstärke gemeinsam eine Funktion für die Bewertung des Interesses einer Regel (vgl. [Piatetsky-Shapiro, 1991]).

Z. B., eine Regel „wer die Kosmetik kauft, kauft auch die Süßigkeiten“ (mit Confidence 95%) ist uninteressant, wenn 95 % der Kunden sowieso Süßigkeiten kaufen (vergl. [Webb und Zhang, 2003]) .

Diese Parameter der Regeln erlauben unterschiedliche Maße für die Bewertung der Differenz zwischen beobachtetem und erwartetem Grad der Korrelation zu Benutzen, um alle Regeln zu finden, die den benutzerdefinierten Nebenbedingungen (Constraints) entsprechen. Allerdings beruhen die meisten Maße auf der Benutzung der Minimum-Support-Bedingung. Diese werden für die Beschränkung des Suchraumes benutzt, um die Berechnung möglichst effizient zu machen. Dabei ist der Support oft nicht direkt mit dem Interesse der Regel zusammenhängend.

Ein berühmtes Beispiel ist das so genannte „Wodka und Kaviar“-Problem. Starke Korrelation zwischen Ketel Wodka und Beluga Kaviar kann ziemlich interessant sein, da diese Produkte einen großen Profit erzielen, auch wenn das Verkaufsvolumen dieser Produkte relativ klein ist und sie deswegen wahrscheinlich den Minimum-Support nicht erreichen. Auch wenn der minimum-Support nicht direkt mit dem Interesse der Regeln zusammenhängend ist, hat er einen großen Einfluss auf die Regelentdeckung: es besteht ein Risiko, dass viele wirklich interessante Regeln nicht gefunden werden.

Es muss nicht unbedingt eine natürliche untere Schranke für Support existieren.

Assoziationsregeln mit dem Supportwert kleiner als nominiertem Minimum-Support werden nicht gefunden. Nicht häufige Itemsets können oft auch interessant sein, wie im obigen Beispiel mit „Wodka und Kaviar“-Problem, wobei hochwertige Artikel in vielen Fällen relativ unhäufig sein können. Nichtsdestotrotz sind diese von großem Interesse.

Folgende Gründe sind ein Argument gegen die Verwendung des Supports als Maß für die Interessensbewertung der Regeln:

1. Wenn sogar eine natürliche untere Schranke für den Support existiert, kann sie oft von den Analytikern nicht identifiziert werden.

2. Wenn sogar eine relevante minimale Häufigkeit spezifiziert werden kann, kann die Menge der häufigen Itemsets zu groß werden, um noch berechenbar zu sein.

3. Der Ansatz der häufigen Itemsets kann nicht die Nebenbedingungen für die Effizienz nutzen, die aus der Hypothese, aus der Konklusion, oder aus ihrer Union hervorgehen.

D. h., es wird nur die Bedingung des Supports genutzt. Die Bedingung der Confidence hat dagegen fast keinen Einfluss auf die Berechnung, wobei gerade die Confidence die Beziehung zwischen dem Support der Hypothese und dem Support der Hypothese in Union mit der Konklusion widerspiegelt.

Ein möglicher Ansatz in dieser Hinsicht ist, den Minimum-Support abhängig von Items in den Itemsets variieren zu lassen. Das bringt größere Flexibilität, löst aber keine der oben beschrieben Probleme, obwohl das „Wodka-Kaviar-Problem“ dadurch gelöst wird (s. Kapitel 5.9.1). Die meisten Arbeiten auf dem Gebiet der AR-Discovery beschäftigen sich mit der Effizienzsteigerung des Entdeckungsprozesses. Dabei adressieren sie ebenso nicht die oben beschriebenen Probleme.

Es werden mehrere Maße für Interessensbewertung der Regeln in [Webb und Zhang, 2003]

diskutiert:

1. coverage(XY)=cover(X)

2. coverage(X Y)

Y) support(X Y)

(X confidence

= ⇒

⇒ , also etwas anders als sonst definiert.

3. leverage(X UY)=support(XY)cover(X)×cover(Y)25 4. cover(X) cover(Y)

Y) support(X Y)

lift(X

×

= ⇒ U

In [Piatetsky-Shapiro 91] wurde argumentiert, dass viele Interessensmaße auf der Differenz zwischen der beobachteten gemeinsamen Häufigkeit der Hypothese und Konklusion ( ) und der Häufigkeit, die erwartet werden würde, wenn X und Y unabhängig wären ( ), basiert sind. Die einfachste Methode, diesen Unterschied zu bewerten, wäre das Maß Leverage anzuwenden. Dabei kann Leverage auch so formuliert werden:

Y) support(X

cover(Y) cover(X)×

) )

(

(confidence X Y cover(Y) cover(X)

Y)

leverage(X U = × ⇒ − . In dieser Form ausgedrückt,

kann es auch als „wheigthed relative accuracy“ ([Todorovski et al., 2000]) bezeichnet werden.

Das Maß Leverage ist interessant, weil es die Unabhängigkeit bzw. Abhängigkeit zwischen X und Y zeigt.

Dieses Maß Lift stellt ein Verhältnis zwischen der beobachteten Häufigkeit der Konklusion (Y) im Kontext der Hypothese (X) und der erwarteten Häufigkeit, wenn man die Unabhängigkeit von X und Y annimmt, dar.

Die Maße Leverage und Lift können später im praktischen Teil der Arbeit als Bewertungs- bzw. Filterkriterien für die Regeln eingesetzt werden.

25 die Definitionen von cover, support siehe im früheren Kapitel 3.1.1