Nutzenfunktion auf Basis des Binomialtests

2.4 Nutzenfunktionen

2.4.3 Nutzenfunktion auf Basis des Binomialtests

BeiderLernaufgabe Subgruppenentdekungsind solhe Subgruppeninteressant,bei

de-nen diePreision derkorrespondierenden Regel

r → Y _∗

^von ^der^apriori ^W ahrsheinlih-keit

P r[Y _∗ ]

^abweiht.^Ob^die^empirish^beobahtete^Dierenz^signikant^oder^zufällig^ist,

lässtsihmit Hilfe desBinomialtests[9℄überprüfen. Umfestzustellen,obdie Subgruppe

wirklih interessant ist,formuliert maneine Nullhypothese

H 0

^und ^eineAlternative

H 1

über denwahren BiasderSubgruppe:

H ₀ : BIAS(r → Y _∗ ) = 0 und H ₁ : BIAS(r → Y _∗ ) 6 = 0.

Als Prüfgröÿe zur Entsheidung über das Ablehnen der Nullhypothese zugunsten der

Alternative dient dieinderSubgruppe beobahtete Anzahl von Beispiele der

interessie-rendenKlasse. Dazuwirdzunähsteine dihotome Zufallsvariable

X i

^deniert.

X i =

( 1, f alls x ein Beispiel f ¨ ur die interessierende Klasse in der Subgruppe ist

0, sonst .

Dann ergibt sih die Prüfgröÿe für m Beispiele als

X = ^P ^m _i=1 X i

^. ^Man ^nimmt ^an, ^dass

die Nullhypothese

H 0

^gilt ^und ^überprüft, ^wie ^groÿ ^die ^Werte ^für ^X ^werden ^müssen,

damit esextrem unwahrsheinlih ist,dass sieunter

H ₀

^zustande ^gekommen ^sind. ^Dazu

muss festgelegt werden, was unter extrem unwahrsheinlih zu verstehen ist. Üblihe

Werte sind Wahrsheinlihkeiten von 0.1, 0.05 oder 0.01, die auh als Signikanzniveau

bezeihnetwerden. DadieBeispiele unabhängigund gleihverteilt gezogen werdenist X

unterAnnahmevon

H ₀

binomialverteiltmitdenParametern

P[Y _∗ ]

^und

m

^.^Nun^k^ann^man

anhandeinerTabelle derBinomialverteilung bestimmen,welheWertefürdiePrüfgröÿe

X unwahrsheinliher als das gewählte Signikanzniveau sind und erhält die Werte für

X,beidenen dieNullhypothese zugunsten derAlternativezu verwerfenist.Fürgroÿem

istXannäherndnormalverteilt mitErwartungswert

m · P r[Y _∗ ]

^und Standardabweihung

p m · P r[Y _∗ ](1 − P r[Y _∗ ])

^.^Damit^erhält^man^folgendestandardnormalverteiltePrüfgröÿe:

Z = X − m · P r[Y _∗ ] p m · P r[Y _∗ ](1 − P r[Y _∗ ])

Analog zur Binomialverteilung wird mit der Tabelle der Standardnormalverteilung

be-stimmt,fürwelhe WertederPrüfgröÿe ZdieNullhypothesebeigegebenem

Signikanz-niveau zu verwerfen ist. Bei Vernahlässigung des Signikanzniveaus ist esumso

wahr-sheinliher, dass die Alternative gilt, je gröÿer der Z-Wert ist. Der Z-Wert lässt sih

folgendermaÿen umformen:

Z = X − m · P r[Y _∗ ]

p m · P r[Y _∗ ](1 − P r[Y _∗ ]) = m( _m ¹ X − P r[Y _∗ ])

√ m · ^p P r[Y _∗ ](1 − P r[Y _∗ ]) =

√ m · BIAS(r → Y _∗ ) p P r[Y _∗ ](1 − P r[Y _∗ ]) .

Da der Term

p P r[Y _∗ ](1 − P r[Y _∗ ])

^im ^Nenner ^für ^alle ^Regeln ^glei^h ^ist, ^erzeugt

√ m · BIAS(r → Y _∗ )

^eine ^Ordnung ^der^Regeln entsprehend der Signikanz der Abweihung ihres Bias von der apriori Wahrsheinlihkeit. Durh den Wehsel von der absoluten

Anzahl von Beispielen auf den relativen Anteil wird diese Ordnung niht verändert. Es

ergibt sihdiefolgende Denition.

Denition 14. (Binomial)

Die Nutzenfunktion auf Basisdes Binomialtests istdeniert als

BIN OM IAL(r → Y _∗ ) := ^q COV (h → Y _∗ ) · BIAS(r → Y _∗ ).

Beim Generi Sequential Sampling [25 ℄ Algorithmus handelt es sih um ein Verfahren

zur Lösung der Lernaufgabe Subgruppenentdekung, das erlaubt als Kriterium der

In-teressantheit von Subgruppen, eine der in Kapitel 2.4 vorgestellten Nutzenfunktionen

Auray,WeightedRelativeAuray,SquaredoderBinomialauszuwählen.Zur

Bestim-mung der besten Subgruppen wird niht der komplette Datensatz durhsuht, sondern

miteiner Stihprobe gearbeitet.DerAlgorithmus gibtprobabilistishe Garantien fürdie

Qualität der Lösung. Der Vorteil dieses Ansatzes liegt in der guten Skalierbarkeit für

groÿeDatenbanken.Allerdingsmussauh eineReihevonNahteileninKaufgenommen

werden, von denen zweinahfolgend angesprohenwerden sollen.

Das Verfahren bedarf der Aufzählung des kompletten Hypothesenraumes, wodurh es

unmöglihist mitnumerishenAttributenumzugehen.VorderAnwendung istzwingend

eineDiskretisierungnumerisherAttributenötig. AuhnaheinerDiskretisierungistder

komplette Hypothesenraum meistso komplex, dass esniht möglih ist,ihnezient zu

handhaben.EinweitererNahteil ergibtsihdurhKorrelationen zwishen den

Attribu-teneinesDatensatzes.Hypothesenwiez.B.RegelnbeshreibenSubgruppenmitHilfeder

Attribute.AufgrundderKorrelationenergeben sih mehrereHypothesen,diediegleihe

Subgruppe beshreiben. Dadurh ist die gefundene Lösung unnötig groÿ und

unüber-sihtlih.Für denNutzer istsie shwerzuinterpretieren, dadiewihtigenAussagenaus

derVielzahl redundanter Lösungenniht klarhervorstehen.

Mit Knowledge-Based Sampling [26℄ steht eine Methode zur Verfügung, um das

Fin-den von redundanten Hypothesen zu vermeiden. Eine Hypothese in Form einer Regel

repräsentiertdurh ihreVorhersagenVorwissen überdasZielattribut. Knowledge-Based

Sampling entfernt dieses Vorwissen aus den Daten, indem es die Korrelation zwishen

Vorhersagen der Regel und den tatsählihen Werten des Zielattributes aus den Daten

entfernt.Danahsindwederdiese noh andereRegeln,vondenen diegleihe Subgruppe

beshrieben wird, inden Datenzu nden.

Vorrangiges Ziel dieser Diplomarbeit ist die Untersuhung der Kombination des

Gene-riSequential SamplingAlgorithmus mitKnowledge-Based Samplingbezüglihder

Eig-nungfürdieLernaufgabenSubgruppenentdekungundKonzeptlernenausBeispielen.Die

Kombination der beiden Verfahren verspriht eine präzise und kompakte Beshreibung

der Trainingsdaten. Insbesondere sollte ein ezienter Umgang mit sehr groÿen

Daten-mengenmöglih sein,dastattdesgesamtenDatensatzesnur eineStihprobe verarbeitet

wird.

Zunähst werden in Kapitel 4.1 der Generi Sequential Sampling Algorithmus und in

Kapitel 4.2 das Knowledge-Based Sampling vorgestellt. Um für die Lernaufgabe

Kon-zeptlernen aus Beispielen Vorhersagen überdas Zielattribut zu treen, wird eine

Kom-bination mehrerer Regeln benutzt, die mit dem GSS Algorithmus unter Einsatz von

Knowledge-Based Samplinggefundenwurden.Ein Verfahren zurKombination mehrerer

unterdemEinsatzvonKnowledge-BasedSamplinggefundererModelleistinKapitel4.2.4

beshrieben.UmdemGeneriSequentialSamplingAlgorithmus zuermöglihen,mit

nu-merishen Attributen umzugehen, bedarf es einer Methode zur Diskretisierung, wie sie

in Kapitel 4.3 vorgestellt ist. In Kapitel 5 wird mit dem Iterating Generi Sequential

Sampling Algorithmus einVerfahren zurKombination desGeneri Sequential Sampling

Algorithmus mit Knowledge-Based Samplingvorgestellt. Insbesondere ist indiesem

Ka-pitelbeshrieben, wie eineeziente Suhe ingroÿen Hypothesenräumen möglih ist.Es

werdenmehrereNahteiledesGeneriSequentialSamplingAlgorithmusbeshriebenund

möglihe Lösungen aufgezeigt. Auÿerdem werden eine Reihe von Erweiterungen

vorge-stellt.In Kapitel6 wurden mit demIteratingGeneri Sequential SamplingAlgorithmus

Experimente mit synthetishen und ehten Datensätzen durhgeführt. Zur Erzeugung

der synthetishen Datensätze bedurfte es der Erstellung eines geeigneten Werkzeuges.

Die Experimente dienten dabeidem Zwek,die folgendenFragenzu klären:

•

^Wie ^eignet ^sih ^das^Verfahren^zurSubgruppenentdekung?

•

^Wie^verändern^sih^der^Umfang^und^dieAussagekraftderLösungdurhdenEinsatz von Knowledge-Based Sampling?

•

^Wie ^ist ^die Vorhersagequalität der Kombination der einzelnen Regeln zu einem Gesamtmodell?

•

^Wie ^gut ^ist ^die Vorhersagequalität im Vergleih zu anderenMethoden für die Lö-sungderLernaufgabe Konzeptlernen ausBeispielen?

•

^Wie ^ist^die ^Laufzeit ^im^Vergleih ^zu ^anderen ^Methoden?

•

^Wie^wirkt^sih^dieVeränderungderNutzenfunktionaufQualitätundLaufzeitaus?

•

^W^elhe Auswirkungen hat die Verwendung von Hypothesenräumen untershiedli-her Komplexität aufLaufzeit und Qualität der Ergebnisse?

Ziel der Diplomarbeit ist die Untersuhung der Eignung der Kombination des Generi

Sequential Sampling Algorithmus mit Knowledge-Based Sampling für

Subgruppenent-dekung und Konzeptlernen ausBeispielen. Im Folgenden werden dieverwendeten

Ver-fahren näher erläutert sowie auf deren Vor- und Nahteile eingegangen. Die

Subgrup-penentdekungwirdmitdemGeneriSequentialSamplingAlgorithmus[25℄durhgeführt

(Kapitel4.1).Knowledge-Based Sampling [26℄stellt dieUnabhängigkeit dergefundenen

Subgruppen siher und ermögliht die Kombination der gefundenen Subgruppen, um

eine Vorhersage für das Zielattribut zu treen (Kapitel 4.2). Um den Umgang mit

nu-merishen Attributen zu ermöglihen, bedarf es shlieÿlih noh einer Diskretisierung

numerisherAttribute. EingeeignetesVerfahrenistdasReursive MinimalEntropy

Par-titioning [10℄, das in Kapitel 4.3 vorgestellt wird. Für eine Übersiht der verwendeten

Notationen verweise ih auf Anhang A.

4.1 Der Generi Sequential Sampling Algorithmus

WirdData Mining auf sehr groÿen Datenbanken betrieben, ist neben der Maximierung

derNutzenfunktion auh die Skalierbarkeit von Bedeutung. Für viele Anwendungen ist

es niht möglih, in akzetabler Zeit alle Daten zu verarbeiten. Eine möglihe

Strate-gie, ummit diesemProblemumzugehen, istmit einer zufälliggezogenen Stihprobe der

Datenzuarbeiten.Natürlihbedeutetdiesesneben derLaufzeitverkürzungund

Verklei-nerung des benötigten Speiherplatzes auh, dass niht mehr garantiert werden kann,

dass die gewonnenen Resultate identish sind mit denen für die gesamten Daten. Von

Bedeutungist hierbeiderUntershiedimNutzen.Es istwihtig, dasseinLernverfahren,

das nur auf einer Stihprobe der Daten arbeitet, dem Nutzer Garantien gibt, wie stark

sihdieResultate bezüglih desNutzens untersheiden. Es gibtzwei Möglihkeiten,wie

diese Garantien aussehen können. Zum einen kann für eine feste Stihprobengröÿe

be-rehnet werden, wie gut die Garantie für den Nutzen auf den gesamten Daten ist [12℄,

zumanderenkannvomBenutzereinefesteQualitätderLösungvorgegebenwerden.Das

Zielist,mit minimalmögliherStihprobengröÿediegeforderteQualität zugarantieren.

Letztgenannter Ansatz wird beim sequentiellen Sampling verfolgt, das im Bereih des

MashinellenLernens erstmalsimRahmen desHoedingRaeAlgorithmus[18 ℄ benutzt

wurde. Hierbeiwerden die Instanzen bzw. die Stihprobe inkrementellgezogen und der

Nutzen aller Hypothesen des betrahteten Hypothesenraumes gleihzeitig aktualisiert.

Wenn siher ist, dass eine Hypothese sehr gut bzw. shleht ist, gibt der Algorithmus

diese Hypothese als Lösungaus bzw. verwirft sie.Ein wihtiger Vorteilist, dassdie

Be-shaenheitderDatenberüksihtigtwird:ErlaubendieDatendieHypothesenshnellin

GutundShlehtzu separieren,werdennur wenigeBeispieleinderStihprobebenötigt,

ansonstenwirddieStihprobegröÿer.DerGeneriSequential Sampling(GSS)

Algorith-mus[25℄benutztebenfallsdenAnsatzdessequentiellenSamplings.DerNutzergibtdabei

vor, wie gut die gefundene Lösung sein soll und wie groÿdie Irrtumswahrsheinlihkeit

seindarf.AuÿerdemkannuntervershiedenenNutzenfunktionengewähltwerden,sodass

sihderAlgorithmusprinzipiellsowohlfürdieLernaufgabeKonzeptlernenausBeispielen

als auh für dieSubgruppenentdekung eignet und für Letztere untershiedlihe

Deni-tionen von Interessantheit zulässt. In den nähsten Abshnitten werden die formalen

Grundlagen und der GSS Algorithmus erläutert sowie Shranken für die Qualität und

benötigte Beispielanzahleiniger populärerNutzenfunktionen angegeben.

Im Dokument r → Y +, (2) Verwerfungsmethode und Regeln r → Y +, (3) unnormierte Gewihte und alle Regeln,(4)Verwerfungsmethode und alle Regeln . . . . 65 (Seite 16-21)

Nutzenfunktion auf Basis des Binomialtests

2.4 Nutzenfunktionen

2.4.3 Nutzenfunktion auf Basis des Binomialtests

r → Y ∗

P r[Y ∗ ]

H 0

H 1

H 0 : BIAS(r → Y ∗ ) = 0 und H 1 : BIAS(r → Y ∗ ) 6 = 0.

X i

X i =

( 1, f alls x ein Beispiel f ¨ ur die interessierende Klasse in der Subgruppe ist

0, sonst .

X = P m i=1 X i

H 0

H 0

H 0

P[Y ∗ ]

m

m · P r[Y ∗ ]

p m · P r[Y ∗ ](1 − P r[Y ∗ ])

Z = X − m · P r[Y ∗ ] p m · P r[Y ∗ ](1 − P r[Y ∗ ])

Z = X − m · P r[Y ∗ ]

p m · P r[Y ∗ ](1 − P r[Y ∗ ]) = m( m 1 X − P r[Y ∗ ])

√ m · p P r[Y ∗ ](1 − P r[Y ∗ ]) =

√ m · BIAS(r → Y ∗ ) p P r[Y ∗ ](1 − P r[Y ∗ ]) .

p P r[Y ∗ ](1 − P r[Y ∗ ])

√ m · BIAS(r → Y ∗ )

BIN OM IAL(r → Y ∗ ) := q COV (h → Y ∗ ) · BIAS(r → Y ∗ ).

•

•

•

•

•

•

•