2.4 Nutzenfunktionen
2.4.3 Nutzenfunktion auf Basis des Binomialtests
BeiderLernaufgabe Subgruppenentdekungsind solhe Subgruppeninteressant,bei
de-nen diePreision derkorrespondierenden Regel
r → Y ∗ von derapriori W
ahrsheinlih-keitP r[Y ∗ ]
abweiht.ObdieempirishbeobahteteDierenzsignikantoderzufälligist,
lässtsihmit Hilfe desBinomialtests[9℄überprüfen. Umfestzustellen,obdie Subgruppe
wirklih interessant ist,formuliert maneine Nullhypothese
H 0 und eineAlternative H 1
über denwahren BiasderSubgruppe:
H 0 : BIAS(r → Y ∗ ) = 0 und H 1 : BIAS(r → Y ∗ ) 6 = 0.
Als Prüfgröÿe zur Entsheidung über das Ablehnen der Nullhypothese zugunsten der
Alternative dient dieinderSubgruppe beobahtete Anzahl von Beispiele der
interessie-rendenKlasse. Dazuwirdzunähsteine dihotome Zufallsvariable
X i deniert.
X i =
( 1, f alls x ein Beispiel f ¨ ur die interessierende Klasse in der Subgruppe ist
0, sonst .
Dann ergibt sih die Prüfgröÿe für m Beispiele als
X = P m i=1 X i. Man nimmt an, dass
die Nullhypothese
H 0 gilt und überprüft, wie groÿ die Werte für X werden müssen,
damit esextrem unwahrsheinlih ist,dass sieunter
H 0 zustande gekommen sind. Dazu
muss festgelegt werden, was unter extrem unwahrsheinlih zu verstehen ist. Üblihe
Werte sind Wahrsheinlihkeiten von 0.1, 0.05 oder 0.01, die auh als Signikanzniveau
bezeihnetwerden. DadieBeispiele unabhängigund gleihverteilt gezogen werdenist X
unterAnnahmevon
H 0binomialverteiltmitdenParameternP[Y ∗ ]
undm
.Nunkannman
anhandeinerTabelle derBinomialverteilung bestimmen,welheWertefürdiePrüfgröÿe
X unwahrsheinliher als das gewählte Signikanzniveau sind und erhält die Werte für
X,beidenen dieNullhypothese zugunsten derAlternativezu verwerfenist.Fürgroÿem
istXannäherndnormalverteilt mitErwartungswert
m · P r[Y ∗ ]
und Standardabweihungp m · P r[Y ∗ ](1 − P r[Y ∗ ]).DamiterhältmanfolgendestandardnormalverteiltePrüfgröÿe:
Z = X − m · P r[Y ∗ ] p m · P r[Y ∗ ](1 − P r[Y ∗ ])
Analog zur Binomialverteilung wird mit der Tabelle der Standardnormalverteilung
be-stimmt,fürwelhe WertederPrüfgröÿe ZdieNullhypothesebeigegebenem
Signikanz-niveau zu verwerfen ist. Bei Vernahlässigung des Signikanzniveaus ist esumso
wahr-sheinliher, dass die Alternative gilt, je gröÿer der Z-Wert ist. Der Z-Wert lässt sih
folgendermaÿen umformen:
Z = X − m · P r[Y ∗ ]
p m · P r[Y ∗ ](1 − P r[Y ∗ ]) = m( m 1 X − P r[Y ∗ ])
√ m · p P r[Y ∗ ](1 − P r[Y ∗ ]) =
√ m · BIAS(r → Y ∗ ) p P r[Y ∗ ](1 − P r[Y ∗ ]) .
Da der Term
p P r[Y ∗ ](1 − P r[Y ∗ ]) im Nenner für alle Regeln gleih ist, erzeugt √ m · BIAS(r → Y ∗ )
eine Ordnung derRegeln entsprehend der Signikanz der Abweihung
ihres Bias von der apriori Wahrsheinlihkeit. Durh den Wehsel von der absoluten
Anzahl von Beispielen auf den relativen Anteil wird diese Ordnung niht verändert. Es
ergibt sihdiefolgende Denition.
Denition 14. (Binomial)
Die Nutzenfunktion auf Basisdes Binomialtests istdeniert als
BIN OM IAL(r → Y ∗ ) := q COV (h → Y ∗ ) · BIAS(r → Y ∗ ).
Beim Generi Sequential Sampling [25 ℄ Algorithmus handelt es sih um ein Verfahren
zur Lösung der Lernaufgabe Subgruppenentdekung, das erlaubt als Kriterium der
In-teressantheit von Subgruppen, eine der in Kapitel 2.4 vorgestellten Nutzenfunktionen
Auray,WeightedRelativeAuray,SquaredoderBinomialauszuwählen.Zur
Bestim-mung der besten Subgruppen wird niht der komplette Datensatz durhsuht, sondern
miteiner Stihprobe gearbeitet.DerAlgorithmus gibtprobabilistishe Garantien fürdie
Qualität der Lösung. Der Vorteil dieses Ansatzes liegt in der guten Skalierbarkeit für
groÿeDatenbanken.Allerdingsmussauh eineReihevonNahteileninKaufgenommen
werden, von denen zweinahfolgend angesprohenwerden sollen.
Das Verfahren bedarf der Aufzählung des kompletten Hypothesenraumes, wodurh es
unmöglihist mitnumerishenAttributenumzugehen.VorderAnwendung istzwingend
eineDiskretisierungnumerisherAttributenötig. AuhnaheinerDiskretisierungistder
komplette Hypothesenraum meistso komplex, dass esniht möglih ist,ihnezient zu
handhaben.EinweitererNahteil ergibtsihdurhKorrelationen zwishen den
Attribu-teneinesDatensatzes.Hypothesenwiez.B.RegelnbeshreibenSubgruppenmitHilfeder
Attribute.AufgrundderKorrelationenergeben sih mehrereHypothesen,diediegleihe
Subgruppe beshreiben. Dadurh ist die gefundene Lösung unnötig groÿ und
unüber-sihtlih.Für denNutzer istsie shwerzuinterpretieren, dadiewihtigenAussagenaus
derVielzahl redundanter Lösungenniht klarhervorstehen.
Mit Knowledge-Based Sampling [26℄ steht eine Methode zur Verfügung, um das
Fin-den von redundanten Hypothesen zu vermeiden. Eine Hypothese in Form einer Regel
repräsentiertdurh ihreVorhersagenVorwissen überdasZielattribut. Knowledge-Based
Sampling entfernt dieses Vorwissen aus den Daten, indem es die Korrelation zwishen
Vorhersagen der Regel und den tatsählihen Werten des Zielattributes aus den Daten
entfernt.Danahsindwederdiese noh andereRegeln,vondenen diegleihe Subgruppe
beshrieben wird, inden Datenzu nden.
Vorrangiges Ziel dieser Diplomarbeit ist die Untersuhung der Kombination des
Gene-riSequential SamplingAlgorithmus mitKnowledge-Based Samplingbezüglihder
Eig-nungfürdieLernaufgabenSubgruppenentdekungundKonzeptlernenausBeispielen.Die
Kombination der beiden Verfahren verspriht eine präzise und kompakte Beshreibung
der Trainingsdaten. Insbesondere sollte ein ezienter Umgang mit sehr groÿen
Daten-mengenmöglih sein,dastattdesgesamtenDatensatzesnur eineStihprobe verarbeitet
wird.
Zunähst werden in Kapitel 4.1 der Generi Sequential Sampling Algorithmus und in
Kapitel 4.2 das Knowledge-Based Sampling vorgestellt. Um für die Lernaufgabe
Kon-zeptlernen aus Beispielen Vorhersagen überdas Zielattribut zu treen, wird eine
Kom-bination mehrerer Regeln benutzt, die mit dem GSS Algorithmus unter Einsatz von
Knowledge-Based Samplinggefundenwurden.Ein Verfahren zurKombination mehrerer
unterdemEinsatzvonKnowledge-BasedSamplinggefundererModelleistinKapitel4.2.4
beshrieben.UmdemGeneriSequentialSamplingAlgorithmus zuermöglihen,mit
nu-merishen Attributen umzugehen, bedarf es einer Methode zur Diskretisierung, wie sie
in Kapitel 4.3 vorgestellt ist. In Kapitel 5 wird mit dem Iterating Generi Sequential
Sampling Algorithmus einVerfahren zurKombination desGeneri Sequential Sampling
Algorithmus mit Knowledge-Based Samplingvorgestellt. Insbesondere ist indiesem
Ka-pitelbeshrieben, wie eineeziente Suhe ingroÿen Hypothesenräumen möglih ist.Es
werdenmehrereNahteiledesGeneriSequentialSamplingAlgorithmusbeshriebenund
möglihe Lösungen aufgezeigt. Auÿerdem werden eine Reihe von Erweiterungen
vorge-stellt.In Kapitel6 wurden mit demIteratingGeneri Sequential SamplingAlgorithmus
Experimente mit synthetishen und ehten Datensätzen durhgeführt. Zur Erzeugung
der synthetishen Datensätze bedurfte es der Erstellung eines geeigneten Werkzeuges.
Die Experimente dienten dabeidem Zwek,die folgendenFragenzu klären:
•
Wie eignet sih dasVerfahrenzurSubgruppenentdekung?•
WieverändernsihderUmfangunddieAussagekraftderLösungdurhdenEinsatz von Knowledge-Based Sampling?•
Wie ist die Vorhersagequalität der Kombination der einzelnen Regeln zu einem Gesamtmodell?•
Wie gut ist die Vorhersagequalität im Vergleih zu anderenMethoden für die Lö-sungderLernaufgabe Konzeptlernen ausBeispielen?•
Wie istdie Laufzeit imVergleih zu anderen Methoden?•
WiewirktsihdieVeränderungderNutzenfunktionaufQualitätundLaufzeitaus?•
Welhe Auswirkungen hat die Verwendung von Hypothesenräumen untershiedli-her Komplexität aufLaufzeit und Qualität der Ergebnisse?Ziel der Diplomarbeit ist die Untersuhung der Eignung der Kombination des Generi
Sequential Sampling Algorithmus mit Knowledge-Based Sampling für
Subgruppenent-dekung und Konzeptlernen ausBeispielen. Im Folgenden werden dieverwendeten
Ver-fahren näher erläutert sowie auf deren Vor- und Nahteile eingegangen. Die
Subgrup-penentdekungwirdmitdemGeneriSequentialSamplingAlgorithmus[25℄durhgeführt
(Kapitel4.1).Knowledge-Based Sampling [26℄stellt dieUnabhängigkeit dergefundenen
Subgruppen siher und ermögliht die Kombination der gefundenen Subgruppen, um
eine Vorhersage für das Zielattribut zu treen (Kapitel 4.2). Um den Umgang mit
nu-merishen Attributen zu ermöglihen, bedarf es shlieÿlih noh einer Diskretisierung
numerisherAttribute. EingeeignetesVerfahrenistdasReursive MinimalEntropy
Par-titioning [10℄, das in Kapitel 4.3 vorgestellt wird. Für eine Übersiht der verwendeten
Notationen verweise ih auf Anhang A.
4.1 Der Generi Sequential Sampling Algorithmus
WirdData Mining auf sehr groÿen Datenbanken betrieben, ist neben der Maximierung
derNutzenfunktion auh die Skalierbarkeit von Bedeutung. Für viele Anwendungen ist
es niht möglih, in akzetabler Zeit alle Daten zu verarbeiten. Eine möglihe
Strate-gie, ummit diesemProblemumzugehen, istmit einer zufälliggezogenen Stihprobe der
Datenzuarbeiten.Natürlihbedeutetdiesesneben derLaufzeitverkürzungund
Verklei-nerung des benötigten Speiherplatzes auh, dass niht mehr garantiert werden kann,
dass die gewonnenen Resultate identish sind mit denen für die gesamten Daten. Von
Bedeutungist hierbeiderUntershiedimNutzen.Es istwihtig, dasseinLernverfahren,
das nur auf einer Stihprobe der Daten arbeitet, dem Nutzer Garantien gibt, wie stark
sihdieResultate bezüglih desNutzens untersheiden. Es gibtzwei Möglihkeiten,wie
diese Garantien aussehen können. Zum einen kann für eine feste Stihprobengröÿe
be-rehnet werden, wie gut die Garantie für den Nutzen auf den gesamten Daten ist [12℄,
zumanderenkannvomBenutzereinefesteQualitätderLösungvorgegebenwerden.Das
Zielist,mit minimalmögliherStihprobengröÿediegeforderteQualität zugarantieren.
Letztgenannter Ansatz wird beim sequentiellen Sampling verfolgt, das im Bereih des
MashinellenLernens erstmalsimRahmen desHoedingRaeAlgorithmus[18 ℄ benutzt
wurde. Hierbeiwerden die Instanzen bzw. die Stihprobe inkrementellgezogen und der
Nutzen aller Hypothesen des betrahteten Hypothesenraumes gleihzeitig aktualisiert.
Wenn siher ist, dass eine Hypothese sehr gut bzw. shleht ist, gibt der Algorithmus
diese Hypothese als Lösungaus bzw. verwirft sie.Ein wihtiger Vorteilist, dassdie
Be-shaenheitderDatenberüksihtigtwird:ErlaubendieDatendieHypothesenshnellin
GutundShlehtzu separieren,werdennur wenigeBeispieleinderStihprobebenötigt,
ansonstenwirddieStihprobegröÿer.DerGeneriSequential Sampling(GSS)
Algorith-mus[25℄benutztebenfallsdenAnsatzdessequentiellenSamplings.DerNutzergibtdabei
vor, wie gut die gefundene Lösung sein soll und wie groÿdie Irrtumswahrsheinlihkeit
seindarf.AuÿerdemkannuntervershiedenenNutzenfunktionengewähltwerden,sodass
sihderAlgorithmusprinzipiellsowohlfürdieLernaufgabeKonzeptlernenausBeispielen
als auh für dieSubgruppenentdekung eignet und für Letztere untershiedlihe
Deni-tionen von Interessantheit zulässt. In den nähsten Abshnitten werden die formalen
Grundlagen und der GSS Algorithmus erläutert sowie Shranken für die Qualität und
benötigte Beispielanzahleiniger populärerNutzenfunktionen angegeben.