Eziente Entdekung
unabhängiger Subgruppen
in groÿen Datenbanken
DirkDah
Diplomarbeit
amFahbereihInformatik
derUniversität Dortmund
Mittwoh ,2.August2006
Betreuer:
Prof.Dr. Katharina Morik
Dipl.-Inform. MartinSholz
Ein herzlihes Dankeshön an alle, die mir bei der Erstellung der vorliegenden Arbeit
helfendzurSeite gestanden haben.MeinbesondererDankgilt meinen beiden Betreuern
Prof.Dr. Katharina Morik undDipl.-Inform. MartinSholz.
Danksagung . . . ii
1 Einleitung 1 2 Grundlagen 2 2.1 Lernaufgaben . . . 2
2.2 Konzeptlernen ausBeispielen . . . 3
2.3 Subgruppenentdekung . . . 5
2.4 Nutzenfunktionen . . . 6
2.4.1 Coverage, Preision, BiasundLift . . . 8
2.4.2 AurayundWeightedRelative Auray. . . 9
2.4.3 Nutzenfunktionauf BasisdesBinomialtests . . . 9
3 Ziele der Diplomarbeit 11 4 Verwendete Tehniken und Algorithmen 13 4.1 DerGeneri Sequential SamplingAlgorithmus . . . 13
4.1.1 Grundlagen . . . 14
4.1.2 Algorithmus . . . 15
4.1.3 Kondenzintervalle für vershiedene Nutzenfunktionen . . . 19
4.2 Knowledge-Based Sampling . . . 23
4.2.1 Grundlagen . . . 25
4.2.2 Bedingungenan dieneue Verteilung . . . 26
4.2.3 Konstruktionderneuen Verteilung . . . 27
4.2.4 Anwendung zurKlassikation . . . 28
4.3 VerfahrenzurDiskretisierung . . . 31
4.3.1 Überblik . . . 31
4.4 ReursiveMinimal EntropyPartitioning . . . 32
4.4.1 Entropie und Informationsgewinn . . . 32
4.4.2 Algorithmus . . . 33
5 Iterating GSS 35 5.1 Modikationendes GSSAlgorithmus . . . 35
5.1.1 Verwerfungsmethode unddirekteVerwendung vonBeispielgewihten 35 5.1.2 Veränderung derShrittgröÿe . . . 36
5.1.3 Verwendung derApproximationdurh dieNormalverteilung . . . . 37
5.2 Erzeugungdes Hypothesenraumes . . . 38
5.3 Suheim Hypothesenraum . . . 40
5.4 Pruning . . . 41
5.5 Algorithmus . . . 45
5.6 Variationen desIteratingGSSAlgorithmus . . . 49
5.7 Implementierung derHilfsmethoden . . . 51
5.7.1 Methoden zurErzeugung undDurhsuhung desHypothesenraumes 51
5.7.2 Pruning . . . 53
6 Experimente 57 6.1 Experimente mit synthetishen Datensätzen . . . 57
6.1.1 DerBiasedExampleGenerator Operator . . . 57
6.1.2 Ergebnisse. . . 60
6.2 Experimentemit ehten Datensätzen . . . 63
6.2.1 Datensätze . . . 63
6.2.2 Ergebnisse. . . 64
7 Zusammenfassung 75
A Verzeihnis der verwendeten Notationen 79
B Benutzte primitiveDatentypen und -strukturen 81
C Parameter des IteratingGSS Algorithmus 82
D Parameter des BiasedExampleGeneratorOperator 85
4.1 DerGeneri Sequential SamplingAlgorithmus . . . 16
4.2 Funktionsweise desGSS Algorithmus inShritt 3d . . . 17
4.3 Das0.95-Quantil derStandardnormalverteilung . . . 21
4.4 Normalverteilung(shwarz)undt-Verteilungfür5(rot),10(blau)sowie15(grün) Freiheitsgrade . . . 21
4.5 Anwendung derVerwerfungsmethode beimKnowledge-Based Sampling . . 29
5.1 ModikationvonShritt3a desGeneriSequentialSamplingAlgorithmus mit derVerwerfungsmethode . . . 36
5.2 Approximation von Binomialverteilungen mit vershiedenen Parametern durhDihtekurven derNormalverteilung. . . 39
5.3 Grashe Darstellung des Coverage Spae zur Verdeutlihung der mögli- henResultate derVerfeinerungeiner Regel . . . 43
5.4 DerIteratingGeneri Sequential SamplingAlgorithmus . . . 47
5.5 DieGENERATE-RULES-Methode . . . 52
5.6 DieGENERATE-SUCCESSORS-Methode . . . 53
5.7 DieIS-USEFUL-Methode . . . 54
5.8 DiePRUNE-RULES-Methode . . . 55
6.1 EinfahesBeispiel für einenBiasTree . . . 57
6.2 Menge von mehreren BiasTrees, die zunähst die Verteilung der Ausprä- gungenderAttributeangebenunddannBedingungenfürdieAusprägung desZielattributesformulieren. . . 58
6.3 Derfür dieErzeugung dessynthetishen Datensatzesverwendete BiasTree 60 6.4 Aurayund Laufzeit von AdaBoost, Ada
2
Boost und von vier Iterating GSS Varianten mit Weighted Relative Auray als Nutzenfunktion und auf eins beshränkter Regellänge: (1) unnormierte Gewihte und Regelnr → Y +, (2) Verwerfungsmethode und Regeln r → Y +, (3) unnormierte
Gewihte und alle Regeln,(4)Verwerfungsmethode und alle Regeln . . . . 65
6.5 Vergleih des benötigten Beispielgewihtes bei direkter Verwendung der Gewihte und EinsatzderVerwerfungsmethode aufden AdultDatenund Regellängeeins . . . 66
6.6 Laufzeit des Iterating GSS Algorithmus mit vershiedenen Shrittgröÿen für den Covtype1 Datensatz mit der Nutzenfunktion Weighted Relative Aurayundauf einsbeshränkter Regellänge . . . 68
6.7 VergleihderAurayeinesmitdemIteratingGSSAlgorithmusgefunde- nen Ensembles beiEinsatz vershiedener Nutzenfunktionenfür die Adult undQuantenphysik Datensätze . . . 69
6.8 Vergleih derLaufzeit beivershiedenen Nutzenfunktionen für den Adult Datensatz . . . 70
6.9 Relative Häugkeiten der Anzahl an Abdekungen von Beispielen durh
dieRegeln eines Ensembles auf den Adult undQuantenphysik Daten für
vershiedeneNutzenfunktionen . . . 71
6.10 Diversität eines Ensembles aus untershiedlihen Anzahlen von verwen-
deten Regeln auf den Adult und Quantenphysik Daten für vershiedene
Nutzenfunktionen. . . 72
6.11 Vergleih von Auray und Laufzeit beivershiedenen Komplexitätsstu-
fenfür den Covtype1 Datensatz . . . 74
D.1 Menge von mehreren BiasTrees, die zunähst die Verteilung der Ausprä-
gungenderAttributeangebenunddann BedingungenfürdieAusprägun-
gen desZielattributesformulieren. . . 86
D.2 XMLBeshreibung eines BiasTree . . . 87
2.1 DieWetterdaten . . . 3
4.1 Kondenzintervalle für dievershiedenen Nutzenfunktionen . . . 24
4.2 Maximal benötigteBeispielanzahlen . . . 24
4.3 Aurayvon J48 auf Datensätzen ohne Diskretisierung (ohne), mit Re-
ursive MinimalEntropyPartitioning(RMEP),EqualFrequeny Binning
mit 5Bins(EFB5) undEqual Frequeny Binningmit 10 Bins(EFB10). . 34
5.1 ObereShranken für vershiedene Nutzenfunktionen . . . 45
5.2 Bewertungskriterien derIS-USEFUL-Methode . . . 53
6.1 EigenshaftenderdreiverwendetenDatensätze:Name,Gesamtanzahlvon
AttributensowieAnzahlvonnominalenundnumerishenAttributen,Grö-
ÿe derBeispielmengeund Anteil vonpositiven Beispielen. . . 63
A.1 AllgemeineNotationen . . . 79
A.2 Notationenfür den GSSAlgorithmus . . . 79
A.3 ZusätzliheNotationenfürdenIteratingGSSAlgorithmusunddenBiased-
ExampleGenerator Operator . . . 80
B.1 Übersiht überdieverwendetenprimitiven Datentypen und -strukturen . 81
C.1 Übersiht überdieParameter desIterating GSSAlgorithmus . . . 82
D.1 ÜbersihtüberdieAttributedes<node>-TagszurBeshreibungderKno-
tendesBiasTrees . . . 85
D.2 Übersiht überdieParameter desBiasedExampleGenerator Operators . . 87
Die Entwiklung derComputertehnik ist soweit fortgeshritten, dass es fast keine Be-
shränkung der Speiherkapazität mehr gibt. Festplatten mit mehreren 100 Gigabyte
Kapazität sindzum Standardgeworden. Betrahtet man dasVerhältnis vonKostender
Arhivierung zu dem potenziellen Nutzen der Informationen in den Daten wird klar,
warum Unternehmen verstärkt dazu übergehen, alle Daten zu speihern, die während
ihres Geshäftsbetriebes entstehen. Als ein Beispiel betrahte man das Internet. Hier
bekommen Online Versandhändler Daten über das Kaufverhalten der Nutzer kostenlos
mitgeliefert. Das Wissen in diesen Daten wird auh genutzt, was beim Betrahten ei-
nes Produktes oensihtlih wird durh den Hinweis "Kunden, die sih dieses Produkt
angesehen haben,interessierten sihauhfürjene Produkte".Eineweiterenahezuuner-
shöpihe Quelle von Datensind diemittlerweile überall eingerihteten Sannerkassen.
Einkäufe injedemgröÿeren Geshäft werdenerfasstundermöglihen z.B.dasGewinnen
vonInformationen überpopuläreProduktkombinationen. Informationen über dasKauf-
verhalten der Kunden ermöglihen eine optimale Planung des Produktsortimentes. Ein
letztesBeispielsinddieDatenbestände,diebeiTelekommunikationsanbieternentstehen.
JedeMobilfunk-oderFestnetzverbindungwirdaufgezeihnet.GeradeinIndustrieländern
entstehtjeden TageineUnmengeanDaten.DiedarinenthaltenenInformationenkönnen
z.B.zur Kapazitätsplanung oder Erstellung von speziellen Angeboten(Wohenendtarif,
Sondertarife für häug gewählte Rufnummern) für bestimmte Kundengruppen genutzt
werden.
Damit diese nützlihen Informationen von den Unternehmen genutzt werden können,
bedarf eseiner Möglihkeit, dieInformationen in den Datenbeständen aufzunden. Ins-
besondere muss dieses für groÿe Datenbestände ezient möglih sein. Für die in den
Daten enthaltenen Informationenwirdinderhier verwendeten Terminologie derBegri
Muster benutzt. Der Vorgang der automatishen Mustererkennung in groÿen Datenbe-
ständenwirdalsDataMiningbezeihnet.DieSuhenahneuenDataMining-Methoden
ist einaktivesForshungsgebiet. Die Methoden setzen u.a.Tehniken ausdem Mashi-
nellen Lernen undder Statistik ein. Sie führen die Mustererkennung durh und werden
wegendergroÿen Datenmengen vonComputern ausgeführt.
Im Rahmen dieser Diplomarbeit wird ein neues Data Mining-Verfahren vorgestellt und
untersuht. Bevor inKapitel 3 dasweitere Vorgehen und dieZielsetzungen beshrieben
werden,isteszunähstnötig,diegrundlegendeTerminologieausdenBereihendesData
Mining unddesMahinellen Lernenseinzuführen.
In diesem Kapitel wird zunähst beshrieben, wie man den Begri des Lernens durh
die Denition von Lernaufgaben näher spezizieren kann. Anhand eines einfahen Bei-
spielserfolgtdieBeshreibungdergrundlegendenTerminologiedesMashinellenLernens
und es werden zwei wihtige Lernaufgaben vorgestellt. Hierbei handelt es sih um das
Funktionslernen ausBeispielen unddie Subgruppenentdekung.
2.1 Lernaufgaben
DataMiningsetzt vieleTehniken ausdemBereihdesMashinellenLernens ein.Gene-
rellistimMashinellen LernendieFrageinteressant,wasesbedeutetetwaszuverstehen
oder zu lernen und inwieweit ein Computer dieses kann. Diese Frage kann vermieden
werden, indem die Aufgabe der Mustererkennung in Datenbeständen niht als Lernen
imallgemeinenSinnebezeihnetwird.Vielmehr wirddieAufgabe vielspezielleranhand
der vorhandenen Eingabedaten und der gewünshten Ausgaben deniert. Als typishes
Beispiel für die Form von Eingabedaten betrahte man die in Tabelle 2.1 dargestellten
Wetterdaten [22 ℄.
Siebeshreiben,beiwelhenWetterbedingungeneinnihtnäherspeziziertesSpielbe-
triebenwerdenkann.DieWetterbedingungen heiÿenMerkmale oderAttribute.Attribute
können nominal sein, wie Himmel, Wind und Spielen oder numerish, wie Tempera-
tur und Luftfeuhtigkeit. Ein konkreter Wert eines Attributes heiÿt Ausprägung und
jede Zeile ist eine bestimmte Kombination der vershiedenen Ausprägungen der Attri-
bute und wirdBeispiel oder Instanz genannt. Eine besondere Rolle spielt dasAttribut
'Spielen', da man daran interessiert ist, zu beshreiben wie dessen Wert von den Aus-
prägungen der anderen Attribute abhängt. Es wird daher Zielattribut oder abhängiges
Merkmal genannt. Es sollen die in den Daten enthaltene Muster bezüglih des Zielat-
tributesstrukturiertund möglihstkomprimiert dargestelltwerden.InderTerminologie
desMashinellenLernens spriht manvon einemKonzept, genauerdemZielkonzept,das
von den Daten beshrieben wird; die gefundene Darstellung heiÿt Konzeptbeshreibung
oderModell.EineMöglihkeitderKonzeptbeshreibungistdieDarstellungdurhRegeln
derForm
WENN(Aussiht=sonnig) DANN(Spielen=Ja) oder
WENN(Aussiht=bewölkt)UND(Temperatur=warm)DANN(Spielen=Ja).
Ein Data Mining Verfahren lernt, wenn es eventuell unter Einhaltung von Nebenbedin-
gungen aus dem gegebenen Eingabedatensatz eine Konzeptbeshreibung dergewünsh-
ten Form ableitet. Man spriht in diesem Zusammenhang von einer Lernaufgabe [16℄.
DiebeidenLernaufgabenKonzeptlernen ausBeispielen undSubgruppenentdekung, die
für diese Diplomarbeit im Vordergrund stehen, sollen im folgenden zusammen mit der
benötigten Terminologie genauer beshrieben werden.
Himmel Temperatur Luftfeuhtigkeit Wind Spielen
Sonne 85 85 Nein Nein
Wolken 83 78 Nein Ja
Regen 70 96 Nein Ja
Regen 68 80 Nein Ja
Regen 65 70 Ja Nein
Wolken 64 65 Ja Ja
Sonne 72 95 Nein Nein
Sonne 69 70 Nein Ja
Regen 75 80 Nein Ja
Sonne 75 70 Ja Ja
Wolken 72 90 Ja Ja
Wolken 81 75 Nein Ja
Regen 71 80 Ja Nein
Tabelle2.1:Die Wetterdaten
2.2 Konzeptlernen aus Beispielen
Für das Beispiel der Wetterdaten ist das Zielkonzept durh die Werte des Attributes
Spielenbeshrieben.DeniertistdasZielkonzeptüberderInstanzenmenge X,dieausal-
lenmöglihenKombinationendergegebenenAttributebesteht.ObwohlZielattributemit
mehralszweiAusprägungenüblihsind,wirdhiernurderboolesheFallbetrahtet.Man
spriht beiden beidenAusprägungendesZielattributesauhvonpositiver undnegativer
Klasse bzw. analog von positiven und negativen Beispielen. Formal ist das Zielkonzept
eineFunktion
f : X → { 0, 1 }
.EinLernverfahrenerhältnunTrainingsbeispielex ∈ X
mitbekanntem Zielattribut. Daraus soll das Verfahren eine Beshreibung des Zielkonzeptes
ableiten.WiedieseBeshreibunggenauaussiehtmussdurhWahleinergeeignetenMenge
vonKonzeptbeshreibungen,demsogenanntenHypothesenraum H,festgelegtwerden.Es
gibt eineFülle von Lernverfahren mit zugehörigenHypothesenräumen, diedie Lernauf-
gabe Konzeptlernen ausBeispielen lösen,wie z.B.regelbasierte Lernverfahren([3,4 ,7℄),
Entsheidungsbäume und Neuronale Netze [22 ℄ oderSupport Vetor Mahines [32℄. Die
Aufgabe des Lernverfahrens besteht darin eine Hypothese
h ∈ H
auszuwählen, so dass für die Trainingsbeispielemöglihst immer f(x)=h(x) gilt. Der Anteil an Beispielen, fürden
f (x) 6 = h(x)
gilt, nennt man Trainingsfehler.Denition 1. (Trainingsfehler)
SeiT eineTrainingsmenge derGröÿe n von Instanzen ausX, fdie zugehörige Zielfunk-
tion und H der gegebene Hypothesenraum. Der Trainingsfehler einer Hypothese
h ∈ H
bezüglih T und f ist deniert als der durhshnittlihe Fehler über alle Instanzen der
Trainingsmenge:
error T (h) = 1 n
n
X
i=1
error(f (x), h(x)).
Hierbei ist derFehler füreine einzelne Instanz deniertals:
error(f (x), h(x)) = 0, f alls h(x) = f (x), sonst 0 (0 − 1 − loss).
DadiegefundeneHypotheseInstanzeninnegativeundpositiveBeispieleklassizieren
soll, bezeihnet man sie im Rahmen dieser Lernaufgabe auh als Klassikator. Für die
Art derVorhersage, die dergelernte Klassikator mahen soll, gibt eszwei Möglihkei-
ten: harte (risp) und weihe (soft) Vorhersagen. Beispielsweise kann es sein, dass eine
bestimmte Regel fürahtpositive undzweinegativeBeispiele anwendbarist.Beiharter
Klassizierungwürde indiesemFalldiepositiveKlasse vorhergesagt,dadiesedieMehr-
heitsklasseist.Bei weiherKlassizierung würdeeine Wahrsheinlihkeit von 0.8fürdie
positive und 0.2für dienegative Klasse vorhergesagt.
Für den Fall einer weihen Klassizierung existiert eine Alternative zur Messung des
Trainingsfehler. Der Root Mean Squared Error (RMSE) misst die durhshnittlihe Ab-
weihungderVorhersageneinerHypothesevondentatsählihenAusprägungendesZie-
lattributes.
Denition 2. (Root Mean Squared Error)
Seien T, X, f und H wie in obiger Denition. Der Root Mean Squared Error (RMSE)
einer Hypothese h istdeniert als Quadratwurzel ausdem mittlerenquadrierten Fehler:
RM SE T (h) :=
v u u t 1 n
n
X
i=1
(f (x) − h(x)) 2 .
Die alleinige Minimierung des Trainingsfehlers ist aber i.d.R. niht ausreihend. Als
Beispiel betrahte maneineBank, dieausihren Kundendaten dasKonzept'Kreditwür-
digkeit'ableitenmöhte. Es solleineHypothesegefundenwerden, diefür jeden Kunden
ausseinenspezishenDatenbestimmt,obereinenKrediterhält.DazuwerdenalsTrai-
ningsbeispielesolheKundenverwendet,dieshoneinenKredithaben,derenKreditwür-
digkeit also shon bekannt ist. Diese Trainingsmenge von Kunden kann als Stihprobe
aus derMenge aller potentiellen Kunden angesehen werden, für dieder Trainingsfehler
bestimmt werden kann. Der wirklihe Nutzen der Bank ergibt sih erst, wenn sie für
Neukunden bei denen die Kreditwürdigkeit unbekannt, ist eine zuverlässige Vorhersage
über derenKreditwürdigkeit mahen kann.Damit esüberhauptmöglihist mit der aus
den Trainingsinstanzen gelerntenHypotheseeine Aussageüberzukünftige Instanzen zu
mahen ist die Annahme nötig,dass eine guteApproximation derZielfunktionf für die
TrainingsmengeauheineguteApproximationvonffürungeseheneInstanzenist.Formal
nimmtmanan,dassalleInstanzengemäÿeinerWahrsheinlihkeitsverteilung Dgezogen
werden. Den erwarteten Fehler, den die gefundene Hypothese für Instanzen maht, die
gemäÿ Dgezogen wurden,bezeihnetmanalswahrenFehler.
Denition 3. (Wahrer Fehler)
Sei
D : X → IR + eine Wahrsheinlihkeitsverteilung über dem Instanzenraum X, f die zugehörige Zielfunktion und H der gegebene Hypothesenraum. Der wahre Fehler einer
Hypothese
h ∈ H
bezüglih Instanzen, die gemäÿ D zufällig gezogen werden und f istdeniert als
error D (h) = Z
x ∈ X
error(f (x), h(x)) D(x) dx,
falls derFehler füreine einzelne Instanzmit dem 0-1-lossgemessen wird bzw.
error D (h) = s Z
x ∈ X
(f (x) − h(x)) 2 D(x) dx,
falls derFehler füreine einzelne Instanzder quadratishe Fehler ist.
DenVorgang bei demeine Hypothese ungesehene Instanzen (rihtig) klassiziert, be-
zeihnet manauhals Generalisierung.
Nun lässtsih dieLernaufgabe Funktionslernen ausBeispielen denieren.
Denition 4. (Funktionlernen aus Beispielen)
DieAufgabe beim Funktionslernenaus Beispielenbesteht darin,füreinegemäÿ derVer-
teilung
D : X → IR + gezogene Trainingsmenge von Instanzen und einen gegebenen Hy-
pothesenraum H, eine Hypothese h ∗ zu nden,die den wahrenFehler bezüglih H und D
minimiert:
h ∗ = argmin h ∈ H { error D (h) } .
Der wahre Fehler kann niht direkt bestimmt werden, da Zielfunktion f und die Ver-
teilungDunbekanntsind.DerTrainingsfehleristimallgemeineneineshlehteAbshät-
zung des wahren Fehlers; er untershätzt ihn meistens. Dieses kann mehrere Ursahen
haben.Zum einenkanndieTrainingsmenge fehlerhafteBeispieleenthalten, dieder wah-
ren Funktion f widersprehen. Dann klassiziert eine Hypothese,die auf der Trainings-
mengefehlerfrei ist,neue Beispieleshleht. Gleihes gilt,wenn der Hypothesenraum zu
komplex gewähltwurde, sodasseinfahnurdie Trainingsmenge auswendig gelernt wur-
de anstattdie darinverstekte`Zielfunktion fzu approximieren. Manbezeihnetdieses
mit Überanpassung (Overtting) andie Trainingsmenge. Verfahren,die dieLernaufgabe
Konzeptlernen ausBeispielen lösen, beinhalten daher Mehanismen, die versuhen eine
Überanpassungzu verhindern.
Da der Trainingsfehler häug keine gute Shätzung für den wahren Fehler ist, wird
in der Regel ein Teil der Trainingsmenge als Testdatensatz benutzt. Der auf den übri-
gen Beispielen derTrainingsmenge gelernte Klassikator wirdbenutzt, umVorhersagen
für die ungesehenen Testbeispiele zu treen. Den Fehler auf diesen Testdaten benutzt
man zur Shätzung des wahren Fehlers. Eine wihtige Variation dieses Verfahrens ist
dieKreuzvalidierung.HierbeiwirddieTrainingsmenge inmehreredisjunkteTeilmengen
zerlegt; eineüblihe Wahlsindzehn Teilmengen. EineTeilmenge wirdals Testdatensatz
zurükgehalten, mit dem Rest wird gelernt. Dieses wird wiederholt bis alle Teilmengen
einmalTestdatensatzwaren.Beider10-fahenKreuzvalidierungwirdbeispielsweisezehn
malmit90%derDatengelernt undaufeinerimmeranderenTeilmengevon10%derDa-
ten getestet.Zur Shätzung des wahren Fehlers wirdder Trainingsfehler über alle zehn
Testmengengemittelt.InderPraxiswirddie10-faheKreuzvalidierunghäugeingesetzt,
da siemeist eineguteShätzungfür den wahrenFehler liefert.
2.3 Subgruppenentdekung
BeimKonzeptlernenausBeispielenhandelt essihumeineprädiktiveLernaufgabe,d.h.
manist daraninteressiert einglobalesModell zunden, dasfürjede zukünftige Instanz
eine Vorhersage mahen kann. Bei der Subgruppenentdekung handelt es sih dagegen
um eine deskriptive Lernaufgabe. Die gefundenen Konzepte sind lokale Aussagen über
interessante Teilbereihe derTrainingsmenge. Alsein Beispielbetrahteman wiederdie
Kundendaten einer Bank und einen Investmentfond, den die Bank anbietet. Aus Mar-
ketinggesihtspunkten ist die Bank an Kundengruppen interessiert, beidenen derFond
unterrepräsentiert ist. Aus den Daten der Bank lässt sih leiht ein binäres Merkmal
konstruieren,dasfürjeden Kundeangibt, oberinden Fondinvestiert hat.DieAussage,
dass Rentner wesentlih seltener in den Investmentfond anlegen als die gesamte Kund-
shaft, kann für dieBank wertvoll sein unddas Management zu demVersuh bewegen,
die gefundene Subgruppe der Rentner durh besondere Maÿnahmen von den Vorteilen
desInvestmentsfondzuüberzeugen.WiemanandiesemBeispielsieht,istaufdieseWeise
keineglobaleVorhersagemöglih:Mankannzwaraussagen,dassdieVerteilungdesinter-
essierendenMerkmalsbeiInstanzenindergefundenenSubgruppe von derVerteilungin
dergesamtemTrainingsmengeabweiht,aberkeineAussageüberInstanzenauÿerhalbder
Subgruppe mahen. Die Lernaufgabe Subgruppenentdekung bedarf der Festlegung des
interessierendenMerkmalsdesHypothesenraumesHundeinerNutzenfunktion q,diedas
MaÿfürdieInteressantheiteinerSubgruppeist.FasstmandasZielattributalsinteressie-
rendes Merkmal auf,sobenötigtmanwie shon beim Konzeptlernen aus Beispielenzur
Subgruppenentdekung ebenfallseine Trainingsmenge von bereitsklassizierten Instan-
zen. Desweiteren muss für jede durh ein Hypothese denierte Subgruppe bestimmbar
sein,welheInstanzen zuihr gehören. Damitlässtsih dieLernaufgabe Subgruppenent-
dekungdenieren.
Denition 5. (Subgruppenentdekung)
Es sei T eine Trainingsmenge von Instanzen aus dem Instanzenraum X und
P (X)
diePotenzmenge von X. Weiterhin sei H ein Hypothesenraum, in dem jede Hypothese mit
einer Teilmenge des Instanzenraumes identiziertwerden kann.
Gegeben eineNutzenfunktion q:
H × P (X) → IR
bestehtdieLernaufgabe Subgruppenent- dekung darin, die Menge von Hypothesenh ∈ H
mit dem höhsten Nutzen bezüglih qzu nden.
Die Anzahl der gefundenen Hypothesen kann entweder durh einen minimalen Wert
für den Nutzen einer Hypothese h beshränkt werden oder es wird festgelegt, dass nur
diekbestenHypothesenzur Lösunggehörensollen.
ObwohldieLernaufgabeSubgruppentdekungoftalsdeskriptivangesehenwird,istauh
eine Denition als prädiktive Lernaufgabe denkbar. Dazu muss angenommen werden,
dassdie Trainingsmenge TeineStihprobe ausdemInstanzenraum X ist,diegemäÿ ei-
nerWahrsheinlihkeitsverteilung D überXgezogen wurde.Desweiteren bedarf eseiner
Veränderung der Nutzenfunktionq. Es werden niht mehr die Subgruppen gesuht, die
bezüglih qaufden Trainingsdatenoptimal sind. Stattdessen suht mannah Subgrup-
pen,dieoptimalsindfürBeispielmengendieunterderVerteilungDgezogenwurden.Die
gefundenen Subgruppen treen dann Aussagen über den gesamten Instanzenraum und
niht nur über dieTrainingsmenge.
Derwihtigste Parameter derLernaufgabe Subgruppenentdekungist dieNutzenfunkti-
on q. Untershiedlihe Arten von Nutzenfunktionen erlauben eine Veränderung dessen,
wasalsinteressanteSubgruppenangesehenwird.DenvershiedenengebräuhlihenNut-
zenfunktionen undihren Eigenshaftenist dasfolgende Kapitel gewidmet.
2.4 Nutzenfunktionen
FürdieSubgruppenentdekungunddemKonzeptlernenausBeispielengibteseineReihe
von Nutzenfunktionen. Siesind komplementär zuden im vorherigen Kapitel denierten
Verlustfunktionen. Daher werden Verlustfunktionen auh minimiert, während Nutzen-
funktionen maximiert werden. Für eine ausführlihe Diskussion von Nutzenfunktionen
verweise ih auf [14 ℄ und [19 ℄. Analog zu wahrem Fehler und Trainingsfehler gibt es für
Nutzenfunktionen einen auf den Trainingsdaten geshätzten Nutzen und einen wahren
Nutzen. Auhhierkann dieKreuzvalidierungzurShätzungdeswahrenWertes benutzt
werden. Wenn imFolgenden derUntershiedzwishenwahrem undgeshätztemNutzen
wihtigist,wirdbesondersdaraufhingewiesen,welherWertgemeintist.Damiteineprä-
ziseDenitionvonNutzenfunktionenmöglihistbedarfeseinergenauerenFestlegungdes
Hypothesenraumes. In dieserArbeit werden als Hypothesen nur Regeln, genauer Horn-
klauseln,verwendet.Hornklauseln sindeineTeilmenge derFormelnder Prädikatenlogik,
wobei es hier genügt, sih auf den aussagenlogishen Fall zu beshränken. Sie bestehen
auseiner Disjunktionvon Literalen,vondenen maximal einespositivist:
¬P 1 ∨ ¬P 2 ∨ · · · ∨ ¬P N ∨ K .
Dieses lässtsih zu einerImplikationumformen:
P 1 ∧ P 2 ∧ · · · ∧ P N ⇒ K .
Bei den benutzten Literalen handelt es sih umAttribut-Wert-Paare, diewahr werden,
wenn dasAttributim Literalund dasentsprehende im Beispieldiegleihe Ausprägung
haben.
Denition 6. (Hornklauseln)
Eine Hornklausel besteht aus einer Prämisse A und einer Konklusion B, dargestellt als
A → B
.DiePrämisseAbesteht auseinerKonjunktionvonLiteralenüber denAttributen des Instanzenraumes, währenddie Konklusion B einen Wertfürdas Zielattribut vorher-sagt. Eine Hornklausel ist anwendbar, falls die Prämisse wahr ist. Ist die Konklusion
ebenfalls wahr, d.h. hat das Zielattribut in der Konklusion und im betrahteten Beispiel
die gleihe Ausprägung, ist dieHornklausel korrekt.
ImFolgenden wird statt Hornklausel derkürzere undüblihe Begri Regel verwendet.
Eine RegelRerzeugt einePartitionierung allerBeispieleinzweiTeilmengen:
r = { x ∈ X | R ist auf x anwendbar } , ¯ r = X \ h.
DieBeispiele inderMenge r werdenauh alsdievonderRegel Rabgedekten Beispiele
bezeihnet Da sih diese Diplomarbeit auf den Fall eines booleshen Zielattributes be-
shränkt, werden folgende Abkürzungen für die Menge aller positiven bzw. negativen
Beispiele verwendet:
Y + = { x ∈ X | x ist ein positives Beispiel } bzw. Y − = X \ Y + .
Damit ergeben sih die Shreibweisen
r → Y + bzw. r → Y − für eine Regel, die die
positive bzw. negative Klasse vorhersagt. Eine Regel kann identiziert werden mit der
Menge derBeispiele,für diesie anwendbarist und der Klasse,diesie vorhersagt. Somit
beshreibteineRegeleindeutigeineSubgruppe:Dasinteressierende Merkmalwirddurh
die Vorhersage bestimmt und die Subgruppe besteht aus allen Instanzen, auf die sie
anwendbar ist. Da es für alle Nutzenfunktionen Sinn maht, sowohl nah dem Nutzen
bezogenaufdiepositivealsauhbezogenaufdienegativeKlassezufragenunddieWahl
derpositivenKlasserelativwillkürlihist,wirdindenDenitionenderNutzenfunktionen
die interessierende Klasse mit
Y ∗ bezeihnet. Desweiteren werden Regeln oft um die AngabederWahrsheinlihkeitdervorhergesagtenKlasseinderMengerderabgedekten
Beispiele erweitert, so dass sie genauer als probabilistishe Regeln bezeihnet werden
können. DieRegel
r → Y + [90%].
besagt,dassdieWahrsheinlihkeit füreinpositivesBeispiel90%beträgt,fallsdieRegel
anwendbarist.
2.4.1 Coverage, Preision, Biasund Lift
Die grundlegendenKonzepte zurBewertung von Hypothesen und im speziellenvonRe-
geln sind Generalität und Kondenz. Die Generalität ist ein Maÿ dafür wie allgemein
eineRegelistbzw. fürwievieleInstanzensieanwendbarist,währendmanmitKondenz
misst, wie präzise eine anwendbare Regel ist. Bezeihnet man mit
P r D [W ]
die Wahr-sheinlihkeit,einBeispielausderTeilmenge
W ∈ X
vonInstanzenunterderVerteilungD zu ziehen,lassensih konkreteMaÿe für Generalität und Kondenz denieren,wobei
derIndexD weggelassen wird, fallsdieVerteilung eindeutigist.
Denition 7. (Coverage)
DieCoverageeinerRegel
r → Y ∗ gibtdieWahrsheinlihkeit an,dasseineRegelanwend- bar ist.
COV (r → Y ∗ ) := P r[r].
Denition 8. (Preision)
Die Preison einer Regel
r → Y ∗ gibt die Wahrsheinlihkeit an, dasseine Regel korrekt ist, falls sie anwendbar ist.
P REC(r → Y ∗ ) := P r[Y ∗ | r].
BetrahtetmandieTeilmenge derInstanzen,für dieeineRegelanwendbarist,sowird
dortimAllgemeinendieVerteilung desZielattributes(der Anteilvon Beispielenmitder
interessierenden Klasse) anders sein als im gesamten Instanzenraum. Ansonsten ist die
von der Regel beshriebene Subgruppe uninteressant. Der Bias ist ein Maÿ für diese
Abweihung.
Denition 9. (Bias)
Der Bias einer Regel
r → Y ∗ ist deniert als
BIAS(r → Y ∗ ) := P r[Y ∗ | r] − P r[Y ∗ ] = P REC (r → Y ∗ ) − P r[Y ∗ ].
Das multiplikative GegenstükzumBiasist derLift.
Denition 10. (Lift)
Der Lift einerRegel
r → Y ∗ istdeniert als
LIF T (r → Y ∗ ) := P r[r ∩ Y ∗ ]
P r[r]P r[Y ∗ ] = P r[Y ∗ | r]
P r[Y ∗ ] = P REC(r → Y ∗ )
P r[Y ∗ ] .
Hierbei wurden die Denitionen von bedingten Wahrsheinlihkeiten und Preision
eingesetzt.
SofernsihdieWahrsheinlihkeit, einBeispielmit derinteressierenden Klassezusehen,
inderdurhrbestimmtenSubgruppenihtvonderWahrsheinlihkeitfürdieinteressie-
rendeKlasseimgesamtenInstanzenraum,deraprioriWahrsheinlihkeit,untersheidet,
ergibt sih entsprehend dem multiplikativen bzw. additiven Charakter von Lift bzw.
Bias, dass
LIF T (r → Y ∗ ) = 1
undBIAS(r → Y ∗ ) = 0
. Istdie Wahrsheinlihkeit der interessierenden Klasse gröÿer als im gesamten Instanzenraum, giltLIF T (r → Y ∗ ) > 1
und
BIAS(r → Y ∗ ) > 0
,während0 ≤ LIF T (r → Y ∗ ) < 1
undBIAS(r → Y ∗ ) < 0
,fallsdieWahrsheinlihkeitderinteressierendeKlasseinderSubgruppeunterdurhshnittlih
ist.
2.4.2 Auray undWeighted Relative Auray
Einebeim KonzeptlernenausBeispielenhäugverwendeteNutzenfunktionistdieAu-
ray.
Denition 11. (Auray)
Die Auray einer Regel
r → Y ∗ ist deniertals
ACC (r → Y ∗ ) := P r[r ∩ Y ∗ ] + P r[¯ r ∩ Y ¯ ∗ ].
Eine Regel hat eine hohe Auray, wenn sie für viele Beispiele der interessierenden
Klasse anwendbar undfür alleanderen Beispielemöglihstniht anwendbar ist.Dasge-
bräuhlihste Maÿfür dieLernaufgabe Subgruppenentdekung istdieWeighted Relative
Auray [19 ℄.Interessantheit wird alsProdukt von Coverage und Biasdeniert. Inder
einfahsten Versionwerden beide Gröÿen gleihstark gewihtet.
Denition 12. (Weighted Relative Auray)
DieWeightedRelativeAurayeinerRegelistdasProduktausderenCoverageundBias:
W RACC (r → Y ∗ ) := COV (r → Y ∗ ) · BIAS(r → Y ∗ ).
EinealternativeDenitionvonInteressantheiteinerSubgruppeerhält mandurhqua-
drierenderCoverage [19 ℄.
Denition 13. (Squared)
SQU ARED(r → Y ∗ ) := COV (r → Y ∗ ) 2 · BIAS(r → Y ∗ )
2.4.3 Nutzenfunktion auf Basis des Binomialtests
BeiderLernaufgabe Subgruppenentdekungsind solhe Subgruppeninteressant,beide-
nen diePreision derkorrespondierenden Regel
r → Y ∗ von derapriori Wahrsheinlih-
keitP r[Y ∗ ]
abweiht.ObdieempirishbeobahteteDierenzsignikantoderzufälligist,
lässtsihmit Hilfe desBinomialtests[9℄überprüfen. Umfestzustellen,obdie Subgruppe
wirklih interessant ist,formuliert maneine Nullhypothese
H 0 und eineAlternative H 1
über denwahren BiasderSubgruppe:
H 0 : BIAS(r → Y ∗ ) = 0 und H 1 : BIAS(r → Y ∗ ) 6 = 0.
Als Prüfgröÿe zur Entsheidung über das Ablehnen der Nullhypothese zugunsten der
Alternative dient dieinderSubgruppe beobahtete Anzahl von Beispiele derinteressie-
rendenKlasse. Dazuwirdzunähsteine dihotome Zufallsvariable
X i deniert.
X i =
( 1, f alls x ein Beispiel f ¨ ur die interessierende Klasse in der Subgruppe ist
0, sonst .
Dann ergibt sih die Prüfgröÿe für m Beispiele als
X = P m i=1 X i. Man nimmt an, dass
die Nullhypothese
H 0 gilt und überprüft, wie groÿ die Werte für X werden müssen,
damit esextrem unwahrsheinlih ist,dass sieunter
H 0 zustande gekommen sind. Dazu
muss festgelegt werden, was unter extrem unwahrsheinlih zu verstehen ist. Üblihe
Werte sind Wahrsheinlihkeiten von 0.1, 0.05 oder 0.01, die auh als Signikanzniveau
bezeihnetwerden. DadieBeispiele unabhängigund gleihverteilt gezogen werdenist X
unterAnnahmevon
H 0binomialverteiltmitdenParameternP[Y ∗ ]
undm
.Nunkannman
anhandeinerTabelle derBinomialverteilung bestimmen,welheWertefürdiePrüfgröÿe
X unwahrsheinliher als das gewählte Signikanzniveau sind und erhält die Werte für
X,beidenen dieNullhypothese zugunsten derAlternativezu verwerfenist.Fürgroÿem
istXannäherndnormalverteilt mitErwartungswert
m · P r[Y ∗ ]
und Standardabweihungp m · P r[Y ∗ ](1 − P r[Y ∗ ]).DamiterhältmanfolgendestandardnormalverteiltePrüfgröÿe:
Z = X − m · P r[Y ∗ ] p m · P r[Y ∗ ](1 − P r[Y ∗ ])
Analog zur Binomialverteilung wird mit der Tabelle der Standardnormalverteilung be-
stimmt,fürwelhe WertederPrüfgröÿe ZdieNullhypothesebeigegebenemSignikanz-
niveau zu verwerfen ist. Bei Vernahlässigung des Signikanzniveaus ist esumso wahr-
sheinliher, dass die Alternative gilt, je gröÿer der Z-Wert ist. Der Z-Wert lässt sih
folgendermaÿen umformen:
Z = X − m · P r[Y ∗ ]
p m · P r[Y ∗ ](1 − P r[Y ∗ ]) = m( m 1 X − P r[Y ∗ ])
√ m · p P r[Y ∗ ](1 − P r[Y ∗ ]) =
√ m · BIAS(r → Y ∗ ) p P r[Y ∗ ](1 − P r[Y ∗ ]) .
Da der Term
p P r[Y ∗ ](1 − P r[Y ∗ ]) im Nenner für alle Regeln gleih ist, erzeugt √ m · BIAS(r → Y ∗ )
eine Ordnung derRegeln entsprehend der Signikanz der Abweihung
ihres Bias von der apriori Wahrsheinlihkeit. Durh den Wehsel von der absoluten
Anzahl von Beispielen auf den relativen Anteil wird diese Ordnung niht verändert. Es
ergibt sihdiefolgende Denition.
Denition 14. (Binomial)
Die Nutzenfunktion auf Basisdes Binomialtests istdeniert als
BIN OM IAL(r → Y ∗ ) := q COV (h → Y ∗ ) · BIAS(r → Y ∗ ).
Beim Generi Sequential Sampling [25 ℄ Algorithmus handelt es sih um ein Verfahren
zur Lösung der Lernaufgabe Subgruppenentdekung, das erlaubt als Kriterium der In-
teressantheit von Subgruppen, eine der in Kapitel 2.4 vorgestellten Nutzenfunktionen
Auray,WeightedRelativeAuray,SquaredoderBinomialauszuwählen.ZurBestim-
mung der besten Subgruppen wird niht der komplette Datensatz durhsuht, sondern
miteiner Stihprobe gearbeitet.DerAlgorithmus gibtprobabilistishe Garantien fürdie
Qualität der Lösung. Der Vorteil dieses Ansatzes liegt in der guten Skalierbarkeit für
groÿeDatenbanken.Allerdingsmussauh eineReihevonNahteileninKaufgenommen
werden, von denen zweinahfolgend angesprohenwerden sollen.
Das Verfahren bedarf der Aufzählung des kompletten Hypothesenraumes, wodurh es
unmöglihist mitnumerishenAttributenumzugehen.VorderAnwendung istzwingend
eineDiskretisierungnumerisherAttributenötig. AuhnaheinerDiskretisierungistder
komplette Hypothesenraum meistso komplex, dass esniht möglih ist,ihnezient zu
handhaben.EinweitererNahteil ergibtsihdurhKorrelationen zwishen denAttribu-
teneinesDatensatzes.Hypothesenwiez.B.RegelnbeshreibenSubgruppenmitHilfeder
Attribute.AufgrundderKorrelationenergeben sih mehrereHypothesen,diediegleihe
Subgruppe beshreiben. Dadurh ist die gefundene Lösung unnötig groÿ und unüber-
sihtlih.Für denNutzer istsie shwerzuinterpretieren, dadiewihtigenAussagenaus
derVielzahl redundanter Lösungenniht klarhervorstehen.
Mit Knowledge-Based Sampling [26℄ steht eine Methode zur Verfügung, um das Fin-
den von redundanten Hypothesen zu vermeiden. Eine Hypothese in Form einer Regel
repräsentiertdurh ihreVorhersagenVorwissen überdasZielattribut. Knowledge-Based
Sampling entfernt dieses Vorwissen aus den Daten, indem es die Korrelation zwishen
Vorhersagen der Regel und den tatsählihen Werten des Zielattributes aus den Daten
entfernt.Danahsindwederdiese noh andereRegeln,vondenen diegleihe Subgruppe
beshrieben wird, inden Datenzu nden.
Vorrangiges Ziel dieser Diplomarbeit ist die Untersuhung der Kombination des Gene-
riSequential SamplingAlgorithmus mitKnowledge-Based SamplingbezüglihderEig-
nungfürdieLernaufgabenSubgruppenentdekungundKonzeptlernenausBeispielen.Die
Kombination der beiden Verfahren verspriht eine präzise und kompakte Beshreibung
der Trainingsdaten. Insbesondere sollte ein ezienter Umgang mit sehr groÿen Daten-
mengenmöglih sein,dastattdesgesamtenDatensatzesnur eineStihprobe verarbeitet
wird.
Zunähst werden in Kapitel 4.1 der Generi Sequential Sampling Algorithmus und in
Kapitel 4.2 das Knowledge-Based Sampling vorgestellt. Um für die Lernaufgabe Kon-
zeptlernen aus Beispielen Vorhersagen überdas Zielattribut zu treen, wird eine Kom-
bination mehrerer Regeln benutzt, die mit dem GSS Algorithmus unter Einsatz von
Knowledge-Based Samplinggefundenwurden.Ein Verfahren zurKombination mehrerer
unterdemEinsatzvonKnowledge-BasedSamplinggefundererModelleistinKapitel4.2.4
beshrieben.UmdemGeneriSequentialSamplingAlgorithmus zuermöglihen,mitnu-
merishen Attributen umzugehen, bedarf es einer Methode zur Diskretisierung, wie sie
in Kapitel 4.3 vorgestellt ist. In Kapitel 5 wird mit dem Iterating Generi Sequential
Sampling Algorithmus einVerfahren zurKombination desGeneri Sequential Sampling
Algorithmus mit Knowledge-Based Samplingvorgestellt. Insbesondere ist indiesem Ka-
pitelbeshrieben, wie eineeziente Suhe ingroÿen Hypothesenräumen möglih ist.Es
werdenmehrereNahteiledesGeneriSequentialSamplingAlgorithmusbeshriebenund
möglihe Lösungen aufgezeigt. Auÿerdem werden eine Reihe von Erweiterungen vorge-
stellt.In Kapitel6 wurden mit demIteratingGeneri Sequential SamplingAlgorithmus
Experimente mit synthetishen und ehten Datensätzen durhgeführt. Zur Erzeugung
der synthetishen Datensätze bedurfte es der Erstellung eines geeigneten Werkzeuges.
Die Experimente dienten dabeidem Zwek,die folgendenFragenzu klären:
•
Wie eignet sih dasVerfahrenzurSubgruppenentdekung?•
WieverändernsihderUmfangunddieAussagekraftderLösungdurhdenEinsatz von Knowledge-Based Sampling?•
Wie ist die Vorhersagequalität der Kombination der einzelnen Regeln zu einem Gesamtmodell?•
Wie gut ist die Vorhersagequalität im Vergleih zu anderenMethoden für dieLö- sungderLernaufgabe Konzeptlernen ausBeispielen?•
Wie istdie Laufzeit imVergleih zu anderen Methoden?•
WiewirktsihdieVeränderungderNutzenfunktionaufQualitätundLaufzeitaus?•
Welhe Auswirkungen hat die Verwendung von Hypothesenräumen untershiedli- her Komplexität aufLaufzeit und Qualität der Ergebnisse?Ziel der Diplomarbeit ist die Untersuhung der Eignung der Kombination des Generi
Sequential Sampling Algorithmus mit Knowledge-Based Sampling für Subgruppenent-
dekung und Konzeptlernen ausBeispielen. Im Folgenden werden dieverwendeten Ver-
fahren näher erläutert sowie auf deren Vor- und Nahteile eingegangen. Die Subgrup-
penentdekungwirdmitdemGeneriSequentialSamplingAlgorithmus[25℄durhgeführt
(Kapitel4.1).Knowledge-Based Sampling [26℄stellt dieUnabhängigkeit dergefundenen
Subgruppen siher und ermögliht die Kombination der gefundenen Subgruppen, um
eine Vorhersage für das Zielattribut zu treen (Kapitel 4.2). Um den Umgang mit nu-
merishen Attributen zu ermöglihen, bedarf es shlieÿlih noh einer Diskretisierung
numerisherAttribute. EingeeignetesVerfahrenistdasReursive MinimalEntropy Par-
titioning [10℄, das in Kapitel 4.3 vorgestellt wird. Für eine Übersiht der verwendeten
Notationen verweise ih auf Anhang A.
4.1 Der Generi Sequential Sampling Algorithmus
WirdData Mining auf sehr groÿen Datenbanken betrieben, ist neben der Maximierung
derNutzenfunktion auh die Skalierbarkeit von Bedeutung. Für viele Anwendungen ist
es niht möglih, in akzetabler Zeit alle Daten zu verarbeiten. Eine möglihe Strate-
gie, ummit diesemProblemumzugehen, istmit einer zufälliggezogenen Stihprobe der
Datenzuarbeiten.Natürlihbedeutetdiesesneben derLaufzeitverkürzungundVerklei-
nerung des benötigten Speiherplatzes auh, dass niht mehr garantiert werden kann,
dass die gewonnenen Resultate identish sind mit denen für die gesamten Daten. Von
Bedeutungist hierbeiderUntershiedimNutzen.Es istwihtig, dasseinLernverfahren,
das nur auf einer Stihprobe der Daten arbeitet, dem Nutzer Garantien gibt, wie stark
sihdieResultate bezüglih desNutzens untersheiden. Es gibtzwei Möglihkeiten,wie
diese Garantien aussehen können. Zum einen kann für eine feste Stihprobengröÿe be-
rehnet werden, wie gut die Garantie für den Nutzen auf den gesamten Daten ist [12℄,
zumanderenkannvomBenutzereinefesteQualitätderLösungvorgegebenwerden.Das
Zielist,mit minimalmögliherStihprobengröÿediegeforderteQualität zugarantieren.
Letztgenannter Ansatz wird beim sequentiellen Sampling verfolgt, das im Bereih des
MashinellenLernens erstmalsimRahmen desHoedingRaeAlgorithmus[18 ℄ benutzt
wurde. Hierbeiwerden die Instanzen bzw. die Stihprobe inkrementellgezogen und der
Nutzen aller Hypothesen des betrahteten Hypothesenraumes gleihzeitig aktualisiert.
Wenn siher ist, dass eine Hypothese sehr gut bzw. shleht ist, gibt der Algorithmus
diese Hypothese als Lösungaus bzw. verwirft sie.Ein wihtiger Vorteilist, dassdie Be-
shaenheitderDatenberüksihtigtwird:ErlaubendieDatendieHypothesenshnellin
GutundShlehtzu separieren,werdennur wenigeBeispieleinderStihprobebenötigt,
ansonstenwirddieStihprobegröÿer.DerGeneriSequential Sampling(GSS)Algorith-
mus[25℄benutztebenfallsdenAnsatzdessequentiellenSamplings.DerNutzergibtdabei
vor, wie gut die gefundene Lösung sein soll und wie groÿdie Irrtumswahrsheinlihkeit
seindarf.AuÿerdemkannuntervershiedenenNutzenfunktionengewähltwerden,sodass
sihderAlgorithmusprinzipiellsowohlfürdieLernaufgabeKonzeptlernenausBeispielen
als auh für dieSubgruppenentdekung eignet und für Letztere untershiedlihe Deni-
tionen von Interessantheit zulässt. In den nähsten Abshnitten werden die formalen
Grundlagen und der GSS Algorithmus erläutert sowie Shranken für die Qualität und
benötigte Beispielanzahleiniger populärerNutzenfunktionen angegeben.
4.1.1 Grundlagen
Das Hauptanwendungsgebiet des GSS Algorithmus besteht in der Subgruppenentde-
kung. Der Hypothesenraum kann beliebig sein, solange es möglih ist, ihn geordnet
aufzuzählen. Ein Beispiel für einen geordneten Hypothesenraum sind die bereits ange-
sprohenen Regeln aus konjunktiv verknüpften Literalen. Die Menge der gefundenen
Hypothesen in derAusgabe desAlgorithmus wirddurh einen vom Nutzer festgelegten
Parameter k bestimmt. In derbenutzten Terminologie spriht man vom k-beste Hypo-
thesenProblem.DadiekbestenHypothesenbzw.ihrNutzenaufBasiseinerStihprobe
bestimmt werden, ist niht garantiert, dasssie auh für diegesamtenTrainingsmenge T
optimal sind. Man deniert für diesen Fall das approximativ k-beste Hypothesen Pro-
blem.
Denition 15. (Dasapproximativ k-beste Hypothesen Problem)
Gegeben sind eine Trainingsmenge T von Instanzen aus dem Instanzenraum X, eine
Nutzenfunktion q und ein Hypothesenraum H. Desweiteren seien k die gesuhte Anzahl
an Lösungen,
ǫ ∈ IR + der maximal zulässige Fehler und δ, 0 < δ ≤ 1
die gewünshte
Irrtumswahrsheinlihkeit. Das approximativ k-beste Hypothesen Problem besteht darin
eineMenge
G ⊆ H
derGröÿekzu nden,sodassesmitKondenz1 − δ
keineHypotheseh ′ ∈ H
gibt, für diegilt:h ′ 6∈ G und q(h ′ , T ) > q min + ǫ.
Hierbei bezeihnet
q min denNutzenderbezüglihq shlehtesten derk Hypotheseninder Menge G:
q min := min h ∈ G q(h, T ).
Zu beahten ist, dassdas Problem bezüglih der Trainingsmenge Tund niht bezüg-
lihdesInstanzenraumesXdeniertist.DaimmermiteinemstatistishenVerfahrenein
unbekannter wahrer Nutzen einer Hypothese aufgrundeiner Stihprobe geshätzt wird,
maht es keinen Untershied, ob es sih um den Nutzen der Hypothese bezüglih der
wesentlih gröÿeren gesamten Trainingsmenge oder des Instanzenraumes handelt. Die
AussageistinbeidenFällengültig,sodassauhstatt derTrainingsmengeTderInstan-
zenraum X verwendet werdenkann.
Es kann leiht passieren, dass eine der Hypothesen nah wenigen gezogenen Beispielen
shon einen sehr guten Nutzenhat. Dieses kann beigeringer Beispielanzahl zufällig be-
dingt sein.Manbetrahte als Beispielfür ein Zufallsexperiment daswiederholte Werfen
einer fairen Münze, bei der die mit p bezeihnete Wahrsheinlihkeit für Kopf 0.5 be-
trägt. Gemäÿ der Tabelle der Binomialverteilung beträgt die Wahrsheinlihkeit, dass
nah drei Münzwürfen dreimal Kopf geworfen wurde, 0.125. Damit ist dieser Fall niht
unrealistish; es wäre aber niht gerehtfertigt p=1, als Shätzung für die Wahrshein-
lihkeit für Kopf anzugeben. Daher wird zusätzlih eine Kondenzshranke angegeben,
welhe für die durhgeführte Anzahl von Zufallsexperimenten m und die gegebene Irr-
tumswahrsheinlihkeit
δ
einIntervallumdengeshätztenWertfürpfestlegt.DerwahreWertfür pliegtmitWahrsheinlihkeit bzw. Kondenz
1 − δ
innerhalbdiesesIntervalls.DasBeispieldeswiederholten Münzwurfeslässtsihanalogauf denFall übertragen, bei
dem derWert einer Nutzenfunktionnah wiederholter Durhführung des Zufallsexperi-
mentes Ziehen eines Beispiels x aus der Trainingsmenge T` geshätzt wird. Abhängig
vondergewünshtenKondenzundderbishergezogenenAnzahlvonBeispielenwirdei-
neKondenzshranke angegeben,sodassderwahreNutzenderbetrahtetenHypothese
mit Kondenz
1 − δ
im durh diese Shranke bestimmtenIntervall um den geshätztenNutzenliegt.
Denition 16. (Kondenzintervall für denNutzen)
Seien Trainingsmenge T, Nutzenfunktion q und Hypothesenraum H gegeben. Für eine
Hypothese
h ∈ H
bezeihnet q(h,T) den Nutzen von h für die gesamte Trainingsmenge T undq(h, Q ˆ m )
den Nutzen von h auf einer StihprobeQ m ⊆ T
der Gröÿe m. Dann istE : IN × IR → IR
eine Kondenzshranke für den Nutzen q, falls für jede Fehlerwahr- sheinlihkeitδ, 0 < δ ≤ 1
gilt:P r[ | q(h, Q ˆ m ) − q(h, T ) | ≤ E(m, δ)] ≥ 1 − δ.
Wie durh die Betragsstrihe deutlih wird, handelt es sih umein zweiseitiges Kon-
denzintervall.
E(m, δ)
liefert einen Wertǫ
,so dass für die gegebene Stihprobengröÿe mmit Kondenz1 − δ
derwahreWertder Nutzenfunktionindem durhǫ
bestimmtenIntervall umden geshätzten Nutzen liegt.Für kleine Fehlerwahrsheinlihkeiten
δ
liegtdie Kondenz nahe bei eins. In diesem Fall wird das Kondenzintervall um
q(h, Q ˆ m )
groÿ.Ein UntershiedzumZufallsexperimentdeswiederholtenMünzwurfesbestehtdar-
in,dassdie Nutzenfunktionniht aufeineeinfahe Wahrsheinlihkeit beshränktist;es
muss nur möglih sein, ein Kondenzintervall für sie anzugeben. Eine wihtige Eigen-
shaft des Kondenzintervalles ist, dass es mit steigender Beispielanzahl immer kleiner
wirdund shlieÿlih ganz vershwindet. D.h. für alle möglihen Werte von
ǫ
undδ
,gibteseineStihprobengröÿe m,sodass
E(m, δ) ≤ ǫ
ist.Der GSSAlgorithmus erlaubt,dass einKondenzintervall vonden Eigenshafteneiner Hypotheseh,wie z.B.derStandard-abweihung desNutzens vonh,abhängt. Verdeutliht wirddiesesdurhden Indexh bei
derKondenzshranke
E h (m, δ)
.4.1.2 Algorithmus
In Tabelle 4.1 ist der GSSAlgorithmus angegeben. Es kann bewiesen werden, dass der
Algorithmus terminiertunddasapproximativk-besteHypothesen Problemlöst [25 ℄.An
drei Stellenwerdendie im vorangegangenen Abshnitt eingeführten Kondenzintervalle
berehnet,dieebensowiedieAufteilungvon
δ
undǫ
einernäherenErläuterungbedürfen.In Shritt 2 des Algorithmus wird die maximale Beispielanzahl M berehnet, nah der
siher ist, dass die Abweihung des geshätzten empirishen Nutzens jeder Hypothese
h ∈ H
inbeideRihtungenhöhstens2 ǫ
beträgt.MbezeihnetzugleihdiemaximaleAn-zahlvonShleifendurhläufeninShritt3.WirddiemaximaleBeispielanzahlMerreiht,
steht mit gewünshter Kondenz fest,dass der wahre Nutzen derHypothesen maximal
ǫ
2
umdengeshätztenNutzenshwankt.Eskönnen danninShritt4diek-bestenHypo-thesen ausgegeben werden, da selbst imshlehtesten Fall der maximal zulässigeFehler
Eingabe:
X, T, k, q, δ, ǫ
Ausgabe: Die approximativ k-besten Hypothesen mit Maximalfehler
ǫ
und Kondenz1 − δ
1. Initialisierung.
a) Erzeuge H,dieMenge allerHypothesen für den InstanzenraumX.
b) Setzei=1 (Shleifenzähler).
) Sei
Q 0 = ∅
.2. Berehne diekleinsteZahlM, sodass
E(M, 2 | δ H | ) ≤ 2 ǫ ist.
3. do
a) Ziehe zufällig mit Zurüklegen eine Instanz
x i aus T und füge sie Q i hinzu:
Q i = Q i − 1 ∪ x i.
b) Aktualisiere den empirishen Nutzen
q(h, Q ˆ i )
aller verbliebenen Hypothesenh ∈ H
.) BestimmedieMenge
H ∗ derHypothesenh ∈ H
,diedengröÿtenempirishen
Nutzen
q(h, Q ˆ i )
haben.d) for(
h ∈ H
)doi. if (
q(h, Q ˆ i ) − E h (i, 2M δ
| H | ) ≥ max h ′
∈ H \ H ∗
n q(h ˆ ′ , Q i ) + E h ′ (i, 2M δ
| H | ) o − ǫ
und
h ∈ H ∗)
•
Ausgabeh.•
Entferne hausH.•
Setze k=k-1.•
BerehneH ∗ neu.
ii. if (
q(h, Q ˆ i ) + E h (i, 2M δ | H | ) ≤ min h ′
∈ H ∗
n q(h ˆ ′ , Q i ) − E h ′ (i, 2M δ | H | ) o
)•
Entferne hausH.e) Setzei=i+1.
while(
k 6 = 0
und| H | 6 = k
undE(i, 2 | δ H | ) > 2 ǫ)
4. Gib dieverbliebenen kHypothesenin
H ∗ aus.
Abbildung 4.1:Der GeneriSequential SamplingAlgorithmus
0 0.2 0.4 0.6 0.8 1
h4 h3
h2 h1
Nutzen
Hypothesen
ε 4 Hypothesen
k=2
keine Ausgabe!
Verwerfen!
untere Schranke der k-besten Hypothesen obere Schranke der restlichen Hypothesen
0 0.2 0.4 0.6 0.8 1
h4 h3
h2 h1
Nutzen
Hypothesen
ε 4 Hypothesen
k=2
Ausgabe!
untere Schranke der k-besten Hypothesen obere Schranke der restlichen Hypothesen
Abbildung 4.2:Funktionsweise desGSSAlgorithmus inShritt 3d
ǫ
niht übershritten wird. Dieser Fall tritt ein, wenn der wahre Nutzen dershlehtes- tenausgegebenen Hypotheseumǫ
2
nah untenabweiht,währendder wahreNutzenderbesten Hypothese, dieniht ausgegeben wurde,um
ǫ
2
nahoben abweiht.VonderzurVerfügungstehenden Irrtumswahrsheinlihkeit
δ
wirdjeweilsδ 2
für dieBe-rehnungderKondenzintervalle inderAbbruhbedingungder Shleife inShritt 3 und
innerhalb der Shleife (Shritt 3d) benutzt. Trit die Abbruhbedingung der Shleife
zu,wurde für jede verbliebene Hypothese einKondenzintervall berehnet. Daher istes
nötig, dieIrrtumswahrsheinlihkeit auf alle verbliebenen Hypothesen zu verteilen. Der
wahreNutzen einer Hypothese liegtdann nur mit einer Wahrsheinlihkeit von
δ 2 | H |
au-ÿerhalb des Kondenzintervalles um ihren geshätzten Nutzen. Es bleibt zu klären, ob
dadurh dieIrrtumswahrsheinlihkeit von
δ
2
eingehalten wird.Der Fall,dass derwahre Nutzen einer Hypothese auÿerhalb desKondenzintervalles liegt, wird alsnegativesEr-eignisbezeihnet. Dasnegative Ereignis trittfür jedeHypothesemit Wahrsheinlihkeit
δ
2 | H |
ein. Es ergibt sih eineMenge von Ereignissen, die alle diegleihe Wahrsheinlih- keit haben. Die Booleshe Ungleihung (Union Bound)besagt,dass für eineMenge vonEreignissen die Wahrsheinlihkeit, dass mindestens eines dieser Ereignis eintritt, niht
gröÿer ist als die Summe der Wahrsheinlihkeiten aller Ereignisse. Damit wird insge-
samtdieIrrtumswahrsheinlihkeitvon
δ
2
eingehalten.InShritt3ddesGSSAlgorithmus wirdmit deranderen Hälfte derIrrtumswahrsheinlihkeit injedem Shleifendurhlaufein Kondenzintervall für alle verbliebenen Hypothesen berehnet. Da die Shleife im
shlehtesten FallM-maldurhlaufenwird,mussdieseHälfte derIrrtumswahrsheinlih-
keit zusätzlih durh M geteilt werden. Die Einhaltung der Irrtumswahrsheinlihkeit
folgt wieder aus der booleshen Ungleihung. Das Vorgehen des Algorithmus in Shritt
3d wird inAbbildung 4.2verdeutliht. Exemplarish sind Nutzen und die Kondenzin-
tervalle vonvierHypothesen dargestellt. GroÿeKondenzintervalle bedeuten, dassniht
viel über die Qualität der Hypothese bekannt ist und der wahre Nutzen stark von der
Shätzungabweihen kann.Wihtigistzumeinendiedurhdieshlehteste derkbesten
Hypothesen und deren Kondenzintervall festgelegte untere Shranke. Jede Hypothese,
die für den Fall, dass ihr wahrer Nutzen am oberen Ende der durh ihren geshätzten
Nutzenund Kondenzintervall festgelegtenReihweite liegt, shlehterist alsdieuntere
Shranke, kann verworfenwerden. Es istfür diegewünshte Kondenzsiher,dass noh
kbessereHypothesenvorhanden sind.Zum anderenist diedurh(k+1)-besteHypothe-
se, deren Kondenzintervall und
ǫ
festgelegte obere Shranke von Bedeutung. Gilt für einederk-bestenHypothesen,dass ihrNutzenauhim shlehtesten FallnohüberderShranke liegt,kannsieausgegeben werden. Esist siher, dasssiefürdiegegebeneKon-
denz
1 − δ
unddenmaximalenFehlerǫ
gut genugist,umzudenapproximativk-besten Hypothesenzu gehören.Dasfrühzeitige Ausgebenbzw. VerwerfenvonHypothesenkanndazu führen, dass der Algorithmus terminiert bevor die maximale nötige Anzahl von
Beispielen gezogen wurde, wenn vorher shon alle k Lösungen gefunden wurden.In der
Praxis kommt dieses häug vor und ist essentiellfür eine guteLaufzeit. Der Vorteildes
Tests inShritt 3d beginnt sih auszuwirken, sobalddie erste Hypothese ausH gelösht
wird.MitjedergelöshtenHypothesewird|H|kleiner und
δ
mussaufwenigerHypothe-sen verteilt werden, wodurh dieberehneten Kondenzintervalle besserwerden. Dieses
mahtdeutlih,dasskomplexe(groÿe)Hypothesenräume fürdenAlgorithmus problema-
tishsind. InderPraxismussdieKomplexität beshränktwerden. Insbesondere müssen
numerisheAttributediskretisiertwerden,daessonstnihtmöglihist,denHypothesen-
raumkomplettaufzuzählen. EinweiteresProblemfürdieLaufzeit istdieAufteilungder
Irrtumswahrsheinlihkeit auf alle MShleifendurhläufe. Der Wertvon M kann abhän-
gigvombetrahteten HypothesenraumundgegebenerNutzenfunktionsehrgroÿwerden
(Kapitel4.1.3). Es bietet sih an,Shritt 3d niht injedem Shleifendurhlauf durhzu-
führenundMentsprehend zuverkleinern.DadurhwerdenkleinereKondenzintervalle
möglihundesmüssennihtinjedemShleifendurhlaufalleBerehnungen durhgeführt
werden. Diese und andere Verbesserungen des GSS Algorithmus werden inKapitel 5.1
beshrieben. Fürvershiedene Nutzenfunktionenergebensihvershiedene Kondenzin-
tervalle und starkuntershiedlihe Wertefür M.
4.1.3 Kondenzintervalle für vershiedene Nutzenfunktionen
In [25℄ werden Kondenzintervalle für populäre Nutzenfunktionen hergeleitet. Das wie-
derholteZieheneinesBeispielsimGSSAlgorithmusentsprihtdemZufallsexperimentdes
Ziehens mit Zurüklegen. Handelt es sih bei der betrahteten Nutzenfunktionum eine
Wahrsheinlihkeit wie esbeiderAurayderFall ist,unterliegt dienahmVersuhen
beobahtete relative Häugkeit der Binomialverteilung. Mit der Hoeding-Ungleihung
[17 ℄ istmöglih,für dieabsoluteSumme
X = P m i=1 X i beshränkter ZufallsvariablenX i
eineShrankefürdieWahrsheinlihkeitanzugeben,mitderXweitvomerwartetenWert
liegt. Nehmendie
X i Werte zwishen 0 undΛ
an,sogilt:
P r[ | X − E(X) | ≤ ǫ] ≥ 1 − 2exp (
− 2m ǫ 2 Λ 2
) .
Analog ist diese Abshätzung möglih, wenn X eine relative Häugkeit und derErwar-
tungswert E(X) die zugehörige Wahrsheinlihkeit ist. Für sehr groÿe m kann die Bi-
nomialverteilung nah dem zentralen Grenzwertsatz[9℄ durh die Normalverteilung ap-
proximiert werden. MitHilfe derNormalverteilung können engere Shranken berehnet
werden als mit der Hoeding-Ungleihung. Daher wird für groÿe m angenommen, dass
dieAbweihungendesgeshätztenvomwahrenNutzenderNormalverteilungunterliegen.
DasKondenzintervall wirdmit HilfederNormalverteilung berehnet.
Als einführendes Beispiel für die Berehnung eines Kondenzintervalles dienen Nut-
zenfunktionen, die berehnet werden, indem man den Durhshnitt über eine Instanz-
nutzenfunktionbildet(Instane-Averaging Funktionen).BeiderAurayhandeltessih
um eine solhe Funktion. Für diesen Typ ist die Instanznutzenfunktion
q inst (h, x i )
füreineHypotheseh undeine einzelneInstanz
x i deniertals
q inst (h, x i ) =
( 1, f alls h eine korrekte V orhersage f ur x ¨ i macht, 0, f alls h eine f alsche V orhersage f ¨ ur x i macht.
Für eine Trainingsmenge T der Gröÿe n und eine Hypothese h ergibt sih dann der
Nutzenqals
q(h, T ) = 1 n
n
X
i=1
q inst (h, x i ).
VerwendetmaninderHoeding-UngleihungdennahmgezogenenBeispielengeshätz-
tenempirishen Nutzen
q(Q ˆ m , h)
als relative Frequenzund den wahrenWert q(T,h) alszugehörigeWahrsheinlihkeit,istdieWahrsheinlihkeit,dassdieAbweihungvonwah-
remund geshätztemNutzenauÿerhalb des Kondenzintervalles
E(m, δ)
liegtdurhP r[ | q(Q ˆ m , h) − q(T, h) | > E(m, δ)] ≤ 2exp (
− 2m E(m, δ) 2 Λ 2
)
beshränkt. Zu beahten ist, dass die Gegenwahrsheinlihkeit benutzt wird, da anders
als in der Denition der Hoeding-Ungleihung hier die Wahrsheinlihkeit dafür, dass
derbeobahtete Wert auÿerhalb desKondenzintervalles liegt,abgeshätzt wird.Wählt
man die Kondenzshranke abhängig von der Beispielanzahl m und der gewünshten
Irrtumswahrsheinlihkeit
δ
alsE(m, δ) = s
Λ 2 2m log 2
δ
und berüksihtigt, dass für diesen Typ von Nutzenfunktionen
Λ = 1
ist, wird die Irr-tumswahrsheinlihkeit eingehalten:
2exp
− 2m
s
Λ 2 2m log 2
δ
2
≤ 2exp
− log 2 δ
= δ.
Nun müssen die Kondenzshranken für die Approximation durh die Normalvertei-
lungbestimmt werden.
q(h, Q ˆ m ) − q(h)
ist eine Zufallsvariable mit Mittelwert 0,wobeiˆ
q(h, Q m )
Wertezwishen0undΛ
annimmt.UmdieNormalverteilungberehnenzukön- nen, wird die Standardabweihung benötigt. In der Abbruhbedingung inShritt 3 desGSSAlgorithmus wirddasKondenzintervall ohneBezugzu einerkonkretenHypothese
berehnet.DeshalbmussandieserStellediegröÿtmögliheStandardabweihung verwen-
detwerden. Das Kondenzintervall, welhes manauf diese Weise erhält, ist aberimmer
noh kleiner als dasmit der Hoeding-Ungleihung bestimmteIntervall.Die empirishe
Standardabweihung
s q(h,Q ˆ m ) − q(h) = 1 m
v u u t
m
X
i=1
(q inst (h, x i ) − q(h, Q ˆ m )) 2
wirdmaximiert,wenn
q(h, Q ˆ m ) = Λ 2 istund dieInstanznutzenfunktionen q inst (h, x i )
zur
Hälfte 0 und zur Hälfte
Λ
beträgt. In diesem Fall beträgt sie2 √ Λ m
. Folglih unterliegt2 √
m · q(h,Q ˆ m Λ ) − q(h) derStandardnormalverteilung und
E(m, δ) = z 1 − δ
2 · Λ
2 √ m
ist einegeeignete Kondenzshranke.
Bei
z 1 − δ
2
handelt essihum das
1 − δ 2-Quantil derStandardnormalverteilung. InAb-
bildung 4.3 ist die Dihtekurve der Standardnormalverteilung dargestellt. Für δ = 0.1
bezeihnet
z 1 − δ 2
das durh den shraerten Bereih dargestellte 0.95-Quantil.
z 1 − δ 2
ist
derPunktaufderx-Ahse,sodass
(1 − δ 2 )
%derFläheunterderKurvederStandardnor- malverteilung links dieses Punktes liegen. Wählt man für eine standardnormalverteilteAbbildung 4.3:Das0.95-Quantil derStandardnormalverteilung
Abbildung 4.4: Normalverteilung(shwarz) und t-Verteilung für 5(rot), 10(blau) sowie
15(grün) Freiheitsgrade