r → Y +, (2) Verwerfungsmethode und Regeln r → Y +, (3) unnormierte Gewihte und alle Regeln,(4)Verwerfungsmethode und alle Regeln . . . . 65

(1)

Eziente Entdekung

unabhängiger Subgruppen

in groÿen Datenbanken

DirkDah

Diplomarbeit

amFahbereihInformatik

derUniversität Dortmund

Mittwoh ,2.August2006

Betreuer:

Prof.Dr. Katharina Morik

Dipl.-Inform. MartinSholz

(2)

Ein herzlihes Dankeshön an alle, die mir bei der Erstellung der vorliegenden Arbeit

helfendzurSeite gestanden haben.MeinbesondererDankgilt meinen beiden Betreuern

Prof.Dr. Katharina Morik undDipl.-Inform. MartinSholz.

(3)

Danksagung . . . ii

1 Einleitung 1 2 Grundlagen 2 2.1 Lernaufgaben . . . 2

2.2 Konzeptlernen ausBeispielen . . . 3

2.3 Subgruppenentdekung . . . 5

2.4 Nutzenfunktionen . . . 6

2.4.1 Coverage, Preision, BiasundLift . . . 8

2.4.2 AurayundWeightedRelative Auray. . . 9

2.4.3 Nutzenfunktionauf BasisdesBinomialtests . . . 9

3 Ziele der Diplomarbeit 11 4 Verwendete Tehniken und Algorithmen 13 4.1 DerGeneri Sequential SamplingAlgorithmus . . . 13

4.1.1 Grundlagen . . . 14

4.1.2 Algorithmus . . . 15

4.1.3 Kondenzintervalle für vershiedene Nutzenfunktionen . . . 19

4.2 Knowledge-Based Sampling . . . 23

4.2.1 Grundlagen . . . 25

4.2.2 Bedingungenan dieneue Verteilung . . . 26

4.2.3 Konstruktionderneuen Verteilung . . . 27

4.2.4 Anwendung zurKlassikation . . . 28

4.3 VerfahrenzurDiskretisierung . . . 31

4.3.1 Überblik . . . 31

4.4 ReursiveMinimal EntropyPartitioning . . . 32

4.4.1 Entropie und Informationsgewinn . . . 32

4.4.2 Algorithmus . . . 33

5 Iterating GSS 35 5.1 Modikationendes GSSAlgorithmus . . . 35

5.1.1 Verwerfungsmethode unddirekteVerwendung vonBeispielgewihten 35 5.1.2 Veränderung derShrittgröÿe . . . 36

5.1.3 Verwendung derApproximationdurh dieNormalverteilung . . . . 37

5.2 Erzeugungdes Hypothesenraumes . . . 38

5.3 Suheim Hypothesenraum . . . 40

5.4 Pruning . . . 41

5.5 Algorithmus . . . 45

5.6 Variationen desIteratingGSSAlgorithmus . . . 49

5.7 Implementierung derHilfsmethoden . . . 51

(4)

5.7.1 Methoden zurErzeugung undDurhsuhung desHypothesenraumes 51

5.7.2 Pruning . . . 53

6 Experimente 57 6.1 Experimente mit synthetishen Datensätzen . . . 57

6.1.1 DerBiasedExampleGenerator Operator . . . 57

6.1.2 Ergebnisse. . . 60

6.2 Experimentemit ehten Datensätzen . . . 63

6.2.1 Datensätze . . . 63

6.2.2 Ergebnisse. . . 64

7 Zusammenfassung 75

A Verzeihnis der verwendeten Notationen 79

B Benutzte primitiveDatentypen und -strukturen 81

C Parameter des IteratingGSS Algorithmus 82

D Parameter des BiasedExampleGeneratorOperator 85

(5)

4.1 DerGeneri Sequential SamplingAlgorithmus . . . 16

4.2 Funktionsweise desGSS Algorithmus inShritt 3d . . . 17

4.3 Das0.95-Quantil derStandardnormalverteilung . . . 21

4.4 Normalverteilung(shwarz)undt-Verteilungfür5(rot),10(blau)sowie15(grün) Freiheitsgrade . . . 21

4.5 Anwendung derVerwerfungsmethode beimKnowledge-Based Sampling . . 29

5.1 ModikationvonShritt3a desGeneriSequentialSamplingAlgorithmus mit derVerwerfungsmethode . . . 36

5.2 Approximation von Binomialverteilungen mit vershiedenen Parametern durhDihtekurven derNormalverteilung. . . 39

5.3 Grashe Darstellung des Coverage Spae zur Verdeutlihung der mögli- henResultate derVerfeinerungeiner Regel . . . 43

5.4 DerIteratingGeneri Sequential SamplingAlgorithmus . . . 47

5.5 DieGENERATE-RULES-Methode . . . 52

5.6 DieGENERATE-SUCCESSORS-Methode . . . 53

5.7 DieIS-USEFUL-Methode . . . 54

5.8 DiePRUNE-RULES-Methode . . . 55

6.1 EinfahesBeispiel für einenBiasTree . . . 57

6.2 Menge von mehreren BiasTrees, die zunähst die Verteilung der Ausprä- gungenderAttributeangebenunddannBedingungenfürdieAusprägung desZielattributesformulieren. . . 58

6.3 Derfür dieErzeugung dessynthetishen Datensatzesverwendete BiasTree 60 6.4 Aurayund Laufzeit von AdaBoost, Ada

2

Boost und von vier Iterating GSS Varianten mit Weighted Relative Auray als Nutzenfunktion und auf eins beshränkter Regellänge: (1) unnormierte Gewihte und Regeln

r → Y ₊

^, ⁽²⁾ Verwerfungsmethode und Regeln

r → Y ₊

^, ⁽³⁾ unnormierte Gewihte und alle Regeln,(4)Verwerfungsmethode und alle Regeln . . . . 65

6.5 Vergleih des benötigten Beispielgewihtes bei direkter Verwendung der Gewihte und EinsatzderVerwerfungsmethode aufden AdultDatenund Regellängeeins . . . 66

6.6 Laufzeit des Iterating GSS Algorithmus mit vershiedenen Shrittgröÿen für den Covtype1 Datensatz mit der Nutzenfunktion Weighted Relative Aurayundauf einsbeshränkter Regellänge . . . 68

6.7 VergleihderAurayeinesmitdemIteratingGSSAlgorithmusgefunde- nen Ensembles beiEinsatz vershiedener Nutzenfunktionenfür die Adult undQuantenphysik Datensätze . . . 69

6.8 Vergleih derLaufzeit beivershiedenen Nutzenfunktionen für den Adult Datensatz . . . 70

(6)

6.9 Relative Häugkeiten der Anzahl an Abdekungen von Beispielen durh

dieRegeln eines Ensembles auf den Adult undQuantenphysik Daten für

vershiedeneNutzenfunktionen . . . 71

6.10 Diversität eines Ensembles aus untershiedlihen Anzahlen von verwen-

deten Regeln auf den Adult und Quantenphysik Daten für vershiedene

Nutzenfunktionen. . . 72

6.11 Vergleih von Auray und Laufzeit beivershiedenen Komplexitätsstu-

fenfür den Covtype1 Datensatz . . . 74

D.1 Menge von mehreren BiasTrees, die zunähst die Verteilung der Ausprä-

gungenderAttributeangebenunddann BedingungenfürdieAusprägun-

gen desZielattributesformulieren. . . 86

D.2 XMLBeshreibung eines BiasTree . . . 87

(7)

2.1 DieWetterdaten . . . 3

4.1 Kondenzintervalle für dievershiedenen Nutzenfunktionen . . . 24

4.2 Maximal benötigteBeispielanzahlen . . . 24

4.3 Aurayvon J48 auf Datensätzen ohne Diskretisierung (ohne), mit Re-

ursive MinimalEntropyPartitioning(RMEP),EqualFrequeny Binning

mit 5Bins(EFB5) undEqual Frequeny Binningmit 10 Bins(EFB10). . 34

5.1 ObereShranken für vershiedene Nutzenfunktionen . . . 45

5.2 Bewertungskriterien derIS-USEFUL-Methode . . . 53

6.1 EigenshaftenderdreiverwendetenDatensätze:Name,Gesamtanzahlvon

AttributensowieAnzahlvonnominalenundnumerishenAttributen,Grö-

ÿe derBeispielmengeund Anteil vonpositiven Beispielen. . . 63

A.1 AllgemeineNotationen . . . 79

A.2 Notationenfür den GSSAlgorithmus . . . 79

A.3 ZusätzliheNotationenfürdenIteratingGSSAlgorithmusunddenBiased-

ExampleGenerator Operator . . . 80

B.1 Übersiht überdieverwendetenprimitiven Datentypen und -strukturen . 81

C.1 Übersiht überdieParameter desIterating GSSAlgorithmus . . . 82

D.1 ÜbersihtüberdieAttributedes<node>-TagszurBeshreibungderKno-

tendesBiasTrees . . . 85

D.2 Übersiht überdieParameter desBiasedExampleGenerator Operators . . 87

(8)

Die Entwiklung derComputertehnik ist soweit fortgeshritten, dass es fast keine Be-

shränkung der Speiherkapazität mehr gibt. Festplatten mit mehreren 100 Gigabyte

Kapazität sindzum Standardgeworden. Betrahtet man dasVerhältnis vonKostender

Arhivierung zu dem potenziellen Nutzen der Informationen in den Daten wird klar,

warum Unternehmen verstärkt dazu übergehen, alle Daten zu speihern, die während

ihres Geshäftsbetriebes entstehen. Als ein Beispiel betrahte man das Internet. Hier

bekommen Online Versandhändler Daten über das Kaufverhalten der Nutzer kostenlos

mitgeliefert. Das Wissen in diesen Daten wird auh genutzt, was beim Betrahten ei-

nes Produktes oensihtlih wird durh den Hinweis "Kunden, die sih dieses Produkt

angesehen haben,interessierten sihauhfürjene Produkte".Eineweiterenahezuuner-

shöpihe Quelle von Datensind diemittlerweile überall eingerihteten Sannerkassen.

Einkäufe injedemgröÿeren Geshäft werdenerfasstundermöglihen z.B.dasGewinnen

vonInformationen überpopuläreProduktkombinationen. Informationen über dasKauf-

verhalten der Kunden ermöglihen eine optimale Planung des Produktsortimentes. Ein

letztesBeispielsinddieDatenbestände,diebeiTelekommunikationsanbieternentstehen.

JedeMobilfunk-oderFestnetzverbindungwirdaufgezeihnet.GeradeinIndustrieländern

entstehtjeden TageineUnmengeanDaten.DiedarinenthaltenenInformationenkönnen

z.B.zur Kapazitätsplanung oder Erstellung von speziellen Angeboten(Wohenendtarif,

Sondertarife für häug gewählte Rufnummern) für bestimmte Kundengruppen genutzt

werden.

Damit diese nützlihen Informationen von den Unternehmen genutzt werden können,

bedarf eseiner Möglihkeit, dieInformationen in den Datenbeständen aufzunden. Ins-

besondere muss dieses für groÿe Datenbestände ezient möglih sein. Für die in den

Daten enthaltenen Informationenwirdinderhier verwendeten Terminologie derBegri

Muster benutzt. Der Vorgang der automatishen Mustererkennung in groÿen Datenbe-

ständenwirdalsDataMiningbezeihnet.DieSuhenahneuenDataMining-Methoden

ist einaktivesForshungsgebiet. Die Methoden setzen u.a.Tehniken ausdem Mashi-

nellen Lernen undder Statistik ein. Sie führen die Mustererkennung durh und werden

wegendergroÿen Datenmengen vonComputern ausgeführt.

Im Rahmen dieser Diplomarbeit wird ein neues Data Mining-Verfahren vorgestellt und

untersuht. Bevor inKapitel 3 dasweitere Vorgehen und dieZielsetzungen beshrieben

werden,isteszunähstnötig,diegrundlegendeTerminologieausdenBereihendesData

Mining unddesMahinellen Lernenseinzuführen.

(9)

In diesem Kapitel wird zunähst beshrieben, wie man den Begri des Lernens durh

die Denition von Lernaufgaben näher spezizieren kann. Anhand eines einfahen Bei-

spielserfolgtdieBeshreibungdergrundlegendenTerminologiedesMashinellenLernens

und es werden zwei wihtige Lernaufgaben vorgestellt. Hierbei handelt es sih um das

Funktionslernen ausBeispielen unddie Subgruppenentdekung.

2.1 Lernaufgaben

DataMiningsetzt vieleTehniken ausdemBereihdesMashinellenLernens ein.Gene-

rellistimMashinellen LernendieFrageinteressant,wasesbedeutetetwaszuverstehen

oder zu lernen und inwieweit ein Computer dieses kann. Diese Frage kann vermieden

werden, indem die Aufgabe der Mustererkennung in Datenbeständen niht als Lernen

imallgemeinenSinnebezeihnetwird.Vielmehr wirddieAufgabe vielspezielleranhand

der vorhandenen Eingabedaten und der gewünshten Ausgaben deniert. Als typishes

Beispiel für die Form von Eingabedaten betrahte man die in Tabelle 2.1 dargestellten

Wetterdaten [22 ℄.

Siebeshreiben,beiwelhenWetterbedingungeneinnihtnäherspeziziertesSpielbe-

triebenwerdenkann.DieWetterbedingungen heiÿenMerkmale oderAttribute.Attribute

können nominal sein, wie Himmel, Wind und Spielen oder numerish, wie Tempera-

tur und Luftfeuhtigkeit. Ein konkreter Wert eines Attributes heiÿt Ausprägung und

jede Zeile ist eine bestimmte Kombination der vershiedenen Ausprägungen der Attri-

bute und wirdBeispiel oder Instanz genannt. Eine besondere Rolle spielt dasAttribut

'Spielen', da man daran interessiert ist, zu beshreiben wie dessen Wert von den Aus-

prägungen der anderen Attribute abhängt. Es wird daher Zielattribut oder abhängiges

Merkmal genannt. Es sollen die in den Daten enthaltene Muster bezüglih des Zielat-

tributesstrukturiertund möglihstkomprimiert dargestelltwerden.InderTerminologie

desMashinellenLernens spriht manvon einemKonzept, genauerdemZielkonzept,das

von den Daten beshrieben wird; die gefundene Darstellung heiÿt Konzeptbeshreibung

oderModell.EineMöglihkeitderKonzeptbeshreibungistdieDarstellungdurhRegeln

derForm

WENN(Aussiht=sonnig) DANN(Spielen=Ja) oder

WENN(Aussiht=bewölkt)UND(Temperatur=warm)DANN(Spielen=Ja).

Ein Data Mining Verfahren lernt, wenn es eventuell unter Einhaltung von Nebenbedin-

gungen aus dem gegebenen Eingabedatensatz eine Konzeptbeshreibung dergewünsh-

ten Form ableitet. Man spriht in diesem Zusammenhang von einer Lernaufgabe [16℄.

DiebeidenLernaufgabenKonzeptlernen ausBeispielen undSubgruppenentdekung, die

für diese Diplomarbeit im Vordergrund stehen, sollen im folgenden zusammen mit der

benötigten Terminologie genauer beshrieben werden.

(10)

Himmel Temperatur Luftfeuhtigkeit Wind Spielen

Sonne 85 85 Nein Nein

Wolken 83 78 Nein Ja

Regen 70 96 Nein Ja

Regen 68 80 Nein Ja

Regen 65 70 Ja Nein

Wolken 64 65 Ja Ja

Sonne 72 95 Nein Nein

Sonne 69 70 Nein Ja

Regen 75 80 Nein Ja

Sonne 75 70 Ja Ja

Wolken 72 90 Ja Ja

Wolken 81 75 Nein Ja

Regen 71 80 Ja Nein

Tabelle2.1:Die Wetterdaten

2.2 Konzeptlernen aus Beispielen

Für das Beispiel der Wetterdaten ist das Zielkonzept durh die Werte des Attributes

Spielenbeshrieben.DeniertistdasZielkonzeptüberderInstanzenmenge X,dieausal-

lenmöglihenKombinationendergegebenenAttributebesteht.ObwohlZielattributemit

mehralszweiAusprägungenüblihsind,wirdhiernurderboolesheFallbetrahtet.Man

spriht beiden beidenAusprägungendesZielattributesauhvonpositiver undnegativer

Klasse bzw. analog von positiven und negativen Beispielen. Formal ist das Zielkonzept

eineFunktion

f : X → { 0, 1 }

^.^EinLernverfahrenerhältnunTrainingsbeispiele

x ∈ X

^mit

bekanntem Zielattribut. Daraus soll das Verfahren eine Beshreibung des Zielkonzeptes

ableiten.WiedieseBeshreibunggenauaussiehtmussdurhWahleinergeeignetenMenge

vonKonzeptbeshreibungen,demsogenanntenHypothesenraum H,festgelegtwerden.Es

gibt eineFülle von Lernverfahren mit zugehörigenHypothesenräumen, diedie Lernauf-

gabe Konzeptlernen ausBeispielen lösen,wie z.B.regelbasierte Lernverfahren([3,4 ,7℄),

Entsheidungsbäume und Neuronale Netze [22 ℄ oderSupport Vetor Mahines [32℄. Die

Aufgabe des Lernverfahrens besteht darin eine Hypothese

h ∈ H

auszuwählen, so dass für die Trainingsbeispielemöglihst immer f(x)=h(x) gilt. Der Anteil an Beispielen, für

den

f (x) 6 = h(x)

^gilt, ^nennt ^man ^Trainingsfehler.

Denition 1. (Trainingsfehler)

SeiT eineTrainingsmenge derGröÿe n von Instanzen ausX, fdie zugehörige Zielfunk-

tion und H der gegebene Hypothesenraum. Der Trainingsfehler einer Hypothese

h ∈ H

bezüglih T und f ist deniert als der durhshnittlihe Fehler über alle Instanzen der

Trainingsmenge:

error T (h) = 1 n

n

X

i=1

error(f (x), h(x)).

Hierbei ist derFehler füreine einzelne Instanz deniertals:

error(f (x), h(x)) = 0, f alls h(x) = f (x), sonst 0 (0 − 1 − loss).

(11)

DadiegefundeneHypotheseInstanzeninnegativeundpositiveBeispieleklassizieren

soll, bezeihnet man sie im Rahmen dieser Lernaufgabe auh als Klassikator. Für die

Art derVorhersage, die dergelernte Klassikator mahen soll, gibt eszwei Möglihkei-

ten: harte (risp) und weihe (soft) Vorhersagen. Beispielsweise kann es sein, dass eine

bestimmte Regel fürahtpositive undzweinegativeBeispiele anwendbarist.Beiharter

Klassizierungwürde indiesemFalldiepositiveKlasse vorhergesagt,dadiesedieMehr-

heitsklasseist.Bei weiherKlassizierung würdeeine Wahrsheinlihkeit von 0.8fürdie

positive und 0.2für dienegative Klasse vorhergesagt.

Für den Fall einer weihen Klassizierung existiert eine Alternative zur Messung des

Trainingsfehler. Der Root Mean Squared Error (RMSE) misst die durhshnittlihe Ab-

weihungderVorhersageneinerHypothesevondentatsählihenAusprägungendesZie-

lattributes.

Denition 2. (Root Mean Squared Error)

Seien T, X, f und H wie in obiger Denition. Der Root Mean Squared Error (RMSE)

einer Hypothese h istdeniert als Quadratwurzel ausdem mittlerenquadrierten Fehler:

RM SE T (h) :=

v u u t 1 n

n

X

i=1

(f (x) − h(x)) ² .

Die alleinige Minimierung des Trainingsfehlers ist aber i.d.R. niht ausreihend. Als

Beispiel betrahte maneineBank, dieausihren Kundendaten dasKonzept'Kreditwür-

digkeit'ableitenmöhte. Es solleineHypothesegefundenwerden, diefür jeden Kunden

ausseinenspezishenDatenbestimmt,obereinenKrediterhält.DazuwerdenalsTrai-

ningsbeispielesolheKundenverwendet,dieshoneinenKredithaben,derenKreditwür-

digkeit also shon bekannt ist. Diese Trainingsmenge von Kunden kann als Stihprobe

aus derMenge aller potentiellen Kunden angesehen werden, für dieder Trainingsfehler

bestimmt werden kann. Der wirklihe Nutzen der Bank ergibt sih erst, wenn sie für

Neukunden bei denen die Kreditwürdigkeit unbekannt, ist eine zuverlässige Vorhersage

über derenKreditwürdigkeit mahen kann.Damit esüberhauptmöglihist mit der aus

den Trainingsinstanzen gelerntenHypotheseeine Aussageüberzukünftige Instanzen zu

mahen ist die Annahme nötig,dass eine guteApproximation derZielfunktionf für die

TrainingsmengeauheineguteApproximationvonffürungeseheneInstanzenist.Formal

nimmtmanan,dassalleInstanzengemäÿeinerWahrsheinlihkeitsverteilung Dgezogen

werden. Den erwarteten Fehler, den die gefundene Hypothese für Instanzen maht, die

gemäÿ Dgezogen wurden,bezeihnetmanalswahrenFehler.

Denition 3. (Wahrer Fehler)

Sei

D : X → IR ⁺

^eine Wahrsheinlihkeitsverteilung über dem Instanzenraum X, f die zugehörige Zielfunktion und H der gegebene Hypothesenraum. Der wahre Fehler einer

Hypothese

h ∈ H

^bezüglih Înstanzen, ^die ^gemäÿ ^D ^zufällig ^gezo^gen ^werden ûnd ^f îst

deniert als

error _D (h) = Z

x ∈ X

error(f (x), h(x)) D(x) dx,

falls derFehler füreine einzelne Instanzmit dem 0-1-lossgemessen wird bzw.

error _D (h) = s Z

x ∈ X

(f (x) − h(x)) ² D(x) dx,

(12)

falls derFehler füreine einzelne Instanzder quadratishe Fehler ist.

DenVorgang bei demeine Hypothese ungesehene Instanzen (rihtig) klassiziert, be-

zeihnet manauhals Generalisierung.

Nun lässtsih dieLernaufgabe Funktionslernen ausBeispielen denieren.

Denition 4. (Funktionlernen aus Beispielen)

DieAufgabe beim Funktionslernenaus Beispielenbesteht darin,füreinegemäÿ derVer-

teilung

D : X → IR ⁺

^gezogene ^Trainingsmenge von Instanzen und einen gegebenen Hy- pothesenraum H, eine Hypothese

h ^∗

^zu ^nden,^die ^den ^wahren^Fehler ^bezüglih ^H ^und ^D

minimiert:

h ^∗ = argmin _h _∈ _H { error D (h) } .

Der wahre Fehler kann niht direkt bestimmt werden, da Zielfunktion f und die Ver-

teilungDunbekanntsind.DerTrainingsfehleristimallgemeineneineshlehteAbshät-

zung des wahren Fehlers; er untershätzt ihn meistens. Dieses kann mehrere Ursahen

haben.Zum einenkanndieTrainingsmenge fehlerhafteBeispieleenthalten, dieder wah-

ren Funktion f widersprehen. Dann klassiziert eine Hypothese,die auf der Trainings-

mengefehlerfrei ist,neue Beispieleshleht. Gleihes gilt,wenn der Hypothesenraum zu

komplex gewähltwurde, sodasseinfahnurdie Trainingsmenge auswendig gelernt wur-

de anstattdie darinverstekte`Zielfunktion fzu approximieren. Manbezeihnetdieses

mit Überanpassung (Overtting) andie Trainingsmenge. Verfahren,die dieLernaufgabe

Konzeptlernen ausBeispielen lösen, beinhalten daher Mehanismen, die versuhen eine

Überanpassungzu verhindern.

Da der Trainingsfehler häug keine gute Shätzung für den wahren Fehler ist, wird

in der Regel ein Teil der Trainingsmenge als Testdatensatz benutzt. Der auf den übri-

gen Beispielen derTrainingsmenge gelernte Klassikator wirdbenutzt, umVorhersagen

für die ungesehenen Testbeispiele zu treen. Den Fehler auf diesen Testdaten benutzt

man zur Shätzung des wahren Fehlers. Eine wihtige Variation dieses Verfahrens ist

dieKreuzvalidierung.HierbeiwirddieTrainingsmenge inmehreredisjunkteTeilmengen

zerlegt; eineüblihe Wahlsindzehn Teilmengen. EineTeilmenge wirdals Testdatensatz

zurükgehalten, mit dem Rest wird gelernt. Dieses wird wiederholt bis alle Teilmengen

einmalTestdatensatzwaren.Beider10-fahenKreuzvalidierungwirdbeispielsweisezehn

malmit90%derDatengelernt undaufeinerimmeranderenTeilmengevon10%derDa-

ten getestet.Zur Shätzung des wahren Fehlers wirdder Trainingsfehler über alle zehn

Testmengengemittelt.InderPraxiswirddie10-faheKreuzvalidierunghäugeingesetzt,

da siemeist eineguteShätzungfür den wahrenFehler liefert.

2.3 Subgruppenentdekung

BeimKonzeptlernenausBeispielenhandelt essihumeineprädiktiveLernaufgabe,d.h.

manist daraninteressiert einglobalesModell zunden, dasfürjede zukünftige Instanz

eine Vorhersage mahen kann. Bei der Subgruppenentdekung handelt es sih dagegen

um eine deskriptive Lernaufgabe. Die gefundenen Konzepte sind lokale Aussagen über

interessante Teilbereihe derTrainingsmenge. Alsein Beispielbetrahteman wiederdie

Kundendaten einer Bank und einen Investmentfond, den die Bank anbietet. Aus Mar-

ketinggesihtspunkten ist die Bank an Kundengruppen interessiert, beidenen derFond

unterrepräsentiert ist. Aus den Daten der Bank lässt sih leiht ein binäres Merkmal

(13)

konstruieren,dasfürjeden Kundeangibt, oberinden Fondinvestiert hat.DieAussage,

dass Rentner wesentlih seltener in den Investmentfond anlegen als die gesamte Kund-

shaft, kann für dieBank wertvoll sein unddas Management zu demVersuh bewegen,

die gefundene Subgruppe der Rentner durh besondere Maÿnahmen von den Vorteilen

desInvestmentsfondzuüberzeugen.WiemanandiesemBeispielsieht,istaufdieseWeise

keineglobaleVorhersagemöglih:Mankannzwaraussagen,dassdieVerteilungdesinter-

essierendenMerkmalsbeiInstanzenindergefundenenSubgruppe von derVerteilungin

dergesamtemTrainingsmengeabweiht,aberkeineAussageüberInstanzenauÿerhalbder

Subgruppe mahen. Die Lernaufgabe Subgruppenentdekung bedarf der Festlegung des

interessierendenMerkmalsdesHypothesenraumesHundeinerNutzenfunktion q,diedas

MaÿfürdieInteressantheiteinerSubgruppeist.FasstmandasZielattributalsinteressie-

rendes Merkmal auf,sobenötigtmanwie shon beim Konzeptlernen aus Beispielenzur

Subgruppenentdekung ebenfallseine Trainingsmenge von bereitsklassizierten Instan-

zen. Desweiteren muss für jede durh ein Hypothese denierte Subgruppe bestimmbar

sein,welheInstanzen zuihr gehören. Damitlässtsih dieLernaufgabe Subgruppenent-

dekungdenieren.

Denition 5. (Subgruppenentdekung)

Es sei T eine Trainingsmenge von Instanzen aus dem Instanzenraum X und

P (X)

^die

Potenzmenge von X. Weiterhin sei H ein Hypothesenraum, in dem jede Hypothese mit

einer Teilmenge des Instanzenraumes identiziertwerden kann.

Gegeben eineNutzenfunktion q:

H × P (X) → IR

^besteht^dieLernaufgabe Subgruppenent- dekung darin, die Menge von Hypothesen

h ∈ H

^mit ^dem ^höhsten ^Nutzen ^bezüglih ^q

zu nden.

Die Anzahl der gefundenen Hypothesen kann entweder durh einen minimalen Wert

für den Nutzen einer Hypothese h beshränkt werden oder es wird festgelegt, dass nur

diekbestenHypothesenzur Lösunggehörensollen.

ObwohldieLernaufgabeSubgruppentdekungoftalsdeskriptivangesehenwird,istauh

eine Denition als prädiktive Lernaufgabe denkbar. Dazu muss angenommen werden,

dassdie Trainingsmenge TeineStihprobe ausdemInstanzenraum X ist,diegemäÿ ei-

nerWahrsheinlihkeitsverteilung D überXgezogen wurde.Desweiteren bedarf eseiner

Veränderung der Nutzenfunktionq. Es werden niht mehr die Subgruppen gesuht, die

bezüglih qaufden Trainingsdatenoptimal sind. Stattdessen suht mannah Subgrup-

pen,dieoptimalsindfürBeispielmengendieunterderVerteilungDgezogenwurden.Die

gefundenen Subgruppen treen dann Aussagen über den gesamten Instanzenraum und

niht nur über dieTrainingsmenge.

Derwihtigste Parameter derLernaufgabe Subgruppenentdekungist dieNutzenfunkti-

on q. Untershiedlihe Arten von Nutzenfunktionen erlauben eine Veränderung dessen,

wasalsinteressanteSubgruppenangesehenwird.DenvershiedenengebräuhlihenNut-

zenfunktionen undihren Eigenshaftenist dasfolgende Kapitel gewidmet.

2.4 Nutzenfunktionen

FürdieSubgruppenentdekungunddemKonzeptlernenausBeispielengibteseineReihe

von Nutzenfunktionen. Siesind komplementär zuden im vorherigen Kapitel denierten

Verlustfunktionen. Daher werden Verlustfunktionen auh minimiert, während Nutzen-

funktionen maximiert werden. Für eine ausführlihe Diskussion von Nutzenfunktionen

(14)

verweise ih auf [14 ℄ und [19 ℄. Analog zu wahrem Fehler und Trainingsfehler gibt es für

Nutzenfunktionen einen auf den Trainingsdaten geshätzten Nutzen und einen wahren

Nutzen. Auhhierkann dieKreuzvalidierungzurShätzungdeswahrenWertes benutzt

werden. Wenn imFolgenden derUntershiedzwishenwahrem undgeshätztemNutzen

wihtigist,wirdbesondersdaraufhingewiesen,welherWertgemeintist.Damiteineprä-

ziseDenitionvonNutzenfunktionenmöglihistbedarfeseinergenauerenFestlegungdes

Hypothesenraumes. In dieserArbeit werden als Hypothesen nur Regeln, genauer Horn-

klauseln,verwendet.Hornklauseln sindeineTeilmenge derFormelnder Prädikatenlogik,

wobei es hier genügt, sih auf den aussagenlogishen Fall zu beshränken. Sie bestehen

auseiner Disjunktionvon Literalen,vondenen maximal einespositivist:

¬P 1 ∨ ¬P 2 ∨ · · · ∨ ¬P N ∨ K .

Dieses lässtsih zu einerImplikationumformen:

P 1 ∧ P 2 ∧ · · · ∧ P N ⇒ K .

Bei den benutzten Literalen handelt es sih umAttribut-Wert-Paare, diewahr werden,

wenn dasAttributim Literalund dasentsprehende im Beispieldiegleihe Ausprägung

haben.

Denition 6. (Hornklauseln)

Eine Hornklausel besteht aus einer Prämisse A und einer Konklusion B, dargestellt als

A → B

^.^Die^PrämisseÂ^besteht âusêinerKonjunktionvonLiteralenüber denAttributen des Instanzenraumes, währenddie Konklusion B einen Wertfürdas Zielattribut vorher-

sagt. Eine Hornklausel ist anwendbar, falls die Prämisse wahr ist. Ist die Konklusion

ebenfalls wahr, d.h. hat das Zielattribut in der Konklusion und im betrahteten Beispiel

die gleihe Ausprägung, ist dieHornklausel korrekt.

ImFolgenden wird statt Hornklausel derkürzere undüblihe Begri Regel verwendet.

Eine RegelRerzeugt einePartitionierung allerBeispieleinzweiTeilmengen:

r = { x ∈ X | R ist auf x anwendbar } , ¯ r = X \ h.

DieBeispiele inderMenge r werdenauh alsdievonderRegel Rabgedekten Beispiele

bezeihnet Da sih diese Diplomarbeit auf den Fall eines booleshen Zielattributes be-

shränkt, werden folgende Abkürzungen für die Menge aller positiven bzw. negativen

Beispiele verwendet:

Y ₊ = { x ∈ X | x ist ein positives Beispiel } bzw. Y ₋ = X \ Y ₊ .

Damit ergeben sih die Shreibweisen

r → Y +

^bzw.

r → Y ₋

^für ^eine ^Regel, ^die ^die

positive bzw. negative Klasse vorhersagt. Eine Regel kann identiziert werden mit der

Menge derBeispiele,für diesie anwendbarist und der Klasse,diesie vorhersagt. Somit

beshreibteineRegeleindeutigeineSubgruppe:Dasinteressierende Merkmalwirddurh

die Vorhersage bestimmt und die Subgruppe besteht aus allen Instanzen, auf die sie

anwendbar ist. Da es für alle Nutzenfunktionen Sinn maht, sowohl nah dem Nutzen

bezogenaufdiepositivealsauhbezogenaufdienegativeKlassezufragenunddieWahl

derpositivenKlasserelativwillkürlihist,wirdindenDenitionenderNutzenfunktionen

(15)

die interessierende Klasse mit

Y _∗

^bezeihnet. Desweiteren werden Regeln oft um die AngabederWahrsheinlihkeitdervorhergesagtenKlasseinderMengerderabgedekten

Beispiele erweitert, so dass sie genauer als probabilistishe Regeln bezeihnet werden

können. DieRegel

r → Y + [90%].

besagt,dassdieWahrsheinlihkeit füreinpositivesBeispiel90%beträgt,fallsdieRegel

anwendbarist.

2.4.1 Coverage, Preision, Biasund Lift

Die grundlegendenKonzepte zurBewertung von Hypothesen und im speziellenvonRe-

geln sind Generalität und Kondenz. Die Generalität ist ein Maÿ dafür wie allgemein

eineRegelistbzw. fürwievieleInstanzensieanwendbarist,währendmanmitKondenz

misst, wie präzise eine anwendbare Regel ist. Bezeihnet man mit

P r D [W ]

^die ^W^ahr-

sheinlihkeit,einBeispielausderTeilmenge

W ∈ X

^von^Instanzen^unter^der^Verteilung

D zu ziehen,lassensih konkreteMaÿe für Generalität und Kondenz denieren,wobei

derIndexD weggelassen wird, fallsdieVerteilung eindeutigist.

Denition 7. (Coverage)

DieCoverageeinerRegel

r → Y _∗

^gibt^dieWahrsheinlihkeit an,dasseineRegelanwend- bar ist.

COV (r → Y _∗ ) := P r[r].

Denition 8. (Preision)

Die Preison einer Regel

r → Y _∗

^gibt ^die Wahrsheinlihkeit an, dasseine Regel korrekt ist, falls sie anwendbar ist.

P REC(r → Y _∗ ) := P r[Y _∗ | r].

BetrahtetmandieTeilmenge derInstanzen,für dieeineRegelanwendbarist,sowird

dortimAllgemeinendieVerteilung desZielattributes(der Anteilvon Beispielenmitder

interessierenden Klasse) anders sein als im gesamten Instanzenraum. Ansonsten ist die

von der Regel beshriebene Subgruppe uninteressant. Der Bias ist ein Maÿ für diese

Abweihung.

Denition 9. (Bias)

Der Bias einer Regel

r → Y _∗

^ist ^deniert ^als

BIAS(r → Y _∗ ) := P r[Y _∗ | r] − P r[Y _∗ ] = P REC (r → Y _∗ ) − P r[Y _∗ ].

Das multiplikative GegenstükzumBiasist derLift.

Denition 10. (Lift)

Der Lift einerRegel

r → Y _∗

^ist^deniert ^als

LIF T (r → Y _∗ ) := P r[r ∩ Y _∗ ]

P r[r]P r[Y _∗ ] = P r[Y _∗ | r]

P r[Y _∗ ] = P REC(r → Y _∗ )

P r[Y _∗ ] .

(16)

Hierbei wurden die Denitionen von bedingten Wahrsheinlihkeiten und Preision

eingesetzt.

SofernsihdieWahrsheinlihkeit, einBeispielmit derinteressierenden Klassezusehen,

inderdurhrbestimmtenSubgruppenihtvonderWahrsheinlihkeitfürdieinteressie-

rendeKlasseimgesamtenInstanzenraum,deraprioriWahrsheinlihkeit,untersheidet,

ergibt sih entsprehend dem multiplikativen bzw. additiven Charakter von Lift bzw.

Bias, dass

LIF T (r → Y _∗ ) = 1

^und

BIAS(r → Y _∗ ) = 0

^. ^Ist^die Wahrsheinlihkeit der interessierenden Klasse gröÿer als im gesamten Instanzenraum, gilt

LIF T (r → Y _∗ ) > 1

und

BIAS(r → Y _∗ ) > 0

^,^während

0 ≤ LIF T (r → Y _∗ ) < 1

^und

BIAS(r → Y _∗ ) < 0

^,^falls

dieWahrsheinlihkeitderinteressierendeKlasseinderSubgruppeunterdurhshnittlih

ist.

2.4.2 Auray undWeighted Relative Auray

Einebeim KonzeptlernenausBeispielenhäugverwendeteNutzenfunktionistdieAu-

ray.

Denition 11. (Auray)

Die Auray einer Regel

r → Y _∗

^ist ^deniert^als

ACC (r → Y _∗ ) := P r[r ∩ Y _∗ ] + P r[¯ r ∩ Y ¯ _∗ ].

Eine Regel hat eine hohe Auray, wenn sie für viele Beispiele der interessierenden

Klasse anwendbar undfür alleanderen Beispielemöglihstniht anwendbar ist.Dasge-

bräuhlihste Maÿfür dieLernaufgabe Subgruppenentdekung istdieWeighted Relative

Auray [19 ℄.Interessantheit wird alsProdukt von Coverage und Biasdeniert. Inder

einfahsten Versionwerden beide Gröÿen gleihstark gewihtet.

Denition 12. (Weighted Relative Auray)

DieWeightedRelativeAurayeinerRegelistdasProduktausderenCoverageundBias:

W RACC (r → Y _∗ ) := COV (r → Y _∗ ) · BIAS(r → Y _∗ ).

EinealternativeDenitionvonInteressantheiteinerSubgruppeerhält mandurhqua-

drierenderCoverage [19 ℄.

Denition 13. (Squared)

SQU ARED(r → Y _∗ ) := COV (r → Y _∗ ) ² · BIAS(r → Y _∗ )

2.4.3 Nutzenfunktion auf Basis des Binomialtests

BeiderLernaufgabe Subgruppenentdekungsind solhe Subgruppeninteressant,beide-

nen diePreision derkorrespondierenden Regel

r → Y _∗

^von ^der^apriori ^Wahrsheinlih- keit

P r[Y _∗ ]

âbweiht.Ôb^dieêmpirish^beobahtete^Dierenz^signikantôder^zufälligîst,

lässtsihmit Hilfe desBinomialtests[9℄überprüfen. Umfestzustellen,obdie Subgruppe

wirklih interessant ist,formuliert maneine Nullhypothese

H 0

^und ^eineAlternative

H 1

über denwahren BiasderSubgruppe:

H ₀ : BIAS(r → Y _∗ ) = 0 und H ₁ : BIAS(r → Y _∗ ) 6 = 0.

(17)

Als Prüfgröÿe zur Entsheidung über das Ablehnen der Nullhypothese zugunsten der

Alternative dient dieinderSubgruppe beobahtete Anzahl von Beispiele derinteressie-

rendenKlasse. Dazuwirdzunähsteine dihotome Zufallsvariable

X i

^deniert.

X i =

( 1, f alls x ein Beispiel f ¨ ur die interessierende Klasse in der Subgruppe ist

0, sonst .

Dann ergibt sih die Prüfgröÿe für m Beispiele als

X = ^P ^m _i=1 X i

^. ^Man ^nimmt ^an, ^dass

die Nullhypothese

H 0

^gilt ^und ^überprüft, ^wie ^groÿ ^die ^Werte ^für ^X ^werden ^müssen,

damit esextrem unwahrsheinlih ist,dass sieunter

H ₀

^zustande ^gekommen ^sind. ^Dazu

muss festgelegt werden, was unter extrem unwahrsheinlih zu verstehen ist. Üblihe

Werte sind Wahrsheinlihkeiten von 0.1, 0.05 oder 0.01, die auh als Signikanzniveau

bezeihnetwerden. DadieBeispiele unabhängigund gleihverteilt gezogen werdenist X

unterAnnahmevon

H ₀

binomialverteiltmitdenParametern

P[Y _∗ ]

^und

m

^.^Nun^k^ann^man

anhandeinerTabelle derBinomialverteilung bestimmen,welheWertefürdiePrüfgröÿe

X unwahrsheinliher als das gewählte Signikanzniveau sind und erhält die Werte für

X,beidenen dieNullhypothese zugunsten derAlternativezu verwerfenist.Fürgroÿem

istXannäherndnormalverteilt mitErwartungswert

m · P r[Y _∗ ]

^und Standardabweihung

p m · P r[Y _∗ ](1 − P r[Y _∗ ])

^.^Damit^erhält^man^folgendestandardnormalverteiltePrüfgröÿe:

Z = X − m · P r[Y _∗ ] p m · P r[Y _∗ ](1 − P r[Y _∗ ])

Analog zur Binomialverteilung wird mit der Tabelle der Standardnormalverteilung be-

stimmt,fürwelhe WertederPrüfgröÿe ZdieNullhypothesebeigegebenemSignikanz-

niveau zu verwerfen ist. Bei Vernahlässigung des Signikanzniveaus ist esumso wahr-

sheinliher, dass die Alternative gilt, je gröÿer der Z-Wert ist. Der Z-Wert lässt sih

folgendermaÿen umformen:

Z = X − m · P r[Y _∗ ]

p m · P r[Y _∗ ](1 − P r[Y _∗ ]) = m( _m ¹ X − P r[Y _∗ ])

√ m · ^p P r[Y _∗ ](1 − P r[Y _∗ ]) =

√ m · BIAS(r → Y _∗ ) p P r[Y _∗ ](1 − P r[Y _∗ ]) .

Da der Term

p P r[Y _∗ ](1 − P r[Y _∗ ])

îm ^Nenner ^für âlle ^Regeln ^glei^h îst, êrzeugt

√ m · BIAS(r → Y _∗ )

^eine ^Ordnung ^der^Regeln entsprehend der Signikanz der Abweihung ihres Bias von der apriori Wahrsheinlihkeit. Durh den Wehsel von der absoluten

Anzahl von Beispielen auf den relativen Anteil wird diese Ordnung niht verändert. Es

ergibt sihdiefolgende Denition.

Denition 14. (Binomial)

Die Nutzenfunktion auf Basisdes Binomialtests istdeniert als

BIN OM IAL(r → Y _∗ ) := ^q COV (h → Y _∗ ) · BIAS(r → Y _∗ ).

(18)

Beim Generi Sequential Sampling [25 ℄ Algorithmus handelt es sih um ein Verfahren

zur Lösung der Lernaufgabe Subgruppenentdekung, das erlaubt als Kriterium der In-

teressantheit von Subgruppen, eine der in Kapitel 2.4 vorgestellten Nutzenfunktionen

Auray,WeightedRelativeAuray,SquaredoderBinomialauszuwählen.ZurBestim-

mung der besten Subgruppen wird niht der komplette Datensatz durhsuht, sondern

miteiner Stihprobe gearbeitet.DerAlgorithmus gibtprobabilistishe Garantien fürdie

Qualität der Lösung. Der Vorteil dieses Ansatzes liegt in der guten Skalierbarkeit für

groÿeDatenbanken.Allerdingsmussauh eineReihevonNahteileninKaufgenommen

werden, von denen zweinahfolgend angesprohenwerden sollen.

Das Verfahren bedarf der Aufzählung des kompletten Hypothesenraumes, wodurh es

unmöglihist mitnumerishenAttributenumzugehen.VorderAnwendung istzwingend

eineDiskretisierungnumerisherAttributenötig. AuhnaheinerDiskretisierungistder

komplette Hypothesenraum meistso komplex, dass esniht möglih ist,ihnezient zu

handhaben.EinweitererNahteil ergibtsihdurhKorrelationen zwishen denAttribu-

teneinesDatensatzes.Hypothesenwiez.B.RegelnbeshreibenSubgruppenmitHilfeder

Attribute.AufgrundderKorrelationenergeben sih mehrereHypothesen,diediegleihe

Subgruppe beshreiben. Dadurh ist die gefundene Lösung unnötig groÿ und unüber-

sihtlih.Für denNutzer istsie shwerzuinterpretieren, dadiewihtigenAussagenaus

derVielzahl redundanter Lösungenniht klarhervorstehen.

Mit Knowledge-Based Sampling [26℄ steht eine Methode zur Verfügung, um das Fin-

den von redundanten Hypothesen zu vermeiden. Eine Hypothese in Form einer Regel

repräsentiertdurh ihreVorhersagenVorwissen überdasZielattribut. Knowledge-Based

Sampling entfernt dieses Vorwissen aus den Daten, indem es die Korrelation zwishen

Vorhersagen der Regel und den tatsählihen Werten des Zielattributes aus den Daten

entfernt.Danahsindwederdiese noh andereRegeln,vondenen diegleihe Subgruppe

beshrieben wird, inden Datenzu nden.

Vorrangiges Ziel dieser Diplomarbeit ist die Untersuhung der Kombination des Gene-

riSequential SamplingAlgorithmus mitKnowledge-Based SamplingbezüglihderEig-

nungfürdieLernaufgabenSubgruppenentdekungundKonzeptlernenausBeispielen.Die

Kombination der beiden Verfahren verspriht eine präzise und kompakte Beshreibung

der Trainingsdaten. Insbesondere sollte ein ezienter Umgang mit sehr groÿen Daten-

mengenmöglih sein,dastattdesgesamtenDatensatzesnur eineStihprobe verarbeitet

wird.

Zunähst werden in Kapitel 4.1 der Generi Sequential Sampling Algorithmus und in

Kapitel 4.2 das Knowledge-Based Sampling vorgestellt. Um für die Lernaufgabe Kon-

zeptlernen aus Beispielen Vorhersagen überdas Zielattribut zu treen, wird eine Kom-

bination mehrerer Regeln benutzt, die mit dem GSS Algorithmus unter Einsatz von

Knowledge-Based Samplinggefundenwurden.Ein Verfahren zurKombination mehrerer

unterdemEinsatzvonKnowledge-BasedSamplinggefundererModelleistinKapitel4.2.4

beshrieben.UmdemGeneriSequentialSamplingAlgorithmus zuermöglihen,mitnu-

merishen Attributen umzugehen, bedarf es einer Methode zur Diskretisierung, wie sie

(19)

in Kapitel 4.3 vorgestellt ist. In Kapitel 5 wird mit dem Iterating Generi Sequential

Sampling Algorithmus einVerfahren zurKombination desGeneri Sequential Sampling

Algorithmus mit Knowledge-Based Samplingvorgestellt. Insbesondere ist indiesem Ka-

pitelbeshrieben, wie eineeziente Suhe ingroÿen Hypothesenräumen möglih ist.Es

werdenmehrereNahteiledesGeneriSequentialSamplingAlgorithmusbeshriebenund

möglihe Lösungen aufgezeigt. Auÿerdem werden eine Reihe von Erweiterungen vorge-

stellt.In Kapitel6 wurden mit demIteratingGeneri Sequential SamplingAlgorithmus

Experimente mit synthetishen und ehten Datensätzen durhgeführt. Zur Erzeugung

der synthetishen Datensätze bedurfte es der Erstellung eines geeigneten Werkzeuges.

Die Experimente dienten dabeidem Zwek,die folgendenFragenzu klären:

•

^Wie ^eignet ^sih ^das^Verfahren^zurSubgruppenentdekung?

•

^Wie^verändern^sih^der^Umfang^und^dieAussagekraftderLösungdurhdenEinsatz von Knowledge-Based Sampling?

•

^Wie ^ist ^die Vorhersagequalität der Kombination der einzelnen Regeln zu einem Gesamtmodell?

•

^Wie ^gut ^ist ^die Vorhersagequalität im Vergleih zu anderenMethoden für dieLö- sungderLernaufgabe Konzeptlernen ausBeispielen?

•

^Wie îst^die ^Laufzeit îm^Vergleih ^zu ânderen ^Methoden?

•

^Wie^wirkt^sih^dieVeränderungderNutzenfunktionaufQualitätundLaufzeitaus?

•

^W^elhe Auswirkungen hat die Verwendung von Hypothesenräumen untershiedli- her Komplexität aufLaufzeit und Qualität der Ergebnisse?

(20)

Ziel der Diplomarbeit ist die Untersuhung der Eignung der Kombination des Generi

Sequential Sampling Algorithmus mit Knowledge-Based Sampling für Subgruppenent-

dekung und Konzeptlernen ausBeispielen. Im Folgenden werden dieverwendeten Ver-

fahren näher erläutert sowie auf deren Vor- und Nahteile eingegangen. Die Subgrup-

penentdekungwirdmitdemGeneriSequentialSamplingAlgorithmus[25℄durhgeführt

(Kapitel4.1).Knowledge-Based Sampling [26℄stellt dieUnabhängigkeit dergefundenen

Subgruppen siher und ermögliht die Kombination der gefundenen Subgruppen, um

eine Vorhersage für das Zielattribut zu treen (Kapitel 4.2). Um den Umgang mit nu-

merishen Attributen zu ermöglihen, bedarf es shlieÿlih noh einer Diskretisierung

numerisherAttribute. EingeeignetesVerfahrenistdasReursive MinimalEntropy Par-

titioning [10℄, das in Kapitel 4.3 vorgestellt wird. Für eine Übersiht der verwendeten

Notationen verweise ih auf Anhang A.

4.1 Der Generi Sequential Sampling Algorithmus

WirdData Mining auf sehr groÿen Datenbanken betrieben, ist neben der Maximierung

derNutzenfunktion auh die Skalierbarkeit von Bedeutung. Für viele Anwendungen ist

es niht möglih, in akzetabler Zeit alle Daten zu verarbeiten. Eine möglihe Strate-

gie, ummit diesemProblemumzugehen, istmit einer zufälliggezogenen Stihprobe der

Datenzuarbeiten.Natürlihbedeutetdiesesneben derLaufzeitverkürzungundVerklei-

nerung des benötigten Speiherplatzes auh, dass niht mehr garantiert werden kann,

dass die gewonnenen Resultate identish sind mit denen für die gesamten Daten. Von

Bedeutungist hierbeiderUntershiedimNutzen.Es istwihtig, dasseinLernverfahren,

das nur auf einer Stihprobe der Daten arbeitet, dem Nutzer Garantien gibt, wie stark

sihdieResultate bezüglih desNutzens untersheiden. Es gibtzwei Möglihkeiten,wie

diese Garantien aussehen können. Zum einen kann für eine feste Stihprobengröÿe be-

rehnet werden, wie gut die Garantie für den Nutzen auf den gesamten Daten ist [12℄,

zumanderenkannvomBenutzereinefesteQualitätderLösungvorgegebenwerden.Das

Zielist,mit minimalmögliherStihprobengröÿediegeforderteQualität zugarantieren.

Letztgenannter Ansatz wird beim sequentiellen Sampling verfolgt, das im Bereih des

MashinellenLernens erstmalsimRahmen desHoedingRaeAlgorithmus[18 ℄ benutzt

wurde. Hierbeiwerden die Instanzen bzw. die Stihprobe inkrementellgezogen und der

Nutzen aller Hypothesen des betrahteten Hypothesenraumes gleihzeitig aktualisiert.

Wenn siher ist, dass eine Hypothese sehr gut bzw. shleht ist, gibt der Algorithmus

diese Hypothese als Lösungaus bzw. verwirft sie.Ein wihtiger Vorteilist, dassdie Be-

shaenheitderDatenberüksihtigtwird:ErlaubendieDatendieHypothesenshnellin

GutundShlehtzu separieren,werdennur wenigeBeispieleinderStihprobebenötigt,

ansonstenwirddieStihprobegröÿer.DerGeneriSequential Sampling(GSS)Algorith-

mus[25℄benutztebenfallsdenAnsatzdessequentiellenSamplings.DerNutzergibtdabei

vor, wie gut die gefundene Lösung sein soll und wie groÿdie Irrtumswahrsheinlihkeit

seindarf.AuÿerdemkannuntervershiedenenNutzenfunktionengewähltwerden,sodass

(21)

sihderAlgorithmusprinzipiellsowohlfürdieLernaufgabeKonzeptlernenausBeispielen

als auh für dieSubgruppenentdekung eignet und für Letztere untershiedlihe Deni-

tionen von Interessantheit zulässt. In den nähsten Abshnitten werden die formalen

Grundlagen und der GSS Algorithmus erläutert sowie Shranken für die Qualität und

benötigte Beispielanzahleiniger populärerNutzenfunktionen angegeben.

4.1.1 Grundlagen

Das Hauptanwendungsgebiet des GSS Algorithmus besteht in der Subgruppenentde-

kung. Der Hypothesenraum kann beliebig sein, solange es möglih ist, ihn geordnet

aufzuzählen. Ein Beispiel für einen geordneten Hypothesenraum sind die bereits ange-

sprohenen Regeln aus konjunktiv verknüpften Literalen. Die Menge der gefundenen

Hypothesen in derAusgabe desAlgorithmus wirddurh einen vom Nutzer festgelegten

Parameter k bestimmt. In derbenutzten Terminologie spriht man vom k-beste Hypo-

thesenProblem.DadiekbestenHypothesenbzw.ihrNutzenaufBasiseinerStihprobe

bestimmt werden, ist niht garantiert, dasssie auh für diegesamtenTrainingsmenge T

optimal sind. Man deniert für diesen Fall das approximativ k-beste Hypothesen Pro-

blem.

Denition 15. (Dasapproximativ k-beste Hypothesen Problem)

Gegeben sind eine Trainingsmenge T von Instanzen aus dem Instanzenraum X, eine

Nutzenfunktion q und ein Hypothesenraum H. Desweiteren seien k die gesuhte Anzahl

an Lösungen,

ǫ ∈ IR ⁺

^der ^maximal ^zulässige ^Fehler ^und

δ, 0 < δ ≤ 1

^die ^gewünshte

Irrtumswahrsheinlihkeit. Das approximativ k-beste Hypothesen Problem besteht darin

eineMenge

G ⊆ H

^der^Gröÿe^k^zu ^nden,^so^dass^es^mit^Kondenz

1 − δ

^keine^Hypothese

h ^′ ∈ H

^gibt, ^für ^die^gilt:

h ^′ 6∈ G und q(h ^′ , T ) > q min + ǫ.

Hierbei bezeihnet

q min

^den^Nutzen^der^bezüglih^q shlehtesten derk Hypotheseninder Menge G:

q _min := min _h _∈ _G q(h, T ).

Zu beahten ist, dassdas Problem bezüglih der Trainingsmenge Tund niht bezüg-

lihdesInstanzenraumesXdeniertist.DaimmermiteinemstatistishenVerfahrenein

unbekannter wahrer Nutzen einer Hypothese aufgrundeiner Stihprobe geshätzt wird,

maht es keinen Untershied, ob es sih um den Nutzen der Hypothese bezüglih der

wesentlih gröÿeren gesamten Trainingsmenge oder des Instanzenraumes handelt. Die

AussageistinbeidenFällengültig,sodassauhstatt derTrainingsmengeTderInstan-

zenraum X verwendet werdenkann.

Es kann leiht passieren, dass eine der Hypothesen nah wenigen gezogenen Beispielen

shon einen sehr guten Nutzenhat. Dieses kann beigeringer Beispielanzahl zufällig be-

dingt sein.Manbetrahte als Beispielfür ein Zufallsexperiment daswiederholte Werfen

einer fairen Münze, bei der die mit p bezeihnete Wahrsheinlihkeit für Kopf 0.5 be-

trägt. Gemäÿ der Tabelle der Binomialverteilung beträgt die Wahrsheinlihkeit, dass

nah drei Münzwürfen dreimal Kopf geworfen wurde, 0.125. Damit ist dieser Fall niht

unrealistish; es wäre aber niht gerehtfertigt p=1, als Shätzung für die Wahrshein-

lihkeit für Kopf anzugeben. Daher wird zusätzlih eine Kondenzshranke angegeben,

(22)

welhe für die durhgeführte Anzahl von Zufallsexperimenten m und die gegebene Irr-

tumswahrsheinlihkeit

δ

êinÎntervallûm^den^geshätzten^Wêrt^für^p^festlegt.^Der^wahre

Wertfür pliegtmitWahrsheinlihkeit bzw. Kondenz

1 − δ

^innerhalb^diesesIntervalls.

DasBeispieldeswiederholten Münzwurfeslässtsihanalogauf denFall übertragen, bei

dem derWert einer Nutzenfunktionnah wiederholter Durhführung des Zufallsexperi-

mentes Ziehen eines Beispiels x aus der Trainingsmenge T` geshätzt wird. Abhängig

vondergewünshtenKondenzundderbishergezogenenAnzahlvonBeispielenwirdei-

neKondenzshranke angegeben,sodassderwahreNutzenderbetrahtetenHypothese

mit Kondenz

1 − δ

îm ^durh ^diese ^Shranke ^bestimmtenÎntervall ûm ^den ^geshätzten

Nutzenliegt.

Denition 16. (Kondenzintervall für denNutzen)

Seien Trainingsmenge T, Nutzenfunktion q und Hypothesenraum H gegeben. Für eine

Hypothese

h ∈ H

^bezeihnet ^q(h,T) ^den ^Nutzen ^von ^h ^für ^die ^gesamte ^Trainingsmenge T und

q(h, Q ˆ _m )

^den ^Nutzen ^von ^h ^auf ^einer ^Stihprobe

Q _m ⊆ T

^der ^Gröÿe ^m. ^Dann ^ist

E : IN × IR → IR

^eine ^Kondenzshr^anke ^für ^den ^Nutzen ^q, ^falls ^für ^jede Fehlerwahr- sheinlihkeit

δ, 0 < δ ≤ 1

^gilt:

P r[ | q(h, Q ˆ m ) − q(h, T ) | ≤ E(m, δ)] ≥ 1 − δ.

Wie durh die Betragsstrihe deutlih wird, handelt es sih umein zweiseitiges Kon-

denzintervall.

E(m, δ)

^liefert ^einen ^Wert

ǫ

^,^so ^dass ^für ^die ^gegebene Stihprobengröÿe mmit Kondenz

1 − δ

^der^wahre^Wert^der Nutzenfunktionindem durh

ǫ

^bestimmten

Intervall umden geshätzten Nutzen liegt.Für kleine Fehlerwahrsheinlihkeiten

δ

^liegt

die Kondenz nahe bei eins. In diesem Fall wird das Kondenzintervall um

q(h, Q ˆ m )

groÿ.Ein UntershiedzumZufallsexperimentdeswiederholtenMünzwurfesbestehtdar-

in,dassdie Nutzenfunktionniht aufeineeinfahe Wahrsheinlihkeit beshränktist;es

muss nur möglih sein, ein Kondenzintervall für sie anzugeben. Eine wihtige Eigen-

shaft des Kondenzintervalles ist, dass es mit steigender Beispielanzahl immer kleiner

wirdund shlieÿlih ganz vershwindet. D.h. für alle möglihen Werte von

ǫ

^und

δ

^,^gibt

eseineStihprobengröÿe m,sodass

E(m, δ) ≤ ǫ

^ist.^Der ^GSSAlgorithmus erlaubt,dass einKondenzintervall vonden Eigenshafteneiner Hypotheseh,wie z.B.derStandard-

abweihung desNutzens vonh,abhängt. Verdeutliht wirddiesesdurhden Indexh bei

derKondenzshranke

E h (m, δ)

^.

4.1.2 Algorithmus

In Tabelle 4.1 ist der GSSAlgorithmus angegeben. Es kann bewiesen werden, dass der

Algorithmus terminiertunddasapproximativk-besteHypothesen Problemlöst [25 ℄.An

drei Stellenwerdendie im vorangegangenen Abshnitt eingeführten Kondenzintervalle

berehnet,dieebensowiedieAufteilungvon

δ

^und

ǫ

^einer^näherenErläuterungbedürfen.

In Shritt 2 des Algorithmus wird die maximale Beispielanzahl M berehnet, nah der

siher ist, dass die Abweihung des geshätzten empirishen Nutzens jeder Hypothese

h ∈ H

ⁱⁿ^beide^Rihtungen^höhstens

₂ ^ǫ

^beträgt.^M^bezeihnet^zugleih^die^maximale^An-

zahlvonShleifendurhläufeninShritt3.WirddiemaximaleBeispielanzahlMerreiht,

steht mit gewünshter Kondenz fest,dass der wahre Nutzen derHypothesen maximal

ǫ

2

^um^den^geshätzten^Nutzen^shwankt.^Es^können ^dannⁱⁿ^Shritt⁴^die^k-besten^Hypo-

thesen ausgegeben werden, da selbst imshlehtesten Fall der maximal zulässigeFehler

(23)

Eingabe:

X, T, k, q, δ, ǫ

Ausgabe: Die approximativ k-besten Hypothesen mit Maximalfehler

ǫ

^und ^Kondenz

1 − δ

1. Initialisierung.

a) Erzeuge H,dieMenge allerHypothesen für den InstanzenraumX.

b) Setzei=1 (Shleifenzähler).

) Sei

Q ₀ = ∅

^.

2. Berehne diekleinsteZahlM, sodass

E(M, ₂ _| ^δ _H _| ) ≤ ₂ ^ǫ

^ist.

3. do

a) Ziehe zufällig mit Zurüklegen eine Instanz

x _i

^aus ^T ^und ^füge ^sie

Q _i

^hinzu:

Q i = Q i − 1 ∪ x i

^.

b) Aktualisiere den empirishen Nutzen

q(h, Q ˆ i )

^aller verbliebenen Hypothesen

h ∈ H

^.

) BestimmedieMenge

H ^∗

^der^Hypothesen

h ∈ H

^,^die^den^gröÿten^empirishen

Nutzen

q(h, Q ˆ i )

^haben.

d) for(

h ∈ H

⁾^do

i. if (

q(h, Q ˆ _i ) − E _h (i, _2M ^δ

| H | ) ≥ max _h ′

∈ H \ H ^∗

n q(h ˆ ^′ , Q _i ) + E _h ′ (i, _2M ^δ

| H | ) ^o − ǫ

und

h ∈ H ^∗

⁾

•

^Ausgabe^h.

•

^Entferne ^h^aus^H.

•

^Setze ^k=k-1.

•

^Berehne

H ^∗

^neu.

ii. if (

q(h, Q ˆ i ) + E h (i, _2M ^δ _| _H _| ) ≤ min _h ′

∈ H ^∗

n q(h ˆ ^′ , Q i ) − E _h ′ (i, _2M ^δ _| _H _| ) ^o

⁾

•

^Entferne ^h^aus^H.

e) Setzei=i+1.

while(

k 6 = 0

^und

| H | 6 = k

^und

E(i, ₂ _| ^δ _H _| ) > ₂ ^ǫ

⁾

4. Gib dieverbliebenen kHypothesenin

H ^∗

^aus.

Abbildung 4.1:Der GeneriSequential SamplingAlgorithmus

(24)

0 0.2 0.4 0.6 0.8 1

h4 h3

h2 h1

Nutzen

Hypothesen

ε 4 Hypothesen

k=2

keine Ausgabe!

Verwerfen!

untere Schranke der k-besten Hypothesen obere Schranke der restlichen Hypothesen

0 0.2 0.4 0.6 0.8 1

h4 h3

h2 h1

Nutzen

Hypothesen

ε 4 Hypothesen

k=2

Ausgabe!

untere Schranke der k-besten Hypothesen obere Schranke der restlichen Hypothesen

Abbildung 4.2:Funktionsweise desGSSAlgorithmus inShritt 3d

(25)

ǫ

^niht übershritten wird. Dieser Fall tritt ein, wenn der wahre Nutzen dershlehtes- tenausgegebenen Hypotheseum

ǫ

2

^nah ^unten^abweiht,^während^der ^wahre^Nutzen^der

besten Hypothese, dieniht ausgegeben wurde,um

ǫ

2

^nah^oben ^abweiht.

VonderzurVerfügungstehenden Irrtumswahrsheinlihkeit

δ

^wird^jeweils

^δ ₂

^für ^die^Be-

rehnungderKondenzintervalle inderAbbruhbedingungder Shleife inShritt 3 und

innerhalb der Shleife (Shritt 3d) benutzt. Trit die Abbruhbedingung der Shleife

zu,wurde für jede verbliebene Hypothese einKondenzintervall berehnet. Daher istes

nötig, dieIrrtumswahrsheinlihkeit auf alle verbliebenen Hypothesen zu verteilen. Der

wahreNutzen einer Hypothese liegtdann nur mit einer Wahrsheinlihkeit von

δ 2 | H |

^au-

ÿerhalb des Kondenzintervalles um ihren geshätzten Nutzen. Es bleibt zu klären, ob

dadurh dieIrrtumswahrsheinlihkeit von

δ

2

eingehalten wird.Der Fall,dass derwahre Nutzen einer Hypothese auÿerhalb desKondenzintervalles liegt, wird alsnegativesEr-

eignisbezeihnet. Dasnegative Ereignis trittfür jedeHypothesemit Wahrsheinlihkeit

δ

2 | H |

êin. Ês êrgibt ^sih êine^Menge ^von Ereignissen, die alle diegleihe Wahrsheinlih- keit haben. Die Booleshe Ungleihung (Union Bound)besagt,dass für eineMenge von

Ereignissen die Wahrsheinlihkeit, dass mindestens eines dieser Ereignis eintritt, niht

gröÿer ist als die Summe der Wahrsheinlihkeiten aller Ereignisse. Damit wird insge-

samtdieIrrtumswahrsheinlihkeitvon

δ

2

eingehalten.InShritt3ddesGSSAlgorithmus wirdmit deranderen Hälfte derIrrtumswahrsheinlihkeit injedem Shleifendurhlauf

ein Kondenzintervall für alle verbliebenen Hypothesen berehnet. Da die Shleife im

shlehtesten FallM-maldurhlaufenwird,mussdieseHälfte derIrrtumswahrsheinlih-

keit zusätzlih durh M geteilt werden. Die Einhaltung der Irrtumswahrsheinlihkeit

folgt wieder aus der booleshen Ungleihung. Das Vorgehen des Algorithmus in Shritt

3d wird inAbbildung 4.2verdeutliht. Exemplarish sind Nutzen und die Kondenzin-

tervalle vonvierHypothesen dargestellt. GroÿeKondenzintervalle bedeuten, dassniht

viel über die Qualität der Hypothese bekannt ist und der wahre Nutzen stark von der

Shätzungabweihen kann.Wihtigistzumeinendiedurhdieshlehteste derkbesten

Hypothesen und deren Kondenzintervall festgelegte untere Shranke. Jede Hypothese,

die für den Fall, dass ihr wahrer Nutzen am oberen Ende der durh ihren geshätzten

Nutzenund Kondenzintervall festgelegtenReihweite liegt, shlehterist alsdieuntere

Shranke, kann verworfenwerden. Es istfür diegewünshte Kondenzsiher,dass noh

kbessereHypothesenvorhanden sind.Zum anderenist diedurh(k+1)-besteHypothe-

se, deren Kondenzintervall und

ǫ

festgelegte obere Shranke von Bedeutung. Gilt für einederk-bestenHypothesen,dass ihrNutzenauhim shlehtesten Fallnohüberder

Shranke liegt,kannsieausgegeben werden. Esist siher, dasssiefürdiegegebeneKon-

denz

1 − δ

^und^den^maximalen^F^ehler

ǫ

^gut ^genug^ist,^um^zu^denapproximativk-besten Hypothesenzu gehören.Dasfrühzeitige Ausgebenbzw. VerwerfenvonHypothesenkann

dazu führen, dass der Algorithmus terminiert bevor die maximale nötige Anzahl von

Beispielen gezogen wurde, wenn vorher shon alle k Lösungen gefunden wurden.In der

Praxis kommt dieses häug vor und ist essentiellfür eine guteLaufzeit. Der Vorteildes

Tests inShritt 3d beginnt sih auszuwirken, sobalddie erste Hypothese ausH gelösht

wird.MitjedergelöshtenHypothesewird|H|kleiner und

δ

^muss^auf^weniger^Hypothe-

sen verteilt werden, wodurh dieberehneten Kondenzintervalle besserwerden. Dieses

mahtdeutlih,dasskomplexe(groÿe)Hypothesenräume fürdenAlgorithmus problema-

tishsind. InderPraxismussdieKomplexität beshränktwerden. Insbesondere müssen

numerisheAttributediskretisiertwerden,daessonstnihtmöglihist,denHypothesen-

(26)

raumkomplettaufzuzählen. EinweiteresProblemfürdieLaufzeit istdieAufteilungder

Irrtumswahrsheinlihkeit auf alle MShleifendurhläufe. Der Wertvon M kann abhän-

gigvombetrahteten HypothesenraumundgegebenerNutzenfunktionsehrgroÿwerden

(Kapitel4.1.3). Es bietet sih an,Shritt 3d niht injedem Shleifendurhlauf durhzu-

führenundMentsprehend zuverkleinern.DadurhwerdenkleinereKondenzintervalle

möglihundesmüssennihtinjedemShleifendurhlaufalleBerehnungen durhgeführt

werden. Diese und andere Verbesserungen des GSS Algorithmus werden inKapitel 5.1

beshrieben. Fürvershiedene Nutzenfunktionenergebensihvershiedene Kondenzin-

tervalle und starkuntershiedlihe Wertefür M.

4.1.3 Kondenzintervalle für vershiedene Nutzenfunktionen

In [25℄ werden Kondenzintervalle für populäre Nutzenfunktionen hergeleitet. Das wie-

derholteZieheneinesBeispielsimGSSAlgorithmusentsprihtdemZufallsexperimentdes

Ziehens mit Zurüklegen. Handelt es sih bei der betrahteten Nutzenfunktionum eine

Wahrsheinlihkeit wie esbeiderAurayderFall ist,unterliegt dienahmVersuhen

beobahtete relative Häugkeit der Binomialverteilung. Mit der Hoeding-Ungleihung

[17 ℄ istmöglih,für dieabsoluteSumme

X = ^P ^m _i=1 X i

beshränkter Zufallsvariablen

X i

eineShrankefürdieWahrsheinlihkeitanzugeben,mitderXweitvomerwartetenWert

liegt. Nehmendie

X _i

^W^erte ^zwishen ⁰ ^und

Λ

^an,^so^gilt:

P r[ | X − E(X) | ≤ ǫ] ≥ 1 − 2exp (

− 2m ǫ ² Λ ²

) .

Analog ist diese Abshätzung möglih, wenn X eine relative Häugkeit und derErwar-

tungswert E(X) die zugehörige Wahrsheinlihkeit ist. Für sehr groÿe m kann die Bi-

nomialverteilung nah dem zentralen Grenzwertsatz[9℄ durh die Normalverteilung ap-

proximiert werden. MitHilfe derNormalverteilung können engere Shranken berehnet

werden als mit der Hoeding-Ungleihung. Daher wird für groÿe m angenommen, dass

dieAbweihungendesgeshätztenvomwahrenNutzenderNormalverteilungunterliegen.

DasKondenzintervall wirdmit HilfederNormalverteilung berehnet.

Als einführendes Beispiel für die Berehnung eines Kondenzintervalles dienen Nut-

zenfunktionen, die berehnet werden, indem man den Durhshnitt über eine Instanz-

nutzenfunktionbildet(Instane-Averaging Funktionen).BeiderAurayhandeltessih

um eine solhe Funktion. Für diesen Typ ist die Instanznutzenfunktion

q _inst (h, x _i )

^für

eineHypotheseh undeine einzelneInstanz

x i

^deniert^als

q inst (h, x i ) =

( 1, f alls h eine korrekte V orhersage f ur x ¨ _i macht, 0, f alls h eine f alsche V orhersage f ¨ ur x i macht.

Für eine Trainingsmenge T der Gröÿe n und eine Hypothese h ergibt sih dann der

Nutzenqals

q(h, T ) = 1 n

n

X

i=1

q _inst (h, x _i ).

VerwendetmaninderHoeding-UngleihungdennahmgezogenenBeispielengeshätz-

tenempirishen Nutzen

q(Q ˆ m , h)

âls ^relative ^F^requenzûnd ^den ^wahren^Wêrt ^q(T,h) âls

(27)

zugehörigeWahrsheinlihkeit,istdieWahrsheinlihkeit,dassdieAbweihungvonwah-

remund geshätztemNutzenauÿerhalb des Kondenzintervalles

E(m, δ)

^liegt^durh

P r[ | q(Q ˆ m , h) − q(T, h) | > E(m, δ)] ≤ 2exp (

− 2m E(m, δ) ² Λ ²

)

beshränkt. Zu beahten ist, dass die Gegenwahrsheinlihkeit benutzt wird, da anders

als in der Denition der Hoeding-Ungleihung hier die Wahrsheinlihkeit dafür, dass

derbeobahtete Wert auÿerhalb desKondenzintervalles liegt,abgeshätzt wird.Wählt

man die Kondenzshranke abhängig von der Beispielanzahl m und der gewünshten

Irrtumswahrsheinlihkeit

δ

^als

E(m, δ) = s

Λ ² 2m log 2

δ

und berüksihtigt, dass für diesen Typ von Nutzenfunktionen

Λ = 1

^ist, ^wird ^die ^Irr-

tumswahrsheinlihkeit eingehalten:

2exp



 

 

− 2m



 s

Λ ² 2m log 2

δ





2 

 

 

≤ 2exp

− log 2 δ

= δ.

Nun müssen die Kondenzshranken für die Approximation durh die Normalvertei-

lungbestimmt werden.

q(h, Q ˆ _m ) − q(h)

^ist ^eine Zufallsvariable mit Mittelwert 0,wobei

ˆ

q(h, Q m )

^W^erte^zwishen⁰^und

Λ

^annimmt.^Um^dieNormalverteilungberehnenzukön- nen, wird die Standardabweihung benötigt. In der Abbruhbedingung inShritt 3 des

GSSAlgorithmus wirddasKondenzintervall ohneBezugzu einerkonkretenHypothese

berehnet.DeshalbmussandieserStellediegröÿtmögliheStandardabweihung verwen-

detwerden. Das Kondenzintervall, welhes manauf diese Weise erhält, ist aberimmer

noh kleiner als dasmit der Hoeding-Ungleihung bestimmteIntervall.Die empirishe

Standardabweihung

s _q(h,Q _ˆ _m ₎ ₋ _q(h) = 1 m

v u u t

m

X

i=1

(q inst (h, x i ) − q(h, Q ˆ m )) ²

wirdmaximiert,wenn

q(h, Q ˆ m ) = ^Λ ₂

^ist^und ^dieInstanznutzenfunktionen

q inst (h, x i )

^zur

Hälfte 0 und zur Hälfte

Λ

^beträgt. ^In ^diesem ^Fall ^beträgt ^sie

₂ √ ^Λ m

^. ^F^olglih ^unterliegt

2 √

m · ^q(h,Q ^ˆ ^m _Λ ⁾ ⁻ ^q(h)

^derStandardnormalverteilung und

E(m, δ) = z ₁ ₋ δ

2 · Λ

2 √ m

ist einegeeignete Kondenzshranke.

Bei

z ₁ ₋ ^δ

2

handelt essihum das

1 − ^δ ₂

^-Quantil ^derStandardnormalverteilung. InAb- bildung 4.3 ist die Dihtekurve der Standardnormalverteilung dargestellt. Für

δ = 0.1

bezeihnet

z ₁ ₋ δ 2

das durh den shraerten Bereih dargestellte 0.95-Quantil.

z ₁ ₋ δ 2

ist

derPunktaufderx-Ahse,sodass

(1 − ^δ ₂ )

^%^der^Flähe^unter^der^Kurve^derStandardnor- malverteilung links dieses Punktes liegen. Wählt man für eine standardnormalverteilte

(28)

Abbildung 4.3:Das0.95-Quantil derStandardnormalverteilung

Abbildung 4.4: Normalverteilung(shwarz) und t-Verteilung für 5(rot), 10(blau) sowie

15(grün) Freiheitsgrade

r → Y +, (2) Verwerfungsmethode und Regeln r → Y +, (3) unnormierte Gewihte und alle Regeln,(4)Verwerfungsmethode und alle Regeln . . . . 65

2

r → Y +

r → Y +

f : X → { 0, 1 }

x ∈ X

h ∈ H

f (x) 6 = h(x)

h ∈ H

error T (h) = 1 n

n

X

i=1

error(f (x), h(x)).

error(f (x), h(x)) = 0, f alls h(x) = f (x), sonst 0 (0 − 1 − loss).

RM SE T (h) :=

v u u t 1 n

n

X

i=1

(f (x) − h(x)) 2 .

D : X → IR +

h ∈ H

error D (h) = Z

x ∈ X

error(f (x), h(x)) D(x) dx,

error D (h) = s Z

x ∈ X

(f (x) − h(x)) 2 D(x) dx,

D : X → IR +

h ∗

h ∗ = argmin h ∈ H { error D (h) } .

P (X)

H × P (X) → IR

h ∈ H

¬P 1 ∨ ¬P 2 ∨ · · · ∨ ¬P N ∨ K .

P 1 ∧ P 2 ∧ · · · ∧ P N ⇒ K .

A → B

r = { x ∈ X | R ist auf x anwendbar } , ¯ r = X \ h.

Y + = { x ∈ X | x ist ein positives Beispiel } bzw. Y − = X \ Y + .

r → Y +

r → Y −

Y ∗

r → Y + [90%].

P r D [W ]

W ∈ X

r → Y ∗

COV (r → Y ∗ ) := P r[r].

r → Y ∗

P REC(r → Y ∗ ) := P r[Y ∗ | r].

r → Y ∗

BIAS(r → Y ∗ ) := P r[Y ∗ | r] − P r[Y ∗ ] = P REC (r → Y ∗ ) − P r[Y ∗ ].

r → Y ∗

LIF T (r → Y ∗ ) := P r[r ∩ Y ∗ ]

P r[r]P r[Y ∗ ] = P r[Y ∗ | r]

P r[Y ∗ ] = P REC(r → Y ∗ )

P r[Y ∗ ] .

LIF T (r → Y ∗ ) = 1

BIAS(r → Y ∗ ) = 0

LIF T (r → Y ∗ ) > 1

BIAS(r → Y ∗ ) > 0

0 ≤ LIF T (r → Y ∗ ) < 1

BIAS(r → Y ∗ ) < 0

r → Y ∗

ACC (r → Y ∗ ) := P r[r ∩ Y ∗ ] + P r[¯ r ∩ Y ¯ ∗ ].

W RACC (r → Y ∗ ) := COV (r → Y ∗ ) · BIAS(r → Y ∗ ).

SQU ARED(r → Y ∗ ) := COV (r → Y ∗ ) 2 · BIAS(r → Y ∗ )

r → Y ∗

P r[Y ∗ ]

H 0

H 1

H 0 : BIAS(r → Y ∗ ) = 0 und H 1 : BIAS(r → Y ∗ ) 6 = 0.

X i

X i =

( 1, f alls x ein Beispiel f ¨ ur die interessierende Klasse in der Subgruppe ist

0, sonst .

X = P m i=1 X i

H 0

H 0

H 0

r → Y ₊

r → Y ₊

(f (x) − h(x)) ² .

D : X → IR ⁺

error _D (h) = Z

error _D (h) = s Z

(f (x) − h(x)) ² D(x) dx,

D : X → IR ⁺

h ^∗

h ^∗ = argmin _h _∈ _H { error D (h) } .

Y ₊ = { x ∈ X | x ist ein positives Beispiel } bzw. Y ₋ = X \ Y ₊ .

r → Y ₋

Y _∗

r → Y _∗

COV (r → Y _∗ ) := P r[r].

r → Y _∗

P REC(r → Y _∗ ) := P r[Y _∗ | r].

r → Y _∗

BIAS(r → Y _∗ ) := P r[Y _∗ | r] − P r[Y _∗ ] = P REC (r → Y _∗ ) − P r[Y _∗ ].

r → Y _∗

LIF T (r → Y _∗ ) := P r[r ∩ Y _∗ ]

P r[r]P r[Y _∗ ] = P r[Y _∗ | r]

P r[Y _∗ ] = P REC(r → Y _∗ )

P r[Y _∗ ] .

LIF T (r → Y _∗ ) = 1

BIAS(r → Y _∗ ) = 0

LIF T (r → Y _∗ ) > 1

BIAS(r → Y _∗ ) > 0

0 ≤ LIF T (r → Y _∗ ) < 1

BIAS(r → Y _∗ ) < 0

r → Y _∗

ACC (r → Y _∗ ) := P r[r ∩ Y _∗ ] + P r[¯ r ∩ Y ¯ _∗ ].

W RACC (r → Y _∗ ) := COV (r → Y _∗ ) · BIAS(r → Y _∗ ).

SQU ARED(r → Y _∗ ) := COV (r → Y _∗ ) ² · BIAS(r → Y _∗ )

r → Y _∗

P r[Y _∗ ]

H ₀ : BIAS(r → Y _∗ ) = 0 und H ₁ : BIAS(r → Y _∗ ) 6 = 0.

X = ^P ^m _i=1 X i

H ₀

H ₀

P[Y _∗ ]

m · P r[Y _∗ ]

p m · P r[Y _∗ ](1 − P r[Y _∗ ])

Z = X − m · P r[Y _∗ ] p m · P r[Y _∗ ](1 − P r[Y _∗ ])

Z = X − m · P r[Y _∗ ]

p m · P r[Y _∗ ](1 − P r[Y _∗ ]) = m( _m ¹ X − P r[Y _∗ ])

√ m · ^p P r[Y _∗ ](1 − P r[Y _∗ ]) =

√ m · BIAS(r → Y _∗ ) p P r[Y _∗ ](1 − P r[Y _∗ ]) .

p P r[Y _∗ ](1 − P r[Y _∗ ])

√ m · BIAS(r → Y _∗ )

BIN OM IAL(r → Y _∗ ) := ^q COV (h → Y _∗ ) · BIAS(r → Y _∗ ).

ǫ ∈ IR ⁺

h ^′ ∈ H

h ^′ 6∈ G und q(h ^′ , T ) > q min + ǫ.

q _min := min _h _∈ _G q(h, T ).

q(h, Q ˆ _m )

Q _m ⊆ T

₂ ^ǫ

Q ₀ = ∅

E(M, ₂ _| ^δ _H _| ) ≤ ₂ ^ǫ

x _i

Q _i

H ^∗

q(h, Q ˆ _i ) − E _h (i, _2M ^δ

| H | ) ≥ max _h ′

∈ H \ H ^∗

n q(h ˆ ^′ , Q _i ) + E _h ′ (i, _2M ^δ