Der Generi Sequential Sampling Algorithmus

Kapitel 4.2 das Knowledge-Based Sampling vorgestellt. Um für die Lernaufgabe

Kon-zeptlernen aus Beispielen Vorhersagen überdas Zielattribut zu treen, wird eine

Kom-bination mehrerer Regeln benutzt, die mit dem GSS Algorithmus unter Einsatz von

Knowledge-Based Samplinggefundenwurden.Ein Verfahren zurKombination mehrerer

unterdemEinsatzvonKnowledge-BasedSamplinggefundererModelleistinKapitel4.2.4

beshrieben.UmdemGeneriSequentialSamplingAlgorithmus zuermöglihen,mit

nu-merishen Attributen umzugehen, bedarf es einer Methode zur Diskretisierung, wie sie

in Kapitel 4.3 vorgestellt ist. In Kapitel 5 wird mit dem Iterating Generi Sequential

Sampling Algorithmus einVerfahren zurKombination desGeneri Sequential Sampling

Algorithmus mit Knowledge-Based Samplingvorgestellt. Insbesondere ist indiesem

Ka-pitelbeshrieben, wie eineeziente Suhe ingroÿen Hypothesenräumen möglih ist.Es

werdenmehrereNahteiledesGeneriSequentialSamplingAlgorithmusbeshriebenund

möglihe Lösungen aufgezeigt. Auÿerdem werden eine Reihe von Erweiterungen

vorge-stellt.In Kapitel6 wurden mit demIteratingGeneri Sequential SamplingAlgorithmus

Experimente mit synthetishen und ehten Datensätzen durhgeführt. Zur Erzeugung

der synthetishen Datensätze bedurfte es der Erstellung eines geeigneten Werkzeuges.

Die Experimente dienten dabeidem Zwek,die folgendenFragenzu klären:

•

^Wie ^eignet ^sih ^das^Verfahren^zurSubgruppenentdekung?

•

^Wie^verändern^sih^der^Umfang^und^dieAussagekraftderLösungdurhdenEinsatz von Knowledge-Based Sampling?

•

^Wie ^ist ^die Vorhersagequalität der Kombination der einzelnen Regeln zu einem Gesamtmodell?

•

^Wie ^gut ^ist ^die Vorhersagequalität im Vergleih zu anderenMethoden für die Lö-sungderLernaufgabe Konzeptlernen ausBeispielen?

•

^Wie ^ist^die ^Laufzeit ^im^Vergleih ^zu ^anderen ^Methoden?

•

^Wie^wirkt^sih^dieVeränderungderNutzenfunktionaufQualitätundLaufzeitaus?

•

^W^elhe Auswirkungen hat die Verwendung von Hypothesenräumen untershiedli-her Komplexität aufLaufzeit und Qualität der Ergebnisse?

Ziel der Diplomarbeit ist die Untersuhung der Eignung der Kombination des Generi

Sequential Sampling Algorithmus mit Knowledge-Based Sampling für

Subgruppenent-dekung und Konzeptlernen ausBeispielen. Im Folgenden werden dieverwendeten

Ver-fahren näher erläutert sowie auf deren Vor- und Nahteile eingegangen. Die

Subgrup-penentdekungwirdmitdemGeneriSequentialSamplingAlgorithmus[25℄durhgeführt

(Kapitel4.1).Knowledge-Based Sampling [26℄stellt dieUnabhängigkeit dergefundenen

Subgruppen siher und ermögliht die Kombination der gefundenen Subgruppen, um

eine Vorhersage für das Zielattribut zu treen (Kapitel 4.2). Um den Umgang mit

nu-merishen Attributen zu ermöglihen, bedarf es shlieÿlih noh einer Diskretisierung

numerisherAttribute. EingeeignetesVerfahrenistdasReursive MinimalEntropy

Par-titioning [10℄, das in Kapitel 4.3 vorgestellt wird. Für eine Übersiht der verwendeten

Notationen verweise ih auf Anhang A.

4.1 Der Generi Sequential Sampling Algorithmus

WirdData Mining auf sehr groÿen Datenbanken betrieben, ist neben der Maximierung

derNutzenfunktion auh die Skalierbarkeit von Bedeutung. Für viele Anwendungen ist

es niht möglih, in akzetabler Zeit alle Daten zu verarbeiten. Eine möglihe

Strate-gie, ummit diesemProblemumzugehen, istmit einer zufälliggezogenen Stihprobe der

Datenzuarbeiten.Natürlihbedeutetdiesesneben derLaufzeitverkürzungund

Verklei-nerung des benötigten Speiherplatzes auh, dass niht mehr garantiert werden kann,

dass die gewonnenen Resultate identish sind mit denen für die gesamten Daten. Von

Bedeutungist hierbeiderUntershiedimNutzen.Es istwihtig, dasseinLernverfahren,

das nur auf einer Stihprobe der Daten arbeitet, dem Nutzer Garantien gibt, wie stark

sihdieResultate bezüglih desNutzens untersheiden. Es gibtzwei Möglihkeiten,wie

diese Garantien aussehen können. Zum einen kann für eine feste Stihprobengröÿe

be-rehnet werden, wie gut die Garantie für den Nutzen auf den gesamten Daten ist [12℄,

zumanderenkannvomBenutzereinefesteQualitätderLösungvorgegebenwerden.Das

Zielist,mit minimalmögliherStihprobengröÿediegeforderteQualität zugarantieren.

Letztgenannter Ansatz wird beim sequentiellen Sampling verfolgt, das im Bereih des

MashinellenLernens erstmalsimRahmen desHoedingRaeAlgorithmus[18 ℄ benutzt

wurde. Hierbeiwerden die Instanzen bzw. die Stihprobe inkrementellgezogen und der

Nutzen aller Hypothesen des betrahteten Hypothesenraumes gleihzeitig aktualisiert.

Wenn siher ist, dass eine Hypothese sehr gut bzw. shleht ist, gibt der Algorithmus

diese Hypothese als Lösungaus bzw. verwirft sie.Ein wihtiger Vorteilist, dassdie

Be-shaenheitderDatenberüksihtigtwird:ErlaubendieDatendieHypothesenshnellin

GutundShlehtzu separieren,werdennur wenigeBeispieleinderStihprobebenötigt,

ansonstenwirddieStihprobegröÿer.DerGeneriSequential Sampling(GSS)

Algorith-mus[25℄benutztebenfallsdenAnsatzdessequentiellenSamplings.DerNutzergibtdabei

vor, wie gut die gefundene Lösung sein soll und wie groÿdie Irrtumswahrsheinlihkeit

seindarf.AuÿerdemkannuntervershiedenenNutzenfunktionengewähltwerden,sodass

sihderAlgorithmusprinzipiellsowohlfürdieLernaufgabeKonzeptlernenausBeispielen

als auh für dieSubgruppenentdekung eignet und für Letztere untershiedlihe

Deni-tionen von Interessantheit zulässt. In den nähsten Abshnitten werden die formalen

Grundlagen und der GSS Algorithmus erläutert sowie Shranken für die Qualität und

benötigte Beispielanzahleiniger populärerNutzenfunktionen angegeben.

4.1.1 Grundlagen

Das Hauptanwendungsgebiet des GSS Algorithmus besteht in der

Subgruppenentde-kung. Der Hypothesenraum kann beliebig sein, solange es möglih ist, ihn geordnet

aufzuzählen. Ein Beispiel für einen geordneten Hypothesenraum sind die bereits

ange-sprohenen Regeln aus konjunktiv verknüpften Literalen. Die Menge der gefundenen

Hypothesen in derAusgabe desAlgorithmus wirddurh einen vom Nutzer festgelegten

Parameter k bestimmt. In derbenutzten Terminologie spriht man vom k-beste

Hypo-thesenProblem.DadiekbestenHypothesenbzw.ihrNutzenaufBasiseinerStihprobe

bestimmt werden, ist niht garantiert, dasssie auh für diegesamtenTrainingsmenge T

optimal sind. Man deniert für diesen Fall das approximativ k-beste Hypothesen

Pro-blem.

Denition 15. (Dasapproximativ k-beste Hypothesen Problem)

Gegeben sind eine Trainingsmenge T von Instanzen aus dem Instanzenraum X, eine

Nutzenfunktion q und ein Hypothesenraum H. Desweiteren seien k die gesuhte Anzahl

an Lösungen,

ǫ ∈ IR ⁺

^der ^maximal ^zulässige ^Fehler ^und

δ, 0 < δ ≤ 1

^die ^gewünshte

Irrtumswahrsheinlihkeit. Das approximativ k-beste Hypothesen Problem besteht darin

eineMenge

G ⊆ H

^der^Gröÿe^k^zu ^nden,^so^dass^es^mit^Kondenz

1 − δ

^keine^Hypothese

h ^′ ∈ H

^gibt, ^für ^die^gilt:

h ^′ 6∈ G und q(h ^′ , T ) > q min + ǫ.

Hierbei bezeihnet

q min

^den^Nutzen^der^bezüglih^q shlehtesten derk Hypotheseninder Menge G:

q _min := min _h _∈ _G q(h, T ).

Zu beahten ist, dassdas Problem bezüglih der Trainingsmenge Tund niht

bezüg-lihdesInstanzenraumesXdeniertist.DaimmermiteinemstatistishenVerfahrenein

unbekannter wahrer Nutzen einer Hypothese aufgrundeiner Stihprobe geshätzt wird,

maht es keinen Untershied, ob es sih um den Nutzen der Hypothese bezüglih der

wesentlih gröÿeren gesamten Trainingsmenge oder des Instanzenraumes handelt. Die

AussageistinbeidenFällengültig,sodassauhstatt derTrainingsmengeTder

Instan-zenraum X verwendet werdenkann.

Es kann leiht passieren, dass eine der Hypothesen nah wenigen gezogenen Beispielen

shon einen sehr guten Nutzenhat. Dieses kann beigeringer Beispielanzahl zufällig

be-dingt sein.Manbetrahte als Beispielfür ein Zufallsexperiment daswiederholte Werfen

einer fairen Münze, bei der die mit p bezeihnete Wahrsheinlihkeit für Kopf 0.5

be-trägt. Gemäÿ der Tabelle der Binomialverteilung beträgt die Wahrsheinlihkeit, dass

nah drei Münzwürfen dreimal Kopf geworfen wurde, 0.125. Damit ist dieser Fall niht

unrealistish; es wäre aber niht gerehtfertigt p=1, als Shätzung für die W

ahrshein-lihkeit für Kopf anzugeben. Daher wird zusätzlih eine Kondenzshranke angegeben,

welhe für die durhgeführte Anzahl von Zufallsexperimenten m und die gegebene

Irr-tumswahrsheinlihkeit

δ

^ein^Intervall^um^den^geshätzten^W^ert^für^p^festlegt.^Der^wahre

Wertfür pliegtmitWahrsheinlihkeit bzw. Kondenz

1 − δ

^innerhalb^diesesIntervalls.

DasBeispieldeswiederholten Münzwurfeslässtsihanalogauf denFall übertragen, bei

dem derWert einer Nutzenfunktionnah wiederholter Durhführung des

Zufallsexperi-mentes Ziehen eines Beispiels x aus der Trainingsmenge T` geshätzt wird. Abhängig

vondergewünshtenKondenzundderbishergezogenenAnzahlvonBeispielenwird

ei-neKondenzshranke angegeben,sodassderwahreNutzenderbetrahtetenHypothese

mit Kondenz

1 − δ

^im ^durh ^diese ^Shranke ^bestimmten^Intervall ^um ^den ^geshätzten

Nutzenliegt.

Denition 16. (Kondenzintervall für denNutzen)

Seien Trainingsmenge T, Nutzenfunktion q und Hypothesenraum H gegeben. Für eine

Hypothese

h ∈ H

^bezeihnet ^q(h,T) ^den ^Nutzen ^von ^h ^für ^die ^gesamte ^Trainingsmenge T und

q(h, Q ˆ _m )

^den ^Nutzen ^von ^h ^auf ^einer ^Stihprobe

Q _m ⊆ T

^der ^Gröÿe ^m. ^Dann ^ist

E : IN × IR → IR

^eine ^Kondenzshr^anke ^für ^den ^Nutzen ^q, ^falls ^für ^jede Fehlerwahr-sheinlihkeit

δ, 0 < δ ≤ 1

^gilt:

P r[ | q(h, Q ˆ m ) − q(h, T ) | ≤ E(m, δ)] ≥ 1 − δ.

Wie durh die Betragsstrihe deutlih wird, handelt es sih umein zweiseitiges

Kon-denzintervall.

E(m, δ)

^liefert ^einen ^Wert

ǫ

^,^so ^dass ^für ^die ^gegebene Stihprobengröÿe mmit Kondenz

1 − δ

^der^wahre^Wert^der Nutzenfunktionindem durh

ǫ

^bestimmten

Intervall umden geshätzten Nutzen liegt.Für kleine Fehlerwahrsheinlihkeiten

δ

^liegt

die Kondenz nahe bei eins. In diesem Fall wird das Kondenzintervall um

q(h, Q ˆ m )

groÿ.Ein UntershiedzumZufallsexperimentdeswiederholtenMünzwurfesbesteht

dar-in,dassdie Nutzenfunktionniht aufeineeinfahe Wahrsheinlihkeit beshränktist;es

muss nur möglih sein, ein Kondenzintervall für sie anzugeben. Eine wihtige

Eigen-shaft des Kondenzintervalles ist, dass es mit steigender Beispielanzahl immer kleiner

wirdund shlieÿlih ganz vershwindet. D.h. für alle möglihen Werte von

ǫ

^und

δ

^,^gibt

eseineStihprobengröÿe m,sodass

E(m, δ) ≤ ǫ

^ist.^Der ^GSSAlgorithmus erlaubt,dass einKondenzintervall vonden Eigenshafteneiner Hypotheseh,wie z.B.der

Standard-abweihung desNutzens vonh,abhängt. Verdeutliht wirddiesesdurhden Indexh bei

derKondenzshranke

E h (m, δ)

4.1.2 Algorithmus

In Tabelle 4.1 ist der GSSAlgorithmus angegeben. Es kann bewiesen werden, dass der

Algorithmus terminiertunddasapproximativk-besteHypothesen Problemlöst [25 ℄.An

drei Stellenwerdendie im vorangegangenen Abshnitt eingeführten Kondenzintervalle

berehnet,dieebensowiedieAufteilungvon

δ

^und

ǫ

^einer^näherenErläuterungbedürfen.

In Shritt 2 des Algorithmus wird die maximale Beispielanzahl M berehnet, nah der

siher ist, dass die Abweihung des geshätzten empirishen Nutzens jeder Hypothese

h ∈ H

ⁱⁿ^beide^Rihtungen^höhstens

₂ ^ǫ

^beträgt.^M^bezeihnet^zugleih^die^maximale

An-zahlvonShleifendurhläufeninShritt3.WirddiemaximaleBeispielanzahlMerreiht,

steht mit gewünshter Kondenz fest,dass der wahre Nutzen derHypothesen maximal

ǫ

2

^um^den^geshätzten^Nutzen^shwankt.^Es^können ^dannⁱⁿ^Shritt⁴^die^k-besten

Hypo-thesen ausgegeben werden, da selbst imshlehtesten Fall der maximal zulässigeFehler

Eingabe:

X, T, k, q, δ, ǫ

Ausgabe: Die approximativ k-besten Hypothesen mit Maximalfehler

ǫ

^und ^Kondenz

1 − δ

1. Initialisierung.

a) Erzeuge H,dieMenge allerHypothesen für den InstanzenraumX.

b) Setzei=1 (Shleifenzähler).

) Sei

Q ₀ = ∅

2. Berehne diekleinsteZahlM, sodass

E(M, ₂ _| ^δ _H _| ) ≤ ₂ ^ǫ

^ist.

3. do

a) Ziehe zufällig mit Zurüklegen eine Instanz

x _i

^aus ^T ^und ^füge ^sie

Q _i

^hinzu:

Q i = Q i − 1 ∪ x i

b) Aktualisiere den empirishen Nutzen

q(h, Q ˆ i )

^aller verbliebenen Hypothesen

h ∈ H

) BestimmedieMenge

H ^∗

^der^Hypothesen

h ∈ H

^,^die^den^gröÿten^empirishen

Nutzen

q(h, Q ˆ i )

^haben.

d) for(

h ∈ H

⁾^do

i. if (

q(h, Q ˆ _i ) − E _h (i, _2M ^δ

| H | ) ≥ max _h ′

∈ H \ H ^∗

n q(h ˆ ^′ , Q _i ) + E _h ′ (i, _2M ^δ

| H | ) ^o − ǫ

und

h ∈ H ^∗

⁾

•

^Ausgabe^h.

•

^Entferne ^h^aus^H.

•

^Setze ^k=k-1.

•

^Berehne

H ^∗

^neu.

ii. if (

q(h, Q ˆ i ) + E h (i, _2M ^δ _| _H _| ) ≤ min _h ′

∈ H ^∗

n q(h ˆ ^′ , Q i ) − E _h ′ (i, _2M ^δ _| _H _| ) ^o

⁾

•

^Entferne ^h^aus^H.

e) Setzei=i+1.

while(

k 6 = 0

^und

| H | 6 = k

^und

E(i, ₂ _| ^δ _H _| ) > ₂ ^ǫ

⁾

4. Gib dieverbliebenen kHypothesenin

H ^∗

^aus.

Abbildung 4.1:Der GeneriSequential SamplingAlgorithmus

0 0.2 0.4 0.6 0.8 1

h4 h3

h2 h1

Nutzen

Hypothesen

ε 4 Hypothesen

k=2

keine Ausgabe!

Verwerfen!

untere Schranke der k-besten Hypothesen obere Schranke der restlichen Hypothesen

0 0.2 0.4 0.6 0.8 1

h4 h3

h2 h1

Nutzen

Hypothesen

ε 4 Hypothesen

k=2

Ausgabe!

untere Schranke der k-besten Hypothesen obere Schranke der restlichen Hypothesen

Abbildung 4.2:Funktionsweise desGSSAlgorithmus inShritt 3d

ǫ

^niht übershritten wird. Dieser Fall tritt ein, wenn der wahre Nutzen der shlehtes-tenausgegebenen Hypotheseum

ǫ

2

^nah ^unten^abweiht,^während^der ^wahre^Nutzen^der

besten Hypothese, dieniht ausgegeben wurde,um

ǫ

2

^nah^oben ^abweiht.

VonderzurVerfügungstehenden Irrtumswahrsheinlihkeit

δ

^wird^jeweils

^δ ₂

^für ^die

Be-rehnungderKondenzintervalle inderAbbruhbedingungder Shleife inShritt 3 und

innerhalb der Shleife (Shritt 3d) benutzt. Trit die Abbruhbedingung der Shleife

zu,wurde für jede verbliebene Hypothese einKondenzintervall berehnet. Daher istes

nötig, dieIrrtumswahrsheinlihkeit auf alle verbliebenen Hypothesen zu verteilen. Der

wahreNutzen einer Hypothese liegtdann nur mit einer Wahrsheinlihkeit von

δ 2 | H |

au-ÿerhalb des Kondenzintervalles um ihren geshätzten Nutzen. Es bleibt zu klären, ob

dadurh dieIrrtumswahrsheinlihkeit von

δ

2

eingehalten wird.Der Fall,dass derwahre Nutzen einer Hypothese auÿerhalb desKondenzintervalles liegt, wird alsnegatives

Er-eignisbezeihnet. Dasnegative Ereignis trittfür jedeHypothesemit Wahrsheinlihkeit

δ

2 | H |

^ein. ^Es ^ergibt ^sih ^eine^Menge ^von Ereignissen, die alle diegleihe W ahrsheinlih-keit haben. Die Booleshe Ungleihung (Union Bound)besagt,dass für eineMenge von

Ereignissen die Wahrsheinlihkeit, dass mindestens eines dieser Ereignis eintritt, niht

gröÿer ist als die Summe der Wahrsheinlihkeiten aller Ereignisse. Damit wird

insge-samtdieIrrtumswahrsheinlihkeitvon

δ

2

eingehalten.InShritt3ddesGSSAlgorithmus wirdmit deranderen Hälfte derIrrtumswahrsheinlihkeit injedem Shleifendurhlauf

ein Kondenzintervall für alle verbliebenen Hypothesen berehnet. Da die Shleife im

shlehtesten FallM-maldurhlaufenwird,mussdieseHälfte der

Irrtumswahrsheinlih-keit zusätzlih durh M geteilt werden. Die Einhaltung der Irrtumswahrsheinlihkeit

folgt wieder aus der booleshen Ungleihung. Das Vorgehen des Algorithmus in Shritt

3d wird inAbbildung 4.2verdeutliht. Exemplarish sind Nutzen und die

Kondenzin-tervalle vonvierHypothesen dargestellt. GroÿeKondenzintervalle bedeuten, dassniht

viel über die Qualität der Hypothese bekannt ist und der wahre Nutzen stark von der

Shätzungabweihen kann.Wihtigistzumeinendiedurhdieshlehteste derkbesten

Hypothesen und deren Kondenzintervall festgelegte untere Shranke. Jede Hypothese,

die für den Fall, dass ihr wahrer Nutzen am oberen Ende der durh ihren geshätzten

Nutzenund Kondenzintervall festgelegtenReihweite liegt, shlehterist alsdieuntere

Shranke, kann verworfenwerden. Es istfür diegewünshte Kondenzsiher,dass noh

kbessereHypothesenvorhanden sind.Zum anderenist diedurh(k+1)-beste

Hypothe-se, deren Kondenzintervall und

ǫ

festgelegte obere Shranke von Bedeutung. Gilt für einederk-bestenHypothesen,dass ihrNutzenauhim shlehtesten Fallnohüberder

Shranke liegt,kannsieausgegeben werden. Esist siher, dasssiefürdiegegebene

Kon-denz

1 − δ

^und^den^maximalen^F^ehler

ǫ

^gut ^genug^ist,^um^zu^denapproximativk-besten Hypothesenzu gehören.Dasfrühzeitige Ausgebenbzw. VerwerfenvonHypothesenkann

dazu führen, dass der Algorithmus terminiert bevor die maximale nötige Anzahl von

Beispielen gezogen wurde, wenn vorher shon alle k Lösungen gefunden wurden.In der

Praxis kommt dieses häug vor und ist essentiellfür eine guteLaufzeit. Der Vorteildes

Tests inShritt 3d beginnt sih auszuwirken, sobalddie erste Hypothese ausH gelösht

wird.MitjedergelöshtenHypothesewird|H|kleiner und

δ

^muss^auf^weniger

Hypothe-sen verteilt werden, wodurh dieberehneten Kondenzintervalle besserwerden. Dieses

mahtdeutlih,dasskomplexe(groÿe)Hypothesenräume fürdenAlgorithmus

problema-tishsind. InderPraxismussdieKomplexität beshränktwerden. Insbesondere müssen

numerisheAttributediskretisiertwerden,daessonstnihtmöglihist,den

Hypothesen-raumkomplettaufzuzählen. EinweiteresProblemfürdieLaufzeit istdieAufteilungder

Irrtumswahrsheinlihkeit auf alle MShleifendurhläufe. Der Wertvon M kann

abhän-gigvombetrahteten HypothesenraumundgegebenerNutzenfunktionsehrgroÿwerden

(Kapitel4.1.3). Es bietet sih an,Shritt 3d niht injedem Shleifendurhlauf

durhzu-führenundMentsprehend zuverkleinern.DadurhwerdenkleinereKondenzintervalle

möglihundesmüssennihtinjedemShleifendurhlaufalleBerehnungen durhgeführt

werden. Diese und andere Verbesserungen des GSS Algorithmus werden inKapitel 5.1

beshrieben. Fürvershiedene Nutzenfunktionenergebensihvershiedene

Kondenzin-tervalle und starkuntershiedlihe Wertefür M.

4.1.3 Kondenzintervalle für vershiedene Nutzenfunktionen

In [25℄ werden Kondenzintervalle für populäre Nutzenfunktionen hergeleitet. Das

wie-derholteZieheneinesBeispielsimGSSAlgorithmusentsprihtdemZufallsexperimentdes

Ziehens mit Zurüklegen. Handelt es sih bei der betrahteten Nutzenfunktionum eine

Wahrsheinlihkeit wie esbeiderAurayderFall ist,unterliegt dienahmVersuhen

beobahtete relative Häugkeit der Binomialverteilung. Mit der Hoeding-Ungleihung

[17 ℄ istmöglih,für dieabsoluteSumme

X = ^P ^m _i=1 X i

beshränkter Zufallsvariablen

X i

eineShrankefürdieWahrsheinlihkeitanzugeben,mitderXweitvomerwartetenWert

liegt. Nehmendie

X _i

^W^erte ^zwishen ⁰ ^und

Λ

^an,^so^gilt:

Analog ist diese Abshätzung möglih, wenn X eine relative Häugkeit und der

Erwar-tungswert E(X) die zugehörige Wahrsheinlihkeit ist. Für sehr groÿe m kann die

Bi-nomialverteilung nah dem zentralen Grenzwertsatz[9℄ durh die Normalverteilung

ap-proximiert werden. MitHilfe derNormalverteilung können engere Shranken berehnet

werden als mit der Hoeding-Ungleihung. Daher wird für groÿe m angenommen, dass

dieAbweihungendesgeshätztenvomwahrenNutzenderNormalverteilungunterliegen.

DasKondenzintervall wirdmit HilfederNormalverteilung berehnet.

Als einführendes Beispiel für die Berehnung eines Kondenzintervalles dienen

Nut-zenfunktionen, die berehnet werden, indem man den Durhshnitt über eine

Instanz-nutzenfunktionbildet(Instane-Averaging Funktionen).BeiderAurayhandeltessih

um eine solhe Funktion. Für diesen Typ ist die Instanznutzenfunktion

q _inst (h, x _i )

^für

eineHypotheseh undeine einzelneInstanz

x i

^deniert^als

q inst (h, x i ) =

( 1, f alls h eine korrekte V orhersage f ur x ¨ _i macht, 0, f alls h eine f alsche V orhersage f ¨ ur x i macht.

Für eine Trainingsmenge T der Gröÿe n und eine Hypothese h ergibt sih dann der

Nutzenqals

VerwendetmaninderHoeding-UngleihungdennahmgezogenenBeispielen

geshätz-tenempirishen Nutzen

q(Q ˆ m , h)

^als ^relative ^F^requenz^und ^den ^wahren^W^ert ^q(T,h) ^als

zugehörigeWahrsheinlihkeit,istdieWahrsheinlihkeit,dassdieAbweihungvon

wah-remund geshätztemNutzenauÿerhalb des Kondenzintervalles

E(m, δ)

^liegt^durh

P r[ | q(Q ˆ m , h) − q(T, h) | > E(m, δ)] ≤ 2exp (

− 2m E(m, δ) ² Λ ²

)

beshränkt. Zu beahten ist, dass die Gegenwahrsheinlihkeit benutzt wird, da anders

als in der Denition der Hoeding-Ungleihung hier die Wahrsheinlihkeit dafür, dass

derbeobahtete Wert auÿerhalb desKondenzintervalles liegt,abgeshätzt wird.Wählt

man die Kondenzshranke abhängig von der Beispielanzahl m und der gewünshten

Irrtumswahrsheinlihkeit

δ

^als

und berüksihtigt, dass für diesen Typ von Nutzenfunktionen

Λ = 1

^ist, ^wird ^die

Irr-tumswahrsheinlihkeit eingehalten:

Nun müssen die Kondenzshranken für die Approximation durh die

Normalvertei-lungbestimmt werden.

q(h, Q ˆ _m ) − q(h)

^ist ^eine Zufallsvariable mit Mittelwert 0,wobei

ˆ

q(h, Q m )

^W^erte^zwishen⁰^und

Λ

^annimmt.^Um^dieNormalverteilungberehnenzu kön-nen, wird die Standardabweihung benötigt. In der Abbruhbedingung inShritt 3 des

GSSAlgorithmus wirddasKondenzintervall ohneBezugzu einerkonkretenHypothese

berehnet.DeshalbmussandieserStellediegröÿtmögliheStandardabweihung

verwen-detwerden. Das Kondenzintervall, welhes manauf diese Weise erhält, ist aberimmer

noh kleiner als dasmit der Hoeding-Ungleihung bestimmteIntervall.Die empirishe

Standardabweihung

Hälfte 0 und zur Hälfte

Λ

^beträgt. ^In ^diesem ^Fall ^beträgt ^sie

₂ √ ^Λ m

^. ^F^olglih ^unterliegt

2 √

handelt essihum das

1 − ^δ ₂

^-Quantil ^derStandardnormalverteilung. In Ab-bildung 4.3 ist die Dihtekurve der Standardnormalverteilung dargestellt. Für

δ = 0.1

bezeihnet

z ₁ ₋ δ 2

das durh den shraerten Bereih dargestellte 0.95-Quantil.

z ₁ ₋ δ 2

ist

derPunktaufderx-Ahse,sodass

(1 − ^δ ₂ )

^%^der^Flähe^unter^der^Kurve^der Standardnor-malverteilung links dieses Punktes liegen. Wählt man für eine standardnormalverteilte

Abbildung 4.3:Das0.95-Quantil derStandardnormalverteilung

Abbildung 4.4: Normalverteilung(shwarz) und t-Verteilung für 5(rot), 10(blau) sowie

15(grün) Freiheitsgrade

Zufallsvariable diesen Punkt als Grenze desKondenzintervalles ist gesihert, dass der

WertderZufallsvariablenmitWahrsheinlihkeit

z ₁ ₋ ^δ

2

nihtgröÿeralsdieserx-Wertist.

Für die Standardnormalverteilung leistet dieser Punkt dasGewünshte. Um die

Kon-denzshranke für die tatsählihe Verteilung zu erhalten, genügt es den z-Wert mit der

Standardabweihung zu multiplizieren. Die Halbierung von

δ

^resultiert ^daraus, ^dass ^ein

zweiseitiges Kondenzintervall gesuht wird. Damit der Wert der Zufallsvariablen mit

Kondenz

1 − δ

^innerhalb ^des ^Intervalls ^liegt, ^werden ^die Intervallgrenzen so gewählt, dass ermit Wahrsheinlihkeit

δ

2

^niht ^kleiner ^als ^die^untere ^und ^mit

δ

2

^niht ^gröÿer ^als

dieobereIntervallgrenze ist.

In Shritt 3d wirddas Kondenzintervall für eine konkrete Hypothese gesuht. Anstatt

diegröÿstmöglihe Standardabweihung zuverwenden,kanndieempirishe

Standardab-weihungvon

f(h, Q ˆ m )

^für^die^Hypothese^h^berehnet^werden.^Die^spezishe

Kondenz-shranke

E h (m, δ)

^lautet

DieseVorgehensweise ist allerdingsungenau. Dadie wahre Standardabweihung für die

gesamtenDatenunbekannt ist,wirddieempirishe Standardabweihung derStihprobe

zur Abshätzung verwendet. In diesem Fall liegt keine Standardnormalverteilung vor,

Im Dokument r → Y +, (2) Verwerfungsmethode und Regeln r → Y +, (3) unnormierte Gewihte und alle Regeln,(4)Verwerfungsmethode und alle Regeln . . . . 65 (Seite 18-0)

Der Generi Sequential Sampling Algorithmus

•

•

•

•

•

•

•

ǫ ∈ IR +

δ, 0 < δ ≤ 1

G ⊆ H

1 − δ

h ′ ∈ H

h ′ 6∈ G und q(h ′ , T ) > q min + ǫ.

q min

q min := min h ∈ G q(h, T ).

δ

1 − δ

1 − δ

h ∈ H

q(h, Q ˆ m )

Q m ⊆ T

E : IN × IR → IR

δ, 0 < δ ≤ 1

P r[ | q(h, Q ˆ m ) − q(h, T ) | ≤ E(m, δ)] ≥ 1 − δ.

E(m, δ)

ǫ

1 − δ

ǫ

δ

q(h, Q ˆ m )

ǫ

δ

E(m, δ) ≤ ǫ

E h (m, δ)

δ

ǫ

h ∈ H

2 ǫ

ǫ

2

X, T, k, q, δ, ǫ

ǫ

1 − δ

Q 0 = ∅

E(M, 2 | δ H | ) ≤ 2 ǫ

x i

Q i

Q i = Q i − 1 ∪ x i

q(h, Q ˆ i )

h ∈ H

H ∗

h ∈ H

q(h, Q ˆ i )

h ∈ H

q(h, Q ˆ i ) − E h (i, 2M δ

| H | ) ≥ max h ′

∈ H \ H ∗

n q(h ˆ ′ , Q i ) + E h ′ (i, 2M δ

| H | ) o − ǫ

h ∈ H ∗

•

•

•

•

H ∗

q(h, Q ˆ i ) + E h (i, 2M δ | H | ) ≤ min h ′

∈ H ∗

n q(h ˆ ′ , Q i ) − E h ′ (i, 2M δ | H | ) o

•

k 6 = 0

| H | 6 = k

E(i, 2 | δ H | ) > 2 ǫ

H ∗

0 0.2 0.4 0.6 0.8 1

h4 h3

h2 h1

Nutzen

Hypothesen

ε 4 Hypothesen

ǫ ∈ IR ⁺

h ^′ ∈ H

h ^′ 6∈ G und q(h ^′ , T ) > q min + ǫ.

q _min := min _h _∈ _G q(h, T ).

q(h, Q ˆ _m )

Q _m ⊆ T

₂ ^ǫ

Q ₀ = ∅

E(M, ₂ _| ^δ _H _| ) ≤ ₂ ^ǫ

x _i

Q _i

H ^∗

q(h, Q ˆ _i ) − E _h (i, _2M ^δ

| H | ) ≥ max _h ′

∈ H \ H ^∗

n q(h ˆ ^′ , Q _i ) + E _h ′ (i, _2M ^δ

| H | ) ^o − ǫ

h ∈ H ^∗

H ^∗

q(h, Q ˆ i ) + E h (i, _2M ^δ _| _H _| ) ≤ min _h ′

∈ H ^∗

n q(h ˆ ^′ , Q i ) − E _h ′ (i, _2M ^δ _| _H _| ) ^o

E(i, ₂ _| ^δ _H _| ) > ₂ ^ǫ

H ^∗

^δ ₂

X = ^P ^m _i=1 X i

X _i

q _inst (h, x _i )

( 1, f alls h eine korrekte V orhersage f ur x ¨ _i macht, 0, f alls h eine f alsche V orhersage f ¨ ur x i macht.

− 2m E(m, δ) ² Λ ²

q(h, Q ˆ _m ) − q(h)

₂ √ ^Λ m

1 − ^δ ₂

z ₁ ₋ δ 2

z ₁ ₋ δ 2

(1 − ^δ ₂ )

z ₁ ₋ ^δ