Algorithmus

2.4 Nutzenfunktionen

4.1.2 Algorithmus

In Tabelle 4.1 ist der GSSAlgorithmus angegeben. Es kann bewiesen werden, dass der

Algorithmus terminiertunddasapproximativk-besteHypothesen Problemlöst [25 ℄.An

drei Stellenwerdendie im vorangegangenen Abshnitt eingeführten Kondenzintervalle

berehnet,dieebensowiedieAufteilungvon

δ

^und

ǫ

^einer^näherenErläuterungbedürfen.

In Shritt 2 des Algorithmus wird die maximale Beispielanzahl M berehnet, nah der

siher ist, dass die Abweihung des geshätzten empirishen Nutzens jeder Hypothese

h ∈ H

ⁱⁿ^beide^Rihtungen^höhstens

₂ ^ǫ

^beträgt.^M^bezeihnet^zugleih^die^maximale

An-zahlvonShleifendurhläufeninShritt3.WirddiemaximaleBeispielanzahlMerreiht,

steht mit gewünshter Kondenz fest,dass der wahre Nutzen derHypothesen maximal

ǫ

2

^um^den^geshätzten^Nutzen^shwankt.^Es^können ^dannⁱⁿ^Shritt⁴^die^k-besten

Hypo-thesen ausgegeben werden, da selbst imshlehtesten Fall der maximal zulässigeFehler

Eingabe:

X, T, k, q, δ, ǫ

Ausgabe: Die approximativ k-besten Hypothesen mit Maximalfehler

ǫ

^und ^Kondenz

1 − δ

1. Initialisierung.

a) Erzeuge H,dieMenge allerHypothesen für den InstanzenraumX.

b) Setzei=1 (Shleifenzähler).

) Sei

Q ₀ = ∅

2. Berehne diekleinsteZahlM, sodass

E(M, ₂ _| ^δ _H _| ) ≤ ₂ ^ǫ

^ist.

3. do

a) Ziehe zufällig mit Zurüklegen eine Instanz

x _i

^aus ^T ^und ^füge ^sie

Q _i

^hinzu:

Q i = Q i − 1 ∪ x i

b) Aktualisiere den empirishen Nutzen

q(h, Q ˆ i )

^aller verbliebenen Hypothesen

h ∈ H

) BestimmedieMenge

H ^∗

^der^Hypothesen

h ∈ H

^,^die^den^gröÿten^empirishen

Nutzen

q(h, Q ˆ i )

^haben.

d) for(

h ∈ H

⁾^do

i. if (

q(h, Q ˆ _i ) − E _h (i, _2M ^δ

| H | ) ≥ max _h ′

∈ H \ H ^∗

n q(h ˆ ^′ , Q _i ) + E _h ′ (i, _2M ^δ

| H | ) ^o − ǫ

und

h ∈ H ^∗

⁾

•

^Ausgabe^h.

•

^Entferne ^h^aus^H.

•

^Setze ^k=k-1.

•

^Berehne

H ^∗

^neu.

ii. if (

q(h, Q ˆ i ) + E h (i, _2M ^δ _| _H _| ) ≤ min _h ′

∈ H ^∗

n q(h ˆ ^′ , Q i ) − E _h ′ (i, _2M ^δ _| _H _| ) ^o

⁾

•

^Entferne ^h^aus^H.

e) Setzei=i+1.

while(

k 6 = 0

^und

| H | 6 = k

^und

E(i, ₂ _| ^δ _H _| ) > ₂ ^ǫ

⁾

4. Gib dieverbliebenen kHypothesenin

H ^∗

^aus.

Abbildung 4.1:Der GeneriSequential SamplingAlgorithmus

0 0.2 0.4 0.6 0.8 1

h4 h3

h2 h1

Nutzen

Hypothesen

ε 4 Hypothesen

k=2

keine Ausgabe!

Verwerfen!

untere Schranke der k-besten Hypothesen obere Schranke der restlichen Hypothesen

0 0.2 0.4 0.6 0.8 1

h4 h3

h2 h1

Nutzen

Hypothesen

ε 4 Hypothesen

k=2

Ausgabe!

untere Schranke der k-besten Hypothesen obere Schranke der restlichen Hypothesen

Abbildung 4.2:Funktionsweise desGSSAlgorithmus inShritt 3d

ǫ

^niht übershritten wird. Dieser Fall tritt ein, wenn der wahre Nutzen der shlehtes-tenausgegebenen Hypotheseum

ǫ

2

^nah ^unten^abweiht,^während^der ^wahre^Nutzen^der

besten Hypothese, dieniht ausgegeben wurde,um

ǫ

2

^nah^oben ^abweiht.

VonderzurVerfügungstehenden Irrtumswahrsheinlihkeit

δ

^wird^jeweils

^δ ₂

^für ^die

Be-rehnungderKondenzintervalle inderAbbruhbedingungder Shleife inShritt 3 und

innerhalb der Shleife (Shritt 3d) benutzt. Trit die Abbruhbedingung der Shleife

zu,wurde für jede verbliebene Hypothese einKondenzintervall berehnet. Daher istes

nötig, dieIrrtumswahrsheinlihkeit auf alle verbliebenen Hypothesen zu verteilen. Der

wahreNutzen einer Hypothese liegtdann nur mit einer Wahrsheinlihkeit von

δ 2 | H |

au-ÿerhalb des Kondenzintervalles um ihren geshätzten Nutzen. Es bleibt zu klären, ob

dadurh dieIrrtumswahrsheinlihkeit von

δ

2

eingehalten wird.Der Fall,dass derwahre Nutzen einer Hypothese auÿerhalb desKondenzintervalles liegt, wird alsnegatives

Er-eignisbezeihnet. Dasnegative Ereignis trittfür jedeHypothesemit Wahrsheinlihkeit

δ

2 | H |

^ein. ^Es ^ergibt ^sih ^eine^Menge ^von Ereignissen, die alle diegleihe W ahrsheinlih-keit haben. Die Booleshe Ungleihung (Union Bound)besagt,dass für eineMenge von

Ereignissen die Wahrsheinlihkeit, dass mindestens eines dieser Ereignis eintritt, niht

gröÿer ist als die Summe der Wahrsheinlihkeiten aller Ereignisse. Damit wird

insge-samtdieIrrtumswahrsheinlihkeitvon

δ

2

eingehalten.InShritt3ddesGSSAlgorithmus wirdmit deranderen Hälfte derIrrtumswahrsheinlihkeit injedem Shleifendurhlauf

ein Kondenzintervall für alle verbliebenen Hypothesen berehnet. Da die Shleife im

shlehtesten FallM-maldurhlaufenwird,mussdieseHälfte der

Irrtumswahrsheinlih-keit zusätzlih durh M geteilt werden. Die Einhaltung der Irrtumswahrsheinlihkeit

folgt wieder aus der booleshen Ungleihung. Das Vorgehen des Algorithmus in Shritt

3d wird inAbbildung 4.2verdeutliht. Exemplarish sind Nutzen und die

Kondenzin-tervalle vonvierHypothesen dargestellt. GroÿeKondenzintervalle bedeuten, dassniht

viel über die Qualität der Hypothese bekannt ist und der wahre Nutzen stark von der

Shätzungabweihen kann.Wihtigistzumeinendiedurhdieshlehteste derkbesten

Hypothesen und deren Kondenzintervall festgelegte untere Shranke. Jede Hypothese,

die für den Fall, dass ihr wahrer Nutzen am oberen Ende der durh ihren geshätzten

Nutzenund Kondenzintervall festgelegtenReihweite liegt, shlehterist alsdieuntere

Shranke, kann verworfenwerden. Es istfür diegewünshte Kondenzsiher,dass noh

kbessereHypothesenvorhanden sind.Zum anderenist diedurh(k+1)-beste

Hypothe-se, deren Kondenzintervall und

ǫ

festgelegte obere Shranke von Bedeutung. Gilt für einederk-bestenHypothesen,dass ihrNutzenauhim shlehtesten Fallnohüberder

Shranke liegt,kannsieausgegeben werden. Esist siher, dasssiefürdiegegebene

Kon-denz

1 − δ

^und^den^maximalen^F^ehler

ǫ

^gut ^genug^ist,^um^zu^denapproximativk-besten Hypothesenzu gehören.Dasfrühzeitige Ausgebenbzw. VerwerfenvonHypothesenkann

dazu führen, dass der Algorithmus terminiert bevor die maximale nötige Anzahl von

Beispielen gezogen wurde, wenn vorher shon alle k Lösungen gefunden wurden.In der

Praxis kommt dieses häug vor und ist essentiellfür eine guteLaufzeit. Der Vorteildes

Tests inShritt 3d beginnt sih auszuwirken, sobalddie erste Hypothese ausH gelösht

wird.MitjedergelöshtenHypothesewird|H|kleiner und

δ

^muss^auf^weniger

Hypothe-sen verteilt werden, wodurh dieberehneten Kondenzintervalle besserwerden. Dieses

mahtdeutlih,dasskomplexe(groÿe)Hypothesenräume fürdenAlgorithmus

problema-tishsind. InderPraxismussdieKomplexität beshränktwerden. Insbesondere müssen

numerisheAttributediskretisiertwerden,daessonstnihtmöglihist,den

Hypothesen-raumkomplettaufzuzählen. EinweiteresProblemfürdieLaufzeit istdieAufteilungder

Irrtumswahrsheinlihkeit auf alle MShleifendurhläufe. Der Wertvon M kann

abhän-gigvombetrahteten HypothesenraumundgegebenerNutzenfunktionsehrgroÿwerden

(Kapitel4.1.3). Es bietet sih an,Shritt 3d niht injedem Shleifendurhlauf

durhzu-führenundMentsprehend zuverkleinern.DadurhwerdenkleinereKondenzintervalle

möglihundesmüssennihtinjedemShleifendurhlaufalleBerehnungen durhgeführt

werden. Diese und andere Verbesserungen des GSS Algorithmus werden inKapitel 5.1

beshrieben. Fürvershiedene Nutzenfunktionenergebensihvershiedene

Kondenzin-tervalle und starkuntershiedlihe Wertefür M.

Im Dokument r → Y +, (2) Verwerfungsmethode und Regeln r → Y +, (3) unnormierte Gewihte und alle Regeln,(4)Verwerfungsmethode und alle Regeln . . . . 65 (Seite 22-26)

2.4 Nutzenfunktionen

4.1.2 Algorithmus

δ

ǫ

h ∈ H

2 ǫ

ǫ

2

X, T, k, q, δ, ǫ

ǫ

1 − δ

Q 0 = ∅

E(M, 2 | δ H | ) ≤ 2 ǫ

x i

Q i

Q i = Q i − 1 ∪ x i

q(h, Q ˆ i )

h ∈ H

H ∗

h ∈ H

q(h, Q ˆ i )

h ∈ H

q(h, Q ˆ i ) − E h (i, 2M δ

| H | ) ≥ max h ′

∈ H \ H ∗

n q(h ˆ ′ , Q i ) + E h ′ (i, 2M δ

| H | ) o − ǫ

h ∈ H ∗

•

•

•

•

H ∗

q(h, Q ˆ i ) + E h (i, 2M δ | H | ) ≤ min h ′

∈ H ∗

n q(h ˆ ′ , Q i ) − E h ′ (i, 2M δ | H | ) o

•

k 6 = 0

| H | 6 = k

E(i, 2 | δ H | ) > 2 ǫ

H ∗

0 0.2 0.4 0.6 0.8 1

h4 h3

h2 h1

Nutzen

Hypothesen

ε 4 Hypothesen

k=2

keine Ausgabe!

Verwerfen!

untere Schranke der k-besten Hypothesen obere Schranke der restlichen Hypothesen

0 0.2 0.4 0.6 0.8 1

h4 h3

h2 h1

Nutzen

Hypothesen

ε 4 Hypothesen

k=2

Ausgabe!

untere Schranke der k-besten Hypothesen obere Schranke der restlichen Hypothesen

ǫ

ǫ

2

ǫ

2

δ

δ 2

δ 2 | H |

δ

2

δ

2 | H |

δ

2

ǫ

1 − δ

ǫ

δ

₂ ^ǫ

Q ₀ = ∅

E(M, ₂ _| ^δ _H _| ) ≤ ₂ ^ǫ

x _i

Q _i

H ^∗

q(h, Q ˆ _i ) − E _h (i, _2M ^δ

| H | ) ≥ max _h ′

∈ H \ H ^∗

n q(h ˆ ^′ , Q _i ) + E _h ′ (i, _2M ^δ

| H | ) ^o − ǫ

h ∈ H ^∗

H ^∗

q(h, Q ˆ i ) + E h (i, _2M ^δ _| _H _| ) ≤ min _h ′

∈ H ^∗

n q(h ˆ ^′ , Q i ) − E _h ′ (i, _2M ^δ _| _H _| ) ^o

E(i, ₂ _| ^δ _H _| ) > ₂ ^ǫ

H ^∗

^δ ₂