Kapitel 4.2 das Knowledge-Based Sampling vorgestellt. Um für die Lernaufgabe
Kon-zeptlernen aus Beispielen Vorhersagen überdas Zielattribut zu treen, wird eine
Kom-bination mehrerer Regeln benutzt, die mit dem GSS Algorithmus unter Einsatz von
Knowledge-Based Samplinggefundenwurden.Ein Verfahren zurKombination mehrerer
unterdemEinsatzvonKnowledge-BasedSamplinggefundererModelleistinKapitel4.2.4
beshrieben.UmdemGeneriSequentialSamplingAlgorithmus zuermöglihen,mit
nu-merishen Attributen umzugehen, bedarf es einer Methode zur Diskretisierung, wie sie
in Kapitel 4.3 vorgestellt ist. In Kapitel 5 wird mit dem Iterating Generi Sequential
Sampling Algorithmus einVerfahren zurKombination desGeneri Sequential Sampling
Algorithmus mit Knowledge-Based Samplingvorgestellt. Insbesondere ist indiesem
Ka-pitelbeshrieben, wie eineeziente Suhe ingroÿen Hypothesenräumen möglih ist.Es
werdenmehrereNahteiledesGeneriSequentialSamplingAlgorithmusbeshriebenund
möglihe Lösungen aufgezeigt. Auÿerdem werden eine Reihe von Erweiterungen
vorge-stellt.In Kapitel6 wurden mit demIteratingGeneri Sequential SamplingAlgorithmus
Experimente mit synthetishen und ehten Datensätzen durhgeführt. Zur Erzeugung
der synthetishen Datensätze bedurfte es der Erstellung eines geeigneten Werkzeuges.
Die Experimente dienten dabeidem Zwek,die folgendenFragenzu klären:
•
Wie eignet sih dasVerfahrenzurSubgruppenentdekung?•
WieverändernsihderUmfangunddieAussagekraftderLösungdurhdenEinsatz von Knowledge-Based Sampling?•
Wie ist die Vorhersagequalität der Kombination der einzelnen Regeln zu einem Gesamtmodell?•
Wie gut ist die Vorhersagequalität im Vergleih zu anderenMethoden für die Lö-sungderLernaufgabe Konzeptlernen ausBeispielen?•
Wie istdie Laufzeit imVergleih zu anderen Methoden?•
WiewirktsihdieVeränderungderNutzenfunktionaufQualitätundLaufzeitaus?•
Welhe Auswirkungen hat die Verwendung von Hypothesenräumen untershiedli-her Komplexität aufLaufzeit und Qualität der Ergebnisse?Ziel der Diplomarbeit ist die Untersuhung der Eignung der Kombination des Generi
Sequential Sampling Algorithmus mit Knowledge-Based Sampling für
Subgruppenent-dekung und Konzeptlernen ausBeispielen. Im Folgenden werden dieverwendeten
Ver-fahren näher erläutert sowie auf deren Vor- und Nahteile eingegangen. Die
Subgrup-penentdekungwirdmitdemGeneriSequentialSamplingAlgorithmus[25℄durhgeführt
(Kapitel4.1).Knowledge-Based Sampling [26℄stellt dieUnabhängigkeit dergefundenen
Subgruppen siher und ermögliht die Kombination der gefundenen Subgruppen, um
eine Vorhersage für das Zielattribut zu treen (Kapitel 4.2). Um den Umgang mit
nu-merishen Attributen zu ermöglihen, bedarf es shlieÿlih noh einer Diskretisierung
numerisherAttribute. EingeeignetesVerfahrenistdasReursive MinimalEntropy
Par-titioning [10℄, das in Kapitel 4.3 vorgestellt wird. Für eine Übersiht der verwendeten
Notationen verweise ih auf Anhang A.
4.1 Der Generi Sequential Sampling Algorithmus
WirdData Mining auf sehr groÿen Datenbanken betrieben, ist neben der Maximierung
derNutzenfunktion auh die Skalierbarkeit von Bedeutung. Für viele Anwendungen ist
es niht möglih, in akzetabler Zeit alle Daten zu verarbeiten. Eine möglihe
Strate-gie, ummit diesemProblemumzugehen, istmit einer zufälliggezogenen Stihprobe der
Datenzuarbeiten.Natürlihbedeutetdiesesneben derLaufzeitverkürzungund
Verklei-nerung des benötigten Speiherplatzes auh, dass niht mehr garantiert werden kann,
dass die gewonnenen Resultate identish sind mit denen für die gesamten Daten. Von
Bedeutungist hierbeiderUntershiedimNutzen.Es istwihtig, dasseinLernverfahren,
das nur auf einer Stihprobe der Daten arbeitet, dem Nutzer Garantien gibt, wie stark
sihdieResultate bezüglih desNutzens untersheiden. Es gibtzwei Möglihkeiten,wie
diese Garantien aussehen können. Zum einen kann für eine feste Stihprobengröÿe
be-rehnet werden, wie gut die Garantie für den Nutzen auf den gesamten Daten ist [12℄,
zumanderenkannvomBenutzereinefesteQualitätderLösungvorgegebenwerden.Das
Zielist,mit minimalmögliherStihprobengröÿediegeforderteQualität zugarantieren.
Letztgenannter Ansatz wird beim sequentiellen Sampling verfolgt, das im Bereih des
MashinellenLernens erstmalsimRahmen desHoedingRaeAlgorithmus[18 ℄ benutzt
wurde. Hierbeiwerden die Instanzen bzw. die Stihprobe inkrementellgezogen und der
Nutzen aller Hypothesen des betrahteten Hypothesenraumes gleihzeitig aktualisiert.
Wenn siher ist, dass eine Hypothese sehr gut bzw. shleht ist, gibt der Algorithmus
diese Hypothese als Lösungaus bzw. verwirft sie.Ein wihtiger Vorteilist, dassdie
Be-shaenheitderDatenberüksihtigtwird:ErlaubendieDatendieHypothesenshnellin
GutundShlehtzu separieren,werdennur wenigeBeispieleinderStihprobebenötigt,
ansonstenwirddieStihprobegröÿer.DerGeneriSequential Sampling(GSS)
Algorith-mus[25℄benutztebenfallsdenAnsatzdessequentiellenSamplings.DerNutzergibtdabei
vor, wie gut die gefundene Lösung sein soll und wie groÿdie Irrtumswahrsheinlihkeit
seindarf.AuÿerdemkannuntervershiedenenNutzenfunktionengewähltwerden,sodass
sihderAlgorithmusprinzipiellsowohlfürdieLernaufgabeKonzeptlernenausBeispielen
als auh für dieSubgruppenentdekung eignet und für Letztere untershiedlihe
Deni-tionen von Interessantheit zulässt. In den nähsten Abshnitten werden die formalen
Grundlagen und der GSS Algorithmus erläutert sowie Shranken für die Qualität und
benötigte Beispielanzahleiniger populärerNutzenfunktionen angegeben.
4.1.1 Grundlagen
Das Hauptanwendungsgebiet des GSS Algorithmus besteht in der
Subgruppenentde-kung. Der Hypothesenraum kann beliebig sein, solange es möglih ist, ihn geordnet
aufzuzählen. Ein Beispiel für einen geordneten Hypothesenraum sind die bereits
ange-sprohenen Regeln aus konjunktiv verknüpften Literalen. Die Menge der gefundenen
Hypothesen in derAusgabe desAlgorithmus wirddurh einen vom Nutzer festgelegten
Parameter k bestimmt. In derbenutzten Terminologie spriht man vom k-beste
Hypo-thesenProblem.DadiekbestenHypothesenbzw.ihrNutzenaufBasiseinerStihprobe
bestimmt werden, ist niht garantiert, dasssie auh für diegesamtenTrainingsmenge T
optimal sind. Man deniert für diesen Fall das approximativ k-beste Hypothesen
Pro-blem.
Denition 15. (Dasapproximativ k-beste Hypothesen Problem)
Gegeben sind eine Trainingsmenge T von Instanzen aus dem Instanzenraum X, eine
Nutzenfunktion q und ein Hypothesenraum H. Desweiteren seien k die gesuhte Anzahl
an Lösungen,
ǫ ∈ IR + der maximal zulässige Fehler und δ, 0 < δ ≤ 1
die gewünshte
Irrtumswahrsheinlihkeit. Das approximativ k-beste Hypothesen Problem besteht darin
eineMenge
G ⊆ H
derGröÿekzu nden,sodassesmitKondenz1 − δ
keineHypotheseh ′ ∈ H
gibt, für diegilt:h ′ 6∈ G und q(h ′ , T ) > q min + ǫ.
Hierbei bezeihnet
q min denNutzenderbezüglihq shlehtesten derk Hypotheseninder Menge G:
q min := min h ∈ G q(h, T ).
Zu beahten ist, dassdas Problem bezüglih der Trainingsmenge Tund niht
bezüg-lihdesInstanzenraumesXdeniertist.DaimmermiteinemstatistishenVerfahrenein
unbekannter wahrer Nutzen einer Hypothese aufgrundeiner Stihprobe geshätzt wird,
maht es keinen Untershied, ob es sih um den Nutzen der Hypothese bezüglih der
wesentlih gröÿeren gesamten Trainingsmenge oder des Instanzenraumes handelt. Die
AussageistinbeidenFällengültig,sodassauhstatt derTrainingsmengeTder
Instan-zenraum X verwendet werdenkann.
Es kann leiht passieren, dass eine der Hypothesen nah wenigen gezogenen Beispielen
shon einen sehr guten Nutzenhat. Dieses kann beigeringer Beispielanzahl zufällig
be-dingt sein.Manbetrahte als Beispielfür ein Zufallsexperiment daswiederholte Werfen
einer fairen Münze, bei der die mit p bezeihnete Wahrsheinlihkeit für Kopf 0.5
be-trägt. Gemäÿ der Tabelle der Binomialverteilung beträgt die Wahrsheinlihkeit, dass
nah drei Münzwürfen dreimal Kopf geworfen wurde, 0.125. Damit ist dieser Fall niht
unrealistish; es wäre aber niht gerehtfertigt p=1, als Shätzung für die W
ahrshein-lihkeit für Kopf anzugeben. Daher wird zusätzlih eine Kondenzshranke angegeben,
welhe für die durhgeführte Anzahl von Zufallsexperimenten m und die gegebene
Irr-tumswahrsheinlihkeit
δ
einIntervallumdengeshätztenWertfürpfestlegt.DerwahreWertfür pliegtmitWahrsheinlihkeit bzw. Kondenz
1 − δ
innerhalbdiesesIntervalls.DasBeispieldeswiederholten Münzwurfeslässtsihanalogauf denFall übertragen, bei
dem derWert einer Nutzenfunktionnah wiederholter Durhführung des
Zufallsexperi-mentes Ziehen eines Beispiels x aus der Trainingsmenge T` geshätzt wird. Abhängig
vondergewünshtenKondenzundderbishergezogenenAnzahlvonBeispielenwird
ei-neKondenzshranke angegeben,sodassderwahreNutzenderbetrahtetenHypothese
mit Kondenz
1 − δ
im durh diese Shranke bestimmtenIntervall um den geshätztenNutzenliegt.
Denition 16. (Kondenzintervall für denNutzen)
Seien Trainingsmenge T, Nutzenfunktion q und Hypothesenraum H gegeben. Für eine
Hypothese
h ∈ H
bezeihnet q(h,T) den Nutzen von h für die gesamte Trainingsmenge T undq(h, Q ˆ m )
den Nutzen von h auf einer StihprobeQ m ⊆ T
der Gröÿe m. Dann istE : IN × IR → IR
eine Kondenzshranke für den Nutzen q, falls für jede Fehlerwahr-sheinlihkeitδ, 0 < δ ≤ 1
gilt:P r[ | q(h, Q ˆ m ) − q(h, T ) | ≤ E(m, δ)] ≥ 1 − δ.
Wie durh die Betragsstrihe deutlih wird, handelt es sih umein zweiseitiges
Kon-denzintervall.
E(m, δ)
liefert einen Wertǫ
,so dass für die gegebene Stihprobengröÿe mmit Kondenz1 − δ
derwahreWertder Nutzenfunktionindem durhǫ
bestimmtenIntervall umden geshätzten Nutzen liegt.Für kleine Fehlerwahrsheinlihkeiten
δ
liegtdie Kondenz nahe bei eins. In diesem Fall wird das Kondenzintervall um
q(h, Q ˆ m )
groÿ.Ein UntershiedzumZufallsexperimentdeswiederholtenMünzwurfesbesteht
dar-in,dassdie Nutzenfunktionniht aufeineeinfahe Wahrsheinlihkeit beshränktist;es
muss nur möglih sein, ein Kondenzintervall für sie anzugeben. Eine wihtige
Eigen-shaft des Kondenzintervalles ist, dass es mit steigender Beispielanzahl immer kleiner
wirdund shlieÿlih ganz vershwindet. D.h. für alle möglihen Werte von
ǫ
undδ
,gibteseineStihprobengröÿe m,sodass
E(m, δ) ≤ ǫ
ist.Der GSSAlgorithmus erlaubt,dass einKondenzintervall vonden Eigenshafteneiner Hypotheseh,wie z.B.derStandard-abweihung desNutzens vonh,abhängt. Verdeutliht wirddiesesdurhden Indexh bei
derKondenzshranke
E h (m, δ)
.4.1.2 Algorithmus
In Tabelle 4.1 ist der GSSAlgorithmus angegeben. Es kann bewiesen werden, dass der
Algorithmus terminiertunddasapproximativk-besteHypothesen Problemlöst [25 ℄.An
drei Stellenwerdendie im vorangegangenen Abshnitt eingeführten Kondenzintervalle
berehnet,dieebensowiedieAufteilungvon
δ
undǫ
einernäherenErläuterungbedürfen.In Shritt 2 des Algorithmus wird die maximale Beispielanzahl M berehnet, nah der
siher ist, dass die Abweihung des geshätzten empirishen Nutzens jeder Hypothese
h ∈ H
inbeideRihtungenhöhstens2 ǫ
beträgt.MbezeihnetzugleihdiemaximaleAn-zahlvonShleifendurhläufeninShritt3.WirddiemaximaleBeispielanzahlMerreiht,
steht mit gewünshter Kondenz fest,dass der wahre Nutzen derHypothesen maximal
ǫ
2
umdengeshätztenNutzenshwankt.Eskönnen danninShritt4diek-bestenHypo-thesen ausgegeben werden, da selbst imshlehtesten Fall der maximal zulässigeFehler
Eingabe:
X, T, k, q, δ, ǫ
Ausgabe: Die approximativ k-besten Hypothesen mit Maximalfehler
ǫ
und Kondenz1 − δ
1. Initialisierung.
a) Erzeuge H,dieMenge allerHypothesen für den InstanzenraumX.
b) Setzei=1 (Shleifenzähler).
) Sei
Q 0 = ∅
.2. Berehne diekleinsteZahlM, sodass
E(M, 2 | δ H | ) ≤ 2 ǫ ist.
3. do
a) Ziehe zufällig mit Zurüklegen eine Instanz
x i aus T und füge sie Q i hinzu:
Q i = Q i − 1 ∪ x i.
b) Aktualisiere den empirishen Nutzen
q(h, Q ˆ i )
aller verbliebenen Hypothesenh ∈ H
.) BestimmedieMenge
H ∗ derHypothesenh ∈ H
,diedengröÿtenempirishen
Nutzen
q(h, Q ˆ i )
haben.d) for(
h ∈ H
)doi. if (
q(h, Q ˆ i ) − E h (i, 2M δ
| H | ) ≥ max h ′
∈ H \ H ∗
n q(h ˆ ′ , Q i ) + E h ′ (i, 2M δ
| H | ) o − ǫ
und
h ∈ H ∗)
•
Ausgabeh.•
Entferne hausH.•
Setze k=k-1.•
BerehneH ∗ neu.
ii. if (
q(h, Q ˆ i ) + E h (i, 2M δ | H | ) ≤ min h ′
∈ H ∗
n q(h ˆ ′ , Q i ) − E h ′ (i, 2M δ | H | ) o
)•
Entferne hausH.e) Setzei=i+1.
while(
k 6 = 0
und| H | 6 = k
undE(i, 2 | δ H | ) > 2 ǫ)
4. Gib dieverbliebenen kHypothesenin
H ∗ aus.
Abbildung 4.1:Der GeneriSequential SamplingAlgorithmus
0 0.2 0.4 0.6 0.8 1
h4 h3
h2 h1
Nutzen
Hypothesen
ε 4 Hypothesen
k=2
keine Ausgabe!
Verwerfen!
untere Schranke der k-besten Hypothesen obere Schranke der restlichen Hypothesen
0 0.2 0.4 0.6 0.8 1
h4 h3
h2 h1
Nutzen
Hypothesen
ε 4 Hypothesen
k=2
Ausgabe!
untere Schranke der k-besten Hypothesen obere Schranke der restlichen Hypothesen
Abbildung 4.2:Funktionsweise desGSSAlgorithmus inShritt 3d
ǫ
niht übershritten wird. Dieser Fall tritt ein, wenn der wahre Nutzen der shlehtes-tenausgegebenen Hypotheseumǫ
2
nah untenabweiht,währendder wahreNutzenderbesten Hypothese, dieniht ausgegeben wurde,um
ǫ
2
nahoben abweiht.VonderzurVerfügungstehenden Irrtumswahrsheinlihkeit
δ
wirdjeweilsδ 2
für dieBe-rehnungderKondenzintervalle inderAbbruhbedingungder Shleife inShritt 3 und
innerhalb der Shleife (Shritt 3d) benutzt. Trit die Abbruhbedingung der Shleife
zu,wurde für jede verbliebene Hypothese einKondenzintervall berehnet. Daher istes
nötig, dieIrrtumswahrsheinlihkeit auf alle verbliebenen Hypothesen zu verteilen. Der
wahreNutzen einer Hypothese liegtdann nur mit einer Wahrsheinlihkeit von
δ 2 | H |
au-ÿerhalb des Kondenzintervalles um ihren geshätzten Nutzen. Es bleibt zu klären, ob
dadurh dieIrrtumswahrsheinlihkeit von
δ
2
eingehalten wird.Der Fall,dass derwahre Nutzen einer Hypothese auÿerhalb desKondenzintervalles liegt, wird alsnegativesEr-eignisbezeihnet. Dasnegative Ereignis trittfür jedeHypothesemit Wahrsheinlihkeit
δ
2 | H |
ein. Es ergibt sih eineMenge von Ereignissen, die alle diegleihe W ahrsheinlih-keit haben. Die Booleshe Ungleihung (Union Bound)besagt,dass für eineMenge vonEreignissen die Wahrsheinlihkeit, dass mindestens eines dieser Ereignis eintritt, niht
gröÿer ist als die Summe der Wahrsheinlihkeiten aller Ereignisse. Damit wird
insge-samtdieIrrtumswahrsheinlihkeitvon
δ
2
eingehalten.InShritt3ddesGSSAlgorithmus wirdmit deranderen Hälfte derIrrtumswahrsheinlihkeit injedem Shleifendurhlaufein Kondenzintervall für alle verbliebenen Hypothesen berehnet. Da die Shleife im
shlehtesten FallM-maldurhlaufenwird,mussdieseHälfte der
Irrtumswahrsheinlih-keit zusätzlih durh M geteilt werden. Die Einhaltung der Irrtumswahrsheinlihkeit
folgt wieder aus der booleshen Ungleihung. Das Vorgehen des Algorithmus in Shritt
3d wird inAbbildung 4.2verdeutliht. Exemplarish sind Nutzen und die
Kondenzin-tervalle vonvierHypothesen dargestellt. GroÿeKondenzintervalle bedeuten, dassniht
viel über die Qualität der Hypothese bekannt ist und der wahre Nutzen stark von der
Shätzungabweihen kann.Wihtigistzumeinendiedurhdieshlehteste derkbesten
Hypothesen und deren Kondenzintervall festgelegte untere Shranke. Jede Hypothese,
die für den Fall, dass ihr wahrer Nutzen am oberen Ende der durh ihren geshätzten
Nutzenund Kondenzintervall festgelegtenReihweite liegt, shlehterist alsdieuntere
Shranke, kann verworfenwerden. Es istfür diegewünshte Kondenzsiher,dass noh
kbessereHypothesenvorhanden sind.Zum anderenist diedurh(k+1)-beste
Hypothe-se, deren Kondenzintervall und
ǫ
festgelegte obere Shranke von Bedeutung. Gilt für einederk-bestenHypothesen,dass ihrNutzenauhim shlehtesten FallnohüberderShranke liegt,kannsieausgegeben werden. Esist siher, dasssiefürdiegegebene
Kon-denz
1 − δ
unddenmaximalenFehlerǫ
gut genugist,umzudenapproximativk-besten Hypothesenzu gehören.Dasfrühzeitige Ausgebenbzw. VerwerfenvonHypothesenkanndazu führen, dass der Algorithmus terminiert bevor die maximale nötige Anzahl von
Beispielen gezogen wurde, wenn vorher shon alle k Lösungen gefunden wurden.In der
Praxis kommt dieses häug vor und ist essentiellfür eine guteLaufzeit. Der Vorteildes
Tests inShritt 3d beginnt sih auszuwirken, sobalddie erste Hypothese ausH gelösht
wird.MitjedergelöshtenHypothesewird|H|kleiner und
δ
mussaufwenigerHypothe-sen verteilt werden, wodurh dieberehneten Kondenzintervalle besserwerden. Dieses
mahtdeutlih,dasskomplexe(groÿe)Hypothesenräume fürdenAlgorithmus
problema-tishsind. InderPraxismussdieKomplexität beshränktwerden. Insbesondere müssen
numerisheAttributediskretisiertwerden,daessonstnihtmöglihist,den
Hypothesen-raumkomplettaufzuzählen. EinweiteresProblemfürdieLaufzeit istdieAufteilungder
Irrtumswahrsheinlihkeit auf alle MShleifendurhläufe. Der Wertvon M kann
abhän-gigvombetrahteten HypothesenraumundgegebenerNutzenfunktionsehrgroÿwerden
(Kapitel4.1.3). Es bietet sih an,Shritt 3d niht injedem Shleifendurhlauf
durhzu-führenundMentsprehend zuverkleinern.DadurhwerdenkleinereKondenzintervalle
möglihundesmüssennihtinjedemShleifendurhlaufalleBerehnungen durhgeführt
werden. Diese und andere Verbesserungen des GSS Algorithmus werden inKapitel 5.1
beshrieben. Fürvershiedene Nutzenfunktionenergebensihvershiedene
Kondenzin-tervalle und starkuntershiedlihe Wertefür M.
4.1.3 Kondenzintervalle für vershiedene Nutzenfunktionen
In [25℄ werden Kondenzintervalle für populäre Nutzenfunktionen hergeleitet. Das
wie-derholteZieheneinesBeispielsimGSSAlgorithmusentsprihtdemZufallsexperimentdes
Ziehens mit Zurüklegen. Handelt es sih bei der betrahteten Nutzenfunktionum eine
Wahrsheinlihkeit wie esbeiderAurayderFall ist,unterliegt dienahmVersuhen
beobahtete relative Häugkeit der Binomialverteilung. Mit der Hoeding-Ungleihung
[17 ℄ istmöglih,für dieabsoluteSumme
X = P m i=1 X i beshränkter ZufallsvariablenX i
eineShrankefürdieWahrsheinlihkeitanzugeben,mitderXweitvomerwartetenWert
liegt. Nehmendie
X i Werte zwishen 0 undΛ
an,sogilt:
Analog ist diese Abshätzung möglih, wenn X eine relative Häugkeit und der
Erwar-tungswert E(X) die zugehörige Wahrsheinlihkeit ist. Für sehr groÿe m kann die
Bi-nomialverteilung nah dem zentralen Grenzwertsatz[9℄ durh die Normalverteilung
ap-proximiert werden. MitHilfe derNormalverteilung können engere Shranken berehnet
werden als mit der Hoeding-Ungleihung. Daher wird für groÿe m angenommen, dass
dieAbweihungendesgeshätztenvomwahrenNutzenderNormalverteilungunterliegen.
DasKondenzintervall wirdmit HilfederNormalverteilung berehnet.
Als einführendes Beispiel für die Berehnung eines Kondenzintervalles dienen
Nut-zenfunktionen, die berehnet werden, indem man den Durhshnitt über eine
Instanz-nutzenfunktionbildet(Instane-Averaging Funktionen).BeiderAurayhandeltessih
um eine solhe Funktion. Für diesen Typ ist die Instanznutzenfunktion
q inst (h, x i )
füreineHypotheseh undeine einzelneInstanz
x i deniertals
q inst (h, x i ) =
( 1, f alls h eine korrekte V orhersage f ur x ¨ i macht, 0, f alls h eine f alsche V orhersage f ¨ ur x i macht.
Für eine Trainingsmenge T der Gröÿe n und eine Hypothese h ergibt sih dann der
Nutzenqals
VerwendetmaninderHoeding-UngleihungdennahmgezogenenBeispielen
geshätz-tenempirishen Nutzen
q(Q ˆ m , h)
als relative Frequenzund den wahrenWert q(T,h) alszugehörigeWahrsheinlihkeit,istdieWahrsheinlihkeit,dassdieAbweihungvon
wah-remund geshätztemNutzenauÿerhalb des Kondenzintervalles
E(m, δ)
liegtdurhP r[ | q(Q ˆ m , h) − q(T, h) | > E(m, δ)] ≤ 2exp (
− 2m E(m, δ) 2 Λ 2
)
beshränkt. Zu beahten ist, dass die Gegenwahrsheinlihkeit benutzt wird, da anders
als in der Denition der Hoeding-Ungleihung hier die Wahrsheinlihkeit dafür, dass
derbeobahtete Wert auÿerhalb desKondenzintervalles liegt,abgeshätzt wird.Wählt
man die Kondenzshranke abhängig von der Beispielanzahl m und der gewünshten
Irrtumswahrsheinlihkeit
δ
alsund berüksihtigt, dass für diesen Typ von Nutzenfunktionen
Λ = 1
ist, wird dieIrr-tumswahrsheinlihkeit eingehalten:
Nun müssen die Kondenzshranken für die Approximation durh die
Normalvertei-lungbestimmt werden.
q(h, Q ˆ m ) − q(h)
ist eine Zufallsvariable mit Mittelwert 0,wobeiˆ
q(h, Q m )
Wertezwishen0undΛ
annimmt.UmdieNormalverteilungberehnenzu kön-nen, wird die Standardabweihung benötigt. In der Abbruhbedingung inShritt 3 desGSSAlgorithmus wirddasKondenzintervall ohneBezugzu einerkonkretenHypothese
berehnet.DeshalbmussandieserStellediegröÿtmögliheStandardabweihung
verwen-detwerden. Das Kondenzintervall, welhes manauf diese Weise erhält, ist aberimmer
noh kleiner als dasmit der Hoeding-Ungleihung bestimmteIntervall.Die empirishe
Standardabweihung
Hälfte 0 und zur Hälfte
Λ
beträgt. In diesem Fall beträgt sie2 √ Λ m
. Folglih unterliegt2 √
handelt essihum das
1 − δ 2-Quantil derStandardnormalverteilung. In
Ab-bildung 4.3 ist die Dihtekurve der Standardnormalverteilung dargestellt. Für δ = 0.1
bezeihnet
z 1 − δ 2
das durh den shraerten Bereih dargestellte 0.95-Quantil.
z 1 − δ 2
ist
derPunktaufderx-Ahse,sodass
(1 − δ 2 )
%derFläheunterderKurveder Standardnor-malverteilung links dieses Punktes liegen. Wählt man für eine standardnormalverteilteAbbildung 4.3:Das0.95-Quantil derStandardnormalverteilung
Abbildung 4.4: Normalverteilung(shwarz) und t-Verteilung für 5(rot), 10(blau) sowie
15(grün) Freiheitsgrade
Zufallsvariable diesen Punkt als Grenze desKondenzintervalles ist gesihert, dass der
WertderZufallsvariablenmitWahrsheinlihkeit
z 1 − δ
2
nihtgröÿeralsdieserx-Wertist.
Für die Standardnormalverteilung leistet dieser Punkt dasGewünshte. Um die
Kon-denzshranke für die tatsählihe Verteilung zu erhalten, genügt es den z-Wert mit der
Standardabweihung zu multiplizieren. Die Halbierung von
δ
resultiert daraus, dass einzweiseitiges Kondenzintervall gesuht wird. Damit der Wert der Zufallsvariablen mit
Kondenz
1 − δ
innerhalb des Intervalls liegt, werden die Intervallgrenzen so gewählt, dass ermit Wahrsheinlihkeitδ
2
niht kleiner als dieuntere und mitδ
2
niht gröÿer alsdieobereIntervallgrenze ist.
In Shritt 3d wirddas Kondenzintervall für eine konkrete Hypothese gesuht. Anstatt
diegröÿstmöglihe Standardabweihung zuverwenden,kanndieempirishe
Standardab-weihungvon
f(h, Q ˆ m )
fürdieHypothesehberehnetwerden.DiespezisheKondenz-shranke
E h (m, δ)
lautetDieseVorgehensweise ist allerdingsungenau. Dadie wahre Standardabweihung für die
gesamtenDatenunbekannt ist,wirddieempirishe Standardabweihung derStihprobe
zur Abshätzung verwendet. In diesem Fall liegt keine Standardnormalverteilung vor,
zur Abshätzung verwendet. In diesem Fall liegt keine Standardnormalverteilung vor,