• Keine Ergebnisse gefunden

5.7 Implementierung der Hilfsmethoden

6.1.1 Der BiasedExampleGenerator Operator

ZurGenerierungvonsynthetishen DatensätzenwurdederOperator

BiasedExampleGe-nerator entworfen und für die Lernumgebung YALE [21℄ implementiert. Er ermögliht

Datensätze zu generieren und gezieltMuster einzubauen. ZentralesElement des

Opera-tors ist der BiasTree. Er gibt die bedingte Wahrsheinlihkeit für das Auftreten eines

bestimmten BeispielesinFormeines Entsheidungsbaumes an. InAbbildung 6.1ist ein

einfaherBiasTreedargestellt. DieKnotendesBaumessindmitdenNamender

Attribu-te

A 1

,

A 2

und

A 3

beshriftet,diejeweilszehnAusprägungenhaben.FürjedenKnotenist eineVerteilungangegeben,diefestlegtmitwelherWahrsheinlihkeitdieAusprägungen

desAttributes bzw. dieentsprehenden Indizes 1

auftreten.Die mit Zahlenbeshrifteten

voneinemKnotenausgehendenKantengebenan,beiwelherAusprägungdesAttributes

zumnähsttieferen Knoten verzweigtwird.

Jedes Beispiel wird zunähst zufällig erzeugt, d.h. für alle Attribute hat jede

Ausprä-gung die gleihe Wahrsheinlihkeit gezogen zu werden. Danah durhläuft dasBeispiel

1

HateinAttribut

|A i |

Ausprägungen,werdendiesevon0bis

|A i | − 1

durhnummeriert.

A 1

A 2

1

A 3

2

Attribut Verteilung überdie Ausprägungen

A 1

0.10.10.20.1 0.10.050.050.1 0.10.1

A 2

0.10.10.20.1 0.10.050.050.1 0.10.1

A 3

0.10.20.10.1 0.10.050.050.1 0.10.1

Abbildung 6.1:Einfahes Beispielfür einenBiasTree

A 1

Attribut Verteilung überdie Ausprägungen

A 1

0.050.050.2 0.20.10.050.05 0.10.10.1

A 2

Attribut Verteilung überdie Ausprägungen

A 2

0.20.20.10.05 0.050.050.05 0.10.10.1

A 1

L 1

2

L 2

3

Attribut Verteilung überdie Ausprägungen

A 1

keine neueVerteilung

L 1

0.30.7

L 2

0.40.6

A 2

L 3

0

L 4

1

Attribut Verteilung überdie Ausprägungen

A 2

keine neueVerteilung

L 3

0.60.4

L 4

0.50.5

Abbildung 6.2: Menge von mehrerenBiasTrees, diezunähst dieVerteilung der

Ausprä-gungen derAttributeangeben und dannBedingungen fürdie Ausprägung des

Zielattri-butesformulieren.

den BiasTree. An jedem Knoten wird die Ausprägung des entsprehenden Attributes

gemäÿ der angegebenen Verteilung neu ausgewürfelt. Entspriht derIndex der

Ausprä-gung deman einer von diesemKnoten ausgehenden KantenotiertenIndex, wird inden

entsprehendenKnotenverzweigt.AnsonstenwirdderDurhlaufdurhdenBiasTree

ab-gebrohen.WurdefüreinBeispielaufgrundderVerteilungimWurzelknotenfürAttribut

A 1

die Ausprägung 2 ausgewürfelt, wirdin den mit

A 3

beshrifteten Knoten verzweigt.

Hier wird gemäÿ der gegebenen Verteilung die Ausprägung von

A 3

für das betrahtete

Beispielbestimmt,bevor derDurhlaufdurhden BiasTreebeendetwird.

Es ist möglih mehrere BiasTrees anzugeben, die der Reihe nah abgearbeitet werden.

Desweiteren ist niht nötig, für jeden Knoten eine Verteilung anzugeben. Ist für einen

Knoten keine Verteilung vorhanden, wird die Ausprägung des betrahteten Attributes

für dasBeispiel niht neu ausgewürfelt. Stattdessen wirddie bisherige Ausprägung

bei-behalten und benutzt, um zum nähst tieferen Knoten innerhalb des BiasTrees zu

ver-zweigen, fallsdieser vorhanden ist.Dajedes Beispiel zufällig initialisiertwurde, ist eine

Ausprägung immer vorhanden. Es bietetsih an,zunähst mit mehreren BiasTrees,die

nur auseinem Knoten bestehen (entarteterBiasTree), dieVerteilungderAusprägungen

derAttribute anzugeben.Danah können mitweiterenBiasTrees Bedingungen überdie

Ausprägung des Zielattributesformuliert werden. In Abbildung 6.2 ist einBeispiel

dar-gestellt. Zunähst werden die Wahrsheinlihkeiten für die jeweils zehn Ausprägungen

derAttribute

A 1

und

A 2

angegeben. Danah erfolgen Angaben über dieVerteilung der

beiden Ausprägungen des mit L bezeihneten Zielattributes in zwei weitern BiasTrees.

Während mit denBeshriftungen

A 1

und

A 2

untershiedlihe Attribute bezeihnet wer-den,stehen

L 1

bis

L 4

fürdasselbeAttribut,wobeijeweilseineuntershiedliheVerteilung zur Bestimmung der Ausprägung benutzt wird. Da die BiasTrees der Reihenfolge nah

abgearbeitet werden, erfolgtzunähst die Veränderung derVerteilung der Attribute

A 1

und

A 2

. Danah wird für Beispiele, die die entsprehenden Ausprägungen von

A 1

und

A 2

haben, die Veränderung des Zielattributes gemäÿ den Angaben der letzten beiden BiasTrees vorgenommen.

Es können beliebig groÿeDatensätze erzeugt werdenund dieVorgabederapriori W

ahr-sheinlihkeit der positiven Klasse desZielatributes ist als entarteter BiasTree möglih.

Auÿerdem kann dem Datensatz Raushen hinzugefügt werden. In realen Datensätzen

spriht man von Raushen,wenn einzelne Beipieleaufgrundfehlerhafter Erhebung oder

falsher Eingabe widersprühlih zu den Mustern sind, die den Daten unterliegen. Der

Operator erzeugt ein Beispiel zunähst gemäÿ des gegebenen BiasTree. Danah wird

entsprehendderWahrsheinlihkeit fürdasAuftretenvonRaushendieKlassedes

Ziel-attributes zufällig neu festgelegt. Beträgt die Wahrsheinlihkeit eins, sind die Klassen

desZielattributesvöllig zufällig; istsie null entsprehen die erzeugtenDatengenau dem

vorgegebenen BiasTree. Desweiteren ist es möglih festzulegen, ab und bis zu welhem

erzeugtenBeispieldie durhBiasTrees festgelegtenMuster indenDaten zu ndensind.

Dieses kann sinnvoll sein, falls mit Datenströmen gearbeitet wird. Insbesondere ist es

möglih, mit diesen Werten einen Konzeptdrift im Datenstrom zu simulieren. Unter

ei-nemKonzeptdriftverstehtmandieVeränderungdesdenDatenunterliegendenKonzeptes

imLaufe derZeit. Ein Beispielfür einen Konzeptdrift ist dieVeränderung des

Kaufver-haltensderKundeneinesUnternehmensmitderZeit.DieErkennungdieserVeränderung

ist für dasUnternehmen von groÿer Bedeutung. Ein Ansatz für das Lernen aus

Daten-strömen und den Umgang mit Konzeptdrifts ist in [29℄ dargestellt. Diese Möglihkeit

Attribut Verteilung überdieAusprägungen

Unfall 0.20.8

Alter 0.250.150.1 0.10.050.20.05 0.050.020.01 0.010.01

Stadtbewohner 0.60.4

Kinder 0.30.250.2 0.050.050.05 0.050.020.02 0.01

Alter

Stadtbewohner 18-25

Unfall1 ja

Unfall2 nein

Kinder 46-50

Unfall3 0

Unfall4 1

Attribut Verteilung überdie Ausprägungen

Unfall1 0.40.6

Unfall2 0.60.4

Unfall3 0.050.95

Unfall4 0.350.65

Abbildung6.3:DerfürdieErzeugungdessynthetishenDatensatzesverwendeteBiasTree

wurde derVollständigkeit halbererwähnt undwirdniht weiterverfolgt.

Zur DarstellungdesBiasTree wirdeineXML [2 ℄ basierteSyntax verwendet. Eine

Über-siht derParameter des BiasedExampleGenerator, derverwendeten XML-Tags und die

XML-Beshreibung des BiasTree ausAbbildung 6.2bendet sih inAnhang D.