5.7 Implementierung der Hilfsmethoden
6.1.1 Der BiasedExampleGenerator Operator
ZurGenerierungvonsynthetishen DatensätzenwurdederOperator
BiasedExampleGe-nerator entworfen und für die Lernumgebung YALE [21℄ implementiert. Er ermögliht
Datensätze zu generieren und gezieltMuster einzubauen. ZentralesElement des
Opera-tors ist der BiasTree. Er gibt die bedingte Wahrsheinlihkeit für das Auftreten eines
bestimmten BeispielesinFormeines Entsheidungsbaumes an. InAbbildung 6.1ist ein
einfaherBiasTreedargestellt. DieKnotendesBaumessindmitdenNamender
Attribu-te
A 1,A 2 undA 3 beshriftet,diejeweilszehnAusprägungenhaben.FürjedenKnotenist
eineVerteilungangegeben,diefestlegtmitwelherWahrsheinlihkeitdieAusprägungen
A 3 beshriftet,diejeweilszehnAusprägungenhaben.FürjedenKnotenist eineVerteilungangegeben,diefestlegtmitwelherWahrsheinlihkeitdieAusprägungen
desAttributes bzw. dieentsprehenden Indizes 1
auftreten.Die mit Zahlenbeshrifteten
voneinemKnotenausgehendenKantengebenan,beiwelherAusprägungdesAttributes
zumnähsttieferen Knoten verzweigtwird.
Jedes Beispiel wird zunähst zufällig erzeugt, d.h. für alle Attribute hat jede
Ausprä-gung die gleihe Wahrsheinlihkeit gezogen zu werden. Danah durhläuft dasBeispiel
1
HateinAttribut
|A i |
Ausprägungen,werdendiesevon0bis|A i | − 1
durhnummeriert.A 1
A 2
1
A 3
2
Attribut Verteilung überdie Ausprägungen
A 1 0.10.10.20.1 0.10.050.050.1 0.10.1
A 2 0.10.10.20.1 0.10.050.050.1 0.10.1
A 3 0.10.20.10.1 0.10.050.050.1 0.10.1
A 3 0.10.20.10.1 0.10.050.050.1 0.10.1
Abbildung 6.1:Einfahes Beispielfür einenBiasTree
A 1
Attribut Verteilung überdie Ausprägungen
A 1 0.050.050.2 0.20.10.050.05 0.10.10.1
A 2
Attribut Verteilung überdie Ausprägungen
A 2 0.20.20.10.05 0.050.050.05 0.10.10.1
A 1
L 1
2
L 2
3
Attribut Verteilung überdie Ausprägungen
A 1 keine neueVerteilung
L 1 0.30.7
L 2 0.40.6
A 2
L 3
0
L 4
1
Attribut Verteilung überdie Ausprägungen
A 2 keine neueVerteilung
L 3 0.60.4
L 4 0.50.5
Abbildung 6.2: Menge von mehrerenBiasTrees, diezunähst dieVerteilung der
Ausprä-gungen derAttributeangeben und dannBedingungen fürdie Ausprägung des
Zielattri-butesformulieren.
den BiasTree. An jedem Knoten wird die Ausprägung des entsprehenden Attributes
gemäÿ der angegebenen Verteilung neu ausgewürfelt. Entspriht derIndex der
Ausprä-gung deman einer von diesemKnoten ausgehenden KantenotiertenIndex, wird inden
entsprehendenKnotenverzweigt.AnsonstenwirdderDurhlaufdurhdenBiasTree
ab-gebrohen.WurdefüreinBeispielaufgrundderVerteilungimWurzelknotenfürAttribut
A 1 die Ausprägung 2 ausgewürfelt, wirdin den mit A 3 beshrifteten Knoten verzweigt.
Hier wird gemäÿ der gegebenen Verteilung die Ausprägung von
A 3 für das betrahtete
Beispielbestimmt,bevor derDurhlaufdurhden BiasTreebeendetwird.
Es ist möglih mehrere BiasTrees anzugeben, die der Reihe nah abgearbeitet werden.
Desweiteren ist niht nötig, für jeden Knoten eine Verteilung anzugeben. Ist für einen
Knoten keine Verteilung vorhanden, wird die Ausprägung des betrahteten Attributes
für dasBeispiel niht neu ausgewürfelt. Stattdessen wirddie bisherige Ausprägung
bei-behalten und benutzt, um zum nähst tieferen Knoten innerhalb des BiasTrees zu
ver-zweigen, fallsdieser vorhanden ist.Dajedes Beispiel zufällig initialisiertwurde, ist eine
Ausprägung immer vorhanden. Es bietetsih an,zunähst mit mehreren BiasTrees,die
nur auseinem Knoten bestehen (entarteterBiasTree), dieVerteilungderAusprägungen
derAttribute anzugeben.Danah können mitweiterenBiasTrees Bedingungen überdie
Ausprägung des Zielattributesformuliert werden. In Abbildung 6.2 ist einBeispiel
dar-gestellt. Zunähst werden die Wahrsheinlihkeiten für die jeweils zehn Ausprägungen
derAttribute
A 1 und A 2 angegeben. Danah erfolgen Angaben über dieVerteilung der
beiden Ausprägungen des mit L bezeihneten Zielattributes in zwei weitern BiasTrees.
Während mit denBeshriftungen
A 1 und A 2 untershiedlihe Attribute bezeihnet
wer-den,stehenL 1bisL 4fürdasselbeAttribut,wobeijeweilseineuntershiedliheVerteilung
zur Bestimmung der Ausprägung benutzt wird. Da die BiasTrees der Reihenfolge nah
L 1bisL 4fürdasselbeAttribut,wobeijeweilseineuntershiedliheVerteilung
zur Bestimmung der Ausprägung benutzt wird. Da die BiasTrees der Reihenfolge nah
abgearbeitet werden, erfolgtzunähst die Veränderung derVerteilung der Attribute
A 1
und
A 2. Danah wird für Beispiele, die die entsprehenden Ausprägungen von A 1 und
A 2 haben, die Veränderung des Zielattributes gemäÿ den Angaben der letzten beiden
BiasTrees vorgenommen.
A 2 haben, die Veränderung des Zielattributes gemäÿ den Angaben der letzten beiden BiasTrees vorgenommen.
Es können beliebig groÿeDatensätze erzeugt werdenund dieVorgabederapriori W
ahr-sheinlihkeit der positiven Klasse desZielatributes ist als entarteter BiasTree möglih.
Auÿerdem kann dem Datensatz Raushen hinzugefügt werden. In realen Datensätzen
spriht man von Raushen,wenn einzelne Beipieleaufgrundfehlerhafter Erhebung oder
falsher Eingabe widersprühlih zu den Mustern sind, die den Daten unterliegen. Der
Operator erzeugt ein Beispiel zunähst gemäÿ des gegebenen BiasTree. Danah wird
entsprehendderWahrsheinlihkeit fürdasAuftretenvonRaushendieKlassedes
Ziel-attributes zufällig neu festgelegt. Beträgt die Wahrsheinlihkeit eins, sind die Klassen
desZielattributesvöllig zufällig; istsie null entsprehen die erzeugtenDatengenau dem
vorgegebenen BiasTree. Desweiteren ist es möglih festzulegen, ab und bis zu welhem
erzeugtenBeispieldie durhBiasTrees festgelegtenMuster indenDaten zu ndensind.
Dieses kann sinnvoll sein, falls mit Datenströmen gearbeitet wird. Insbesondere ist es
möglih, mit diesen Werten einen Konzeptdrift im Datenstrom zu simulieren. Unter
ei-nemKonzeptdriftverstehtmandieVeränderungdesdenDatenunterliegendenKonzeptes
imLaufe derZeit. Ein Beispielfür einen Konzeptdrift ist dieVeränderung des
Kaufver-haltensderKundeneinesUnternehmensmitderZeit.DieErkennungdieserVeränderung
ist für dasUnternehmen von groÿer Bedeutung. Ein Ansatz für das Lernen aus
Daten-strömen und den Umgang mit Konzeptdrifts ist in [29℄ dargestellt. Diese Möglihkeit
Attribut Verteilung überdieAusprägungen
Unfall 0.20.8
Alter 0.250.150.1 0.10.050.20.05 0.050.020.01 0.010.01
Stadtbewohner 0.60.4
Kinder 0.30.250.2 0.050.050.05 0.050.020.02 0.01
Alter
Stadtbewohner 18-25
Unfall1 ja
Unfall2 nein
Kinder 46-50
Unfall3 0
Unfall4 1
Attribut Verteilung überdie Ausprägungen
Unfall1 0.40.6
Unfall2 0.60.4
Unfall3 0.050.95
Unfall4 0.350.65
Abbildung6.3:DerfürdieErzeugungdessynthetishenDatensatzesverwendeteBiasTree
wurde derVollständigkeit halbererwähnt undwirdniht weiterverfolgt.
Zur DarstellungdesBiasTree wirdeineXML [2 ℄ basierteSyntax verwendet. Eine
Über-siht derParameter des BiasedExampleGenerator, derverwendeten XML-Tags und die
XML-Beshreibung des BiasTree ausAbbildung 6.2bendet sih inAnhang D.