4.4 Reursive Minimal Entropy Partitioning
4.4.1 Entropie und Informationsgewinn
Die Entropie ist ein Maÿ aus derInformationstheorie, das von Shannon [30℄ eingeführt
wurde. Sie gibt an, wieviel Zufälligkeit` in einem Signal oder einer Informationsfolge
stekt.HäugsprihtmanindiesemZusammenhangauhvonUnsiherheit.DieEntropie
Ent(I) einer gegebenen InformationI übereinem Alphabet Aist deniertals
Ent(I ) = −
| A |
X
i=1
p i · log 2 p i ,
wobei mit
p i die Wahrsheinlihkeit bezeihnet wird, mit der das i-te Symbol des Al-phabets A in der Information I auftritt. Multipliziert man Ent(I) mit der Anzahl der
Symbole in der Information I, erhält man die erwartete minimal benötigte Anzahl von
Bits,umdieInformation darzustellen. AlsBeispielstelle mansih einendeutshenText
vor.DieInformationistindiesemFalleineFolgevonBuhstaben.Einigedieser
Buhsta-ben kommen häuger vor als andere. Z.B ist derBuhstabe 'e' viel häuger alsdas 'y'.
Die Zeihenfolge ist niht völlig zufällig. Andererseits ist nie siher, welher Buhstabe
der nähste ist. Mit der Entropie misst man den Grad dieser Zufälligkeit. Ein weiteres
Beispiel ist der wiederholte Wurf einer Münze. Ist die Münze fair, d.h. Kopf und Zahl
sindgleih wahrsheinlih, ist derAusgang desZufallsexperimentes völligungewiss. Die
Entropie nimmt danndenmaximalen Wertan,nämliheins.IstdieMünzegezinkt, also
z.B.dieWahrsheinlihkeit fürKopfwesentlihhöheralsdiefürZahl,wirddie
Unsiher-heit überden Ausgang geringer. Die Entropie wirdkleiner und nähert sih immer mehr
null, je siherer der Ausgang des Zufallsexperimentes ist. Für eine Menge von
Beispie-len lässt sih die Entropie bezüglih des Zielattributes bestimmen. Die Ausprägungen
des Zielattributes bilden das Alphabet A. Nah Ermittlung der relativen Häugkeiten
für jede Ausprägung lässtsih dieEntropie berehnen. Analog zum Münzwurf wirddie
Entropie maximal,wennalleKlasseninderBeispielmengegleihhäugsindundbeträgt
null, wenn esnur eineKlasse gibt.
DerInformationsgewinnisteinKriterium,dasvonEntsheidungsbaumlernverfahren
ein-gesetzt wird. Die Beispielmenge wird dabei anhand der Ausprägungen eines Attributes
in mehrere Teilmengen aufgespaltet. Für jede dieser Teilmengen lässt sih nun wieder
die Entropie berehnen. Die Summe dieser Entropien, jeweilsgewihtet mit der Anzahl
der Beispiele in der Teilmenge, ergibt einen neuen Entropiewert für die gesamte
Bei-spielmenge. Die Dierenz zwishen altem und neuem Entropiewert bezeihnet man als
Informationsgewinn.
4.4.2 Algorithmus
DasGrundprinzipdiesesglobalenüberwahtenVerfahrens[10℄zurDiskretisierungist,für
dasbetrahtetenumerisheAttributeinenTeilungspunktzunden,anhand dessenWert
die Beispielmenge inzweiTeilmengen aufgeteilt wird: JedeInstanz, deren Attributwert
kleiner ist als der Wert des Teilungspunktes gehört zum ersten, der Rest zum zweiten
Teilintervall.ZurBestimmungdesTeilungspunktestestetderAlgorithmusallemöglihen
WertedesAttributes undwähltdenaus,fürdenderInformationsgewinnamgröÿtenist.
Für eine Menge Tvon Instanzen bezeihnet Ent(T) die Entropie in den Ausprägungen
desZielattributes. MitKwirdeinKandidatfüreinen Teilungspunktbezeihnet,derdie
InstanzenmengeindieTeilmengen
T 1undT 2aufteilt.FüreinenTeilungspunktkandidaten
K, einAttribut Aund einer Menge Tvon Instanzenberehnet derAlgorithmus
E(A; K; T ) = | T 1 |
| T | Ent(T 1 ) + | T 2 |
| T | Ent(T 2 ).
Anhand des besten Teilungspunktes
K min erfolgt die Aufteilung in zwei Teilintervalle, auf diedasVerfahren rekursivangewendet wird,bis dieauf demPrinzip derminimalen
Beshreibungslänge basierende Abbruhbedingung zutrit.Dieseist deniertals
Gain(A; K; T ) < log 2 ( | T | − 1)
| T | + ∆(A; K; T )
| T | .
Hierbeisteht Tfür diegerade betrahtete Beispielmenge und
Gain(A; K; T) = Ent(T ) − E(A; K; T ), sowie
∆(A; K; T ) = log 2 (3 k − 2) − [k · Ent(T ) − k 1 · Ent(T 1 ) − k 2 · Ent(T 2 )].
DieAnzahl dervershiedenenKlassen inderInstanzenmenge
S i wirdmitk i bezeihnet.
Die Rekursion wird abgebrohen, wenn die Verkleinerung der Unsiherheit niht mehr
groÿ genug ist. Damit werden die Bereihe des numerishen Attributes, die eine hohe
Entropie haben, wo also alle Ausprägungen des Zielattributes möglihst gleih häug
vertreten sind, sehr feinpartitioniert, währendBereihe mit geringer Entropie nur grob
partitioniert werden.
Das Verfahren wurde für dieLernumgebung YALE [21 ℄implementiert. Der erste Test
erfolgtemiteinemsynthetisherzeugtenDatensatzbestehendaus200.000Beispielen.Der
Adult Quantenphysik
J48 (ohne) 67.89 86.17
J48 (RMEP) 69.53 86.22
J48 (EFB5) 67.62 82.99
J48 (EFB10) 68.28 82.81
Tabelle4.3:AurayvonJ48aufDatensätzenohneDiskretisierung(ohne),mit
Reursi-veMinimalEntropyPartitioning(RMEP),EqualFrequenyBinningmit 5Bins(EFB5)
undEqual Frequeny Binningmit 10 Bins(EFB10).
Instanzenraum bestand dabei aus20 numerishen Attributen mit ganzzahligem W
erte-bereih von 0 bis 19 und einen nominalen Zielattribut mit zwei Klassen. Hierbeiwurde
nur für das erste Attribut eine Korrelation der Werte 0 und 1 mit dem Zielattribut
er-zeugt. Als Ergebnis lieferte das Reursive Minimal Entropy Partitioning nur 0 und 1
als Teilungspunkte für das erste Attribut. Aus allen anderen numerishen Attributen
wurden nominale Attribute mit einer Ausprägung erzeugt; sie wurden korrekt als
unin-teressant erkannt.Danahwurden dieVerfahrenaufdiespäternohverwendeten
Adult-und Quantenphysik-Datensätze angewandt und für die diskretisierten Daten mit dem
J48-Verfahren ein Entsheidungsbaum erzeugt. Die Ergebnisse sind in Tabelle 4.4.2
zu-sammengefasst. Eine nähere Beshreibung der Datensätze bendet sih in Kapitel 6.2.
Das Minimal Entropy Partitioning shneidet in allen Fällen gut ab.Zusammen mit der
Eigenshaft keinenParameter zu brauhen, gab diesesden Ausshlag bei allen weiteren
Experimenten nur noh dieses Verfahren zur Diskretisierung zu verwenden. Ein
erwäh-nenswerter Nahteil des Verfahrens ist die Laufzeit. Das Equal Frequeny Binning war
inallen Experimentenshneller.
IndiesemKapitel istderIteratingGSSAlgorithmus beshrieben.Erkombiniertden
Ge-neri Sequential Sampling Ansatz mit Knowledge-Based Sampling ummöglihstshnell
einekompakteundaussagekräftigeMengevonSubgruppenbzw.Regelnzunden.
Auÿer-dem nimmt er viele Verbesserungen am GSS Algorithmus vor. Um Knowledge-Based
Samplingeinsetzenzukönnen,bedurftederGSSAlgorithmuseinerErweiterung,ummit
Gewihtenumgehenzukönnen.EsmusstedasZiehenvonBeispielennaheinerdurhdie
Gewihte simulierten Verteilung mit Hilfe der Verwerfungsmethode ermögliht werden.
Desweiteren wurde zurVerkürzung derLaufzeit die Häugkeit,mit der dieBerehnung
von Nutzen und Kondenzintervall für die Hypothesen durhgeführt wird, verringert.
Auf die Problematik der Verwendung der Approximation durh die Normalverteilung
bei Berehnung der Kondenzintervalle wurde bereits in Kapitel 4.1 kurz eingegangen.
Die Problematik wird in diesem Kapitel vertieft und eine Lösung vorgeshlagen. Eine
BeshreibungdereinzelnenVerbesserungendesGSSAlgorithmuserfolgtimKapitel 5.1.
Das Problemder groÿen Hypothesenräume wurde angegangen, indem das Durhsuhen
desHypothesenraumes niht als Ganzessondernsukzessive von einfahen zukomplexen
Hypothesen erfolgte.DazubedurfteeszumeinenderMöglihkeit,denHypothesenraum
nah Komplexität geordnet aufzuzählen (Kapitel 5.2). Zum anderen war ein Kriterium
erforderlih,umzuentsheiden,wanndieSuhefüreinebestimmteKomplexität
abgebro-henwerdenkann(Kapitel5.3).UmnihtzuvieleHypothesenvongroÿerKomplexitätzu
erzeugen,bedurfteesweiterhineinerMethode,umsolheTeiledesHypothesenraumeszu
verwerfen,diekeinegutenHypothesenenthalten können(Kapitel5.4).DerVorgangwird
alsPruning bezeihnet.Neu andiesemAnsatz istdieKombination ausprobabilistisher
SubgruppenentdekungdurhdenGSSAlgorithmusundderSuheinstrukturierten
Hy-pothesenräumen [34 ℄.Im weiterenVerlaufdesKapitelswirdderIteratingGSS
Algorith-muszusammenmitseinen Variationsmöglihkeiten angegeben underläutert (Kapitel5.5
und5.6).AmEndedesKapitelserfolgteinegenauereBeshreibungderImplementierung
der zum Durhsuhen des Hypothesenraumes und fürs Pruning eingesetzten Methoden
(Kapitel5.7).
5.1 Modikationen des GSS Algorithmus
Der GSS Algorithmus wurde an einigen Stellen modiziert, um die Kombination mit
Knowledge-Based Samplingzuermöglihen undNahteilezuvermeiden, dieinder
Stan-dardversion auftreten.