Entropie und Informationsgewinn

4.4 Reursive Minimal Entropy Partitioning

4.4.1 Entropie und Informationsgewinn

Die Entropie ist ein Maÿ aus derInformationstheorie, das von Shannon [30℄ eingeführt

wurde. Sie gibt an, wieviel Zufälligkeit` in einem Signal oder einer Informationsfolge

stekt.HäugsprihtmanindiesemZusammenhangauhvonUnsiherheit.DieEntropie

Ent(I) einer gegebenen InformationI übereinem Alphabet Aist deniertals

Ent(I ) = −

| A |

X

i=1

p i · log ₂ p i ,

wobei mit

p i

^die ^Wahrsheinlihkeit bezeihnet wird, mit der das i-te Symbol des Al-phabets A in der Information I auftritt. Multipliziert man Ent(I) mit der Anzahl der

Symbole in der Information I, erhält man die erwartete minimal benötigte Anzahl von

Bits,umdieInformation darzustellen. AlsBeispielstelle mansih einendeutshenText

vor.DieInformationistindiesemFalleineFolgevonBuhstaben.Einigedieser

Buhsta-ben kommen häuger vor als andere. Z.B ist derBuhstabe 'e' viel häuger alsdas 'y'.

Die Zeihenfolge ist niht völlig zufällig. Andererseits ist nie siher, welher Buhstabe

der nähste ist. Mit der Entropie misst man den Grad dieser Zufälligkeit. Ein weiteres

Beispiel ist der wiederholte Wurf einer Münze. Ist die Münze fair, d.h. Kopf und Zahl

sindgleih wahrsheinlih, ist derAusgang desZufallsexperimentes völligungewiss. Die

Entropie nimmt danndenmaximalen Wertan,nämliheins.IstdieMünzegezinkt, also

z.B.dieWahrsheinlihkeit fürKopfwesentlihhöheralsdiefürZahl,wirddie

Unsiher-heit überden Ausgang geringer. Die Entropie wirdkleiner und nähert sih immer mehr

null, je siherer der Ausgang des Zufallsexperimentes ist. Für eine Menge von

Beispie-len lässt sih die Entropie bezüglih des Zielattributes bestimmen. Die Ausprägungen

des Zielattributes bilden das Alphabet A. Nah Ermittlung der relativen Häugkeiten

für jede Ausprägung lässtsih dieEntropie berehnen. Analog zum Münzwurf wirddie

Entropie maximal,wennalleKlasseninderBeispielmengegleihhäugsindundbeträgt

null, wenn esnur eineKlasse gibt.

DerInformationsgewinnisteinKriterium,dasvonEntsheidungsbaumlernverfahren

ein-gesetzt wird. Die Beispielmenge wird dabei anhand der Ausprägungen eines Attributes

in mehrere Teilmengen aufgespaltet. Für jede dieser Teilmengen lässt sih nun wieder

die Entropie berehnen. Die Summe dieser Entropien, jeweilsgewihtet mit der Anzahl

der Beispiele in der Teilmenge, ergibt einen neuen Entropiewert für die gesamte

Bei-spielmenge. Die Dierenz zwishen altem und neuem Entropiewert bezeihnet man als

Informationsgewinn.

4.4.2 Algorithmus

DasGrundprinzipdiesesglobalenüberwahtenVerfahrens[10℄zurDiskretisierungist,für

dasbetrahtetenumerisheAttributeinenTeilungspunktzunden,anhand dessenWert

die Beispielmenge inzweiTeilmengen aufgeteilt wird: JedeInstanz, deren Attributwert

kleiner ist als der Wert des Teilungspunktes gehört zum ersten, der Rest zum zweiten

Teilintervall.ZurBestimmungdesTeilungspunktestestetderAlgorithmusallemöglihen

WertedesAttributes undwähltdenaus,fürdenderInformationsgewinnamgröÿtenist.

Für eine Menge Tvon Instanzen bezeihnet Ent(T) die Entropie in den Ausprägungen

desZielattributes. MitKwirdeinKandidatfüreinen Teilungspunktbezeihnet,derdie

InstanzenmengeindieTeilmengen

T ₁

^und

T ₂

^aufteilt.^Für^einenTeilungspunktkandidaten K, einAttribut Aund einer Menge Tvon Instanzenberehnet derAlgorithmus

E(A; K; T ) = | T ₁ |

| T | Ent(T ₁ ) + | T ₂ |

| T | Ent(T ₂ ).

Anhand des besten Teilungspunktes

K min

^erfolgt ^die ^Aufteilung ⁱⁿ ^zwei ^Teilintervalle, auf diedasVerfahren rekursivangewendet wird,bis dieauf demPrinzip derminimalen

Beshreibungslänge basierende Abbruhbedingung zutrit.Dieseist deniertals

Gain(A; K; T ) < log ₂ ( | T | − 1)

| T | + ∆(A; K; T )

| T | .

Hierbeisteht Tfür diegerade betrahtete Beispielmenge und

Gain(A; K; T) = Ent(T ) − E(A; K; T ), sowie

∆(A; K; T ) = log ₂ (3 ^k − 2) − [k · Ent(T ) − k ₁ · Ent(T ₁ ) − k ₂ · Ent(T ₂ )].

DieAnzahl dervershiedenenKlassen inderInstanzenmenge

S _i

^wird^mit

k _i

^bezeihnet.

Die Rekursion wird abgebrohen, wenn die Verkleinerung der Unsiherheit niht mehr

groÿ genug ist. Damit werden die Bereihe des numerishen Attributes, die eine hohe

Entropie haben, wo also alle Ausprägungen des Zielattributes möglihst gleih häug

vertreten sind, sehr feinpartitioniert, währendBereihe mit geringer Entropie nur grob

partitioniert werden.

Das Verfahren wurde für dieLernumgebung YALE [21 ℄implementiert. Der erste Test

erfolgtemiteinemsynthetisherzeugtenDatensatzbestehendaus200.000Beispielen.Der

Adult Quantenphysik

J48 (ohne) 67.89 86.17

J48 (RMEP) 69.53 86.22

J48 (EFB5) 67.62 82.99

J48 (EFB10) 68.28 82.81

Tabelle4.3:AurayvonJ48aufDatensätzenohneDiskretisierung(ohne),mit

Reursi-veMinimalEntropyPartitioning(RMEP),EqualFrequenyBinningmit 5Bins(EFB5)

undEqual Frequeny Binningmit 10 Bins(EFB10).

Instanzenraum bestand dabei aus20 numerishen Attributen mit ganzzahligem W

erte-bereih von 0 bis 19 und einen nominalen Zielattribut mit zwei Klassen. Hierbeiwurde

nur für das erste Attribut eine Korrelation der Werte 0 und 1 mit dem Zielattribut

er-zeugt. Als Ergebnis lieferte das Reursive Minimal Entropy Partitioning nur 0 und 1

als Teilungspunkte für das erste Attribut. Aus allen anderen numerishen Attributen

wurden nominale Attribute mit einer Ausprägung erzeugt; sie wurden korrekt als

unin-teressant erkannt.Danahwurden dieVerfahrenaufdiespäternohverwendeten

Adult-und Quantenphysik-Datensätze angewandt und für die diskretisierten Daten mit dem

J48-Verfahren ein Entsheidungsbaum erzeugt. Die Ergebnisse sind in Tabelle 4.4.2

zu-sammengefasst. Eine nähere Beshreibung der Datensätze bendet sih in Kapitel 6.2.

Das Minimal Entropy Partitioning shneidet in allen Fällen gut ab.Zusammen mit der

Eigenshaft keinenParameter zu brauhen, gab diesesden Ausshlag bei allen weiteren

Experimenten nur noh dieses Verfahren zur Diskretisierung zu verwenden. Ein

erwäh-nenswerter Nahteil des Verfahrens ist die Laufzeit. Das Equal Frequeny Binning war

inallen Experimentenshneller.

IndiesemKapitel istderIteratingGSSAlgorithmus beshrieben.Erkombiniertden

Ge-neri Sequential Sampling Ansatz mit Knowledge-Based Sampling ummöglihstshnell

einekompakteundaussagekräftigeMengevonSubgruppenbzw.Regelnzunden.

Auÿer-dem nimmt er viele Verbesserungen am GSS Algorithmus vor. Um Knowledge-Based

Samplingeinsetzenzukönnen,bedurftederGSSAlgorithmuseinerErweiterung,ummit

Gewihtenumgehenzukönnen.EsmusstedasZiehenvonBeispielennaheinerdurhdie

Gewihte simulierten Verteilung mit Hilfe der Verwerfungsmethode ermögliht werden.

Desweiteren wurde zurVerkürzung derLaufzeit die Häugkeit,mit der dieBerehnung

von Nutzen und Kondenzintervall für die Hypothesen durhgeführt wird, verringert.

Auf die Problematik der Verwendung der Approximation durh die Normalverteilung

bei Berehnung der Kondenzintervalle wurde bereits in Kapitel 4.1 kurz eingegangen.

Die Problematik wird in diesem Kapitel vertieft und eine Lösung vorgeshlagen. Eine

BeshreibungdereinzelnenVerbesserungendesGSSAlgorithmuserfolgtimKapitel 5.1.

Das Problemder groÿen Hypothesenräume wurde angegangen, indem das Durhsuhen

desHypothesenraumes niht als Ganzessondernsukzessive von einfahen zukomplexen

Hypothesen erfolgte.DazubedurfteeszumeinenderMöglihkeit,denHypothesenraum

nah Komplexität geordnet aufzuzählen (Kapitel 5.2). Zum anderen war ein Kriterium

erforderlih,umzuentsheiden,wanndieSuhefüreinebestimmteKomplexität

abgebro-henwerdenkann(Kapitel5.3).UmnihtzuvieleHypothesenvongroÿerKomplexitätzu

erzeugen,bedurfteesweiterhineinerMethode,umsolheTeiledesHypothesenraumeszu

verwerfen,diekeinegutenHypothesenenthalten können(Kapitel5.4).DerVorgangwird

alsPruning bezeihnet.Neu andiesemAnsatz istdieKombination ausprobabilistisher

SubgruppenentdekungdurhdenGSSAlgorithmusundderSuheinstrukturierten

Hy-pothesenräumen [34 ℄.Im weiterenVerlaufdesKapitelswirdderIteratingGSS

Algorith-muszusammenmitseinen Variationsmöglihkeiten angegeben underläutert (Kapitel5.5

und5.6).AmEndedesKapitelserfolgteinegenauereBeshreibungderImplementierung

der zum Durhsuhen des Hypothesenraumes und fürs Pruning eingesetzten Methoden

(Kapitel5.7).

5.1 Modikationen des GSS Algorithmus

Der GSS Algorithmus wurde an einigen Stellen modiziert, um die Kombination mit

Knowledge-Based Samplingzuermöglihen undNahteilezuvermeiden, dieinder

Stan-dardversion auftreten.

Im Dokument r → Y +, (2) Verwerfungsmethode und Regeln r → Y +, (3) unnormierte Gewihte und alle Regeln,(4)Verwerfungsmethode und alle Regeln . . . . 65 (Seite 39-42)