Entscheidungsbaumverfahren - Methoden und Algorithmen der Wissensrepräsentation

3 Methoden und Algorithmen der Wissensrepräsentation

3.1 Entscheidungsbaumverfahren

Entscheidungsbäume gehören zu den überwachten Lernverfahren und basieren auf Wenn-Dann-Regeln [Krah98, S. 69 - 72; Beie06, S. 107]. Eine Wenn-Dann-Regel ist z.B.

„WENN der Hahn kräht, DANN ändert sich das Wetter und WENN der Hahn schweigt, DANN bleibt das Wetter“ [Lust02, S. 96]. In Abbildung 6 ist diese Regel graphisch darge-stellt.

Hahn

schweigt kräht

Wetter bleibt gleich

Wetter ändert sich

Abbildung 6: Einfacher Entscheidungsbaum in Anlehnung an [Lust02, S. 96]

Ein Entscheidungsbaum kann – wie in Abbildung 6 dargestellt – einstufig sein. Falls es bei einem oder mehreren Ästen weitere Unterteilungsmöglichkeiten gibt, handelt es sich um einen mehrstufigen oder zusammengesetzten Entscheidungsbaum. Abbildung 7 bildet einen mehrstufigen Entscheidungsbaum in einer allgemeinen Form ab.

Frage 1

Alternative 1 zu Frage1 Alternativen zu Frage1

Folgerung 1 Frage n

Alternative 1 zu Fragen Alternative n zu Fragen

Folgerung n Frage n + 1

Abbildung 7: Mehrstufiger Entscheidungsbaum in Anlehnung an [Lust02, S. 97]

Als Attribute an den Knoten bzw. Trennstellen eines Entscheidungsbaums können sowohl metrische Werte (siehe Abbildung in [Lust02, S. 86]) als auch nichtmetrische Werte (siehe Abbildung in [Krah98, S. 70]) verwendet werden.

Als nichtmetrische Attribute werden alle Attribute der Nominalskala (ohne Bildung einer qualitativen Reihenfolge) und Ordinalskala (mit Bildung einer qualitativen Reihenfolge) bezeichnet, die zur Klassifizierung qualitativer Eigenschaftsausprägungen dienen. Unter diese Typen fallen beispielsweise Attribute wie Geschlecht (männlich, weiblich), Farbe (rot, gelb, grün usw.), Religion (römisch-katholisch, evangelisch-lutherisch usw.) oder Postleitzahlen. Im Gegensatz dazu werden alle Attribute der Intervallskala (ohne natürli-chem Nullpunkt) und der Ratioskala (mit natürlinatürli-chem Nullpunkt) als metrische Attribute bezeichnet. Sie zeichnen sich durch die Eigenschaft aus, dass mit ihnen die vier Grundre-chenarten und Mittelwertbildung durchgeführt werden können. Beispiele für diese Attribut-typen sind Einkommen (Monats-/ Jahreseinkommen in Euro), Körpergröße (in cm) oder Kosten (Betrag in Euro). [Back06, S. 4 - 6]

Die Positionierung einer Wenn-Dann-Regel bzw. eines Attributs innerhalb des Entschei-dungsbaums vom Informationsgehalt des Attributs in Bezug auf die Zielgröße abhängig ist. Je größer der Informationsgehalt, desto weiter oben im Baum wird das Attribut

Abbildung 8: Mehrstufiger Entscheidungsbaum zur Gehaltsklassifikation in Anlehnung an [Krah98, S. 70]

Das Beispiel in Abbildung 8 zeigt, dass in dem Fall der Einordnung der Bezahlung in „gute Bezahlung“ bzw. „schlechte Bezahlung“ in erster Linie das Alter einen höheren Informati-onsgehalt besitzt als die Höhe des Gehaltes an sich, da aufgrund der Gehaltshöhe allein noch keine eindeutige Aussage getroffen werden kann, ob die Bezahlung gut oder schlecht ist. Dieses Beispiel aus Abbildung 8 ist sehr einfach gewählt, da neben dem Alter auch noch Attribute wie „Bildungsabschluss“ oder „Führungsverantwortung“ usw. eine

Zur Ableitung exakter Regeln aus einer Trainingsmenge mit verschiedenen Attributen müssen von der Wurzel bis zum untersten Knoten die Wenn-Dann-Regeln so konstruiert werden, dass alle Elemente der Trainingsmenge beim Testen in die entsprechende Grup-pen eingeteilt werden, deren Zugehörigkeit bei den Trainingsdaten vorher bekannt ist (überwachter Ansatz) [Beie06, S. 108].

Diese Regeln, welche die Struktur eines Entscheidungsbaums bilden, können entweder manuell auf Basis von Erfahrungswerten aufgestellt oder automatisch aus einer Trai-ningsmenge generiert bzw. gelernt werden. Ein vereinfachtes heuristisches Verfahren zum automatischen Erzeugen eines Entscheidungsbaums aus [Lust02, S. 303 - 304] lau-tet:

Schritt 1: Ermittlung, wie gut jedes Attribut allein die Elemente der Trainingsmenge klassi-fiziert.

Schritt 2: Positionierung des Attributs auf der aktuellen Baumebene, welches die Trai-ningsmenge am besten klassifiziert.

Schritt 3: Wiederholung der ersten beiden Schritte für die unteren Baumebenen, bis ein zuvor definiertes Abbruchkriterium erreicht oder die komplette Trainingsmenge korrekt klassifiziert ist.

Für diese Aufgabe existieren in der Praxis eine Reihe von induktiven Lernalgorithmen, die Top Down Induction of Decision Trees (TDIDT) Verfahren. Beispiele dafür sind Classifica-tion And Regression Trees (CART) für die Verarbeitung stetiger unabhängiger Attribute [Lust02, S. 302; Pete05, S. 182 - 183] oder Chi Sqare Automatic Interaction Detection (CHAID) für nicht-binäre Entscheidungsbäume [Lust02, S. 302; Pete05, S. 160 - 162]. Die etabliertesten TDIDT-Algorithmen bzw. Entscheidungsbaumlernsysteme sind Iterative Dichotomiser 3 (ID3) und dessen Weiterentwicklungen C4.5 bzw. C5.0 [Beie06, S. 115;

Pete05, S. 143]. Diese Verfahren berechnen für die Erstellung des optimalen Entschei-dungsbaums anhand der vorhandenen Attribute und der bekannten Gruppenklassifikatio-nen der Trainingsdaten den mittleren Informationsgehalt eines Attributs, der in der Litera-tur auch als Entropie bezeichnet wird [Beie06, S. 115; Lust02, S. 305].

Die Entropie Ent stellt eine Verbindung zwischen Wahrscheinlichkeit und Information her.

Sie misst dabei die Unsicherheit der Information eines zu erwartenden Elementarereignis-ses w in Kenntnis der Wahrscheinlichkeitsverteilung P [Beie06, S. 447 - 448]. Der Begriff Entropie wurde in der Literatur zum ersten Mal von C. Shannon und W. Weaver erwähnt, siehe dazu [Shan63].

Der ID3-Algorithmus hat folgenden Ablauf, siehe [Lust02, S. 304 - 309; Pete05, S. 143 - 148]:

Schritt 1: Für jedes mögliche Attribut der Unterknoten wird die Entropie Entsub auf Basis der vorhandenen Attributausprägungen und der Klassifikationsverteilung der Trainings-menge in die verschiedenen Gruppen in Abhängigkeit der Häufigkeit der Ausprägungen mit folgender Formel berechnet:

Ent_sub = -∑ P(w) * log₂P(w) [Beie06, S. 448; Lust02, S. 305]

Schritt 2: Auf Basis der ermittelten Entropien wird der Erwartungswert bzw. die gewichte-ten Entropien Ent_gew des Attributs berechnet. Der Erwartungswert ergibt sich aus der Summe der mit der Häufigkeit der Ausprägungen im Verhältnis zur Trainingsmenge ge-wichteten Entropien der einzelnen Ausprägungen des Attributs. Dies wird durch folgende Formel realisiert:

Entgew = ∑ P(w) * Entsub(w) [Lust02, S. 307]

Schritt 3: Auf Basis der Verteilung der Attributausprägungen w wird die Entropie Entroot für den Wurzelknoten bzw. das aktuelle Attribut, welches den Wurzelknoten der aktuellen Ebene bilden könnte, berechnet. Hierbei wird im Vergleich zum Schritt 1 die Häufigkeit des Auftretens der Gruppenklassifizierungen der Trainingsmenge im Verhältnis zur Attri-butausprägung nicht berücksichtigt. Für die Berechnung der Entropie des Wurzelknotens liegt folgende Formel zugrunde:

Ent_root = - ∑ P(w) * log₂P(w) [Lust02, S. 307]

Schritt 4: Der absolute Klassifikationsgewinn bzw. Informationsgewinn GA eines Attributs A wird mit folgender Formel berechnet:

G_A = Ent_root - Ent_gew[Lust02, S. 307]

Diese Schritte werden iterativ für jedes Attribut wiederholt, bis das Attribut mit dem höchs-ten Klassifikationsgewinn gefunden wurde. Dieses wird danach auf der aktuellen Ebene

der Trainingsmenge korrekt klassifiziert ist. Die Güte der Klassifizierung des Entschei-dungsbaums kann anschließend mittels einer Testmenge, die nicht Teil der Trainings-menge ist, überprüft werden. [Lust02, S. 308 - 309]

In der Weiterentwicklung C4.5 des ID3-Algorithmus wird statt dem absoluten Informati-onsgewinn ein um die Entropie des aktuellen Attributs normierter InformatiInformati-onsgewinn verwendet [Beie06, S. 117; Pete05, S. 156]. Für weiterführende Literatur zu den von J. R.

Quinlan entwickelten ID3- und C4.5-Algorithmen siehe [Quin83] und [Quin93].

Die Fehlerrate von Entscheidungsbäumen nimmt bei steigender Knotenzahl monoton ab.

Allerdings besteht bei steigender Knotenzahl die Gefahr einer zu starken Spezialisierung des Baums und damit einer Abnahme der Generalisierungsfähigkeit, was auch als Overfit-ting bezeichnet wird. [Pete05, S. 149]

Aus diesem Grund werden beim Pruning-Prozess Knoten und Blätter des Entscheidungs-baums abgeschnitten, wobei je nach Algorithmus das Pruning während oder nach der Baumgenerierung erfolgen kann. Für die Beschreibung der einzelnen Pruning-Methoden wie beispielsweise Cost-Complexity Pruning, Reduced Error Pruning oder Error-Complexity Pruning siehe [Pete05, S. 148 - 152].

Entscheidungsbäume besitzen den Vorteil, dass sie sehr einfach und verständlich präsen-tiert werden können. Allerdings kann durch zufällige Elemente das Herauskristallisieren von exakten Regeln erschwert werden, was den Entscheidungsbaum in einem solchen Fall schnell unübersichtlich, komplex und übermodelliert werden lässt. Um dies zu verhin-dern sollte der Baum auf eine bestimmte Tiefe und eine maximale Anzahl von Verzwei-gungen an den Knoten begrenzt werden. [Krah98, S. 74]

Im Dokument Complex Event Processing und maschinelle Lernverfahren (Seite 46-50)