• Keine Ergebnisse gefunden

2.6 CART Verfahren

2.6.3 Modellsch¨atzung

Die Sch¨atzung der Parameter im Klassifikations- bzw. Regressionsbaums erfolgt, wie in der Einf¨uhrung ausgef¨uhrt, ¨uber eine disjunkte Zerlegung der Gesamtgruppe nach relevanten Einflussfaktoren. Der Aufteilungsmechanismus erfolgt dabei rekur-siv (siehe Hand [18]) unter Einbeziehung zun¨achst aller verf¨ugbaren Einflussgr¨oßen.

Ausgehend von der unpartitionierten Menge (Gesamtpopulation) werden zun¨achst f¨ur jeden EinflussfaktorXi (i= 1, . . . , p)einzelnalle (falls mehr als eine m¨oglich ist) m¨oglichen Aufteilungen betrachtet und miteinander verglichen. Die hierbei jeweils

”beste“ Aufteilung (zur Definition siehe folgende Abschnitte) wird festgehalten.

Mittels dieser p jeweils besten Aufteilungen wird nun die insgesamt

”beste“ Auf-teilung ermittelt. Somit ergibt sich eine erste Bedingung, von der aus sukzessive – rekursiv – weitere Aufteilungskriterien ermittelt werden, so lange bis bestimmte

”Stopp-Bedingungen“ erf¨ullt sind.

Die Wahl des Aufteilungsmechanismusses h¨angt von den folgenden Kriterien ab:

das Split-Kriterium (Aufteilungskriterium), welches angibt, wie die Auftei-lungen hinsichtlich ihrer Optimalit¨at beurteilt werden;

die Stopp-Regel(Endkriterium) gibt die Bedingung an, ab wann in einer be-stimmten Untergruppe keine weitere Aufteilung mehr erfolgen soll, d.h. wann eine Untergruppe zu einer Endgruppe wird (vgl. Abbildung 2.12). Die geeig-nete Gr¨oße (der Verzweigungsgrad) des Baums wird damit bestimmt;

die Bestimmung vonSch¨atz- bzw. Vorhersagewertenf¨ur die Zielgr¨oße f¨ur die jeweiligen Endgruppen. Hierbei ist auf die Trennsch¨arfe bzw. die Sch¨atz-genauigkeit zu achten.

Die Bestimmung der drei genannten Merkmale wird in den folgenden Unterab-schnitten beschrieben.

2.6.3.1 Bestimmung von Split-Regeln

F¨ur die Beurteilung von Aufteilungen (Splits) m¨ussen zun¨achst Grundregeln f¨ur die Zul¨assigkeit von Splits formalisiert werden. Everitt et al. ([11], S.103 ff.) definieren erlaubte Splits wie folgt:

1. jede Aufteilung basiert auf einer einzelnen Kovariaten Xi;

2. f¨ur mindestens ordinal skalierte (geordnet kategorielle oder kontinuierliche) Variablen Xi muss eine Bedingung (ein Split) ci der Form

gL={X|Xi ≤ci} und gR={X|Xi > ci} (2.17) f¨ur einci aus dem Wertebereich von Xi aufgestellt werden. Dieci heißensplit points oder Aufteilungspunkte, durch die je Ausgangs- bzw. Untergruppe (”Knoten“) g ein linker Tochterknoten gL und ein rechter Tochterknoten gR definiert wird;

3. f¨ur rein kategorielle Variablen sind alle m¨oglichen disjunkten Aufteilungen der Gesamt- bzw. Untergruppe erlaubt.

Durch diese Kriterien sind gewisse Einschr¨ankungen formuliert. Forderung 1 gibt vor, dass eine Aufteilung immer nur bez¨uglich einer Einflussgr¨oße geschehen kann.

Das zweite Kriterium beschreibt eine disjunkte Aufteilung in zwei halboffene Inter-valle. Wie bereits im vorigen Abschnitt angedeutet, gibt es bei ordinal skalierten Variablen k−1 und bei kontinuierlichen Variablen theoretisch ¨uberabz¨ahlbar viele M¨oglichkeiten f¨ur die Wahl von ci. Wird jedoch vorgegeben, dass die ci genau in der Mitte eines Intervalls zwischen zwei Werten in der geordneten Reihe aller Werte liegen sollen und betrachtet man stets endliche Stichprobengr¨oßen, f¨allt die Zahl der relevanten Aufteilungsm¨oglichkeiten auf h¨ochstensn−1 (n¨amlich dann, wenn dien Subjekte inXi genaun unterschiedliche Werte tragen) zusammen.

Bei ungeordneten kategoriellen Variablen liegen, wie ebenfalls bereits ausgef¨uhrt, theoretisch 2k−1−1 m¨ogliche Dichotomisierungen vor. Unter Einbeziehung von W.D.

Fisher (1958) [13] reduzierte Breiman diese Zahl jedoch aufk m¨ogliche Splits (siehe Breimann et al [4], Seite 101).

Wernecke et al. [60] definieren die Zielsetzung der Klassifikationsb¨aume wie folgt.

”Given a set of risk factors X1, . . . , Xk which influence a response va-riable Y, construct subgroups of all data which are internally as homo-genuous and externally as hetereohomo-genuous as possible, measured on a characteristic function F(Y|X).“

Die Endgruppen sollen also so gew¨ahlt sein, dass sich die Subjekte in ihr bez¨uglich der Einflussgr¨oßen m¨oglichst wenig unterscheiden, daf¨ur aber im Vergleich zu den anderen Endgruppen bez¨uglich der Zielgr¨oße m¨oglichst große (großer Abstand) und m¨oglichst scharfe (m¨oglichst keine Reststreuung) Unterschiede aufweisen.

Die verschiedenen in der Literatur diskutierten Split-Regeln unterscheiden sich im Wesentlichen durch die Fokussierung, einerseits auf die interne Homogenit¨at oder andererseits die externe Heterogenit¨at. Wie noch zu zeigen ist, stehen beide Ans¨atze durchaus in einem Spannungsverh¨altnis zueinander.

F¨ur die Beurteilung aller m¨oglichen und nach obiger Definition erlaubten Auf-teilungen muss die geforderte Homogenit¨at bzw. Inhomogenit¨at zun¨achst definiert werden. Hierzu wird ein Maß f¨ur die (In)Homogenit¨at eines bestimmten Knotens (f¨ur eine Bedingung) in Bezug auf die Zielgr¨oße bestimmt.

Dieses Maß quantifiziert, wie stark durch die jeweilige Partitionierung die In-homogenit¨at der Gesamtgruppe im Vergleich zu der Summe der einzelnen Knoten reduziert wird.

a) Stetige Zielgr¨oßen

Bei stetigen Zielgr¨oßen wird die Inhomogenit¨at innerhalb eines Knotens ¨uber die Devianz der Einzel-Beobachtungen

D(yi; ˆµi) = (yi−µˆi)2

definiert. Der Erwartungswert des Knotens, innerhalb dessen die Beobachtung yi liegt, wird als Maximum-Likelihood-Sch¨atzung mittels des arithmetischen Mittels

¯

yi. bestimmt. Die Inhomogenit¨at ¨uber die Summe der einzelnen Devianzen, also entsprechend den linearen Modellen, ist als Fehlerquadratsumme (Sum of Squares [SS]) bestimmt.

Die LS (Least Squares) Split-Funktion ist

φ(ci, g) = SS(g)−(SS(gL) + SS(gR)) , mit SS(g) = X

ig

(yi−y)¯ 2 .

Hierbei bezeichnet seinen bestimmten Split im Knoteng, gL und gR beschreiben hier den linken bzw. rechten Tochterknoten (vgl. (2.17) auf Seite 121). Gesucht wird nun ein bestimmter Splitci, f¨ur den gilt:

φ(ci, g) = max

cig

φ(ci, g) , wobei Ωg alle erlaubten Splits in g bezeichnet.

b) Kategorielle Zielgr¨oßen

Bei diskreten Zielgr¨oßen wird ein ¨ahnlicher Ansatz gew¨ahlt. Die Split-Funktion

∆i(ci, g) =i(g)−(π(gL)i(gL) +π(gR)i(gR))

beschreibt den Grad der Inhomogenit¨ats-Reduktion, gegeben durch den Split ci,

¨uber einen ”Unreinheits“- (Impurity) Index i(.). Die π(gj) geben die Anteile der Subjekte an dem Gesamtknoten an, also π(gj) = nj/ng, j ∈ {L;R}.

F¨uri(.) werden in der Literatur verschiedene Vorschl¨age diskutiert (vgl. Hand [18]).

1. Die Fehlklassifikationsrate gibt an, wie groß der Anteil der Subjekte in ei-nem Knoten ist, die nicht die Kategorie mit der h¨aufigsten Auspr¨agung zeigen:

i1(g) = 1 max

j=1,...,mp(j|g)) ,

wobei ˆpden Anteilssch¨atzer in derj-ten Kategorie undmdie Anzahl m¨oglicher Auspr¨agungen von Y bezeichnen.

Im Falle von m= 2 (bin¨are Zielgr¨oße) gilt dann

i1(g) = 1max{pˆ(1|g) ; 1−pˆ(1|g)}

= 1max{pˆ(2|g) ; 1−pˆ(2|g)} .

2. Ein weiteres Maß, welches bereits von Breiman [4] besprochen wurde, ist der Gini-Index, der auch in vielen anderen Bereichen (wie beispielsweise zur Be-stimmung der Ungleichverteilung von Einkommen) eingesetzt wird:

i2(g) = Xm

i6=j

ˆ

p(i|g) ˆp(j|g)

= 2 Xm

i=1

Xm

j=i+1

ˆ

p(i|g) ˆp(j|g) .

Bei einer bin¨aren Zielgr¨oße vereinfacht sich die Schreibweise zu i2(g) = 2 ˆp(1|g) (1−pˆ(1|g))

= 2 ˆp(2|g) (1−pˆ(2|g)) . 3. Die Entropie oder

”Deviance-Statistik“, motiviert durch die multinomiale Verteilung des gesamten Klassifikationsbaums, wird die (Un-)Reinheit definiert als

i3(g) = Xm

i=1

ˆ

p(i|g) logbpˆ(j|g) .

Einige ¨Uberlegungen zur Basis b des Logarithmus-Terms folgt im folgenden Absatz. Bei m= 2 gilt f¨uri3(g) entsprechend (mitb = 4, siehe unten stehende Nebenrechnung 3):

i3(g) =−pˆ(1|g) log4p(1|g)) (1−pˆ(1|g)) log4(1−pˆ(1|g))

=−pˆ(2|g) log4p(2|g)) (1−pˆ(2|g)) log4(1−pˆ(2|g)) .

Weitere ¨Uberlegungen hinsichtlich der Eigenschaften (Minima, Maxima und Mo-notonit¨at) der drei eingef¨uhrten Unreinheitsmaße werden im Anhang B.2 dargestellt.

Zusammenfassend kann zu den Eigenschaften Folgendes erkl¨art werden:

Im Falle starker Konzentration eines kategoriellen Merkmals auf eine einzige Auspr¨agung wird die Inhomogenit¨at (Impurity) minimal (gleich 0).

Bei Gleichverteilung eines kategoriellen Merkmals, d.h.

ˆ

p(i|g) = 1

m,∀i= 1, . . . , m

(”Laplace“-Wahrscheinlichkeiten als Sch¨atzer), wird die Inhomogenit¨at i(g) maximal, n¨amlich gerade gleich m−1m . Mit wachsender Zahl der Auspr¨agungen strebt i(g) bei Gleichverteilung also gegen 1.

Einen Vergleich der drei eingef¨uhrten Impurity-Maße zeigt die Abbildung 2.13 am Beispiel von m = 2 (p bezeichnet hier der Anteilssch¨atzer f¨ur einen beliebigen Tochterknoten).

Abbildung 2.13: Impurity-Maße bei bin¨arer Zielgroße Gini-Index Fehlklassifikation Entropie

Es zeigt sich, dass das Maß der Entropie im Vergleich zur Fehlklassifikation und zum Gini-Index – mit Ausnahme vonp ∈ {0; 0,5; 1} – stets die gr¨oßte Unreinheit ausweist. In den genannten drei St¨utzstellen sind die drei Maße identisch.

Abbildung 2.14: Impurity-Maße bei m= 3

l Fehlklassifikation l l Gini-Index l l Entropie l

Die Abbildungen f¨ur zwei und drei Auspr¨agungen der Zielgr¨oße verdeutlichen die Unterschiede zwischen den drei Maßen. Die Fehlklassifikationsrate ist mit ei-ner Kostenfunktion vergleichbar, die jeder Zuweisung eines Subjekts zum

”falschen“

Knoten dieselben Kosten zuweist. Beim Gini-Index und bei der Entropie werden den Fehlklassifikationen jedoch variable Kosten zugewiesen, weshalb sie auch

”Variable Misclassification Costs“ genannt werden. Die Benutzung der beiden letzteren Rein-heitsmaße f¨uhrt dazu, dass besonders”reine“ Knoten bevorzugt werden, sofern dies m¨oglich ist. Als h¨aufig genutzter ”Kompromiss“ hat sich der Gini-Index erwiesen.

Letztendlich ist es jedoch f¨ur die Sch¨atzgenauigkeit des (finalen) Baums nicht er-heblich, welches Maß benutzt wird, weshalb sich die Frage anschließt, warum ¨uber-haupt verschiedene Maße existieren. Man m¨ochte zwar die Unreinheit innerhalb der Knoten minimieren, zum anderen m¨ochte man aber vermeiden, dass B¨aume zu vie-le Knoten aufweisen, um ihre ¨Ubersichtlichkeit und Interpretierbarkeit zu wahren.

Außerdem sollte einer Variablen, die einen Split h¨oherer Ordnung bewirkt, mehr

Interesse gewidmet werden als einer Einflussgr¨oße, die sp¨atere Splits ausl¨osen. In ei-nem Baum mit ungeeigneter Split-Regel wird nicht mehr gut ersichtlich sein, welche der Variablen wie stark f¨ur das Ergebnis entscheidend waren.

Betrachtungen zur Modellg¨ute

Zur Beurteilung von Klassifikationsb¨aumen werden, entsprechend der Anpassungs-g¨ute bei linearen Modellen (vgl. Seite 37), Bestimmtheitsmaße betrachtet.

2.6.3.2 Bestimmung von Stopp-Regeln

Obwohl prinzipiell eine Baum-Partitionierung grunds¨atzlich soweit fortgef¨uhrt wer-den k¨onnte, bis jede Endgruppe nur noch aus einzelnen Subjekten besteht, ist ein so gebildeter Klassifikations- oder Regressionsbaum nicht anzustreben. Zum einen w¨urden so zu komplexe und kaum mehr interpretierbare Strukturen entstehen; zum anderen w¨urden alle Subjekte gewissermaßen als Einflussfaktor betrachtet werden und somit kein – analog zum linearen Modell – zuf¨alliger”Restfehler“ mehr zugelas-sen werden. Diese Problematik ist wiederum bei den linearen Modellen als”overfit“

bekannt. Daher ist es erforderlich, zu entscheiden, an welcher Stelle die Partitionie-rung zu beenden ist, und dem Algorithmus entsprechende Stopp-Kriterien vorzuge-ben.

Ein intuitiv verst¨andlicher Ansatz ist es, als Stopp-Kriterium eine maximale Re-duktion der Inhomogenit¨at zu betrachten. Hierzu k¨onnen die in Kapitel 2.6.3.1 be-schriebenen Homogenit¨atsmaße herangezogen werden. Sollte durch einen n¨achsten Split die Inhomogenit¨ats-Reduktion nicht unter einem bestimmten Wert liegen, so m¨usste die weitere Partitionierung beendet werden.

Weiterhin ist denkbar, Maße f¨ur die Unterschiede zwischen den im jeweiligen Par-titionierungsschritt zu bildenden Knoten zu betrachten, wie beispielsweise – bei ste-tigen Zielgr¨oßen – durch die Feststellung von”signifikanten“ Lokationsunterschieden zwischen den Gruppen. Liegt der p-Wert einer t-Test- bzw. Wilcoxon-Test-Statistik unter einem vorgegebenem Wert f¨urα, so w¨are der betrachtete Split durchzuf¨uhren, andernfalls nicht. Bei Pfeiffer et al. [44] wird zu diesem Vorschlag ein lokales Signi-fikanzniveau von α= 0,05 vorgeschlagen.

Problematisch bei diesem Ansatz ist jedoch die Fallzahl-Abh¨angigkeit der Ent-scheidung. Bei unter diesem Aspekt kleineren Gruppen k¨onnte die Prozedur stoppen,

bei gr¨oßeren nicht, auch wenn identische Lageunterschiede vorliegen. Ein Regressions-oder Klassifikationsbaum mit h¨oheren Gesamt- bzw. Knotenfallzahlen bei einem Split w¨urde somit komplexer ausfallen als ein Baum mit kleineren Anzahlen.

Grunds¨atzlich problematisch bei der Festlegung von Stopp-Regeln ist zudem, dass hinter dem Stopp liegende Assoziationsstrukturen unentdeckt bleiben, beispielsweise eine Wechselwirkung zwischen Variablen, die einzeln betrachtet keinen erkennbaren Beitrag zur Partitionierung liefern.

Um die beschriebenen Probleme der Stopp-Kriterien zu bew¨altigen, wird bereits bei Breiman [4] ein mehrstufiges Verfahren vorgeschlagen. Hier wird die Partitio-nierung soweit fortgesetzt, bis die Gr¨oße der Endknoten recht klein geworden ist.

Anschließend kann der so gewonnene (komplexe) Baum wieder zur¨uckgestutzt wer-den, indem Mindestumf¨ange f¨ur die endg¨ultigen Endknoten, die Mindestunterschie-de zwischen Mindestunterschie-den Endknoten sowie eine minimale Reinheit innerhalb Mindestunterschie-der Knoten ge-fordert wird. Weitergehende Kriterien, etwa die Definition von Kosten-Funktionen (”cost-complexity pruning“) f¨ur Fehlentscheidungen, werden bei Breiman diskutiert.