• Keine Ergebnisse gefunden

E Random Forestsund Boosted Trees

N/A
N/A
Protected

Academic year: 2022

Aktie "E Random Forestsund Boosted Trees"

Copied!
2
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

planung&analyse3/2018

66

wissen& forschung statistik

ntscheidungsbäume dienen der Vor­

hersage einer zu beschreibenden (ab­

hängigen) Variablen. Die (unabhängi­

gen) Trennungsvariablen formen den Baum und können die Strukturen im analysierten Datensatz perfekt abbilden, das heißt die abhängige Variable genau „prognostizieren“. Für die Vorhersage der abhängigen Variablen in weiteren Da­

ten kann ein solcher Baum aber dennoch ungeeignet sein. Ein möglicher Lösungsweg ist die Induktion mehrerer Bäume, von denen jeder einzelne auf einem etwas anderen Datensatz beruht. Random Forests und Boosted Trees sind zwei Methoden zur Erzeu­

gung von Ensembles von Entscheidungsbäumen, de­

ren zugrunde liegende Ideen anhand eines kleinen Beispiels mit einer dichotomen abhängigen Variable veranschaulicht werden.

Induktion eines Entscheidungsbaums

Trainingsdatensatz (siehe Abbildung 1 links) und Vali­

dierungsdatensatz (rechts) des Beispiels umfassen je­

weils zehn Fälle, von denen fünf einer blauen und fünf einer orangefarbigen Gruppe angehören. Für jeden Fall liegen zudem die Ausprägungen von zwei un­

abhängigen Variablen x1und x2vor. Abbildung 1 zeigt einen möglichen Entscheidungsbaum und die diesem Baum entsprechende Zerlegung des durch x1und x2 aufgespannten Raums veranschaulicht durch die un­

terschiedlichen Hintergrundfarben. Zur besseren Nachvollziehbarkeit beschränkt sich der Baum auf Verzweigungen mit zwei Zweigen und Trennungen nur bei ganzen Zahlen. Die Fälle des Trainingsdatensatzes passen alle zur jeweiligen Hintergrundfarbe, das heißt der Baum ordnet jeden Fall der richtigen Gruppe zu.

Random Forests

und Boosted Trees

E

Abbildung 1:

Vollständiger Entscheidungsbaum

für den Trainings­

datensatz und Anwendung auf einen

Validierungsdatensatz

Abbildung 2:

Ensemble von Bäumen mit Random Forests

Abbildung 3:

Ensemble von Bäumen mit Boosted Trees

(2)

planung&analyse3/2018 67 Nutzt man ihn zur Prognose des Validierungsdaten­

satzes, werden jedoch nur sechs Fälle richtig klassifi­

ziert. Schneidet man die unterste Verzweigung weg, würde zwar ein Fall des Trainingsdatensatzes falsch zugeordnet, der Baum aber allgemeiner und somit nur zwei Fälle des Validierungsdatensatzes fehlklassifiziert.

Random Forests

Jeder Datensatz, für den ein Baum des Ensembles er­

zeugt wird, ist das Ergebnis einer zufälligen Auswahl aus dem Trainingsdatensatz mit Zurücklegen. Der Umfang dieser Stichprobe entspricht dem des ur­

sprünglichen Datensatzes. In jedem Knoten erfolgt zu­

dem eine zufällige Auswahl der infrage kommenden Trennungsvariablen. Abbildung 2a zeigt den ersten ge­

zogenen Datensatz. Die größeren Kreise stehen für mehrfach gezogene Fälle. Als Trennungsvariable wur­

de zufällig x1bestimmt. Die beste Trennung wird mit x1=3 erreicht: Nur ein Fall liegt in der falschen Gruppe.

Allein der Übersichtlichkeit halber wird auf zusätzliche Aufteilungen bzw. Verzweigungen verzichtet. Die Ab­

bildungen 2b und 2c zeigen zwei weitere gezogene Stichproben und die jeweils besten Aufteilungen. In beiden wurde x2 zufällig als Trennungsvariable be­

stimmt. Diese drei Bäume (in echten Anwendungen sind es mehrere Hundert) werden zusammengefasst, indem jeder x1­x2­Kombination die Farbe (Gruppe) zugeordnet wird, mit der sie in den drei Bäumen am häufigsten vertreten ist. Abbildung 2d zeigt, dass damit acht Fälle des Validierungsdatensatzes korrekt klassifi­

ziert werden.

Boosted Trees

Während bei Random Forests die einzelnen Bäume unabhängig voneinander sind, werden sie bei Boosted Trees so erzeugt, dass ein Baum die Fehler seines Vor­

gängers möglichst vermeidet. Zudem werden sie be­

wusst klein gehalten. Abbildung 3a veranschaulicht den ersten Baum, der nur aus einer Aufteilung besteht.

Die beste Trennungsvariable ist x1. Zwei blaue Fälle werden aber der falschen Gruppe zugeordnet. Diese bekommen für die Induktion des zweiten Baums ein höheres Gewicht – gekennzeichnet durch die größeren Kreise in Abbildung 3b. Für diesen Datensatz bleibt x1 zwar die beste Trennungsvariable, aufgrund der Ge­

wichtung verschiebt sich aber die Aufteilung. Nun wer­

den drei orangefarbige Fälle falsch zugeordnet. Vor der Erzeugung des nächsten Baumes erhalten diese ein höheres Gewicht etc. Erfolgt die Zusammenfassung der drei Bäume analog zu Random Forests, ergibt sich Abbildung 3d. Auch hiermit werden acht Fälle des Validierungsdatensatzes richtig klassifiziert.

Im Allgemeinen gelten Random Forests als die ein­

facher anzuwendende Methode, da Boosted Trees eine Reihe von Einstellungen erfordern, um ihre ganze Stärke ausspielen zu können.

In Ausgabe 4/2018:

Treiberanalyse mit Entscheidungsbäumen

Johannes Lüken, Diplom­

Psychologe, ist Leiter des Bereichs Data Sciences bei IfaD.

jlueken@ifad.de

Prof. Dr. Heiko Schimmel­

pfennig, Diplom­Kauf­

mann, ist Projektleiter für Data Sciences bei IfaD.

hschimmelpfennig@ifad.de

James, G.; Witten, D.;

Hastie, T.; Tibshirani, R.: Tree­Based Methods.

In: An Introduction to Statistical Learning, New York, 2017, S.

303­335.

Ray, S.: Quick In­

troduction to Boosting Algorithms in Machine Learning, 2015, https://

www.analyticsvid­

hya.com/

Literatur

Die Autoren

Referenzen

ÄHNLICHE DOKUMENTE

1) Randomly select the training data for one tree. 2) Learn the tree based on the training data. b) If a stopping rule holds do not split the samples. d) Select the best

For the shared task of event nugget detec- tion at TAC 2015 we trained a deep feed for- ward network achieving an official F 1 -score of 65.31% for plain annotations, 55.56% for

Bootstrapping is an uncertainty modelling step that generates modified versions of the training set over which trees will be grown and ensemble predictions averaged.. Trees are

Wiener index, weak convergence, distance (in a graph), random binary search tree, random recursive tree, contraction method, bivariate limit law.. 1 Introduction

(1996) Optimal logarithmic time random- ized suffix tree construction.. (1997) An optimal, logarithmic time, ran- domized parallel suffix tree

For the random binary search tree with n nodes inserted the number of ancestors of the elements with ranks k and `, 1 ≤ k < ` ≤ n, as well as the path distance between these

The high concentration of nodes at certain (log) levels results in the asymptotic bimodality for the variance, as already demonstrated in Drmota and Hwang (2005a); our purpose of

Im Modul 1 werden die entscheidenden Kenntnisse und Fähigkeiten der Leistungsphasen 1-5 vermittelt, damit Projektleiter ihre Projekte effektiv planen und vorbereiten können..