• Keine Ergebnisse gefunden

wissen& forschung statistik

N/A
N/A
Protected

Academic year: 2022

Aktie "wissen& forschung statistik"

Copied!
1
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

planung&analyse5/2017 67

wissen& forschung statistik

Ziele. Im Gegensatz zu der zumeist zur Segmentie- rung genutzten Clusteranalyse differenzieren Ent- scheidungsbäume zwischen einer abhängigen Variable und unabhängigen Variablen. Ziel ist es, Segmente in einer Stichprobe zu finden, die durch die unabhängi- gen Variablen definiert und hinsichtlich der abhängi- gen Variable möglichst homogen sind.

Somit helfen Entscheidungsbäume zu verstehen, wie die abhängige Variable und die unabhängigen Variablen zusammenhängen. Sie ermöglichen es, Re- geln für die Klassifikation von Personen zu formulie- ren. Der Modalwert einer kategorialen abhängigen Variable beziehungsweise der Mittelwert einer me- trischen abhängigen Variable eines Segments ist so- dann eine Prognose eben dieser Variable auch für

„neue“ Personen, die diesem Segment zugeordnet werden.

Beispiel. Auch wenn Entscheidungsbäume für größe- re Stichproben prädestiniert sind, lassen sie sich eben- so gut anhand eines kleinen Datenbeispiels veran- schaulichen. Von sieben Personen sei neben dem Ge- schlecht und dem Alter bekannt, ob sie Käufer oder Nicht-Käufer eines Produkts sind (siehe Abbildung 1).

In der Stichprobe befinden sich vier Käufer und drei Nicht-Käufer. Ziel ist es, diese so aufzuteilen, dass sich in den Segmenten entweder möglichst viele Käufer oder möglichst viele Nicht-Käufer befinden. In einem ersten Schritt kann anhand des Alters eine Teilgruppe identifiziert werden, die nur Nicht-Käufer enthält (Knoten 2). Damit ergibt sich eine erste Klassifikati- onsregel respektive Definition eines Segments:

Wenn älter als 49, dann Segment/Knoten 2 (Modal- wert: Nicht-Käufer)

llgemein stellen Entscheidungsbäu- me den Weg zu einer Entscheidung grafisch dar. In der Marktforschung werden sie eingesetzt, um Segmente zu bilden und Klassifikationsregeln zu bestimmen.

Die andere Teilgruppe (Knoten 1) wird in einem zweiten Schritt anhand des Geschlechts aufgeteilt in ein Segment, dem nur Käufer angehören (Knoten 3), und ein Segment (Knoten 4), das zwei Käufer und einen Nicht-Käufer umfasst. Da alle drei weiblich sind und zu der Altersgruppe 40 bis 49 Jahre zählen, kann dieses nicht weiter aufgeteilt werden. Daraus folgen zwei weitere Klassifikationsregeln:

Wenn jünger als 50 und männlich, dann Segment/

Knoten 3 (Modalwert: Käufer)

Wenn jünger als 50 und weiblich, dann Segment/

Knoten 4 (Modalwert: Käufer)

Abbildung 2 stellt den entsprechenden Entschei- dungsbaum dar. Mit Hilfe der Klassifikationsregeln ergibt sich für die Stichprobe eine Trefferquote von 6/7.

Algorithmen. Grundgedanke der Algorithmen zur In- duktion von Entscheidungsbäumen ist das beispielhaft beschriebene rekursive Zerlegen eines vorliegenden Datensatzes. Jede Aufteilung erfolgt anhand einer un- abhängigen Variable. Für die Auswahl dieser Variable und die genaue Aufteilung spielt die abhängige Varia- ble eine entscheidende Rolle.

Gängige Algorithmen sind

CHAID (Chi-Squared Automatic Interaction Detector)

CART (Classification and Regression Tree)

CTree (Conditional Inference Tree)

Prinzipiell können die Variablen beliebige Skalen- niveaus aufweisen. Da die Algorithmen damit unter- schiedlich umgehen sowie verschiedene Kriterien für die jeweilige Auswahl der Trennungsvariable anlegen, gibt es zu einem Datensatz mehrere mögliche Ent- scheidungsbäume. Diese können beispielsweise hin- sichtlich der Trefferquote miteinander verglichen wer- den.

In Ausgabe 6/2017: Induktion von Entscheidungsbäu- men mit CHAID

Entscheidungsbäume

A

Käufer

Alter 49 Alter > 49

Geschlecht = weiblich Geschlecht = männlich

Knoten 0

Nicht-Käufer 4 3

Käufer

Knoten 2

Nicht-Käufer 0 2 Käufer

Knoten 1

Nicht-Käufer 4 1

E

Käufer

Knoten 3

Nicht-Käufer 2 0

Käufer

Knoten 4

Nicht-Käufer 2 1

Entscheidungsbaum zum Datenbeispiel

Datenbeispiel

Beobachtung Geschlecht Altersgruppe Zuordnung Prognose

Käufer männlich 18−29 Knoten 3 Käufer

Käufer weiblich 40−49 Knoten 4 Käufer

Käufer männlich 30−39 Knoten 3 Käufer

Käufer weiblich 40−49 Knoten 4 Käufer

Nicht-Käufer weiblich 50−59 Knoten 2 Nicht-Käufer Nicht-Käufer männlich

60 Knoten 2 Nicht-Käufer Nicht-Käufer weiblich 40−49 Knoten 4 Käufer

Quelle: Eyesquare planung&analyse 4/2017 Rokach, L., Maimon,

O.Z.: Data Mining with Decision Trees: Theory and Applications, 2. Auflage, Hackensack, 2015.

Literatur

Johannes Lüken, Diplom- Psychologe, ist Leiter des Bereichs Data Sciences bei IfaD.

jlueken@ifad.de

Prof. Dr. Heiko Schimmel- pfennig, Diplom-Kauf- mann, ist Projektleiter für Data Sciences bei IfaD.

hschimmelpfennig@ifad.de

Die Autoren

Referenzen

ÄHNLICHE DOKUMENTE

Field Upgrade Kits are required to modify the 8510, 8512 and 8515 units for operation with a Variable Density Disk Drive Controller9. These kits consist of the PWB assemblies,

You will want to show that the denominator of the corresponding rational function has precisely one root inside the unit

If these bounds are not too far apart you have a good approximation to

Find power series for the following functions about the points stated and give the radius of convergence for each of the series1. Compare with sin z and deduce that sin(iz) = i

In the last week I might come back to questions of general interest in

All problem sheets and the mathematica notebook (on the Fundamental Theorem) are online.. http://www.ma.rhul.ac.uk/∼elsholtz/WWW/lectures/0405mt290/lecture.html Happy

i s of the essence. It saves an enormous amount of time in the reading of reeordings such as oseillograms or telemetering data beeause to a large extent it

Each data sector is of a predetermined fixed storage capacity or length (e.g. 512 bytes of user data per data sector); and, the density and data rates vary from data Zone