Typologies et classifications ascendantes hiérarchiques

CHAPITRE IV : LES METHODES D’ANALYSES DE

IV. 1.2.2.2. Mesure du degré d’association entre deux variables qualitatives

IV.2. Analyses multidimensionnelles et Datamining

IV.2.4. Typologies et classifications ascendantes hiérarchiques

Les méthodes de typologie et de classification sont très couramment utilisées dans les études markéting notamment dans les études de segmentation et de ciblage de la clientèle. Cette section a pour but de présenter brièvement les méthodes les plus couramment utilisées.

IV.2.4.1. Typologie : k-means clustering

nombre bien défini de classes. Les individus sont regroupés (en cluster) sur des critères de ressemblance définis sur la notion de distance par rapport aux centroïdes.

Un cluster est alors définie comme un regroupement d’individu autour d’une valeur centrale appelée centroïde qui est en fait la moyenne du groupe. Ainsi, en spécifiant un nombre de cluster k, l’algorithme de regroupement détermine d’abord k valeurs de moyennes. Ensuite, il regroupe les individus autour de ces k-valeurs selon la distance par rapport à ces 5 valeurs. D’une manière générale, un individu est assigné à un centroïde lorsque sa distance avec ce centroïde est le plus faible par rapport aux autres centroïde. Ainsi, les individus assignés à une même centroïde forment un cluster. Cette classification ou typologie est généralement qualifiée de k-mean clustering. Pour mettre en œuvre cette démarche, on utilise la procédure PROC FASTCLUS comme suit :

PROC FASTCLUS DATA=MYTABLE MAXC=3 OUT=CLUSDATA;

VAR MYVAR1 MYVAR2…MYVARN; RUN;

Dans la commande ci-dessous, on réalise le k-means clustering en utilisant les variable MYVAR1 jusqu’à MYVARN. Ensuite dans les options, on indique qu’on veut constituer trois clusters au maximum. Nous indiquons également qu’on veut exporter les données avec les clusters constitués dans une table nommée CLUSTDATA. Dans cette table on retrouvera deux variables supplémentaires, la variable CLUSTER qui identifie le cluster auquel appartient l’individu mais aussi la variable DISTANCE qui indique la distance de l’individu par rapport au centre de classe.

IV.2.4.2. Classification Ascendante Hiérarchique (CAH)

La classification ascendante hiérarchique (CAH) est une méthode itérative de regroupement des individus qui obéit aux étapes suivantes. Dans un premier temps, on calcule la dissimilarité entre les N individus deux à deux en utilisant une notion de distance définie à partir de leur caractéristiques. Les individus les plus dissimilaires auront des distances plus élevées alors que les individus les plus semblables auront des distances faibles entre eux. Dans un second temps, on regroupe les deux individus dont le regroupement minimise un critère d'agrégation donné, créant ainsi une classe comprenant ces deux individus. On calcule ensuite la dissimilarité entre cette classe et les N-2 autres individus en utilisant le critère d'agrégation. Puis on regroupe les deux individus ou classes d'individus dont le regroupement minimise le critère d'agrégation. On continue ce processus ainsi jusqu'à ce que tous les individus soient regroupés. Ces regroupements successifs produisent alors un arbre de

classification dont la racine correspond à la classe regroupant l'ensemble des individus. Cet arbre de classification appelé dendrogramme représente une hiérarchie de partitions. On peut alors choisir une partition en tronquant l'arbre à un niveau donné afin d’aboutir à un nombre de classes distinctes. Le choix de ce niveau de coupure peut être arbitrairement fait par l’analyste en fonction de ses propres contraintes ou à partir des critères plus opérationnels.

Pour mettre en œuvre la CAH sous SAS, on utilise la procédure PROC CLUSTER.

L’exemple ci-dessous est une illustration.

PROC CLUSTER DATA=MYTABLE METHOD=WARD STANDARD OUTTREE=TAB_TREE PRINT=5 PLOTS(MAXPOINTS=500);

VAR MYVAR1 MYVAR2…MYVARN;

RUN;

Dans cette formulation, on réalise PROC CLUSTER en utilisant les variables allant de MYVAR1 à MYVARN. Nous indiquons à SAS de standardiser d’abord les données avant de les utiliser dans l’analyse. La méthode de classification suivie est celle de la distance de WARD. Il y a à peu près une dizaines de critère de distance pour réaliser.

Mais la méthode de WARD est la plus couramment utilisée. Ensuite, on indique à SAS d’exporter les résultats dans une table nommée TAB_TREE en utilisant OUTTREE. C’est cette table qui sera utilisée pour réaliser l’arbre de classification afin de choisir le nombre de classe à retenir. Nous décidons ici de fixer l’exportation des résultats sur 5 niveaux de l’arbre. Nous augmentons, aussi, par précaution le nombre de point à afficher dans le dendrogramme. Cette option peut être utile dans certains contextes.

Par exemple lorsque le nombre de cluster initial est très élevé (>200), SAS ne pourra plus afficher le dendrogramme car la valeur maximale par défaut est 200. C’est pourquoi, il faut souvent lire le fichier log pour prendre connaissance du message affiché à la suite de l’exécution. Bien entendu, il y d’autres options utiles qu’il faut consulter dans la base de connaissance de SAS.

Une fois que la procédure PROC CLUSTER est exécutée, la seconde étape est de réaliser le dendrogramme en utilisant la procédure complémentaire PROC TREE.

Celle-ci doit être appliquée sur la table de sortie définie dans l’option OUTTREE. La commande alors se présente comme suit :

PROC TREE DATA= TAB_TREE NCL=3 OUT=CLUSTERDATA ; RUN;

Notons que la fixation du nombre de clusters doit être faite après avoir examiné le dendrogramme. C’est pourquoi, il faut exécuter PROC TREE avec un nombre arbitraire de clusters. Ainsi, après avoir examiné le dendrogramme, on l’exécute une nouvelle fois en ayant la valeur finale du nombre de cluster.

IV.2.4.3. Quelques règles de bonnes pratiques dans les typologies et les classifications

Les typologies et les classifications étant réalisées à partir des notions de distance, il est important d’adopter quelques règles de bonnes pratiques afin d’améliorer l’efficience et la qualité des méthodes utilisées.

En effet, il est fortement conseillé d’utiliser d’abord des analyses en composantes principales ou des analyses factorielles afin de réduire la dimension des données à un nombre limité de composantes ou de facteurs. Au cas où l’ACP serait utilisé il faut d’abord veiller à standardiser les variables afin d’éliminer de potentiels effets d’échelle. Ainsi, une fois que ces composantes ou ces facteurs sont obtenus, on peut alors réaliser la typologie ou la classification en considérant ces variables de score. Il faut toutefois veilleur à ce que ces composantes ou ces facteurs retenus représentent une part significativement importante de l’inertie totale des données.

IV.4. Les modèles de régressions linéaires et

Im Dokument Data Engineering Applied in SAS: Processing, Organization and Analysis (Seite 186-189)