Partager cette page :

Le clustering

une approche statistique pour la classification d'un ensemble complexe de données

Du point de vue de la statistique, compresser une information ou construire une typologie dans une population relève d'un même domaine : le clustering. L'objectif du clustering est de dégager des groupes dans un ensemble de données, afin d'en réduire la complexité et en faciliter ainsi l'utilisation et l'interprétation.

Réduire la complexité d'un ensemble de données, c'est simplifier -et donc rendre plus facilement utilisable et interprétable- une information éventuellement pléthorique. Au delà de cet objectif, c'est aussi une nécessité dans certains domaines, tel que la transmission de l'information par exemple, afin d'en limiter les risques de perte ou de détérioration.

C'est objectif de réduction de la complexité est à la base des méthodes de clustering : l'enjeu est de construire des méthodes automatiques afin de former une typologie des données, c'est-à-dire de dégager des groupes de données au comportement similaire, appelés clusters.  Le recours à des méthodes automatiques, et donc à des algorithmes, qui est évidemment impératif eu égard au grand nombre de données qu'il faut traiter, l'est aussi pour des problèmes de dimension de l'espace des observations : si la construction de ces clusters peut éventuellement être effectuée visuellement pour des données évoluant dans un espace de petite dimension, cela n'est plus possible lorsque la  dimension devient trop grande.

Du point de vue méthodologique, toute méthode de clustering doit apporter une réponse a chacune des deux questions suivantes : s'il paraît naturel d'affirmer que deux données éloignées l'une de l'autre ne font pas partie d'un même groupe, que peut-on dire en revanche de deux données relativement proches ? De plus, comment quantifier la pertinence des méthodes ? Selon le type des données et l'orientation de l'analyse statistique, diverses réponses à ces questions peuvent être envisagées. De nombreuses méthodes de clustering ont été élaborées au cours de ces dernières années, répondant ainsi à une demande croissante émanant des domaines ou le traitement des données constitue une étape indispensable. Cependant, pour beaucoup de ces méthodes -et notamment certaines qui sont abondamment utilisées à l'heure actuelle-, il reste de nombreux points d'interrogation quant à leurs périmètres d'utilisation  et leurs performances.  C'est grâce à une analyse mathématique des méthodes que l'on peut mieux les comprendre, et ainsi éclairer les interprétations qui peuvent en être données. Dans cet esprit, un travail théorique, combinant plusieurs domaines des mathématiques, a permis de lever certains de ces points d'interrogation (collaboration avec Gérard Biau et Bruno Pelletier, des universités Paris 6 et Montpellier 2).


Mise à jour le 19 février 2008