Résumé:
La résolution de la plupart des problèmes, dans de nombreux domaines de la vie courante, se
base sur le traitement de données extraites à partir des données acquises dans le monde réel, et
structurées sous forme de vecteurs. La qualité du système de traitement dépend directement
du bon choix du contenu de ces vecteurs. Mais dans de nombreux cas, la résolution du
problème devient difficile, voire presque impossible à cause de la dimension trop importante
de ces vecteurs.
Force est de constater, que aussi que le problème de la sélection de variables en classification
se pose généralement lorsque le nombre de variables pouvant être utilisé pour expliquer la
classe d'un individu, est très élevé.
Dans ce cadre, nous proposons dans ce mémoire l'étude d'un certain nombre de différentes
méthodes de sélection de variables existantes. Ces méthodes présentent un certains nombre de
caractéristiques, tel que :
- la dépendance des variables pertinentes sélectionnées par rapport au classificateur
utilisé;
- la redondance entre les variables sélectionnées;
- les interactions entre les différentes variables;
- la faiblesse au niveau de leur complexité qui s'avère être parfois très élevée.
Notre contribution, et dans le but de connaitre au mieux ces difficultés, consiste à :
1-Analyser et comparer certaines méthodes de sélection de variables appliqués dans
différents domaines - la bioinformatique et autres- , de types Filter, Wrapper et Embedded.
2- Analyser les forces et les faiblesses de ces méthodes au vu de la dimensionnalité
des données disponibles. Les méthodes détaillées sont basées sur la sélection de
classificateurs simples associés à chacune des variables.
3- Trouver une bonne combinaison entre les méthodes de sélection et les
classificateurs SVM et Naïves Bayésien utilisés dans nos expérimentations capable de
sélectionner un nombre réduit de caractéristiques tout en conservant des taux de classification
très satisfaisants.
Nos expérimentations ont montré que les méthodes et approches adoptées ont la capacité de
sélectionner un nombre réduit de variables tout en conservant des taux de classification très
satisfaisant.