Résumé:
Ces dernières années, la biotechnologie a connu un développement rapide et spectaculaire qui a permis à la biologie de mesurer l’information contenue dans des milliers de gènes grâce à la technologie des puces d’ADN. Ces données peuvent être utilisées comme support de diagnostic médical permettant d’analyser et de traiter les décisions médicales.
Le diagnostic et la classification des cellules cancéreuse utilisant l’expression de gènes est fondamentale à la découverte d’un traitement pour le cancer. Nous savons qu’une puce à ADN fournit des observations sur plusieurs milliers de gènes simultanément en exprimant un seul point. Cependant, ce nombre énorme de gènes contient des informations bruitées et redondantes, seul un sous ensemble de gêne sont informatifs et pertinents. De plus, un grand nombre de gêne rend l’analyse des données très difficiles est très couteuse en temps. Notons que les gènes non pertinents pénalisent les performances du modèle de classification. Les techniques de sélection de variable permettent d’éliminer les variables non pertinentes et les variables redondantes. Ces techniques visent à sélectionner les variables qui permettent l’amélioration des systèmes de prédictions.
Les machines à vecteurs de support sont très utilisées dans les problèmes de classification, cependant la qualité des résultats qu’ils génèrent dépend de certains paramètres tels que la fonction noyau utilisée, etc. La détermination des paramètres et la sélection des fonctionnalités influent le taux de classification précis ainsi que sur la qualité du modèle SVM. La fonction noyau et le paramètre C ne sont pas les seuls facteurs qui influencent la qualité du modèle SVM. La sélection des caractéristiques pertinentes et l'élimination de la redondance réduisent la dimension de l'espace et le temps de calcul et augmentent le taux de classification correcte. Plusieurs études ont été menées dans le domaine de la détermination des paramètres de la SVM et de la fonction noyau. Nous proposons une approche de la SVM basé sur le recuit simulé pour déterminer le paramètre optimal et le sous-ensemble de caractéristiques pertinentes, sans réduire la précision de la classification. Plusieurs ensembles de données seront utilisées pour calculer le taux bonne classification afin d’évaluer la pertinence de cette approche.
Les expériences seront menées avec les différentes phases de formation, les tests numériques seront réalisés sur des bases de données biologiques de très grande dimension (données de puces à ADN qui sont caractérisées par un grand nombre de fonctionnalités). Les résultats seront évalués par la comparaison de plusieurs critères tel que le taux de classification précis, la sensibilité, la spécificité, les valeurs prédictives positives et négatives.