Résumé:
Appelée aussi Data Mining, la fouille de données regroupe une panoplie de méthodes permettant d’extraire des connaissances à partir du volume extraordinaire de données présent un peu partout dans le monde. Les plus grands gouvernements et entreprises mondiales investissent massivement dans ce domaine à cause de son intérêt grandissant. La fouille de données est devenu primordiale pour l’éducation et à l’enseignement. Elle permet de prédire les performances scolaires des élèves en se basant sur les données d’anciens élèves, de les orienter en définissant leurs penchants scientifiques, d’augmenter le rendement des enseignant et d’améliorer le système en générale. La fouille de données est cruciale aussi en médecine. Elle permet par exemple de connaitre les effets des médicaments à l’aide de données rassemblés sur les patients au fil des années. Elle permet aussi de desceller les maladies propagées dans certaines zones afin d’aider les décideurs à prendre les mesures adéquates. La fouille de données oriente les décisions politiques et les stratégies importantes mises en place par les gouvernements pour le développement. Elle aide notamment l’humain à faire face aux changements climatiques que connait le monde en ce moment.
Ce polycopié de cours et de TP est destiné aux étudiants en Master 1 ISI de la filière informatique. Son objectif est de présenter à l’étudiant quelques outils essentiels de fouille de données et leurs applications sur de vrais problèmes de la vie quotidienne. Des problèmes réalistes sont traités dans ce document et les solutions sont détaillées et implémentées à l’aide du langage R. Nous allons voir par exemple comment la régression peut être utilisée pour conseiller un investisseur ou bien prédire les prix de maisons en se basant sur des critères tels que leurs surfaces, le nombre de pièces, l’Age de la maison…etc. Nous abordons également quelques méthodes de classification comme les arbres de décision, Naive bayes et nous démontrons à l’aide du langage R comment les réseaux sociaux utilisent la régression logistique pour cibler les utilisateurs avec de la publicité. Aussi, nous montrerons à l’étudiant comment à partir d’une base de transactions de supermarché (listes d’achats) on peut extraire des règles utiles en marketing.