Résumé:
La plupart des grandes bases de données actuellement disponibles ont une forte
composante spatiale et contiennent des informations potentiellement utiles qui pourraient être
de valeur. La discipline chargée de l’extraction de ces informations et connaissances est le data
mining. La découverte de connaissances est effectuée en appliquant des algorithmes
automatiques qui reconnaissent des modèles dans les données.
Les algorithmes d’exploration de données classiques supposent que les données sont générées
de façon indépendante et identiquement distribuées. Les données spatiales sont
multidimensionnelles, spatialement autocorrélées et hétérogènes.
Ces propriétés font en sorte que les algorithmes de data mining classique soient inappropriées
pour les données spatiales, et que leurs hypothèses de base cessent d’être valables. L’extraction
de connaissances à partir de données spatiales nécessite donc des approches particulières. Une
façon de le faire est d’utiliser l’exploration visuelle des données. Lorsque le data mining visuel
est appliquée aux données spatiales, il fait partie de la discipline appelée Visual Spatial Data
Mining (VSDM).
Les deux types de data mining : automatique et visuel, ont leurs avantages respectifs. Les
ordinateurs peuvent traiter de grandes quantités de données beaucoup plus rapidement que les
humains, alors que les humains sont capables de reconnaître des objets et d’explorer
visuellement les données beaucoup plus efficacement que les ordinateurs. Une combinaison de
l’exploration de données visuelle et automatique rassemble les compétences humaines
cognitives et informatiques pour une découverte de connaissance efficace.
Ce projet propose l’utilisation du VSDM pour la découverte de connaissance dans des données
spatiales dans le domaine épidémiologique.