Résumé:
La détection de concepts visuels dans les images est une tâche très importante pour concevoir des systèmes de recherche sémantique d’images. Bien que cette problématique soit très difficile, les performances des approches proposées dans l’état de l’art s’améliorent. Or, indexer des documents par des concepts singuliers ne suffit pas pour répondre à des requêtes complexes des utilisateurs qui comportent plusieurs sémantiques. Il est donc important de penser à la problématique de détection de plusieurs concepts simultanément (multi-concepts) dans les images afin d’aboutir à des résultats de recherche plus satisfaisants. Cette tâche a été très peu abordée dans l’état de l’art. D’autre part, en plus des descripteurs classiques (de bas niveau) utilisés dans les systèmes d’indexation des images, d’autres types de caractéristiques de haut niveau ont émergé et ont donné des résultats intéressants. Ce genre de descripteurs sont extraits via une étape d’apprentissage, soit en utilisant l’apprentissage profond, soit en exploitant la détection de certaines sémantiques. Dans le cadre de ce travail, une étude comparative des deux types de descripteurs (Descripteurs de bas vs haut niveau) est réalisée dans le contexte de la détection des multi-concepts dans les images. Nous avons conduit une évaluation de nos contributions sur le corpus « Pascal VOC 2012 » pour la détection de paires et de triplets de concepts. Nous avons obtenu de très bons résultats rivalisant avec ceux de l'état de l'art.