dc.description.abstract |
Les préoccupations des instances internationales face à la dégradation de la santé ont suscité un grand intérêt pour les applications utilisant des interfaces distantes telles que ceux utilisant les langages de signe par les interfaces homme-machine HCI. La particularité de ce type de technologie et sa dépendance au facteur homme-machine, qui si nécessaire, sur la base d’une séquence d'images, la machine peut déterminer les instructions humaines. Cependant, l’interaction homme-machine (HCI) est un vaste domaine, impliquant différents types d’interactions, y compris les gestes. La reconnaissance gestuelle concerne les mouvements non verbaux, utilisés comme moyen de communication en HCI. Ce type de système peut être utilisé pour la reconnaissance et l’identification des gestes humains pour la commande de dispositifs.
Ainsi, ce travail contribue à un thème de recherche important, celui du développement d’un système d’identification et d’interprétation des gestes de la main, par l'application des méthodes de vision artificielle et la reconnaissance d'objets, pouvant être utilisé comme forme de communication, pour différentes applications. Par exemple, il peut être utilisé comme moyen de communication, par des personnes souffrantes de différents handicaps, telles que les personnes souffrant de troubles auditifs, de troubles de la parole ou d’AVC.
Les gestes de la main offrent aux humains un moyen pratique d'interagir avec les ordinateurs et cela dans de nombreuses applications. Cependant, des facteurs tels que la complexité des modèles de main, les différences dans la taille et la position de la main et d'autres facteurs peuvent influencer les performances des algorithmes de reconnaissance et de classification. Certains processus de développement d'apprentissage en profondeur tels que les réseaux de neurones convolutifs (CNN) et les réseaux de capsules (CapsNets) ont été suggérés pour améliorer les performances des systèmes de reconnaissance d'images dans ce domaine particulier. Alors que les CNN sont sans aucun doute les réseaux les plus utilisés pour la détection d'objets et la classification d'images, CapsNets semble résoudre une partie des limitations du premier. Pour cette raison, ce travail propose une combinaison spécifique des deux réseaux pour résoudre et d’une façon efficace le problème ASL.
Dans cette thèse, on aproposé plusieurs outils ou contributions appliquant les méthodes de vision artificielle aux images en langue des signes américaine (ASL), aussi, ce travail présente une comparaison avec différentes stratégies de vision par ordinateur proposées ces dernières années.
La méthodologie et les propositions effectuées sont décrites ci-dessous :
• Proposition, d’une méthode d'ensemble qui combine l'espace des caractéristiques d'un réseau CNN avec l'espace des caractéristiques de CapsNets, cela afin d'améliorer la précision des problèmes HGR, et aussi, pour pallier aux insuffisances des réseaux de neurones convolutifs, sachant que la représentation interne d'un CNN ne tient pas compte des relations spatiales entre les objets, ni de la hiérarchie existante entre les objets simples et les objets composites dont ils font partie.
• Diversification des bases utilisées pour la validation du système proposé (quatre ensembles de données du domaine du geste de la main).
• Réduction de la dimensionnalité du vecteur caractéristique final, par l'analyse en composantes principales (ACP).
• Une classification d'objets, imitant le processus de la pensée humaine, permettant de porter des jugements complexe, avec précision, rapidité et cohérence.
Ainsi, la méthode proposée présente les meilleures performances en généralisation comparées à ceux de la littérature, et cela pour les quatre bases de données, celles de Massey University, Static Hand Gesture ASL, Kaggle ASL Alphabet, et MNIST ASL, sur les deux modèles CapsNet et CNN, avec une précision de test égale à 98,52 %, 98,26 %, 93,08 % et 99,08 %, respectivement. Et atteignant aussi des performances pour la détection d'objets par machine learning de l’ordre de 99,18 %, 98,96 %, 99,13 % et 99,69 % pour les différentes bases de données, enregistrant un nombre réduit de fausses détections.
La thèse est organisée comme suit. Dans le premier chapitre, je présente des études sur des travaux antérieurs dans le domaine de la reconnaissance des mouvements et des gestes du corps humain et de la reconnaissance des méthodes d'auto-apprentissage. Dans le deuxième chapitre, je parle du traitement d'image et de la reconnaissance de formes et de quelques applications dans ce domaine. Dans le chapitre trois, un examen de la reconnaissance gestuelle et des types de reconnaissance gestuelle avec un aperçu des types de caméras. Au chapitre quatre, un examen de l'acquisition d'images, du prétraitement des données, de la segmentation et de l'approche d'apprentissage automatique pour former le groupe proposé pour résoudre le problème de reconnaissance d'images. Dans le chapitre cinq est présenté quelques résultats expérimentaux obtenus par plusieurs outils profonds sont comparés à ceux présentés par notre méthode proposée. Enfin, il se termine en présentant les conclusions de ce travail et en suggérant quelques pistes de recherche futures. |
en_US |