Résumé:
Indexation sémantique d’une base textuelle
La recherche d’information (RI) est apparue comme une discipline de recherche afin
d’apporter une solution aux problèmes liés à l’accès aux informations contenues dans des
grandes masses de documents. La RI avait proposé des techniques pour bien organiser et
faciliter l’accès aux informations contenues dans ces documents dont le nombre ne cesse de
croître. D’où le monde a assisté à une croissance importante en termes de nombre de
ressources d’informations difficilement accessibles et de nombre d’utilisateurs qui souhaitent
accéder aux informations contenues dans ces ressources.
Malgré le très grand nombre de recherches faites, les systèmes de recherche
d’information présentent encore des lacunes au niveau sémantique et sont perfectibles à plus
d’un sens. Pour cette raison, des recherches sont toujours en cours. Certaines de ces
recherches tentent d’introduire des techniques pour améliorer les performances d’un SRI.
Nous nous intéressons dans le cadre de ce travail à une nouvelle orientation en RI :
l’indexation sémantique d’une base textuelle, qui s’appuie sur les sens des mots, dans la
représentation des documents et requêtes. Ces sens sont identifiés par des techniques de
désambiguïsation des sens des mots.
La réalisation de notre travail se base sur un corpus Anglais, elle fait appel à
l’ontologie linguistique Anglaise « WordNet » pour la désambiguïsation des sens des mots de
corpus et requête à travers « les synsets », aussi pour proposer un classement sémantique des
résultats retournés par le moteur de recherche.