Résumé:
Les journaux de requêtes sont des fichiers contenant des données de recherche web. Ces
journaux fournissent un large volume de données pour la communauté de chercheurs surtout
qu'elles
représentent
l'expérience
d'utilisateurs
réels
avec
un
système
de
recherche
d'information. Mais la publication de ces données comporte un risque sur la vie privée des
individus. Même en appliquant plusieurs mesures de filtrage, les données qui restent dans un
journal de requêtes en l'occurrence la requête elle-même garde un risque de divulgation
d'informations personnelles.
Notre travail consiste à proposer une solution d’anonymisation des données dans un journal
de requêtes. Notre proposition c’est de généraliser certains types d’informations personnelles,
c'est-à-dire les remplaçant avec des informations de sens plus général. Nous évitons de cette
façon d’appauvrir le journal de requêtes en réduisant les informations qu’il contient tout en
garantissant que les informations restantes ne puissent identifier directement les utilisateurs.
Parmi les informations que nous avons choisi de traiter nous citons les noms et prénoms des
personnes et les adresses (les noms de lieux).