Résumé:
Les grilles de données sont des environnements distribués très étendus où les nœuds
sont distribués sur le globe, et les données qui y sont partagées sont très volumineuses.
Cependant, la nature dynamique des grilles et la dispersion de ses sites posent des
problèmes de disponibilité de données, d’une part, et des performances d’accès d’autre part.
La réplication de données constitue une des principales techniques utilisées à cet effet. Pour
bénéficier au maximum du gain que peuvent apporter les répliques de données, leur
placement stratégique dans le système est critique. Dans notre mémoire, nous nous
intéressons au problème de placement des répliques dans un contexte de grille de données
hiérarchique. Plusieurs stratégies de gestion de répliques sont étudiées. Ces stratégies essayent
de répondre aux questions : quand, où et comment les répliques sont créées et supprimées.
L’accès à la copie la plus proche au bon moment augmente les performances du système.
Nous proposons une stratégie de placement des répliques basée sur le choix de l’élément de
stockage et le meilleur fichier répliqué et supprimé. Son évaluation par simulation sur
OptorSim montre une amélioration considérable des temps d’exécution des jobs et une
diminution importante du nombre de répliques entrainant moins d’espace de stockage et donc
moins de problèmes de mises à jour.
Mots Clés : grilles de données, réplication, disponibilité de données, temps d’exécution,
placement de répliques, simulation, OptorSim.