Résumé:
La construction des grilles informatiques est un des axes de recherche majeurs sur les
systèmes informatiques en réseau. L'objectif principal de la construction d'une grille
informatique, c'est de fournir les concepts et composant logiciels système adéquats pour agréger les
ressources informatiques (processeurs, mémoires, et aussi réseau) au sein d'une grille de traitements
informatiques, pour en faire (à terme) une infrastructure informatique globale de simulations, traitement
de données ou contrôle de procédés industriels. Cette infrastructure est potentiellement utilisable dans
tous les domaines de recherche scientifique, dans la recherche industrielle et les activités opérationnelles
(nouveaux procédés et produits, instrumentation, etc.), dans l'évolution des systèmes d'information, du
Web et du multimédia.
Les grilles de qualité production supposent une maitrise des problèmes de fiabilité, de sécurité renforcé
par un meilleur contrôle des accès et une meilleur protection contre les attaques, de tolérance aux
défaillances ou de prévention des défaillances, toutes ces propriétés devant conduire à des infrastructure
de grille informatique sûres de fonctionnement. Dans cette thèse on propose de poursuivre des
recherches sur les problèmes de gestion automatisée des défaillances, l'objectif principal étant de
masquer le mieux possible ces défaillances, à la limite les rendre transparents aux applications, de façon
à ce que, du point de vue des applications, l'infrastructure de grille fonctionne de façon quasi-continue.
Nous avons conçu un nouvel algorithme hiérarchique pour assurer la tolérance aux fautes dans les grilles
de données. Ce protocole s’appuie sur l’architecture hiérarchique des grilles informatiques. Dans chaque
cluster, nous avons défini un coordonnateur appelé processus leader, dont le rôle consiste à coordonner
les échanges intra-cluster et à assurer le rôle d’intermédiaire entre les processus appartenant à des
clusters différents.
Pour sauvegarder les états des processus inter-cluster, le protocole adaptatif utilise La combinaison des
protocoles de journalisation optimiste et point reprise non bloquant de chandy-lamport.
A l’intérieur du cluster, le protocole exécuté dépend de la fréquence des messages. A partir d’un seuil de
fréquence maximale déterminée en fonction de la densité des communications, c’est le protocole de point
de reprise coordonné non bloquant qui sera utilisé, tandis que si le nombre de messages dans le cluster
est faible, les messages sont sauvegardés avec la journalisation optimiste.