LIU Shengyun

La personne a quitté EURECOM

Nom : LIU Shengyun

Thesis

Techniques pour géo-réplication efficace et tolérante aux pannes

Les applications Internet modernes répliquent leur service au travers de centres de données reparties tout autour du globe afin de servir leurs clients de manière fiable et efficace. Lorsqu'elles sont confrontées à des pannes telles que des erreurs machines ou des interruptions de services des centres de données, de nombreuses applications reposent sur l'utilisation de protocoles de réplication de machine d'état (State Machine Replication, SMR) pour maintenir un service fiable.

Cependant, étant donné que les performances des connexions réseau entre les centres de données distants sont limités et non uniformes, les protocoles SMR existants ne sont pas bien applicables à ce nouvel environnement. Les travaux en cours visent généralement l'un des deux modèles de fautes : (1) fautes franches (Crash-Fault Tolerance, CFT), dans lequel les machines peuvent se stopper, à savoir, arrêter le traitement des requêtes ; ou (2) fautes Byzantines (Byzantine-Fault Tolerance, BFT), dans lequel les machines peuvent se comporter de façon arbitraire, à savoir, ne pas suivre le protocole fidèlement.

La première contribution de cette thèse introduit XPaxos, un protocole SMR qui découple l'espace de pannes entre les dimensions de la machine et le réseau, ce qui autorise les machines Byzantines et les fautes de réseau (par exemple, la communication asynchrone), mais permet de les traiter séparément. XPaxos tolère des fautes au-delà des crashs d'une manière efficace et pratique, avec beaucoup plus de neuf de fiabilité que le célèbre protocole tolérant aux fautes Paxos, cela sans impact sur ses coûts d'exploitation tout en maintenant des performances similaires. Malgré son faible coût et ses hautes performances qui correspondent aux meilleurs protocoles de CFT, nous montrons aussi que XPaxos fournit toujours une meilleure disponibilité, et parfois (selon l'environnement système) offre même des garanties de cohérence strictement plus fortes que les protocoles de réplication BFT de l'état de l'art.

Dans la deuxième contribution, nous soutenons que le bon choix du nombre de leaders dans un protocole de géo-réplication dépend de la configuration et répartition des machines. Nous proposons Droopy et Dripple, deux optimisations orthogonales pour les protocoles de SMR, respectivement basées sur l'approche multi-leader et sur la commutativité des requêtes. Nous implémentons Droopy et Dripple à partir de Clock-RSM, un protocole tous-leaders de l'état de l'art. Notre évaluation sur Amazon EC2 montre que, lors de charges de travail déséquilibrées typiques, Clock-RSM étendu par Droopy réduit efficacement la latence par rapport au protocole natif, et présente un temps de latence similaire à un protocole sans leader --- EPaxos. En revanche, lors de charges de travail équilibrées et non-commutatives, Clock-RSM étendu par Droopy et Dripple réduit la latence par rapport à EPaxos, et présente une latence similaire au protocole natif.