Ecole d'ingénieur et centre de recherche en Sciences du numérique

Duy Hung PHAN

Duy Hung PHAN
Duy Hung PHAN
Eurecom - Data Science 
Doctorant ( 2013 - 2016)
Alumni EURECOM

Thèse

Optimisation de l'agrégation des grandes données pour systèmes à grande échelle

Responsable(s)

Les bases de données traditionnelles sont confrontées à des problèmes de scalabilité et d'efficacité en raison d’importants volumes de données. Ainsi, les systèmes de gestion de base de données modernes, tels que Apache Hadoop et Spark, peuvent désormais être distribués sur des clusters de milliers de machines: ces systèmes sont donc devenus les principaux outils pour le traitement des données à grande échelle. De nombreuses optimisations ont été développées pour les bases de données conventionnelles, cependant celles-ci ne peuvent être appliquées aux nouvelles architectures et modèles de programmation. Dans ce contexte, cette thèse vise à optimiser une des opérations les plus prédominantes dans le traitement des données : l'agrégation de données pour ces systèmes à grande échelle. 

Nos principales contributions sont les optimisations logiques et physiques de l'agrégation de grands volumes de données. Ces optimisations sont fortement interconnectées : le problème d'optimisation d'agrégation de données ne pourrait être entièrement résolu si l’une d’entre elles venait à manquer. Par ailleurs, nous avons intégré les optimisations dans le moteur d'optimisation multi-requêtes, ce qui est transparent pour les usagers. Le moteur, les optimisations logiques et physiques proposées dans cette thèse forment une solution complété exécutable et prête à répondre aux requêtes d'agrégation de données à grande échelle. 

Nos optimisations ont été évaluées de manière théorique et expérimentale. Les analyses théoriques ont démontrées que le passage à l’échelle et l’efficacité de nos algorithmes et techniques surpassent les résultats des études antérieures. Les résultats expérimentaux sur un cluster dédié avec des données synthétiques et réelles ont confirmés nos analyses, ont démontrés une amélioration significative des performances et ont révélés les atouts de nos travaux. Enfin, le code source résultant de cette thèse est publiquement accessible.

Rechercher



Informations additionnelles

Profils