Ecole d'ingénieur et centre de recherche en télécommunications

Mario PASTORELLI

Mario PASTORELLI
Mario PASTORELLI
Eurecom - Réseaux et Sécurité 
Doctorant
04 93 00 81 23
04 93 00 82 00
369

Thèse

Conception, Analyse et Implémentation de systèmes à large échelee pour les applications d'analyse de données

Responsable(s)

 

L'objectif de cette thèse est de concevoir, analyser et expérimenter des outils pour les applications d'analyse de énormes quantités de données.

Le candidat doit commencer par un travail expérimental pour la définition des algorithmes parallèles, pour analyser des énormes traces réseau en utilisant MapReduce, un système récent conçu pour effectuer le traitement en parallèle de données. La conception et l'analyse des algorithmes n'est pas simple car ils impliquent une compréhension profonde du cadre d'exécution sous-jacents, en particulier pour ce qui concerne l'optimisation de l'utilisation des ressources (à savoir, le disque et le réseau): en tant que tel, le candidat sera mené a adapter MapReduce pour exécuter le flow d'exécution des algorithmes ainsi définis.

En plus d'étudier le modèle de programmation, le candidat se concentrera sur les principaux éléments constitutifs de MapReduce. En particulier, le candidat travaillera sur la programmation des mécanismes qui permettent de partager les ressources d'un cluster de machines pour plusieurs « Jobs » simultanés. En se basant sur la théorie de l'ordonnancement, le candidat devra définir un protocole d'ordonnancement qui respecte l'équité entre « Jobs » et qui vise la performance. Ce travail exige que le candidat participe et contribue à la communauté open-source de Hadoop, une implémentation en Java de MapReduce, en émettant un JIRA (un billet) et en lançant une série d'expériences pour évaluer et comparer plusieurs autres protocoles.

Comme direction de recherche plus ample, dans cette thèse le candidat travaillera sur la mesure et l'analyse de l'impact de la virtualisation d'un cluster sur les systèmes de traitement de données parallèles, y compris MapReduce. Finalement, le résultat attendu de cette tâche sera la conception et l'évaluation des mécanismes d'allocation des ressources (virtuelles) pour déployer des instances de machines virtuelles sur un cluster physique, tout en tenant compte des exigences du « framework » sous-jacent (localité des données, par exemple).

Rechercher



Informations additionnelles

Profils