Département Data Science

Vision

La quantité de données que l'on produit ne cesse d’augmenter. Le domaine du e-commerce, les applications financières, les services de facturation et de support a la clientèle, les réseaux sociaux, la consommation de contenu multimédia - pour ne citer que quelques exemples - contribuent à alimenter cette croissance exponentielle des masses de données à traiter, qui deviennent ainsi un enjeu majeur et un atout concurrentiel pour les entreprises et les institutions scientifiques. De nos jours, la capacité à stocker, analyser et prédire des phénomènes à partir des données est devenue de plus en plus accessible grâce aux tendances dictées par la loi de Moore et son équivalent dans le stockage numérique, où le paradigme du cloud computing continue à réduire les coûts et les barrières technologiques. Ceci permet d'envisager de nouveaux services innovants et des réponses plus personnalisées aux problèmes rencontrés par les entreprises, leurs clients et le grand public.

 

Notre vision promeut une approche interdisciplinaire de la recherche intégrant des contributions de l'informatique, de la science du web, de l'apprentissage automatique et des statistiques pour traiter, entre autres, de nombreux problèmes appliqués. L'étude et l'analyse des données soulèvent un nombre important de défis tels que le développement de méthodes, d'algorithmes et de programmes informatiques pour construire des inférences fiables à partir de données multidimensionnelles et hétérogènes.

ACCEDER AU SITE WEB

 

Le programme de recherche du département Data Science est centré autour des disciplines liées au web sémantique et à l'enrichissement des données, à la modélisation afin de comprendre les propriétés sous-jacentes des données et à la conception et l'analyse d'algorithmes d'apprentissage automatique, pour construire des systèmes qui permettent de stocker et traiter de grandes quantités de données. Notre recherche permet la conception de nouvelles applications, plus performantes et personnalisées, dans une multitude de domaines industriels.

 

Nos domaines de recherche

Les principales lignes de recherche qui caractérisent nos projets académiques et industriels impliquent le développement d'une base solide d'outils théoriques et de systèmes logiciels pour interagir, manipuler et modéliser les données:

  • Apprentissage automatique (machine learning), apprentissage profond (deep learning) et modélisation statistique
  • Fouille de données (data mining) et fusion de données
  • Extraction d'information et construction de base de connaissances
  • Théorie des jeux, apprentissage adversarial et modèles économiques des données
  • Systèmes distribués et systèmes de gestion de bases de données

 

Notre travail s'articule aussi autour de plusieurs domaines d'application qui recouvrent la multitude et la diversité des sources de données modernes:

  • Données multimédia : plates-formes de partage d'images et de vidéos, télévision connectée
  • Données machine / capteurs : villes intelligentes, web des objets, Internet des objets, smart grids et sécurité informatique
  • Données utilisateurs : traitement des données liées aux réseaux sociaux

 

La plate-forme de cloud computing du département Data Science

Notre plate-forme de cloud computing permet de développer des activités innovantes liées a l'enseignement. C'est aussi un outil indispensable pour mener nos activités de recherche dans des domaines clés tels que l'apprentissage automatique et ses applications, l'étude et l'expérimentation des systèmes parallèles et distribués, ou l'étude et l'expérimentation d'architectures de systèmes d'exploitation pour le cloud. Hébergé dans notre centre de données privé, les caractéristiques de notre plate-forme incluent plus de 1000 cœurs de calcul, 2,5 To de RAM et plusieurs centaines de To de stockage, reliés par un réseau bien approvisionné.

 

La plate-forme offre des services de virtualisation traditionnels, basés sur des “container” linux, comme Docker. En particulier, nous avons développé le concept de l'Analyse-as-a-Service, qui permet à nos utilisateurs de se concentrer sur leurs défis scientifiques, plutôt que sur les subtilités de bas niveau liées aux systèmes de calcul et de stockage.