Ecole d'ingénieur et centre de recherche en télécommunications

Ahmad ASSAF

Ahmad ASSAF
Ahmad ASSAF
Eurecom - Communications Multimédia 
Doctorant Cifre ( 2012 - 2015)
Alumni EURECOM

Thèse

Fourniture automatisée de données par l'enrichissement sémantique pour l'informatique décisionnelle

Responsable(s)

Les entreprises utilisent des systèmes d'information hétérogènes dans leurs activités commerciales telles que des systèmes pour la planification des ressources d'entreprise (ERP), la gestion des relations client (CRM) ou la gestion de la chaîne logistique (SCM). En plus des grandes quantités de données produites par ces systèmes, les données externes sont une ressource importante pouvant être mise à profit pour permettre de prendre des décisions d'affaires rapides et rationnelles. La Business Intelligence (BI) classique concentre une grande partie des caractéristiques de vente sur des visualisations attrayantes et uniques. La préparation des données pour ces visualisations reste cependant une tâche beaucoup plus difficile dans la plupart des projets BI, petits ou grands.
 
L'objectif de cette thèse est de développer un environnement qui permette un approvisionnement en données en libre-service dans l'entreprise. Cet outil, appelé ROOMBA, permet aux utilisateurs métiers de chercher, inspecter, réutiliser et intégrer des données qui sont préalablement sémantiquement enrichies. Nous proposons un mécanisme pour attacher automatiquement des méta-données aux objets décrits dans les données en tirant parti des bases de connaissances telles que DBpedia et Freebase ce qui facilite la recherche et l'acquisition de données pour les utilisateurs professionnels. Nous proposons aussi un mécanisme pour sélectionner quelles propriétés doient être utilisées lorsqu'il s'agit d'ajouter des colonnes dans un jeu de données existant, ou d'annoter des instances avec des informations sémantiques.
 
Les portails de données, qui sont les points d'accès de ces jeux de données, offrent des métadonnées représentées dans des modèles différents et hétérogènes. Nous proposons d'abord un modèle de données harmonisé, en se basant sur une étude systématique de la littérature. Ce modèle offre une couverture complète des métadonnées afin de permettre la découverte de nouvelles données, leur exploration et leur réutilisation par les utilisateurs professionnels. Deuxièmement, nous proposons une approche évolutive et automatique pour extraire, valider, corriger et générer des profils d'ensembles de données liées. Cette approche applique plusieurs techniques afin de vérifier la validité des métadonnées fournies et pour générer des informations descriptives et statistiques pour un ensemble de données particulier ou pour un portail de données entier. Nous présentons en outre un outil extensible de mesure de la qualité afin d'aider les propriétaires de données à évaluer la qualité de leurs jeux de données, d'obtenir des conseils sur les améliorations possibles et de guider les autres consommateurs de données. Finalement, nous présentons le service SNARC qui apporte de l'information pertinence et actuelle partagée sur les réseaux sociaux pour l'utilisateur d'affaires. Le principal avantage est un accès instantané à des informations complémentaires sans avoir à les chercher. Les informations apparaissent quand elles sont pertinentes permettant à l'utilisateur de se concentrer sur ce qui est vraiment important.

Rechercher



Informations additionnelles

Profils