PLU Julien

La personne a quitté EURECOM
  • PLU Julien

Thesis

Extraction de connaissances dans les documents multimédias: à la frontière du traitement de la langue naturelle, des techniques d'apprentissage et de la sémantique

Cette thèse se situe à l'intersection de plusieurs domaines de recherche dont le web sémantique, le traitement du langage naturel et l'apprentissage automatique, avec un accent sur la façon de désambiguïser des entités. Deux tâches ont fait l'objet de recherches :

Word Sense Disambiguation pour déduire le sens des mots ambigus et Entity Linking pour explorer la référence correcte des entités nommées dans les documents à partir de bases de connaissances. Nous avons identifié quatre défis principaux au cours de cette thèse : i) le type de documents textuels à annoter (tels que les médias sociaux, les sous-titres vidéo ou les articles de presse) ; ii) le nombre de types utilisés pour catégoriser une entité (tels que PERSONNE, LIEU ou ORGANISATION) ; iii) la base de connaissances utilisée pour désambiguiser les mentions extraites (comme DBpedia, Wikidata ou Musicbrainz) ; iv) la langue utilisée dans ces documents. Notre principale contribution est ADEL, un système hybride et adaptable de reconnaissance et de désambiguisation d'entités utilisant des méthodes linguistiques, de recherche d'information et sémantiques. ADEL est un système modulaire, indépendant du type de texte à traiter et de la base de connaissances utilisée comme référent pour désambiguer les entités.

Nous l'avons évalué minutieusement sur de nombreux ensembles de données de référence. Notre évaluation montre qu'ADEL surpasse les systèmes de l'état de l'art en termes d'extraction et de typage d'entités. Elle montre également que notre approche d'indexation permet de générer un ensemble précis de candidats à partir de n'importe quelle base de connaissances utilisant des données liées, en respectant l'information requise pour chaque entité, en un minimum de temps et avec une taille minimale. La solution à ces problèmes a un impact sur d'autres domaines connexes tels que le résumé du discours, l'amélioration de la pertinence des moteurs de recherche, la résolution des anaphores et les réponses aux questions.