Utiliser les connaissances du sens commun pour la découverte de sujets interprétables

Harrando, Ismail; Troncy, Raphaël

IC 2022, 33èmes Journées francophones d'Ingénierie des Connaissances, 29 June-1 July, 2022, Saint-Etienne, France

Les approches traditionnelles de modélisation de sujets (Topic Modeling) s'appuient généralement sur des statistiques de cooccurrence entre termes et documents pour trouver des sujets latents dans une collection de documents. Cependant, le fait de s'appuyer uniquement sur ces statistiques peut donner des résultats incohérents ou difficiles à interpréter pour les utilisateurs finaux dans de nombreuses applications où l'intérêt réside dans l'interprétation des sujets résultants (e.g. l'étiquetage de documents, la comparaison de corpus, orienter l'exploration du contenu..). Nous proposons de tirer parti des connaissances externes de sens commun, c'est-à-dire des informations du monde réel audelà de la cooccurrence des mots, pour trouver des topics plus cohérents et plus facilement interprétables par les humains. Nous présentons le "Common Sense Topic Model" (CSTM), une approche nouvelle et efficace qui augmente le clustering avec des connaissances extraites du graphe de connaissances ConceptNet. Nous évaluons cette approche sur plusieurs jeux de données en comparaison avec des modèles couramment utilisés, en utilisant une évaluation automatique et humaine, et nous montrons comment elle montre une corrélation supérieure au jugement humain. Cet article a été déjà publié à K-CAP 2021[4].

Detail

Document

HAL

BIBTEX

Type:

Talk

City:

Saint-Etienne

Date:

2022-06-29

Department:

Data Science

Eurecom Ref:

6948

© EURECOM. Personal use of this material is permitted. The definitive version of this paper was published in IC 2022, 33èmes Journées francophones d'Ingénierie des Connaissances, 29 June-1 July, 2022, Saint-Etienne, France and is available at :