Détection des mots-clés dans un flux de parole : application à l'indexation de documents multimédia

Gelin, Philippe
Thesis

La quantité d'information multimédia accessible croît de façon vertigineuse. L'avènement de la micro informatique permet à chacun d'apporter sa participation à la création de cette nouvelle source d'information planétaire qu'est "Internet", tandis que les média proposent maintenant la connexion à des bouquets de chaînes de télévision numériques transmis par satellite. L'accès à cette quantité croissante d'information ne s'effectue pas sans problème, et les besoins en outils d'indexation se font cruellement ressentir. Cette thèse propose diverses solutions pour exploiter les signaux sonores d'un document multimédia afin de repérer les endroits où les mots clés sont prononcés, pour permettre l'indexation plus aisée de ce document. Cette thèse fixe tout d'abord le cadre de l'étude de l'indexation multimédia et définit les outils nécessaires à son élaboration. Alors que l'indexation de textes écrits existe depuis des décennies, l'indexation du contenu des autres média (images fixes, séquences vidéo, musique, parole) est toujours au stade de déve-loppement. Les travaux existants en indexation sur l'image ainsi que ceux sur la reconnaissance de locuteur sont brièvement exposés afin de mieux situer le contexte exact de la thèse qui se focalise sur la détection de mots clés. Ensuite cette thèse expose les éléments théoriques nécessaires à la mise en oeuvre d'un tel système d'indexation par mots clés. Elle explicite d'une part les méthodes d'analyse du signal acoustique nécessaires à l'extraction des informations caractéristiques de la parole (LPC, PLP, Cepstre, Pitch-Energie), et d'autre part les méthodes de modélisation du langage. On montre comment, en partant d'une modélisation markovienne, deux critères de maximisation peuvent être mis en oeuvre. L'un, classique, est un critère de maximisation de la vraisemblance, et le second, issu d'une théorie émergente (REMAP), est un critère de maximisation de la probabilité a posteriori. Dans la suite, l'ouvrage se réfère à la littérature spécifique au sujet traité. Il énonce tout d'abord les méthodes existantes pour l'évaluation des systèmes de reconnaissance de parole et montre les contraintes qui y afférent. Ensuite, les recherches successives en détection de mots clés sont présentées en y relevant les idées novatrices. Les récentes avancées dans le domaine voisin qu'est le tri automatique de messages acoustiques sont également exposées. Après une brève énumération des contraintes spécifiques à l'indexation de la parole par la recherche de mots clés (indépendance du vocabulaire sur lequel porte la recherche, rapidité d'exécution de la recherche, indépendance du locu-teur), le manuscrit décrit trois outils de détection de mots clés respectant ces contraintes spécifiques. Le premier de ces outils extrait des segments acoustiques les probabilités qu'ils aient été produits lors de la prononciation de phonèmes. A partir de ces informations, l'outil détecte les régions du signal où la probabilité de présence d'un phonème est élevée et place ces "hypothèses phonétiques" dans un treillis qui sera sauvegardé et utilisé lors des requêtes. Quand une recherche sur un mot donné est nécessaire, il suffit que le système parcoure le treillis à la recherche de la séquence phonétique correspondant au mot recherché pour en effectuer la détection. La tâche est ainsi séparée en une partie préalable à toute détection et qui, de ce fait peut être effectuée par une méthode sophistiquée et précise, et en une autre partie nécessitant un temps de réponse rapide. Le deuxième outil d'indexation part d'un schéma identique de séparation de la tâche, mais utilise, pour sa part, une modélisation du langage par chaîne de Markov. Il est montré dans la thèse que cette modélisation offre, outre une augmentation des performances vis-à-vis du premier outil, une accélération du processus de recherche sur le treillis. Le dernier outil mis en oeuvre se base sur les développements récents d'une méthode d'entraînement discriminant des modèles markoviens pour améliorer l'exactitude du treillis phonétique et ainsi produire des résultats de recherche de meilleure qualité. Finalement les résultats comparatifs entre les différents outils d'indexation sont utilisés pour tirer les conclusions, et envisager les perspectives de futurs développements.


DOI
Type:
Thèse
Date:
1997-04-30
Department:
Sécurité numérique
Eurecom Ref:
912
Copyright:
© EPFL. Personal use of this material is permitted. The definitive version of this paper was published in Thesis and is available at : http://dx.doi.org/10.5075/epfl-thesis-1658
See also:

PERMALINK : https://www.eurecom.fr/publication/912