Ecole d'ingénieur et centre de recherche en Sciences du numérique

Simon BOZONNET

Simon BOZONNET
Simon BOZONNET
Eurecom - Communications Multimédia 
Doctorant ( 2008 - 2012)
Alumni EURECOM

Thèse

Nouveaux points de vue sur la classification hiérarchique et normalisation linguistique pour la segmentation et regroupement en locuteurs

Responsable(s)

 

 


Face au volume croissant de données audio et multimédia, les technologies liées à l'indexation de données et à l'analyse de contenu ont suscité beaucoup d'intérêt dans la communauté scientifique. Parmi celles-ci, la segmentation et le regroupement en locuteurs, répondant ainsi à la question 'Qui parle quand ?' a émergé comme une technique de pointe dans la communauté de traitement de la parole. D'importants progrès ont été réalisés dans le domaine ces dernières années principalement menés par les évaluations internationales du NIST (National Institute of Standards and Technology). Tout au long de ces évaluations, deux approches se sont démarquées : l'une est bottom-up et l'autre top-down. L'approche bottom-up est de loin la plus courante alors que seulement quelques systèmes sont basés sur l'approche dite top-down.

L'ensemble des systèmes les plus performants ces dernières années furent essentiellement des systèmes types bottom-up, cependant nous expliquons dans cette thèse que l'approche top-down comporte elle aussi certains avantages. En effet, dans un premier temps, nous montrons qu'après avoir introduit une nouvelle composante de purification des clusters dans l'approche top-down, nous obtenons une amélioration des performances de 15% relatifs sur différents jeux de données indépendants, menant à des performances comparables à celles de l'approche bottom-up.

De plus, en étudiant en détails les deux types d'approches nous montrons que celles-ci se comportent différemment face à la discrimination des locuteurs et la robustesse face à la composante lexicale. Ces différences sont alors exploitées au travers d'un nouveau système combinant les deux approches. Enfin, nous présentons une nouvelle technologie capable de limiter l'influence de la composante lexicale, source potentielle d'artefacts dans le regroupement et la segmentation en locuteurs. Notre nouvelle approche se nomme Phone Adaptive Training par analogie au Speaker Adaptive Training utilisé pour la reconnaissance de la parole et montre une amélioration de 11% relatifs par rapport aux performances de référence.