Segmentation en locuteurs d'un document audio

Delacourt, Perrine;Wellekens, Christian J
CORESA 1999, 5èmes journées d'études et d'échanges COmpression et REprésentation des Signaux Audiovisuels, June 14-15, 1999, Sophia-Antipolis, France

Dans cet article, nous abordons le probleme de la segmentation en locuteurs. Le but est d'obtenir des segments de locuteurs homogenes, c'est-a-dire ne contenant les paroles que d'un seul et meme locuteur. Ces segments doivent etre les plus longs possible. Dans notre etude, nous faisons les hypotheses qu'aucune connaissance a priori sur les locuteurs n'est disponible et que les personnes presentes dans la conversation ne parlent pas simultanement. Notre technique de segmentation s'effectue en deux passes : tout d'abord, les changements de locuteurs les plus probables sont detectes lors de la premiere passe pour etre valides ou au contraire annules lors de la seconde passe. Nous avons applique cette technique de segmentation a des donnees reelles et synthetiques. Les resultats de ces experiences demontrent l'efficacite de la technique a segmenter en locuteurs. Nous avons egalement compare les performances de notre technique a une autre technique de segmentation. Pour les conversations contenant de longs segments de locuteurs, les deux techniques sont equivalentes. Par contre, notre technique est plus performante dans le cas de conversations contenant de courts segments de locuteurs.


Type:
Conférence
City:
Sophia-Antipolis
Date:
1999-06-01
Department:
Sécurité numérique
Eurecom Ref:
212
Copyright:
Copyright CORESA. Personal use of this material is permitted. The definitive version of this paper was published in CORESA 1999, 5èmes journées d'études et d'échanges COmpression et REprésentation des Signaux Audiovisuels, June 14-15, 1999, Sophia-Antipolis, France and is available at :

PERMALINK : https://www.eurecom.fr/publication/212