Ecole d'ingénieur et centre de recherche en Sciences du numérique

Giovanni SOLDI

Giovanni SOLDI
Giovanni SOLDI
Eurecom - Sécurité numérique 
Doctorant ( 2013 - 2016)
Alumni EURECOM

Thèse

Diarisation du locuteur en temps réel pour les objets intelligents

Responsable(s)

La diarisation du locuteur en temps réel vise à détecter "qui parle maintenant" dans un flux audio donné. La majorité des systèmes de diarisation en ligne proposés a mis l'accent sur des domaines moins difficiles, tels que l'émission des nouvelles et discours en plénière, caractérisé par une faible spontanéité.

La première contribution de cette thèse est le développement d'un système de diarisation du locuteur complètement un-supervisé et adaptatif en ligne pour les données de réunions qui sont plus difficiles et spontanées.

En raison des hauts taux d'erreur de diarisation, une approche semi-supervisé pour la diarisation en ligne, ou les modèles des interlocuteurs sont initialisés avec une quantité modeste de données étiquetées manuellement et adaptées par une incrémentale maximum a-posteriori adaptation (MAP) procédure, est proposée.

Les erreurs obtenues peuvent être suffisamment bas pour supporter des applications pratiques.

 

La deuxième partie de la thèse aborde le problème de la normalisation phonétique pendant la modélisation des interlocuteurs avec petites quantités des données. Tout d'abord, Phone  Adaptive Training (PAT), une technique récemment proposé, est évalué et optimisé au niveau de la modélisation des interlocuteurs et dans le cadre de la vérification automatique du locuteur (ASV) et est ensuite développée vers un système entièrement un-supervise en utilisant des transcriptions de classe acoustiques générées automatiquement, dont le nombre est contrôlé par analyse de l'arbre de régression.

PAT offre des améliorations significatives dans la performance d'un système ASV iVector, même lorsque des transcriptions phonétiques précises ne sont pas disponibles.

Enfin, une première tentative de combinaison de PAT et diarisation semi-supervisé en ligne confirme le potentiel de PAT dans l'amélioration de la modélisation des interlocuteurs en temps réel et motive plus de recherche dans cette direction.

Rechercher



Informations additionnelles

Profils