8 septembre 2022
info:eu-repo/semantics/OpenAccess
Ziyi Tong, « Modélisation auto-supervisée de la parole affective spontanée », DUMAS - Dépôt Universitaire de Mémoires Après Soutenance, ID : 10670/1.21gb9g
Les modèles auto-supervisés pré-entraîné utilisant des données non étiquetées pour extraire des représentations ont été largement exploré dans le domaine du traitement automatique de la parole. Ce mémoire explore une nouvelle approche consistant à extraire des représentations linguistiques des transcriptions à partir des modèles auto-supervisés pré-entraîné pour la reconnaissance des émotions de la parole spontanée en temps continu. Nous avons examiné une méthode d’alignement pour accorder les représentations linguistiques avec du temps. Les résultats des expérimentations montrent que les représentations auto-supervisées linguistiques peuvent prédire les émotions en dimension arousal et valence aussi bien que les représentations auto-supervisées acoustiques.