1 septembre 2024
Ce document est lié à :
info:eu-repo/semantics/altIdentifier/doi/10.21437/Interspeech.2024-953
http://creativecommons.org/licenses/by-nc-sa/ , info:eu-repo/semantics/OpenAccess
Séverine Guillaume et al., « Identification du genre et de la langue dans les modèles multilingues de la parole : exploration de la généricité et de la robustesse des représentations de la parole », HAL SHS (Sciences de l’Homme et de la Société), ID : 10.21437/Interspeech.2024-953
Les modèles tels que XLS-R et UniSpeech ont prouvé leur efficacité dans le traitement de la parole en diverses langues, même dans un contexte où les données annotées sont limitées. Ils permettent notamment de développer des systèmes de transcription pour certaines langues rares (peu documentées). Le présent travail vise à tester l'hypothèse selon laquelle ces modèles peuvent construire des représentations « génériques » d'un extrait audio, qui ne dépendent pas de caractéristiques non pertinentes pour la compréhension du message véhiculé. À travers deux séries d'expériences, nous évaluons leur capacité à s'abstraire des détails spécifiques au locuteur et à distiller des contenus informationnels centraux – entendus dans un sens informationnel/communicationnel qui doit être affiné : toutes les informations contenues dans le signal audio qui reflètent l'intention communicative du locuteur. Les résultats de nos expériences montrent que les modèles de parole pré-entraînés tels que XLS-R n'encodent pas nécessairement les informations de la même manière en fonction du sexe du locuteur.