18 septembre 2022
Ce document est lié à :
info:eu-repo/semantics/altIdentifier/doi/10.21437/Interspeech.2022-11314
http://creativecommons.org/licenses/by-nc-sa/ , info:eu-repo/semantics/OpenAccess
Séverine Guillaume et al., « Intégration d'un système de reconnaissance neuronale des phonèmes et d'un modèle de langue simple : une chaîne de traitement pour les scénarios à faibles ressources », HAL-SHS : linguistique, ID : 10.21437/Interspeech.2022-11314
Des travaux récents montrent que la spécialisation (*fine-tuning*) d'un modèle multilingue de représentation de la parole (tel que XLS-R) au moyen de très petites quantités de données annotées permet d'obtenir des systèmes de transcription phonémique de qualité suffisante pour être utile aux linguistes de terrain dans leur entreprise de documentation des langues du monde. Dans ce travail, nous exposons une méthode très simple qui permet d'améliorer la qualité de ces systèmes : leur intégration avec un modèle de langue. Nos expériences sur une langue menacée, le japhug (famille trans-himalayenne/tibéto-birmane), montrent que cette approche peut réduire significativement le taux d'erreur sur les mots (WER: *Word Error Rate*), et mener au stade de la reconnaissance automatique de mots entiers.