Plugging a neural phoneme recognizer into a simple language model: a workflow for low-resource settings Intégration d'un système de reconnaissance neuronale des phonèmes et d'un modèle de langue simple : une chaîne de traitement pour les scénarios à faibles ressources En Fr

Fiche du document

Date

18 septembre 2022

Discipline
Type de document
Périmètre
Langue
Identifiants
Relations

Ce document est lié à :
info:eu-repo/semantics/altIdentifier/doi/10.21437/Interspeech.2022-11314

Collection

Archives ouvertes

Licences

http://creativecommons.org/licenses/by-nc-sa/ , info:eu-repo/semantics/OpenAccess




Citer ce document

Séverine Guillaume et al., « Intégration d'un système de reconnaissance neuronale des phonèmes et d'un modèle de langue simple : une chaîne de traitement pour les scénarios à faibles ressources », HAL-SHS : linguistique, ID : 10.21437/Interspeech.2022-11314


Métriques


Partage / Export

Résumé En Fr

Recently, several works have shown that fine-tuning a multilingual model of speech representation (typically XLS-R) with very small amounts of annotated data allows for the development of phonemic transcription systems of sufficient quality to help field linguists in their efforts to document the languages of the world. In this work, we explain how the quality of these systems can be improved by a very simple method, namely integrating them with a language model. Our experiments on an endangered language, Japhug (Trans-Himalayan/Tibeto-Burman), show that this approach can significantly reduce the WER, reaching the stage of automatic recognition of entire words.

Des travaux récents montrent que la spécialisation (*fine-tuning*) d'un modèle multilingue de représentation de la parole (tel que XLS-R) au moyen de très petites quantités de données annotées permet d'obtenir des systèmes de transcription phonémique de qualité suffisante pour être utile aux linguistes de terrain dans leur entreprise de documentation des langues du monde. Dans ce travail, nous exposons une méthode très simple qui permet d'améliorer la qualité de ces systèmes : leur intégration avec un modèle de langue. Nos expériences sur une langue menacée, le japhug (famille trans-himalayenne/tibéto-birmane), montrent que cette approche peut réduire significativement le taux d'erreur sur les mots (WER: *Word Error Rate*), et mener au stade de la reconnaissance automatique de mots entiers.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en