23 juin 2014
Martine Adda-Decker et al., « Modélisation acoustico-phonétique de langues peu dotées : Études phonétiques et travaux de reconnaissance automatique en luxembourgois », HAL-SHS : linguistique, ID : 10670/1.6vdh4j
Le luxembourgeois est une langue germano-franconique et l’une des langues européennes sous-décrites. Cet article étudie la similitude entre les segments phonétiques en luxembourgeois avec leurs équivalents en allemand, français et anglais via des techniques d’alignement forcés. En utilisant les modèles acoustiques monolingues d’amorçage de ces trois langues, ainsi que des modèles "multilingues" entraînés sur un corpus de parole obtenu par concaténation, nous avons examiné si le luxembourgeois était mieux représenté par l’une des langues prises individuellement ou par le modèle multilingue. Au niveau global, les modèles allemands fournissent la meilleure correspondance, mais une analyse par segments montre des préférences spécifiques. Les premiers résultats en transcriptions illustrent les performances des différents jeux de modèles acoustiques monolingues et multilingues, ainsi que les modèles luxembourgeois construits à partir de 1200 heures de parole non transcrites en luxembourgeois, et des méthodes non supervisées.