17 octobre 2022
free_for_non_commercial_use , Libre sans utilisation commerciale , Free for non commercial use , Licence Creative Commons Attribution - Pas d'Utilisation Commerciale - Partage dans les Mêmes Conditions 2.0 Générique
Aghilas Mr Sini et al., « SynPaFlex-Corpus », ORTOLANG
SynPaFlex est un corpus de livres-audios en français composé de 87 heures de parole de bonne qualité, enregistré par une unique locutrice. Il est constitué d’un ensemble de livres de différents genres. Ce corpus diffère des corpus existants, constitués généralement de quelques heures de parole mono-genre et multi-locuteurs. La motivation principale pour construire un tel corpus est l’exploration de l’expressivité à travers différents points de vue, tels que le style de discours, la prosodie, la prononciation, et en utilisant différents niveaux d’analyse (syllabe, mot prosodique ou lexical, groupe syntaxique ou prosodique, phrase, paragraphe). Cela permettra de développer des modèles autorisant un meilleur contrôle de l’expressivité en synthèse de parole, ou d’adapter la prononciation et la prosodie au type de discours (changement dans la perspective du discours, style direct/indirect, etc.). A cette fin, le corpus a été annoté automatiquement et fournit des informations telles que les labels et frontières de phones, les syllabes, les mots et les étiquettes morpho-syntaxiques. De plus, une part significative du corpus a été annoté manuellement pour encoder le style direct/indirect et des informations d’ordre émotionnel.