Speech components in phonetic characterisation of speakers: a study on complementarity and redundancy of conveyed information Les composantes de la parole dans la caractérisation phonétique du locuteur : étude sur la complémentarité et la redondance des informations véhiculées En Fr

Fiche du document

Date

15 septembre 2022

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess



Sujets proches En Fr

Speaking Phonation

Citer ce document

Gabriele Chignoli, « Les composantes de la parole dans la caractérisation phonétique du locuteur : étude sur la complémentarité et la redondance des informations véhiculées », HAL-SHS : linguistique, ID : 10670/1.f0gecj


Métriques


Partage / Export

Résumé En Fr

The decomposition of the speech signal into phonetically meaningful units allows the analysis of between- and within- speaker variations. These are components associated with characteristics whose nature relates to the physical, psychological and social aspects of a speaker. In this thesis, we compare perceptual characterisation results with a phonetic analysis and advanced modelling techniques through Convolutional Neural Networks (CNN).Clusterings’ analysis shows that the perceptual results are coherent with those obtained by the CNN and phonetic approaches, which supports the application of these methods in Phonetics. Our results highlight that spectrograms are the most accurate speech representation for speaker identification (96% correct answers on average). Higher formants and harmonics are more important in the characterisation of female voices. Whereas, voice quality characteristics, such as breathiness and hoarseness, play a major role in the characterisation of male speakers. The comparison between Mel Frequency Cepstral Coefficients (MFCC) and classical phonetic measurements is also examined. The MFCC are mainly linked to intensity and f in the characterisation of female speakers, while to the distributions of energy and low level spectral shape for male speakers.Our findings confirm the importance of describing the within-speaker variation for a more complete un- derstanding of between-speakers dierences.

La décomposition du signal vocal en unités phonétiquement significatives permet d’analyser les variations inter- et intra- locuteur. Ces unités sont des composantes associées à des caractéristiques dont la nature est liée aux aspects physiques, psychologiques et sociaux d’un locuteur. Dans cette thèse, nous comparons une caractérisation perceptive, une analyse phonétique et des techniques de modélisation avancées par des réseaux de neurones à convolution (CNN).L’analyse des clusterings montre que les résultats perceptifs sont cohérents avec ceux obtenus par les approches CNN et phonétique, ce qui soutient leurs applications en phonétique. Nos résultats mettent en évidence que les spectrogrammes sont la représentation de la parole la plus précise pour l’identification des locuteurs (96% de bonnes réponses en moyenne). Les formants et des harmoniques plus élevés sont plus importants dans la caractérisation des voix féminines. En revanche, les caractéristiques de la qualité de la voix, telles que le soue et la raucité, jouent un rôle majeur dans la caractérisation des voix masculines. Le lien entre les coecients cepstraux à fréquence Mel (MFCC) et les mesures phonétiques classiques est également examiné. Les MFCC sont principalement liés à l’intensité et à f dans la caractérisation des voix féminines, tandis qu’aux distributions d’énergie et à la forme spectrale de bas niveau pour celle des voix masculines.Nos résultats confirment l’importance de la description de la variation intra-locuteur pour une compréhension plus complète des diérences entre locuteurs.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en