Prosody of expressive speech: dimensionality of methodologically controlled authentic and acted utterances Prosodie de la parole expressive : dimensionnalité d'énoncés méthodologiquement contrôlés authentiques et actés En Fr

Fiche du document

Date

2 décembre 2008

Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess




Citer ce document

Nicolas Audibert, « Prosodie de la parole expressive : dimensionnalité d'énoncés méthodologiquement contrôlés authentiques et actés », HAL-SHS : linguistique, ID : 10670/1.3a6ak1


Métriques


Partage / Export

Résumé En Fr

Advances in speech synthesis have led to redefinition of the key issues of person-machine communication, the concept of relevance of the talking clone through its expressivity being nowadays central. We defend a hypothesis according to which the dynamics of prosodic contours would carry affective information, considering separately affects which expression is controlled voluntarily vs. involuntarily. For this purpose was developed E-Wiz, a platform dedicated to the collection of multimodal spontaneous expressive speech corpora with Wizard of Oz scenarios. 17 subjects, including 7 actors who were asked to replay the same affects immediately after the experiment, were tricked on a pretext language-learning task called Sound Teacher, aiming at the induction of both negative and positive emotional states, mainly on monosyllabic utterances. Speakers annotated themselves the affects they expressed. We could identify distinct F0 contours for different emotional expressions. A perceptual evaluation in audio and audiovisual conditions of affects acted by a speaker showed that monosyllables were as well identified as longer utterances. Two perceptual experiments based on dimensional projection of expressive stimuli on neutral utterances showed that no dimension could be directly linked to a particular emotional class. The intensity and typicality of acted and spontaneous expressions produced by 6 speakers were measured, prior to a task of discrimination in audio, visual and audiovisual conditions of pairs of acted vs. spontaneous stimuli. This experiment showed that naïve subjects were able to discriminate acted vs. spontaneous utterances without any significant difference between classes of emotion, but with a large inter-judge variability, while differences in perceived intensity of the emotion could not fully account for discrimination scores.

Les récents progrès de la synthèse de la parole ont redéfini les enjeux majeurs de la communication personne-machine, qui s'articulent désormais autour du concept de pertinence du clone parlant à travers son expressivité. Nous défendons une hypothèse selon laquelle la dynamique des contours prosodiques serait porteuse d'information affective, en séparant les affects dont l'expression est contrôlée volontairement vs. involontairement. Pour cela a été développé E-Wiz, une plateforme dédiée à la capture de corpus multimodaux de parole expressive spontanée par des scénarios de Magicien d'Oz. 17 locuteurs francophones (dont 7 acteurs qui ont rejoué immédiatement après les affects ressentis) ont été capturés dans une tâche prétexte d'apprentissage des langues, le scénario Sound Teacher, visant l'induction d'états émotionnels de valence plutôt positive puis négative exprimés principalement sur des énoncés monosyllabiques isolés. Ils ont ensuite annoté eux-mêmes les affects exprimés. Nous avons identifié des contours de F0 distincts pour différentes expressions émotionnelles. Une évaluation perceptive en conditions audio et audiovisuelle des affects actés par un locuteur a montré que les monosyllabes étaient aussi bien reconnues que les énoncés plus longs. Deux expériences perceptives de projection dimensionnelle de stimuli expressifs sur des stimuli neutres ont montré qu'aucune dimension ne pouvait être liée directement à une classe particulière d'émotions. L'intensité et la typicalité d'expressions actées et spontanées produites par 6 locuteurs ont été mesurées, préalablement à une tâche de discrimination audio, visuelle et audiovisuelle de paires de stimuli actés vs. spontanés. Cette expérience a montré que des sujets naïfs étaient capables de discriminer les énoncés actés vs. spontanés sans différence notable entre classes d'émotion mais avec une importante variabilité interindividuelle, et sans que les différences entre intensités d'émotion perçues n'expliquent entièrement les scores de discrimination.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Exporter en