RHYTHM TYPOLOGY: ACOUSTIC AND PERCEPTIVE STUDIES

Fiche du document

Date

14 mars 2011

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess



Sujets proches En

Talking

Citer ce document

Paolo Mairano, « RHYTHM TYPOLOGY: ACOUSTIC AND PERCEPTIVE STUDIES », HAL-SHS : linguistique, ID : 10670/1.jraiop


Métriques


Partage / Export

Résumé En Fr

This thesis is mainly concerned with rhythm typology, that is to say with the categorisation of languages into rhythm classes. Studies in this field go back to Pike (1945) and Abercrombie (1967), who introduced the dichotomy of stress-timed vs. syllable-timed languages (the former supposedly exhibiting isochrony at the foot level, the latter at syllable level). After several experiments disproved these claims, it was proposed (cf. Bertinetto, 1981, and Dauer 1983) that the perceptual impression of stress-timing and syllable-timing could depend on structural properties of the languages, namely the presence/absence of complex consonantal clusters and vowel reduction. More recently, some authors proposed acoustic correlates of these properties (cf. Ramus, Nespor & Mehler, 1999, Grabe & Low, 2002, etc.), based on durational measures of C and V sequences. The research presented in this thesis is collocated within this framework. A number of experiments are presented, mostly exploiting a corpus containing comparable audio samples of 61 speakers of 21 languages, which were gathered and manually segmented for this purpose. The structure of the thesis is slightly peculiar as it is not barely split into two separate parts, the first expounding the state of the art, the second presenting the experiments, but attempts to mingle these two aspects. Every chapter deals with one or more issues of speech rhythm and contains a survey of the studies on the topic as well as an analysis of the experiments conducted. Previous research in the field of rhythm typology, from its beginning to present day models, is unfolded in Chapter 2 by following the thread of the traditional dichotomy that opposes stress-timing and syllable-timing. The chapter also presents an experiment inspired by recent studies (cf. Wagner & Dellwo, 2004, and Asu & Nolan, 2006): the inter-onset distance (a unit which has been abandoned in modern mainstream approaches, but which has been the focus of past research) is taken as a cue of syllable complexity. These measures provide encouraging results on multilingual productions of a multilingual speaker, but their values are less convincing when applied to data of more speakers and more languages. Chapter 3 zooms in to rhythm correlates. The main studies on this topic are outlined along the illustration of the formulae and a discussion of practical and methodological issues, such as speech rate normalisation and segmentation criteria. The values of several acoustic correlates of speech rhythm (%V, ΔC, ΔV, varcoC, varcoV, rPVI, nPVI, cCCI, vCCI) for the entire corpus of 21 languages are presented and discussed. Different correlates provide in some cases different results for specific languages, but the general representation is roughly the same: supposedly stress-timed languages tend to have higher variability of both C and V measures than supposedly syllable-timed and mora-timed languages. A final small-scale experiment provides terrain for speculation about the inclusion of pitch and intensity within rhythm accounts. The implementation and functioning of Correlatore is illustrated in Chapter 4. This program has been developed within the thesis for the automatic calculation of rhythm correlates and as a framework for the study of speech rhythm. Chapter 5 introduces the theme of speech rhythm variation and variability. After a discussion of the rare studies adopting this approach, it presents the results of the rhythm correlates on selected samples and outlines a framework that opens interesting perspectives. It is proved that the variability of rhythm correlates is not simply a reflection of instability, but follows a coherent scheme, intra-speaker variability being smaller than inter-speaker variability, which is in turn smaller than inter-language and inter-dialect variability. Finally, the focus moves to perception as only few studies have investigated the ability of listeners to discriminate languages on the basis of rhythm. Different de-lexicalisation procedures are discussed and a multi-task perceptive test on 43 listeners is described. Its results challenge the claim that the stress-timed vs. syllable-timed dichotomy is rooted in perception. The conclusion discusses the efficacy of rhythm correlates and the possibility of including pitch and intensity in a model of speech rhythm. It finally advocates for a scalar and bi-polar representation of speech rhythm.

Cette thèse traite la typologie rythmique, c'est-à-dire la catégorisation des langues en différentes classes sur la base de phénomènes rythmiques. Les études de ce domaine ont débuté avec Pike (1945) et Abercrombie (1967), qui ont introduit la célèbre dichotomie de langues à isochronie accentuelle (ou isoaccentuelles) et à isochronie syllabique (ou isosyllabiques). Depuis que de nombreuses études ont démenti les hypothèses d'isochronie syllabique et accentuelle, il a été proposé (cf. Bertinetto, 1981, et Dauer 1983) que l'impression perceptuelle d'isochronie soit issue des propriétés structurelles de chaque langue, comme par exemple la présence/absence de clusters consonantiques complexes et de réduction vocalique. Plus récemment, certains auteurs ont élaboré des corrélats acoustiques de ces propriétés (cf. Ramus, Nespor & Mehler, 1999, Grabe & Low, 2002, etc.) basés sur des mesures de durée des séquences vocaliques et consonantiques. Les recherches présentées dans cette thèse se situent exactement dans ce cadre. On présente certaines expériences basées essentiellement sur un corpus d'échantillons sonores comparables de 61 locuteurs de 21 langues, récoltés et segmentés manuellement dans ce but. La structure de la thèse est plutôt atypique, dans les sens où elle n'est pas divisée en deux parties nettement séparées, une présentant l'état de l'art, l'autre exposant les expériences, mais s'efforce de fondre ces deux aspects. Chaque chapitre se concentre sur une ou plusieurs problématiques liées au rythme des langues et contient une discussion des études sur le sujet ainsi qu'une analyse des expériences menées. La recherche dans le domaine de la typologie rythmique, du début jusqu'aux approches plus modernes, est exposée dans le chapitre 2 en suivant le leitmotiv de la dichotomie traditionnelle qui oppose les langues isosyllabique et isoaccentuelles. Ce chapitre présente également une expérience inspirée par des publications récentes (cf. Wagner & Dellwo, 2004, et Asu & Nolan, 2006): la distance entre attaques syllabiques (une mesure abandonnée dans les approches modernes mais qui a été au centre de l'attention dans le passé) est utilisée comme indice de complexité syllabique. Cette mesure fournit des valeurs encourageantes sur des échantillons dans 5 langues par un locuteur multilingue (donc dans des conditions extrêmement contrôlées), mais les résultats sont moins convaincants lorsqu'ils sont appliqués à des données de plusieurs locuteurs et plusieurs langues. Le chapitre 3 se concentre plus spécifiquement sur les corrélats du rythme. Les principales études dans ce domaine sont exposées avec une discussion des formules et des problématiques pratiques et méthodologiques, comme la normalisation de la vitesse d'élocution et les critères utilisés lors de la segmentation. Sont ensuite présentées et analysées les valeurs des nombreux corrélats du rythme (notamment %V, ΔC, ΔV, varcoC, varcoV, rPVI, nPVI, cCCI et vCCI) pour le corpus entier de 21 langues. Les différents corrélats produisent parfois des valeurs différentes pour des langues spécifiques, mais le cadre générale reste à peu près inaltéré: les langues dites isoaccentuelles tendent à avoir une plus grande variabilité de durées vocaliques et consonantiques par rapport aux langues dites isosyllabiques et isomoraïques. Une expérience finale fournit un point de départ pour avancer des hypothèses à propos de l'inclusion de fo et intensité dans les modèles du rythme. L'implémentation et le fonctionnement de Correlatore sont illustrés dans le chapitre 4. Ce logiciel a été développé dans le cadre de la thèse avec le but d'automatiser le calcul des corrélats du rythme et se révèle un outil extrêmement utile. Le chapitre 5 introduit le thème de la variation et de la variabilité du rythme. Après une analyse des rares études dans ce domaine, on présente les résultats des corrélats sur des données spécifiques selon une approche qui ouvre des perspectives intéressantes. Il est démontré que la variabilité des valeurs des corrélats n'indique pas simplement une instabilité de ceux-ci, mais suit un schéma cohérent, avec des valeurs croissantes de variabilité selon l'échelle intra-locuteur / inter- locuteur / inter-dialecte et inter-langue. Finalement, le focus se déplace au niveau de la perception, puisque la capacité présumée de catégoriser des stimuli linguistiques sur la base du rythme de la part d'auditeurs naïfs a été peu étudiée jusqu'à présent. A la suite d'une discussion concernant les différentes procédures de dé-lexicalisation, on présente un test perceptif administré à 43 participants. Les résultats mettent en doute l'affirmation que la dichotomie de langues isoaccentuelles et isosyllabiques soit enracinée dans la perception. Les conclusions discutent l'efficacité des corrélats rythmiques et la possibilité d'inclure fo et intensité dans un modèle du rythme. On argumente à la fin l'exigence de passer à une représentation scalaire et bipolaire du rythme des langues.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en