Constitution et exploitation d’un corpus de français parlé parisien

Fiche du document

Date

18 juin 2012

Discipline
Type de document
Périmètre
Langue
Identifiant
Source

Corpus

Relations

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1638-9808

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1765-3126

Organisation

OpenEdition

Licences

All rights reserved , info:eu-repo/semantics/openAccess




Citer ce document

Sonia Branca-Rosoff et al., « Constitution et exploitation d’un corpus de français parlé parisien », Corpus, ID : 10.4000/corpus.2033


Métriques


Partage / Export

Résumé Fr En

Le but de cet article est double. Il s’agit d’abord d’introduire un nouveau corpus de français oral numérisé, accessible sans restriction sur le web. CFPP2000 (Corpus du français parlé parisien des années 2000), qui comporte actuellement 500 000 mots alignés à l’oral au tour de parole, est constitué par un ensemble d’interviews conversationnelles sur les quartiers de Paris d’une à deux heures qui ont été réalisées en dyades ou le plus souvent en triades. L’article envisage l’influence pour la constitution du corpus du but que nous nous étions fixé au départ, faciliter l’étude de la variation à l’oral pour le français parisien « commun ». Il aborde le choix des informateurs qui découle de cet objectif, les conduites d’entretien qui ont été adoptées. Il envisage ce qu’apporte la transcription d’entretiens relativement longs qui permet d’atténuer l’opposition entre analyse quantitative et analyse qualitative, ainsi que les précautions à prendre dans l’interprétation des résultats. Dans un deuxième temps, l’article présente les métadonnées, les concordanciers et les outils statistiques qui viennent enrichir le corpus et mentionne quelques travaux qu’il a permis de mener, tantôt en syntaxe de l’oral, tantôt autour de problèmes de variation morphologique.

Creating and exploiting a corpus of Parisian spoken French This article has two aims. Firstly, it introduces a new digitized corpus of spoken French, freely accessible on the internet. The CFPP2000 (Corpus du Français Parlé Parisien des années 2000) presently features 500,000 words aligned to speech turns, and taken from a collection of conversational interviews themed around the local areas of Paris. These last from one to two hours and were conducted with one, two or sometimes more respondents. The article looks at how the original aim of contributing to the study of spoken variation for “ordinary” Paris French has influenced the make-up of the corpus. It considers how this weighed on the choice of respondents, and on the way the interviews were conducted. It looks at the advantage of transcribing relatively long interviews, where the opposition between quantitative and qualitative analysis may be attenuated, and mentions precautions which are necessary when interpreting results. Secondly, the article presents the metadata, concordancers and statistical tools which have been added to enhance use of the corpus, and mentions some studies in which it has been used, from the area of spoken syntax and morphological variation.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en