Vers un outillage informatique optimisé pour corpus langagiers oraux en vue d’une exploitation textométrique : le cas des interrogatives partielles dans ESLO

Fiche du document

Date

15 février 2021

Discipline
Type de document
Périmètre
Identifiant
Source

Corpus

Relations

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1638-9808

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1765-3126

Organisation

OpenEdition

Licences

All rights reserved , info:eu-repo/semantics/openAccess




Citer ce document

Flora Badin et al., « Vers un outillage informatique optimisé pour corpus langagiers oraux en vue d’une exploitation textométrique : le cas des interrogatives partielles dans ESLO », Corpus, ID : 10.4000/corpus.5752


Métriques


Partage / Export

Résumé Fr En

Pour répondre aux problématiques engendrées par la diffusion de plus en plus massive des corpus linguistiques et à l’hétérogénéité de leurs formats, nous proposons une méthode permettant de prendre en main des corpus langagiers oraux et de les convertir dans un format permettant leur exploitation outillée. Pour cette recherche, le corpus ESLO nous sert d’exemple par sa licence de diffusion, son format, son volume et ses atouts sociolinguistiques et diachroniques. Notre travail se fonde sur la compilation de ce corpus pour le rendre compatible avec l’outil de textométrie TXM. Nous opérons un ensemble de transformations des données pour l’utiliser au mieux. Enfin, pour illustrer les apports de ces avancées méthodologiques, nous proposons une analyse fine et multidimensionnelle de l’usage des interrogatives dans le corpus ESLO.

To answer the increasing trend of corpora sharing and data format heterogeneity, we present a method for converting spoken language corpora to several tool formats in order to facilitate linguistic analysis. For this research, we take as an example the ESLO corpus for several reasons: its open-source licence, its standard format used for its construction, its size, and its sociolinguistic and micro-diacronic characteristics. Our study is based on a compilation of the ESLO corpus in order to make it compatible with the textometric tool TXM. We operate a set of operations to use all the possibilities the tool offers. Finally, we present a fine-grained and multidimensional analysis of the interrogatives utterances used in the ESLO corpus.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en