À la croisée des langues. Annotation et fouille de corpus plurilingues

Fiche du document

Date

2014

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess




Citer ce document

Pascal Vaillant et al., « À la croisée des langues. Annotation et fouille de corpus plurilingues », HAL-SHS : linguistique, ID : 10670/1.bp2s7n


Métriques


Partage / Export

Résumé En Fr

In the frame of a research programme on the study of language c ontact phenomena and of their role in linguistic change, there currently is an eff ort to collect plurilingual corpora, exhibiting a great variety of contact phenomena on a sample o f languages of various genetical and typological background. This has implied developing a s pecific document processing software for digital corpora with internal plurilingualis m, in order to represent, store, annotate, and visualize their linguistic data, and to build data minin g tools. Existing encoding standards have been extended to cope with such phenomena as speech segm ents "floating" between languages, occurring in plurilingual talk. In this article , we describe the structure that has been defined for the plurilingual corpora, and the background defi nition of plurilingual linguistic units that is used for statistical analysis in the corpora.

Un programme de recherche en cours sur l'étude des phénomènes de contact de langues et de leur rôle dans le changement linguistique s'attache à recueillir des corpus plurilingues, témoignant d'une grande variété de phénomènes de contact sur un échantillon suffisamment varié de langues génétiquement et typologiquement distinctes. Cet effort a impliqué le développement d'une chaîne de traitement des corpus numériques qui tienne compte des spécificités des corpus plurilingues, pour la représentation des données linguistiques, leur stockage, leur annotation, leur visualisation, et les traitements de recherche d'information. Les normes existantes ont dû être étendues pour prendre en compte l'appartenance potentielle d'unités à plusieurs langues dans les pratiques langagiéres plurilingues. Dans cet article, nous décrivons la manière dont a été définie la structure de ces corpus plurilingues, et la conception technique de l'unité linguistique multilingue qui préside à la fouille de données dans ces corpus.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en