LA REPARTITION DU VOCABULAIRE

Fiche du document

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess

Résumé En Fr

The distribution of a word in a collection of texts (corpus) is the set of locations where this term appears. This dimension has been little studied and only for corpora constituted of excerpts of equal lengths. This note analyzes the phenomenon in the corpora of entire texts (the lengths of which are unequal) and proposes an index whose properties are described using several corpora of large dimensions. A simple procedure makes it possible to isolate the words most regularly used and those which are located at a point of the corpus. In relation with the frequencies, repartition index provides some additional informations about the vocabulary of a corpus.

La répartition d’un mot dans une collection de textes (corpus) est l'ensemble des emplacements où ce vocable apparaît. Cette dimension a été peu étudiée et uniquement pour des corpus constitués d’échantillons de longueurs égales. Cette note analyse le phénomène dans les corpus de textes entiers (longueurs inégales) et propose un indice dont les propriétés sont décrites à l’aide de plusieurs corpus de grandes dimensions. Une procédure simple permet d’isoler les vocables les plus régulièrement utilisés et ceux qui sont localisés en un point du corpus. Cette dimension complète la fréquence et apporte une information supplémentaire sur le vocabulaire du corpus.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en