info:eu-repo/semantics/OpenAccess
Cyril Labbé et al., « LA REPARTITION DU VOCABULAIRE », HAL-SHS : linguistique, ID : 10670/1.yp8hfz
La répartition d’un mot dans une collection de textes (corpus) est l'ensemble des emplacements où ce vocable apparaît. Cette dimension a été peu étudiée et uniquement pour des corpus constitués d’échantillons de longueurs égales. Cette note analyse le phénomène dans les corpus de textes entiers (longueurs inégales) et propose un indice dont les propriétés sont décrites à l’aide de plusieurs corpus de grandes dimensions. Une procédure simple permet d’isoler les vocables les plus régulièrement utilisés et ceux qui sont localisés en un point du corpus. Cette dimension complète la fréquence et apporte une information supplémentaire sur le vocabulaire du corpus.