19 avril 2006
info:eu-repo/semantics/OpenAccess
Damon Mayaffre, « Faut-il prendre en compte la composition grammaticale des textes dans le calcul des spécificités lexicales ? Tests logométriques appliqués au discours présidentiel sous la Vème République », HAL-SHS : sciences politiques, ID : 10670/1.tqiy9h
Depuis plusieurs années, la statistique textuelle appliquée successivement à des corpus de textes bruts puis aux mêmes textes lemmatisés/grammaticalisés donne des résultats globaux ou synthétiques identiques. Les grandes classifications de textes, qui aboutissent à des typologies textuelles plus ou moins innovantes, apparaissent insensibles à l'unité linguistique traitée (forme ou lemme, catégorie grammaticale et enchaînement syntaxique). Ainsi sur une AFC par exemple, un discours qui se distingue des autres d'un point de vue lexical s'en distinguera de manière similaire d'un point de vue grammatical. L'enjeu de cette contribution est de réussir à mettre en relation deux événements linguistiques intimement liés (l'événement lexical et l'événement grammatical) et d'éclairer –c'est-à-dire en terme statistique, sans doute, de pondérer– l'un par l'autre. Jusqu'ici, la probabilité statistique de voir apparaître tel mot a toujours été calculée par rapport à l'ensemble des mots du corpus, quand bien même cette probabilité est informée, non par la surface totale du corpus, mais par la proportion de la catégorie grammaticale dont les mots relèvent.