La théorie de l'information vingt ans après Guiraud

Résumé Fr

Tous les raffinements mathématiques dont on peut entourer le rapport N / V ne peuvent dissoudre l’ambiguïté initiale qui s’attache à la notion de richesse lexicale. On sait que ce rapport n’est jamais brut car il serait trop dépendant de l’étendue du texte (c’est-à-dire du nombre d’occurrences N, qui croît plus vite que celui des vocables V). Diverses pondérations ont été apportées depuis que Guiraud a proposé la première : V=√N = constante 22 Mais il ne suffit pas de réduire l’influence de la longueur des textes comparés. Encore faudrait-il s’attarder à la qualité, concrète ou abstraite, des vocables rencontrés et ne pas confondre l’abondance des objets et l’abondance des mots. En outre, en s’en tenant à la seule structure lexicale, un même rapport N / V peut être obtenu de bien des façons différentes, suivant qu’un texte privilégie les fréquences moyennes ou extrêmes. Enfin ce rapport peut varier dans le déroulement d’un texte et ce mouvement peut être intéressant à observer.C’est pourquoi on peut penser que pour rendre compte de la diversité lexicale d’un texte il convient non seulement d’exploiter toutes les fréquences d’un texte une fois lue la dernière page, mais aussi de suivre la progression lexicale de ce texte à des intervalles réguliers. Une recherche dans cette direction a été menée par Étienne Évrard sur un corpus d’auteurs latins et exposée au 11e Colloque de l’ALLC, à Louvain. Guiraud avait été le premier linguiste en France à utiliser la notion d’entropie et à mettre en œuvre la théorie de l’information. Évrard reprend la mesure de l’entropie, laquelle évoluerait entre deux limites : la valeur log N et la valeur zéro. On se propose de discuter sa proposition.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en