17 juin 2019
Ce document est lié à :
info:eu-repo/semantics/reference/issn/1958-5322
https://creativecommons.org/licenses/by-nc-nd/4.0/ , info:eu-repo/semantics/openAccess
Thomas Egan, « Non-representativeness in corpora: perils, pitfalls and challenges », CogniTextes, ID : 10.4000/cognitextes.1772
Cet article présente et discute quelques-uns des problèmes de représentativité rencontrés par l’auteur au cours de plus de vingt ans de recherche basée sur corpus. Il démontre que l’inclusion dans un corpus général de certains types de texte, tels que les traités grammaticaux ou les oeuvres de fiction historique, peuvent nuire à la représentativité des données, surtout si le corpus vise à refléter la production linguistique, par opposition à la réception linguistique, d’une communauté linguistique donnée. L’article défend l’idée qu’il faudrait donner moins d’importance à la réception dans la construction de corpus généraux. Il aborde aussi des problèmes liés à la comparaison de textes dans différentes langues et présente deux solutions qui ont été proposées pour surmonter ces problèmes. Les différents aspects traités sont illustrés par des exemples tirés de corpus aussi bien contemporains que historiques.