Non-representativeness in corpora: perils, pitfalls and challenges

Fiche du document

Auteur
Date

17 juin 2019

Discipline
Type de document
Périmètre
Langue
Identifiant
Source

CogniTextes

Relations

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1958-5322

Organisation

OpenEdition

Licences

https://creativecommons.org/licenses/by-nc-nd/4.0/ , info:eu-repo/semantics/openAccess




Citer ce document

Thomas Egan, « Non-representativeness in corpora: perils, pitfalls and challenges », CogniTextes, ID : 10.4000/cognitextes.1772


Métriques


Partage / Export

Résumé En Fr

This article presents and discusses some problems of representativeness that the author has encountered in over twenty years of corpus-based research. It argues that the inclusion in a general corpus of certain text types, such as grammar treatises or works of historical fiction, can lessen the representativeness of the data, especially if the corpus is designed to reflect the linguistic production, as opposed to the linguistic reception, of a speech community. It is argued that less emphasis should be placed on reception in the compilation of general corpora. Also addressed are problems relating to the comparison of texts in different languages, as well as two solutions that have been proposed to counter these problems. The arguments are illustrated with examples from both contemporary and historical corpora.

Cet article présente et discute quelques-uns des problèmes de représentativité rencontrés par l’auteur au cours de plus de vingt ans de recherche basée sur corpus. Il démontre que l’inclusion dans un corpus général de certains types de texte, tels que les traités grammaticaux ou les oeuvres de fiction historique, peuvent nuire à la représentativité des données, surtout si le corpus vise à refléter la production linguistique, par opposition à la réception linguistique, d’une communauté linguistique donnée. L’article défend l’idée qu’il faudrait donner moins d’importance à la réception dans la construction de corpus généraux. Il aborde aussi des problèmes liés à la comparaison de textes dans différentes langues et présente deux solutions qui ont été proposées pour surmonter ces problèmes. Les différents aspects traités sont illustrés par des exemples tirés de corpus aussi bien contemporains que historiques.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en