Aspects théoriques et méthodologiques de la représentativité des corpus

Fiche du document

Date

15 mai 2014

Discipline
Type de document
Périmètre
Identifiant
Source

Corela

Relations

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1638-573X

Organisation

OpenEdition

Licences

https://creativecommons.org/licenses/by-nc-sa/4.0/ , info:eu-repo/semantics/openAccess




Citer ce document

Najib Arbach et al., « Aspects théoriques et méthodologiques de la représentativité des corpus », Corela, ID : 10.4000/corela.3029


Métriques


Partage / Export

Résumé Fr En

En 1982, Francis (1991 :17) définit un corpus comme suit :’A collection of texts assumed to be representative of a given language, dialect, or other subset of a language, to be used for linguistic analysis.’Le critère de la représentativité allait ensuite être évoqué par la quasi-totalité des ouvrages et articles de référence sur la linguistique de corpus. Cet article tentera de définir la représentativité en illustrant ses axes, et d’expliciter les méthodologies de la représentativité qui incluent les notions de catégorisations, d’échantillonnage et de volume des données.Pour ce faire, nous tenterons de comprendre l’importance de cette notion et de sa récurrence au sein de la littérature traitant de la linguistique de corpus. Nous distinguerons ensuite les différentes méthodologies employées dans le but d’atteindre la représentativité dans la constitution de corpus. Les deux principaux courants méthodologiques que nous examinerons sont ceux de la « stratification en amont » représenté par Biber (1993a, 1993b) pour le premier, et celui des « monitor corpus » représenté par Sinclair (1991, 1996, 2004) pour le second. Nous nous intéresserons en détail à la question de la taille des corpus, et nous conclurons par une revue rapide de la situation actuelle, accompagnée de quelques recommandations destinées aux compilateurs de corpus constitués ou futurs.

In 1982, Francis (1991: 17) defines a corpus as:’A collection of texts assumed to be representative of a given language, dialect, or other subset of a language, to be used for linguistic analysis.’The representativeness of a corpus would then be taken into account by most of the main publications which dealt with corpus linguistics. This paper aims at defining the concept of representativeness in corpus design and at illustrating its main features as well as the various methods used to achieve it, which will include a discussion on the issues of categorization, sampling or the required size of a corpus.We will try to achieve a better understanding of the concept of representativeness through a review of the related literature on corpus linguistics. The various methods that are proposed and implemented in order to achieve representativeness in corpus design will be discussed and contrasted. The two main methods that will be examined are Biber’s stratification techniques (1993a, 1993b) on the one hand, and the methods represented by Sinclair’s "monitor corpus" (1991, 1996, 2004) on the other hand. Finally, we will address the issue of the required size of a corpus and provide a brief review of the current situation regarding corpus design along with some recommendations for corpus building.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en