The importance of sampling frames in representative historical corpora : a case study of Parisian theater

Fiche du document

Date

17 juin 2019

Discipline
Type de document
Périmètre
Langue
Identifiant
Source

CogniTextes

Relations

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1958-5322

Organisation

OpenEdition

Licences

https://creativecommons.org/licenses/by-nc-nd/4.0/ , info:eu-repo/semantics/openAccess




Citer ce document

Angus B. Grieve-Smith, « The importance of sampling frames in representative historical corpora : a case study of Parisian theater », CogniTextes, ID : 10.4000/cognitextes.1671


Métriques


Partage / Export

Résumé Fr En

Pour tester les hypothèses avancées par la linguistique cognitive, il n’y a pas d’instrument plus efficace que le corpus. L’échantillonnage représentatif (Laplace 1814) est une technique qui permet d’examiner des corpus plus réduits, et ainsi plus abordables, et d’en généraliser les résultats à un cadre d’échantillonnage plus large. Or, un échantillon n’est pas pertinent à une hypothèse s’il n’est pas tiré d’un cadre d’échantillonnage qui soit lui-même pertinent à l’hypothèse.Dans mon projet doctoral (Grieve-Smith 2009) j’ai employé le corpus FRANTEXT (CNRTL 2018) pour tester l’hypothèse selon laquelle l’extension analogique d’une construction dépend de sa fréquence de type (Bybee 1995). J’ai comparé les textes théâtraux dans FRANTEXT pour les années 1800-1815 avec un nouveau Corpus de la Scène Parisienne, un échantillon tiré du catalogue de Wicks (1950 et seq.). Dans ce nouveau corpus, les négations de phrase déclarative se forment avec ne … pas dans 73,9 % des instances, tandis que dans FRANTEXT elles ne se forment avec ne … pas que dans 50,5 % des occurrences, une différence qui montre un biais en faveur de la langue littéraire dans FRANTEXT. Pour une évaluation adéquate des théories basées sur l’usage concernant le changement linguistique, il faudra un corpus contenant des textes représentatifs de la langue sur un siècle au minimum.

Cognitive linguistics makes specific claims about language use, and corpora are our most powerful tool to test those claims. Representative sampling (Laplace 1814) is a technique that allows us to study smaller, more manageable corpora, and generalize our results to a broader sampling frame. For a sampled corpus to be relevant to our research questions, its sampling frame must have an understandable connection to the subject of our research question.In my dissertation study (Grieve-Smith 2009) I tested the type frequency hypothesis of analogical extension (Bybee 1995) using the FRANTEXT corpus (CNRTL 2018). In this study I test the theatrical texts in FRANTEXT from 1800-1815 against the new Digital Parisian Stage corpus, sampled from Wicks (1950 et seq.), a catalog of every play that premiered in Paris in the nineteenth century. Declarative sentence negations in the Digital Parisian Stage corpus occurred with ne … pas in 73.9 % of tokens, while in FRANTEXT they only occurred with ne … pas in 50.5 % of tokens. This shows that FRANTEXT is biased in favor of elite literary language. To properly test usage-based theories of language change we will need a representative corpus covering a century or more.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en