17 juin 2019
Ce document est lié à :
info:eu-repo/semantics/reference/issn/1958-5322
https://creativecommons.org/licenses/by-nc-nd/4.0/ , info:eu-repo/semantics/openAccess
Christophe Parisse, « How large should a dense corpus be for reliable studies in early language acquisition ? », CogniTextes, ID : 10.4000/cognitextes.1483
Les corpus denses sont souvent présentés comme des outils incontournables dans les études d’acquisition du langage. En dépit de leur grand intérêt scientifique, ils ne sont pas souvent utilisés en raison de leur coût important. Le but de cet article est de prédire la taille optimale d’un corpus dense longitudinal utilisé pour modéliser, de manière automatique ou non, le développement langagier. Les résultats montrent que des corpus d’au moins 30 à 40 sessions sont nécessaires, mais que de plus grands corpus utilisant le même protocole de recueil n’apportent pas beaucoup plus d’information. Il apparaît donc que les corpus denses sont très utiles, mais n’ont pas besoin d’être immenses. Ce résultat a des conséquences importantes pour la mise en place de projets scientifiques, qui peuvent de ce fait être optimisés. Il a également des conséquences pour les théories langagières, car il permet de pointer la frontière entre l’apprentissage massif de formes figées et la capacité de généralisation des connaissances langagières.