La ruée linguistique vers le Web

Fiche du document

Date

2013

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess


Résumé En Fr

This paper presents an overview of the linguists' use of the Web as a corpus. Across several experiments, it exposes both methodological and technical aspects, while explaining the difficulties encountered. Focusing on past work on extensive morphology, I discuss the particular status of this source of textual data. One important point is related to the difficulties posed by web search engines, and how we must constantly evolve our approach in order to continue using the Web as an elusive source of useful data.

Cet article propose un panorama des usages du Web en linguistique de corpus. A travers une présentation de différents travaux, il aborde les considérations méthodologiques et techniques, en mettant en avant les difficultés que rencontrent les linguistes face à cette source particulière de données langagières. En prenant exemple sur des travaux menés sur l'acquisition de données en morphologie extensive, je discute le statut des données, ainsi que de la position peu confortable dans laquelle les moteurs de recherche placent les chercheurs, et la façon dont ils doivent en permanence s'adapter à un matériau irremplaçable mais difficile d'accès.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines