2003
Ce document est lié à :
Revue québécoise de linguistique ; vol. 32 no. 1 (2003)
Tous droits réservés © Revue québécoise de linguistique, 2003
Fiammetta Namer, « Le modèle Lstat : ou comment se constituer une base de données morphologique à partir du Web », Revue québécoise de linguistique, ID : 10.7202/012245ar
L’objectif de cet article est de présenter une méthode d’acquisition, d’organisation et d’interrogation de corpus textuels à partir de données et outils librement récupérables sur le Web (corpus de textes, lexiques, langages de programmation spécialisés, outils d’étiquetage et de lemmatisation). Nous nous intéressons ici plus particulièrement aux préoccupations des chercheurs en morphologie dérivationnelle, en proposant d’intégrer à la méthode présentée un module d’analyse morphologique dérivationnelle qui permet au linguiste de se constituer une base de données lexicale munie d’annotations morphosémantiques (que nous appellerons base de données morphologique, notée BDM). La méthodologie proposée sera illustrée tout au long de l’article par la présentation de Lstat, modèle de BDM utilisé avec un lexique de 27,5 millions d’occurrences issu d’archives de presse française en ligne, automatiquement téléchargées entre 2001 et 2002.