Le modèle Lstat : ou comment se constituer une base de données morphologique à partir du Web

Fiche du document

Date

2003

Discipline
Type de document
Périmètre
Langue
Identifiant
Relations

Ce document est lié à :
Revue québécoise de linguistique ; vol. 32 no. 1 (2003)

Collection

Erudit

Organisation

Consortium Érudit

Licence

Tous droits réservés © Revue québécoise de linguistique, 2003

Résumé Fr En

L’objectif de cet article est de présenter une méthode d’acquisition, d’organisation et d’interrogation de corpus textuels à partir de données et outils librement récupérables sur le Web (corpus de textes, lexiques, langages de programmation spécialisés, outils d’étiquetage et de lemmatisation). Nous nous intéressons ici plus particulièrement aux préoccupations des chercheurs en morphologie dérivationnelle, en proposant d’intégrer à la méthode présentée un module d’analyse morphologique dérivationnelle qui permet au linguiste de se constituer une base de données lexicale munie d’annotations morphosémantiques (que nous appellerons base de données morphologique, notée BDM). La méthodologie proposée sera illustrée tout au long de l’article par la présentation de Lstat, modèle de BDM utilisé avec un lexique de 27,5 millions d’occurrences issu d’archives de presse française en ligne, automatiquement téléchargées entre 2001 et 2002.

The aim of this paper is to present a method for text corpora acquisition, organization and query procedures. The method makes use of data and tools which are freely available on the Web, i.e. text corpora, lexica, specialized programming languages, taggers and lemmatizers. As the specific orientation of the method is to meet the needs of morphology researchers, we enrich it with a word formation processing module. This module enables the linguist to build a lexical database enhanced with morphosemantic annotations (i.e. a morphological database, henceforth BDM). The methodology is illustrated throughout the paper by means of the presentation of Lstat, a BDM model used with a lexicon of 27.5 million occurences, obtained from online French newspaper archives which were automatically downloaded between 2001 and 2002.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en