Les linguistiques de corpus

Fiche du document

Date

1997

Discipline
Périmètre
Langue
Identifiants
Collection

Archives ouvertes



Citer ce document

Adeline Nazarenko et al., « Les linguistiques de corpus », HAL-SHS : linguistique, ID : 10670/1.0c525f


Métriques


Partage / Export

Résumé 0

Depuis les années 60, le développement de l'informatique a permis aux linguistes d'archiver des quantités impressionnantes de textes (politiques, littéraires, scientifiques et techniques...), et surtout d'y avoir accès par des procédures automatisées. On peut ainsi faire la liste du vocabulaire d'un texte, ou comparer dans plusieurs textes les différentes réalisations d'une même structure syntaxique. Mais, en sciences du langage comme ailleurs, une nouvelle ressource technique amène souvent avec elle des problèmes inédits. Comment exploiter ces textes ? Quelles précautions méthodologiques prendre pour procéder à un traitement automatique sans introduire des biais trop nombreux ? Comment comparer des textes qui peuvent avoir été archivés selon des procédures ou des terminologies différentes ?... Dans une perspective à la fois didactique et critique, ce livre fait l'état des lieux des problèmes posés et des solutions existantes. Les auteurs présentent les différents types de corpus électroniques qui existent actuellement, en distinguant deux types de corpus. D'une part les corpus étiquetés : dans l'ordinateur, une " étiquette " donne les caractéristiques morpho-syntaxiques de chaque mot, ainsi que, pour certains " étiqueteurs " expérimentaux, certaines de ses caractéristiques sémantiques. D'autre part les corpus arborés : ce n'est plus le mot qui est annoté mais la phrase, à laquelle est associée une représentation syntaxique sous forme d'arbre. Pour chaque type de corpus, les auteurs expliquent ce qu'on peut attendre du texte ainsi annoté, et exposent les différentes méthodes d'archivage et d'exploitation des textes. Du fait des termes techniques que le sujet lui-même requiert, ce livre s'adresse à un public déjà initié à la question du traitement automatique du langage naturel.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en