Normalisation et alignement de corpus français et vietnamiens : Format et Logiciels

Fiche du document

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess




Citer ce document

Brigitte Bigi et al., « Normalisation et alignement de corpus français et vietnamiens : Format et Logiciels », HAL-SHS : sciences de l'information, de la communication et des bibliothèques, ID : 10670/1.o5kmjc


Métriques


Partage / Export

Résumé En Fr

The creation of text corpora requires a sequence of processing steps in order to constitute, normalize, and then to directly exploit it by a given application. This paper concentrates on the aspects of methodology and linguistic engineering, which serve to develop a multipurpose multilingual parallel text corpus. The original documents can come from various sources like HTML or ASCII written in different languages: French and Vietnamese. A document structuring method and some text corpus normalization tools are proposed in this paper.

La création d'un corpus électronique exploitable par une application donnée nécessite une chaîne de traitements afin de constituer, normaliser puis exploiter ce qui, au départ, n'est qu'un ensemble de documents textuels quelconques. Cet article se concentre sur les aspects de méthodologie et d'ingénierie linguistique qui sous-tendent l'élaboration de corpus multi-lingues parallèles non dédiés à une tâche. Les documents d'origine peuvent provenir de différentes sources telles que HTML ou ASCII, de différentes langues : français et vietnamien. Une structuration de type XML et un ensemble d'outils logiciel s sont proposés pour normaliser les corpus, et créer des alignements.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en