info:eu-repo/semantics/OpenAccess
Brigitte Bigi et al., « Normalisation et alignement de corpus français et vietnamiens : Format et Logiciels », HAL-SHS : sciences de l'information, de la communication et des bibliothèques, ID : 10670/1.o5kmjc
La création d'un corpus électronique exploitable par une application donnée nécessite une chaîne de traitements afin de constituer, normaliser puis exploiter ce qui, au départ, n'est qu'un ensemble de documents textuels quelconques. Cet article se concentre sur les aspects de méthodologie et d'ingénierie linguistique qui sous-tendent l'élaboration de corpus multi-lingues parallèles non dédiés à une tâche. Les documents d'origine peuvent provenir de différentes sources telles que HTML ou ASCII, de différentes langues : français et vietnamien. Une structuration de type XML et un ensemble d'outils logiciel s sont proposés pour normaliser les corpus, et créer des alignements.