Normalisation et alignement de corpus français et vietnamiens : Format et Logiciels

Brigitte Bigi et al., « Normalisation et alignement de corpus français et vietnamiens : Format et Logiciels », HAL-SHS : sciences de l'information, de la communication et des bibliothèques, ID : 10670/1.o5kmjc

Partage / Export

Résumé En Fr

La création d'un corpus électronique exploitable par une application donnée nécessite une chaîne de traitements afin de constituer, normaliser puis exploiter ce qui, au départ, n'est qu'un ensemble de documents textuels quelconques. Cet article se concentre sur les aspects de méthodologie et d'ingénierie linguistique qui sous-tendent l'élaboration de corpus multi-lingues parallèles non dédiés à une tâche. Les documents d'origine peuvent provenir de différentes sources telles que HTML ou ASCII, de différentes langues : français et vietnamien. Une structuration de type XML et un ensemble d'outils logiciel s sont proposés pour normaliser les corpus, et créer des alignements.

Normalisation et alignement de corpus français et vietnamiens : Format et Logiciels

Fiche du document

Mots-clés Fr

Sujets proches En Fr

Citer ce document

Métriques

Partage / Export

Résumé En Fr

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en