22 juin 2004
info:eu-repo/semantics/OpenAccess
Fabienne Ville-Ometz et al., « Filtrage semi-automatique des variantes de termes dans un processus d‘indexation contrôlée », HAL-SHS : sciences de l'information, de la communication et des bibliothèques, ID : 10670/1.cohyds
L‘extraction de l‘information pertinente contenue dans les textes par des procédures automatisées de type TALN constitue une opération essentielle dans le processus de fouille de données textuelles. Nous réalisons cette opération à partir de la plate-forme d‘ingénierie linguistique ILC qui reconnaît et extrait du corpus les termes ainsi que leurs variantes linguistiques. Nous présentons une méthodologie de constitution de règles visant à améliorer la reconnaissance de la variation terminologique en anglais par l‘exploitation de critères syntaxiques et morpho-syntaxiques. Ces améliorations ont pour objectif d‘obtenir un meilleur filtrage de la variation et d‘aider l‘expert dans la tâche de validation de l‘indexation.