2007
Ce document est lié à :
info:eu-repo/semantics/altIdentifier/arxiv/0901.3990
info:eu-repo/semantics/OpenAccess
Bernard Jacquemin et al., « Du corpus au dictionnaire. Réalisation automatique d'un outil de gestion de l'information multilingue », HAL-SHS : sciences de l'information, de la communication et des bibliothèques, ID : 10670/1.8fd6pq
Dans cet article, nous proposons une méthode automatique de construction de ressources lexico-sémantiques multilingues pour naviguer par le sens à travers l'information contenue dans des bases textuelles de langues différentes. Cette méthode s'appuie sur un modèle mathématique de représentation du sens appelé Atlas sémantiques, qui consiste à exploiter des relations linguistiques entre des unités lexicales pour construire des graphes, projetés dans un espace sémantique qui constitue une carte dénotant les tendances de sens d'un mot considéré. À partir de l'analyse morpho-syntaxique d'un corpus, et en utilisant les relations syntaxiques entre les items du corpus, il est possible de constituer une ressource lexico-sémantique qui décrit l'ensemble des sens attestés dans le corpus pour tout le lexique qui y est représenté, grâce aux contextes syntaxiques typiques des entrées décrites. Il est également possible de conserver un lien systématique entre les tendances de sens représentées et les énoncés qui ont servi à les construire, et donc de relier toutes les instances d'un mot dans un sens donné pour naviguer entre elles. Il est également possible, en utilisant des corpus de langues différentes, de construire des ressources qui se correspondent entre langues, et de naviguer entre les textes grâce à la traduction, même partielle, des contextes syntaxiques.