Évaluer et améliorer une ressource distributionnelle: Protocole d'annotation de liens sémantiques en contexte

Fiche du document

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess




Citer ce document

Clémentine Adam et al., « Évaluer et améliorer une ressource distributionnelle: Protocole d'annotation de liens sémantiques en contexte », HAL-SHS : linguistique, ID : 10670/1.7afdya


Métriques


Partage / Export

Résumé En Fr

Using distributional analysis methods to compute semantic proximity links between words has become commonplace in NLP. This paper focuses on the issues of evaluating a distributional resource. We consider that setting up an evaluation procedure is a first step towards the characterization of the resource, and a way to improve its overall quality. We then propose a new protocol for in-text annotation of distributional neighbors, which is used to build a reliable reference data set. The data generated are analyzed and used to guide the automatic categorization of distributional links.

L'application de méthodes d'analyse distributionnelle pour calculer des liens de proximité sémantique entre les mots est devenue courante en TAL. Toutefois, il reste encore beaucoup à faire pour mieux comprendre la nature de la proximité sémantique qui est calculée par ces méthodes. Cet article est consacré à la question de l'évaluation d'une ressource distributionnelle, et de son amélioration ; en effet, nous envisageons la mise en place d'une procédure d'évaluation comme une première étape vers la caractérisation de la ressource et vers son ajustement, c'est-à-dire la réduction du bruit en faveur de paires de voisins distributionnels exhibant une relation sémantique pertinente. Nous proposons un protocole d'annotation en contexte des voisins distributionnels, qui nous permet de constituer un ensemble fiable de données de référence (couples de voisins jugés pertinents ou non par les annotateurs). Les données produites sont analysées, puis exploitées pour entraîner un système de catégorisation automatique des liens de voisinage distributionnel, qui prend en compte une large gamme d'indices et permet un filtrage efficace de la ressource considérée.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en