Longueur de branches et arbres de mots

Fiche du document

Date

2012

Discipline
Type de document
Périmètre
Langue
Identifiant
  • 20.500.13089/efs5
Source

Corpus

Relations

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1765-3126

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1638-9808

Ce document est lié à :
https://hdl.handle.net/20.500.13089/efxp

Ce document est lié à :
https://doi.org/10.4000/corpus.2183

Organisation

OpenEdition

Licences

info:eu-repo/semantics/openAccess , All rights reserved




Citer ce document

Philippe Gambette et al., « Longueur de branches et arbres de mots », Corpus


Partage / Export

Résumé Fr En

Les arbres de mots constituent un des outils de la statistique textuelle pour visualiser les relations sémantiques entre mots d’un texte. Les méthodes de construction de ces arbres à partir d’une distance de co-occurrence dans le texte produisent des arbres dont les longueurs d’arêtes se prêtent mal à l’analyse. Pour faciliter l’interprétation visuelle de l’arbre, l’idéal serait que des longues arêtes séparent des classes sémantiques de mots. Ainsi, découper les arêtes les plus longues de l’arbre devrait conduire à une partition de l’ensemble des mots qui fournit des classes pertinentes. A l’aide de deux corpus dont un sous-ensemble de mots a été partitionné en un ensemble de classes sémantiques, nous évaluons plusieurs formules permettant de recalculer les longueurs d’arêtes de l’arbre construit à partir des distances de co-occurrence, afin de rendre l’interprétation de l’arbre plus facile et plus fiable.

Branch Lengths and Word Trees. Word trees are one of the available tools in textual analysis to visualize semantic relationships between the words of a text. Tree construction methods from the co-occurrence distances between words in a text produce trees whose edge lengths are difficult to analyze. In order to make the visual interpretation of the tree easier, long edges should separate semantic classes of words. Therefore, cutting the longest edges in the tree should lead to a partition of the word set with relevant classes. Using two corpuses where a subset of words was partitioned into semantic classes, we evaluate several formulas computing new edge lengths for a tree built from co-occurrence distances, aiming at making the interpretation of the tree easier and more reliable.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines