Textometric Exploitation of Coreference-annotated Corpora with TXM: Methodological Choices and First Outcomes

Fiche du document

Date

11 juin 2018

Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess




Citer ce document

Matthieu Quignard et al., « Textometric Exploitation of Coreference-annotated Corpora with TXM: Methodological Choices and First Outcomes », HAL-SHS : sciences de l'information, de la communication et des bibliothèques, ID : 10670/1.7yovgh


Métriques


Partage / Export

Résumé En Fr

In this article we present a set of measures – some of which can lead to specific visualisations – with the objective to enrich the possibilities of exploration and exploitation of annotated data, and in particular coreference chains. We first present a specific use of the well-known concordancer, which is here adapted to present the elements of a coreference chain. We then present a histogram generator that allows for example to display the distribution of the various coreference chains of a text, given a value from the annotated properties. Finally, we present what we call progress diagrams, whose purpose is to display the progress of each chain throughout the text. We conclude on the interest of these (interactive) modes of visualization in order to make the annotation phase more controlled and more effective.

Nous présentons dans cet article un ensemble de mesures – dont certaines peuvent amener à des visualisations spécifiques – dont l'objectif est d'enrichir les possibilités d'exploration et d'exploitation des données annotées, en particulier quand il s'agit de chaînes de coréférences. Nous présentons tout d'abord une utilisation adaptée de l'outil bien connu qu'est le concordancier, en n'affichant que les maillons d'une chaîne choisie. Puis nous montrons un générateur d'histogramme qui permet par exemple d'afficher la répartition des chaînes de coréférences d'un texte à partir d'une propriété annotée. Nous montrons enfin ce que nous appelons des diagrammes de progression, dont le but est d'afficher les avancées au fur et à mesure du texte des chaînes de coréférences qu'il contient. Nous concluons sur l'intérêt de ces modes (interactifs) de visualisation pour rendre la phase d'annotation plus maîtrisée et plus efficace.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Exporter en