Constituting the Democrat Corpus: Annotation and Evaluation Procedures Élaboration du corpus Democrat : procédures d’annotation et d’évaluation En Fr

Fiche du document

Date

10 décembre 2021

Discipline
Type de document
Périmètre
Langue
Identifiants
Relations

Ce document est lié à :
info:eu-repo/semantics/altIdentifier/doi/10.3917/lang.224.0025

Collection

Archives ouvertes




Citer ce document

Matthieu Quignard et al., « Élaboration du corpus Democrat : procédures d’annotation et d’évaluation », HAL-SHS : linguistique, ID : 10.3917/lang.224.0025


Métriques


Partage / Export

Résumé En Fr

There already exists several corpora that have been manually annotated in referring expressions and coreference chains. Nevertheless, none of them focuses on French language (or for annotations that are related to anaphora more than coreference). The Democrat project has produced such a corpus, with also a diachronic dimension. Its conception raised numerous difficulties, not only linguistic, but also in terms of the homogeneity of the annotations, as well as their verification and the evaluation of their quality. It is this dimension that we explore and discuss here, including concerns about annotation conventions and the evaluation of the annotations, a procedure involving the computation of the inter-annotators agreement. Thus, this article discusses the constitution and content of the Democrat corpus, in order to legitimise the exploitations that will be made of it.

S’il existe déjà plusieurs corpus annotés manuellement en expressions référentielles et en chaînes de référence, il n’en existe aucun pour la langue française, ou alors pour des annotations qui relèvent plus de l’anaphore que de la coréférence. Le projet Democrat a produit un tel corpus, avec qui plus est une dimension diachronique. Sa conception a posé un ensemble de difficultés, non seulement linguistiques, mais aussi au niveau de l’homogénéité des annotations, de leur vérification et de l’évaluation de leur qualité. C’est cette dimension que nous proposons ici d’explorer et de discuter, en nous focalisant sur les conventions d’annotation et l’évaluation des annotations obtenues, procédure impliquant un calcul de l’accord inter-annotateurs. Cet article met ainsi en perspective le contenu du corpus Democrat, pour légitimer les exploitations qui en seront faites.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en