Standardizing linguistic data: method and tools for annotating (pre-orthographic) French Standardiser les données linguistiques: méthodes et outils pour l'annotation du français (pré-orthographique) En Fr

Fiche du document

Date

15 octobre 2020

Discipline
Type de document
Périmètre
Langue
Identifiants
Relations

Ce document est lié à :
info:eu-repo/semantics/altIdentifier/arxiv/2011.11074

Ce document est lié à :
info:eu-repo/semantics/altIdentifier/doi/10.1145/3423603.3423996

Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess



Sujets proches En

Frenchmen (French people)

Citer ce document

Simon Gabay et al., « Standardiser les données linguistiques: méthodes et outils pour l'annotation du français (pré-orthographique) », HAL-SHS : littérature, ID : 10.1145/3423603.3423996


Métriques


Partage / Export

Résumé En

With the development of big corpora of various periods, it becomes crucial to standardise linguistic annotation (e.g. lemmas, POS tags, morphological annotation) to increase the interoperability of the data produced, despite diachronic variations. In the present paper, we describe both methodologically (by proposing annotation principles) and technically (by creating the required training data and the relevant models) the production of a linguistic tagger for (early) modern French (16-18th c.), taking as much as possible into account already existing standards for contemporary and, especially, medieval French.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en