Lemmatisation de l’ancien français : Présentation du modèle et des outils de l’École des chartes

Fiche du document

Date

4 juillet 2022

Discipline
Type de document
Périmètre
Langue
Identifiants
Relations

Ce document est lié à :
info:eu-repo/semantics/altIdentifier/doi/10.46277/SLR.18.2023.1001-1012

Collection

Archives ouvertes

Licences

http://creativecommons.org/licenses/by/ , info:eu-repo/semantics/OpenAccess




Citer ce document

Frédéric Duval et al., « Lemmatisation de l’ancien français : Présentation du modèle et des outils de l’École des chartes », HAL-SHS : linguistique, ID : 10.46277/SLR.18.2023.1001-1012


Métriques


Partage / Export

Résumé En Fr

This paper presents different tools developed at the École nationale des chartes-PSL (Paris) since 2015 for the automatic processing of non-standardised language varieties and in particular of Old French. Progressively, the OF3C corpus (Old French Corpus Collection of the École des chartes) has been built up, tagged at least in lemmas and Parts-of-Speech, partially in morphology. This annotated corpus, freely reusable, was used to train the Old French lemmatisation model using deep learning. The present contribution describes the proposed lemmatisation environment (tools and data), but focuses on evaluating the Old French model using a gold corpus specially labelled for this purpose. The performance of the model is thus scrutinized and a few directions for improvement are put forward.

L’article présente différents outils développés à l’École nationale des chartes-PSL (Paris) depuis 2015 pour le traitement automatique des états de langue non-standardisés et en particulier de l’ancien français. Progressivement a été constitué le corpus OF3C (Old French Corpus Collection of the École des chartes), balisé au moins en lemmes et en parties du discours, partiellement en morphologie. Ce corpus annoté, librement réutilisable, a servi à entraîner le modèle de lemmatisation Old French fonctionnant grâce à l’apprentissage profond. La présente contribution décrit l’environnement de lemmatisation proposé (outils et données), mais s’attache surtout à évaluer le modèle Old French à partir d’un corpus gold spécialement étiqueté pour ce faire. Les performances du modèle sont ainsi passées au crible et quelques pistes d’amélioration avancées.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en