4 juillet 2022
Ce document est lié à :
info:eu-repo/semantics/altIdentifier/doi/10.46277/SLR.18.2023.1001-1012
http://creativecommons.org/licenses/by/ , info:eu-repo/semantics/OpenAccess
Frédéric Duval et al., « Lemmatisation de l’ancien français : Présentation du modèle et des outils de l’École des chartes », HAL-SHS : linguistique, ID : 10.46277/SLR.18.2023.1001-1012
L’article présente différents outils développés à l’École nationale des chartes-PSL (Paris) depuis 2015 pour le traitement automatique des états de langue non-standardisés et en particulier de l’ancien français. Progressivement a été constitué le corpus OF3C (Old French Corpus Collection of the École des chartes), balisé au moins en lemmes et en parties du discours, partiellement en morphologie. Ce corpus annoté, librement réutilisable, a servi à entraîner le modèle de lemmatisation Old French fonctionnant grâce à l’apprentissage profond. La présente contribution décrit l’environnement de lemmatisation proposé (outils et données), mais s’attache surtout à évaluer le modèle Old French à partir d’un corpus gold spécialement étiqueté pour ce faire. Les performances du modèle sont ainsi passées au crible et quelques pistes d’amélioration avancées.