Elaboration of a practical lemmatiser for Latin using Artificial Intelligence

Fiche du document

Date

2024

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess




Citer ce document

Philippe Verkerk, « Elaboration of a practical lemmatiser for Latin using Artificial Intelligence », HAL SHS (Sciences de l’Homme et de la Société), ID : 10670/1.615769...


Métriques


Partage / Export

Résumé En Fr

I present here a plug-and-play lemmatiser that converts a plain text into an annotated file in LASLA's standard (APN-file). It is a hybrid code that involves a rule-based decomposition of the forms and a AI-based disambiguation. The AI part derives from Latin-BERT, trained on purpose with the texts annotated at the LASLA. This lemmatiser has been tested on one of the Cicero's texts annotated by the LASLA and its overall accuracy is 97%, with sub-tasks' accuracies ranging from 98.5% to 99.4%. It will be soon available for on-line lemmatisation on the Hyperbase web-site.

Je présente ici un lemmatiseur prêt à l'emploi pour convertir un fichier texte en un fichier annoté aux standards du LASLA (fichier APN). Il s'agit d'un code hybrid qui associe une décomposition des formes suivant les régles de flexion et une désambiguïsation reposant sur l'intelligence artificielle. La partie IA dérive de Latin-BERT et a été entraînée spécifiquement avec les textes annotés au LASLA. Ce lemmatiseur a été testé sur l'un des textes de Cidéron annotés au LASLA et son efficacité globale est de 97%, avec une précision variant de 98,5% à 99,4% pour chacune des sous-tâches. Il devrait bientôt être disponible pour effectuer une lemmatisation en ligne sur le site web d'Hyperbase.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines