Lemmatisation et classification sémantique dans un corpus latin en diachronie longue: L'exemple des sèmes sexuels

Fiche du document

Date

24 février 2023

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes




Citer ce document

Thibault Clérice, « Lemmatisation et classification sémantique dans un corpus latin en diachronie longue: L'exemple des sèmes sexuels », HAL-SHS : linguistique, ID : 10670/1.b36ekw


Métriques


Partage / Export

Résumé Fr

Dans le cadre de l'histoire des sociétés et des langues, la constitution de corpus thématique constitue l'une des tâches les plus chronophages: si la recherche d'occurrence des termes explicites prend peu de temps, celle des formes figurées devient rapidement difficile à mener à bout. Pour traiter ce problème, trois problématiques se posent à nous: (1) l'acquisition de corpus; (2) l'interprétation grammaticale de ce dernier et enfin (3) la classification de phrases. Si l'acquisition des corpus latins présente des problématiques propres aux corpus anciens (avant le XVIIIe siècle), celle de son analyse morphosyntaxique est un enjeu important tant la langue est à la fois complexe en synchronie (richesse morphologique) et en diachronie (variation graphique, influence des langues grecque, hébraïque puis germanique). Nous présenterons ensuite une expérience sur la détection sémantique de la sexualité dans un corpus latin du -IIIe siècle au IXe siècle utilisant des techniques de classification contemporaines (CNN, RNN, etc.). En variant les caractéristiques des données d'entraînement (taille, explicite vs implicite, etc.), nous montrons que certaines de ces architectures donnent des résultats prometteurs et pourraient soutenir la production de corpus thématiques.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en