14 septembre 2020
info:eu-repo/semantics/OpenAccess
Vincent Bellue, « Constitution et évaluation d'un jeu de données linguistiques en français pour l'analyse des fonctions lexicales encodées dans les modèles neuronaux de type FlauBERT », DUMAS - Dépôt Universitaire de Mémoires Après Soutenance, ID : 10670/1.wtrq27
Chaque langue est constituée de mots qui lui sont propres. Dans la plupart des cas, ceux-ci sont polysémiques - ils possèdent plusieurs sens. La modélisation de la polysémie en Traitement Automatique de la Langue est une tâche difficile lorsqu’il s’agit de vecteurs de mots ; les systèmes de plongements de mots traditionnels ont certaines difficultés à traiter la polysémie. À l’aide de FlauBERT, qui est un nouveau modèle de langue développé en 2019, nous verrons qu’il est maintenant plus facile de traiter de la polysémie, notamment grâce à des vecteurs de mots contextualisés. Le contexte entier d’une phrase est pris en compte par FlauBERT afin de représenter chaque mot sous forme de vecteur. Après une brève analysedes différents domaines en jeu, je présenterai dans ce mémoire les différentes expérimentations que j’ai effectuées à l’aide des vecteurs de mots du système FlauBERT.