Reproducibility of word embeddings : identifying stable and unstable zones in the semantic space

Bénédicte Pierrejean et al., « Étude de la reproductibilité des word embeddings : repérage des zones stables et instables dans le lexique », HAL-SHS : linguistique, ID : 10670/1.x0l5sj

Partage / Export

Résumé En Fr

Les modèles vectoriels de sémantique distributionnelle (ou word embeddings), notamment ceux produits par les méthodes neuronales, posent des questions de reproductibilité et donnent des repré-sentations différentes à chaque utilisation, même sans modifier leurs paramètres. Nous présentons ici un ensemble d'expérimentations permettant de mesurer cette instabilité, à la fois globalement et localement. Globalement, nous avons mesuré le taux de variation du voisinage des mots sur trois corpus différents, qui est estimé autour de 17% pour les 25 plus proches voisins d'un mot. Localement, nous avons identifié et caractérisé certaines zones de l'espace sémantique qui montrent une relative stabilité, ainsi que des cas de grande instabilité

Reproducibility of word embeddings : identifying stable and unstable zones in the semantic space Étude de la reproductibilité des word embeddings : repérage des zones stables et instables dans le lexique En Fr

Fiche du document

Mots-clés En Fr

Sujets proches Fr

Citer ce document

Métriques

Partage / Export

Résumé En Fr

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en