Représentations lexicales pour la détection non supervisée d'événements dans un flux de tweets : étude sur des corpus français et anglais

Béatrice Mazoyer et al., « Représentations lexicales pour la détection non supervisée d'événements dans un flux de tweets : étude sur des corpus français et anglais », Archive ouverte de Sciences Po (SPIRE), ID : 10670/1.7co3kt

Partage / Export

Résumé En Fr

Dans cet article, nous nous intéressons aux approches récentes de plongements lexicaux en vue de les appliquer à la détection automatique d'événements dans un flux de tweets. Nous modélisons cette tâche comme un problème de clustering dynamique. Nos expériences sont menées sur un corpus de tweets en anglais accessible publiquement ainsi que sur un jeu de données similaire en français annoté par notre équipe. Nous montrons que les techniques récentes fondées sur des réseaux de neurones profonds (ELMo, Universal Sentence Encoder, BERT, SBERT), bien que prometteuses sur de nombreuses applications , sont peu adaptées pour cette tâche, même sur le corpus en anglais. Nous expérimentons également différents types de fine-tuning afin d'améliorer les résultats de ces modèles sur les données en français. Nous proposons enfin une analyse fine des résultats obtenus montrant la supériorité des approches traditionnelles de type tf-idf pour ce type de tâche et de corpus.

Représentations lexicales pour la détection non supervisée d'événements dans un flux de tweets : étude sur des corpus français et anglais

Fiche du document

Sujets proches En Fr

Citer ce document

Métriques

Partage / Export

Résumé En Fr

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en