Tweetaneuse : Fouille de motifs en caractères et plongement lexical à l’assaut du deft 2017

Davide Buscaldi et al., « Tweetaneuse : Fouille de motifs en caractères et plongement lexical à l’assaut du deft 2017 », HAL-SHS : linguistique, ID : 10670/1.nuqjcz

Partage / Export

Résumé En Fr

Dans cet article, nous présentons les trois méthodes développées pour la participation de l’équipe TWEETANEUSE au Défi Fouille de Textes (DEFT) 2017 qui portait sur la classification de tweets. Nous avons développé une méthode fondée sur une extraction de motifs en caractères fermés et fréquents (ou chaînes répétées maximales au sens de l’algorithmique du texte) combinée avec des algorithmes d’apprentissage automatique. Cette méthode est assez proche des méthodes de stylométrie utilisées pour les tâches d’attribution d’auteur. Les deux autres méthodes se fondent sur 13 traits calculés à partir de ressources lexicales (FEEL, LabMT ainsi qu’une ressource interne). Pour une des méthodes, nous avons complété avec une représentation en sac de mots, pour l’autre avec une représentation en plongements lexicaux (word embeddings). La méthode au grain caractère s’est avérée la plus prometteuse notamment sur la tâche de détection des tweets figuratifs (tâche 2).

Tweetaneuse : Fouille de motifs en caractères et plongement lexical à l’assaut du deft 2017

Fiche du document

Mots-clés En Fr

Sujets proches En Fr

Citer ce document

Métriques

Partage / Export

Résumé En Fr

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en