Tweetaneuse : Fouille de motifs en caractères et plongement lexical à l’assaut du deft 2017

Fiche du document

Date

26 juin 2017

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess




Citer ce document

Davide Buscaldi et al., « Tweetaneuse : Fouille de motifs en caractères et plongement lexical à l’assaut du deft 2017 », HAL-SHS : linguistique, ID : 10670/1.nuqjcz


Métriques


Partage / Export

Résumé En Fr

This articles describes the methods developed by the TWEETANEUSE team for the 2017 edition of the French text mining challenge (DEFT 2017). This year the challenge was dedicated to tweet classification : polarity detection and figurative language detection. The first method we designed relies on character-level patterns used as features for training a One VS Rest classifier. These patterns can be described as "frequent closed patterns without gap" in the sense of the data mining community, according to the text algorithmics community they are called maximal repeated strings. The two other methods use 13 features computed with lexical resources (FEEL, LabMT and a resource of our own). For one of these methods we added a bag of word representation of the tweets while for the other one a word embeddings representation has been added. The character-level method produced the best results in particular for the second task : figurative tweets detection.

Dans cet article, nous présentons les trois méthodes développées pour la participation de l’équipe TWEETANEUSE au Défi Fouille de Textes (DEFT) 2017 qui portait sur la classification de tweets. Nous avons développé une méthode fondée sur une extraction de motifs en caractères fermés et fréquents (ou chaînes répétées maximales au sens de l’algorithmique du texte) combinée avec des algorithmes d’apprentissage automatique. Cette méthode est assez proche des méthodes de stylométrie utilisées pour les tâches d’attribution d’auteur. Les deux autres méthodes se fondent sur 13 traits calculés à partir de ressources lexicales (FEEL, LabMT ainsi qu’une ressource interne). Pour une des méthodes, nous avons complété avec une représentation en sac de mots, pour l’autre avec une représentation en plongements lexicaux (word embeddings). La méthode au grain caractère s’est avérée la plus prometteuse notamment sur la tâche de détection des tweets figuratifs (tâche 2).

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en