23 juin 2016
info:eu-repo/semantics/OpenAccess
Armelle Ramond, « Intérêt de l'enrichissement sémantique pour une tâche de catégorisation de textes courts par méthode hybride avec peu de données d'entraînement », DUMAS - Dépôt Universitaire de Mémoires Après Soutenance, ID : 10670/1.3xkn7f
Nous avons développé un système de classification multi-catégoriel de textes courts, fondé sur une méthode hybride, afin de déterminer quel est l'apport de l'enrichissement sémantique sur une telle tâche, avec peu de données d'entrainement. Pour cela, nous avons tout d'abord constitué différents corpus de documents. Une taxonomie du domaine a été élaborée dans un but d'annotation lexicale sémantique des textes. Par la suite, nous avons développé un système de classification hybride (combinant apprentissage automatique et règles symboliques). Enfin, nous avons mis en place des mesures d'évaluation pour déterminer les performances du classifieur. Nos résultats tendent à montrer que l'enrichissement sémantique est positif car il améliore les performances du classifieur. L'annotation sémantique lexicale permet une meilleure représentation des documents, sur laquelle se basent les méthodes statistiques et symboliques. D'autre part, les règles symboliques comblent les lacunes de l'apprentissage automatique.