23 mai 2019
HALSHS : archive ouverte en Sciences de l’Homme et de la Société - notices sans texte intégral
Ce document est lié à :
info:eu-repo/semantics/altIdentifier/doi/10.4000/fcs.3423
Sarah Maire et al., « Classifier, représenter et labelliser : Cadre et outils méthodologiques associés pour une émergence automatique de thématiques sur données textuelles », HALSHS : archive ouverte en Sciences de l’Homme et de la Société - notices sans texte intégral, ID : 10.4000/fcs.3423
Cet article propose un cadre méthodologique permettant l’émergence de thématiques de manière automatique à partir de données textuelles. Ce cadre méthodologique s’articule autour d’un processus en trois étapes – classification, représentation et labellisation – et autour d’outils spécifiques associés à la démarche tant au niveau des techniques statistiques que des logiciels informatiques. Cette méthode s’inscrit dans le champ des méthodes de fouilles textuelles (texmining) qui se développent actuellement. À titre d’illustration, la démarche est appliquée sur les textes présents dans la totalité des calendriers des Scouts et Guides de France de 1936 à 2016, afin d’en faire émerger trois thématiques principales : la communauté, l’organisation et la religion. Ces trois thématiques peuvent être assimilées à des logiques institutionnelles identifiées, a posteriori, à partir d’un corpus textuel, sans passer par l’établissement et la mise en relation de critères déterminés a priori par le chercheur.