29 janvier 2024
info:eu-repo/semantics/openAccess , https://www.openedition.org/12554
Antonio Balvet, « Intex comme environnement logiciel pour la fouille de textes. L’exemple d’un corpus financier », Presses universitaires de Franche-Comté, ID : 10.4000/books.pufc.30067
Pour la majorité de ses utilisateurs, Intex constitue une plate-forme ouverte permettant l’exploration des textes à des fins d’études sur corpus. Nous proposons de montrer qu’Intex constitue également un véritable environnement logiciel pour la fouille de textes, applicable aussi bien sur des fonds documentaires stables (pull) que dynamiques (push). Nous prendrons l’exemple d’un corpus de dépêches financières pour lequel nous détaillerons la constitution d’une base de données lexicales : les expressions typiques du domaine financier. Puis, nous montrerons comment interfacer Intex avec d’autres applications, telles qu’un thesaurus électronique générique, et comment réutiliser les données extraites des corpus dans le cadre de la recherche d’information. Enfin, nous montrerons quelles performances les grammaires locales appliquées en cascades permettent d’atteindre sur une tâche de classification automatique de textes en temps contraint.