8 décembre 2023
info:eu-repo/semantics/OpenAccess
Salah Yahiaoui, « Extraction et catégorisation de l'information temporelle de textes scientifiques », HAL-SHS : linguistique, ID : 10670/1.jr4jup
Cette thèse aborde la problématique du traitement de corpus scientifiques, d’un point de vue linguistique, afin d’en extraire, catégoriser et agréger les informations spatio-temporelles pour produire de nouvelles représentations de l’information textuelle. Dans un premier temps, nous proposons le schéma d'annotation TimeInfo, qui permet de rendre compte de la sémantique des différentes expressions temporelles dans les textes scientifiques. Nous montrons l'apport de TimeInfo par rapport aux schémas d'annotation existants, notamment TimeML. Dans un deuxième temps, nous construisons des ensembles de règles linguistiques pour l'annotation automatique des corpus scientifiques avec TimeInfo. Nous traitons le corpus CORD-19 et produisons un nouveau corpus annoté, TimeTank. Enfin, nous proposons des applications autour de TimeInfo et abordons la problématique des informations spatiales, par une expérimentation sur leur annotation et cartographie.