Extraction and categorization of temporal information from scientific texts Extraction et catégorisation de l'information temporelle de textes scientifiques En Fr

Fiche du document

Date

8 décembre 2023

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess




Citer ce document

Salah Yahiaoui, « Extraction et catégorisation de l'information temporelle de textes scientifiques », HAL-SHS : linguistique, ID : 10670/1.jr4jup


Métriques


Partage / Export

Résumé En Fr

This thesis addresses the problem of processing scientific corpora from a linguistic point of view in order to extract, categorise and aggregate spatio-temporal information in order to produce new representations of textual information. First, we propose the TimeInfo annotation scheme, which allows us to take into account the thematic nature of different temporal expressions in scientific texts. We show the contribution of TimeInfo compared to existing annotation schemes, in particular TimeML. Secondly, we construct sets of linguistic rules for the automatic annotation of scientific corpora with TimeInfo. We process the CORD-19 corpus and produce a new annotated corpus TimeTank . Finally, we propose applications based on TimeInfo and address the problem of spatial information by experimenting with its annotation and mapping.

Cette thèse aborde la problématique du traitement de corpus scientifiques, d’un point de vue linguistique, afin d’en extraire, catégoriser et agréger les informations spatio-temporelles pour produire de nouvelles représentations de l’information textuelle. Dans un premier temps, nous proposons le schéma d'annotation TimeInfo, qui permet de rendre compte de la sémantique des différentes expressions temporelles dans les textes scientifiques. Nous montrons l'apport de TimeInfo par rapport aux schémas d'annotation existants, notamment TimeML. Dans un deuxième temps, nous construisons des ensembles de règles linguistiques pour l'annotation automatique des corpus scientifiques avec TimeInfo. Nous traitons le corpus CORD-19 et produisons un nouveau corpus annoté, TimeTank. Enfin, nous proposons des applications autour de TimeInfo et abordons la problématique des informations spatiales, par une expérimentation sur leur annotation et cartographie.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en