19 octobre 2023
info:eu-repo/semantics/OpenAccess
Christian Cote, « Indexation d’un corpus de littérature web : problématique, méthodologie et usage des mesures vectorielles appliquées au texte littéraire. », HAL SHS (Sciences de l’Homme et de la Société), ID : 10670/1.90700b...
Au travers de l’expérimentation que nous menons relativement à l’indexation d’un corpus de littérature web, constitué à partir d’un crawl, nous discuterons de la structuration de masses de données telles que celles issues d’archives du web. Elles sont caractérisées par une très forte hétérogénéité des textes, des vocabulaires et ne répondent à aucune règle établie de formulation ou de planification de l’écriture (à la différence des articles scientifiques ou journalistiques, ou encore les textes littéraires classiques). Après avoir présenté le corpus massif d’archive web de la littérature numérique francophone, nous présenterons les contraintes à cette analyse, puis la méthodologie adoptée pour trouver des critères distinctifs associés ces texte de façon à les catégoriser et donc à structurer l’ensemble des données. Nous présentons ici plus particulièrement l’élaboration de la cohérence du vocabulaire obtenu, sachant les règles d’inférence sont encore en cours de formalisation.