5 juin 2023
http://creativecommons.org/licenses/by-nc-sa/
Christian Cote, « Comment construire un corpus et une archive de la littérature web française ? », HAL-SHS : sciences de l'information, de la communication et des bibliothèques, ID : 10670/1.w1t1ys
Nous proposons un flux de travail pour l'acquisition de données afin de constituer à la fois un corpus et une archive de la littérature en ligne. Le corpus sera un outil pour l'exploration de la littérature web contenant un dispositif de recherche d'information et de navigation, puis une indexation et des métadonnées. L'archive est une archive spécialisée qui complète et élargit le corpus mais sans description de fichiers.La spécificité de la littérature web est que nous n'avons pas de critères a priori pour déterminer ce qu'est la littérature. Pour cela, nous élaborons une méthodologie fondée sur le principe de la reconnaissance mutuelle entre écrivains qui permet d'explorer le web et d'identifier les URLs contenant une production littéraire originale. Ce processus est basé sur l'exploration des URL et la recherche d'informations sur le web avec de fortes contraintes. Cette méthodologie permet de caractériser différents types de liens de reconnaissance et de détecter des réseaux sociaux structurés. Nous utilisons des règles sémantiques pour contraindre les moteurs de recherche et classer les questions dans différents modes d'appartenance aux réseaux. Les questions de cette exploration ont été enregistrées dans des schémas XML qui seront utilisés pour la navigation dans le corpus.