How can we build a corpus and an archive of the French web literature? Comment construire un corpus et une archive de la littérature web française ? En Fr

Fiche du document

Date

5 juin 2023

Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

http://creativecommons.org/licenses/by-nc-sa/




Citer ce document

Christian Cote, « Comment construire un corpus et une archive de la littérature web française ? », HAL-SHS : sciences de l'information, de la communication et des bibliothèques, ID : 10670/1.w1t1ys


Métriques


Partage / Export

Résumé En Fr

We propose a workflow for data acquisition to build both a corpus and an archive of web literature. The corpus will be a tool for the exploration of the web literature containing an apparatus for information retrieval and navigation, then an indexation and metadata. The archive is a specialized archive that complete and enlarge the corpus but without files description.The specificity of web literature is that we have no a priori criteria to determine what is literature. For that, we elaborate a methodology founded of the principle of mutual recognition among writers that found a workflow to explore the web and identify the URLs containing original literary production. This workflow is based on URLs exploration and strongly constrained web information retrieval. This methodology allows to characterize different types of recognition links and the detection of structured social networks. We use semantic rules to constrain search engines and classify issues in different modes of networks membership. The issues of this exploration have been recorded in XML schemas that will be used for the navigation in the corpus.

Nous proposons un flux de travail pour l'acquisition de données afin de constituer à la fois un corpus et une archive de la littérature en ligne. Le corpus sera un outil pour l'exploration de la littérature web contenant un dispositif de recherche d'information et de navigation, puis une indexation et des métadonnées. L'archive est une archive spécialisée qui complète et élargit le corpus mais sans description de fichiers.La spécificité de la littérature web est que nous n'avons pas de critères a priori pour déterminer ce qu'est la littérature. Pour cela, nous élaborons une méthodologie fondée sur le principe de la reconnaissance mutuelle entre écrivains qui permet d'explorer le web et d'identifier les URLs contenant une production littéraire originale. Ce processus est basé sur l'exploration des URL et la recherche d'informations sur le web avec de fortes contraintes. Cette méthodologie permet de caractériser différents types de liens de reconnaissance et de détecter des réseaux sociaux structurés. Nous utilisons des règles sémantiques pour contraindre les moteurs de recherche et classer les questions dans différents modes d'appartenance aux réseaux. Les questions de cette exploration ont été enregistrées dans des schémas XML qui seront utilisés pour la navigation dans le corpus.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Exporter en