Indexation of a corpus of Web literature: issues, methodology and use of vector measures applied to web literary text Indexation d’un corpus de littérature web : problématique, méthodologie et usage des mesures vectorielles appliquées au texte littéraire. En Fr

Fiche du document

Date

19 octobre 2023

Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess




Citer ce document

Christian Cote, « Indexation d’un corpus de littérature web : problématique, méthodologie et usage des mesures vectorielles appliquées au texte littéraire. », HAL SHS (Sciences de l’Homme et de la Société), ID : 10670/1.90700b...


Métriques


Partage / Export

Résumé En Fr

Through our experimentation with the indexing of a corpus of web literature, built up from a crawl, we will discuss the structuring of masses of data such as those from web archives. These are characterized by a high degree of heterogeneity in terms of texts and vocabularies, and do not follow any established rules of formulation or writing planning (unlike scientific or journalistic articles, or classical literary texts). After presenting the massive web archive corpus of French-language digital literature, we will outline the constraints to this analysis, then the methodology adopted to find distinctive criteria associated with these texts so as to categorize them and thus structure the data set. In particular, we present the development of the coherence of the vocabulary obtained, bearing in mind that the inference rules are still being formalized.

Au travers de l’expérimentation que nous menons relativement à l’indexation d’un corpus de littérature web, constitué à partir d’un crawl, nous discuterons de la structuration de masses de données telles que celles issues d’archives du web. Elles sont caractérisées par une très forte hétérogénéité des textes, des vocabulaires et ne répondent à aucune règle établie de formulation ou de planification de l’écriture (à la différence des articles scientifiques ou journalistiques, ou encore les textes littéraires classiques). Après avoir présenté le corpus massif d’archive web de la littérature numérique francophone, nous présenterons les contraintes à cette analyse, puis la méthodologie adoptée pour trouver des critères distinctifs associés ces texte de façon à les catégoriser et donc à structurer l’ensemble des données. Nous présentons ici plus particulièrement l’élaboration de la cohérence du vocabulaire obtenu, sachant les règles d’inférence sont encore en cours de formalisation.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines