Indexation of a corpus of Web literature: issues, methodology and use of vector measures applied to web literary text

Christian Cote, « Indexation d’un corpus de littérature web : problématique, méthodologie et usage des mesures vectorielles appliquées au texte littéraire. », HAL SHS (Sciences de l’Homme et de la Société), ID : 10670/1.90700b...

Partage / Export

Résumé En Fr

Au travers de l’expérimentation que nous menons relativement à l’indexation d’un corpus de littérature web, constitué à partir d’un crawl, nous discuterons de la structuration de masses de données telles que celles issues d’archives du web. Elles sont caractérisées par une très forte hétérogénéité des textes, des vocabulaires et ne répondent à aucune règle établie de formulation ou de planification de l’écriture (à la différence des articles scientifiques ou journalistiques, ou encore les textes littéraires classiques). Après avoir présenté le corpus massif d’archive web de la littérature numérique francophone, nous présenterons les contraintes à cette analyse, puis la méthodologie adoptée pour trouver des critères distinctifs associés ces texte de façon à les catégoriser et donc à structurer l’ensemble des données. Nous présentons ici plus particulièrement l’élaboration de la cohérence du vocabulaire obtenu, sachant les règles d’inférence sont encore en cours de formalisation.

Indexation of a corpus of Web literature: issues, methodology and use of vector measures applied to web literary text Indexation d’un corpus de littérature web : problématique, méthodologie et usage des mesures vectorielles appliquées au texte littéraire. En Fr

Fiche du document

Mots-clés En Fr

Sujets proches En Es Fr

Citer ce document

Métriques

Partage / Export

Résumé En Fr

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines