Lexical analysis of a web page: Verification of hypertextual communicative coherence Analyse lexicale d’une page web: Extractions du message hypertextuel pour comparaisons En Fr

Fiche du document

Date

1 janvier 2022

Type de document
Périmètre
Langue
Identifiants
Relations

Ce document est lié à :
info:eu-repo/semantics/altIdentifier/doi/10.4000/rfsic.12365

Collection

Archives ouvertes

Licences

http://creativecommons.org/licenses/by-nc-sa/ , info:eu-repo/semantics/OpenAccess




Citer ce document

David Reymond et al., « Analyse lexicale d’une page web: Extractions du message hypertextuel pour comparaisons », HAL-SHS : sciences de l'information, de la communication et des bibliothèques, ID : 10.4000/rfsic.12365


Métriques


Partage / Export

Résumé En Fr

In this data paper we describe the data produced by a set of adaptable tools built to reconstruct words found on a webpage. To go beyond current SEO techniques, the objective is to use an instrument capable of reducing the textual contents of a web page, stripped of HTML and computer tags, into a lexicon. The lexicon is lemmatized and separated according to parts of speech (verbs : actions, nouns : nominal field, adjectives, and adverbs : intensity, temporality, etc.) to provide semantic sophistication. All the acquired data are then combined and used by a configurable word cloud representation tool to allow for distant reading. Data collected in the territorial context of Port-Cros National Park, aggregated according to a classification of websites, demonstrate the interest and functionality of these representations in comparing their respective resulting lexicons. Saving these data representations as well as the entire process for obtaining them is of interest both for continuing this work and for reproduction purposes in an educational context. The strengths and limitations of the process are discussed to set up a framework for its expansion into other domains and web communication applications in general.

Dans ce data paper, nous décrivons les données produites par une série d’outils adaptables construits pour retrouver les mots employés dans une page d’un site web. Pour dépasser à terme les techniques de référencement actuelles, l’objectif est de disposer d’un instrument capable de réduire les contenus textuels d’une page web, expurgée des balises HTML et codes informatiques, en un lexique afin de pouvoir saisir le sens global porté par la page. Pour apporter une finesse sémantique, le lexique est lemmatisé et séparé selon les catégories grammaticales (verbe : actions, nom : champ nominal, adjectifs et adverbes : intensité, temporalité, etc.). Les ensembles de données obtenues sont alors combinés pour être représentés en nuages de mots paramétrables afin d’accompagner une lecture distante. Les données collectées dans l’environnement web du Parc National de Port-Cros, sont agrégées selon une typologie de sites. Les traitements et représentations montrent l’intérêt et la pertinence de cette instrumentation pour comparer les lexiques véhiculés par des pages. La sauvegarde de ces extractions ainsi que toute la chaîne de production est d’intérêt autant pour des travaux en continuité que pour les reproduire dans un cadre pédagogique. Les forces et limites sont discutées pour cadrer l’extension de ce procédé à d’autres domaines et applications à la communication web en général.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en