Lexical analysis of a web page: Verification of hypertextual communicative coherence

David Reymond; Kouamvi Couao-Zotti; Alaric Tabariès; Amandine Lebourgeois; Lauren Campos

Lexical analysis of a web page: Verification of hypertextual communicative coherence Analyse lexicale d’une page web: Extractions du message hypertextuel pour comparaisons En Fr

Fiche du document

Auteurs

Date

1 janvier 2022

Discipline

Sciences de l'information et de la communication

Type de document

Articles

Périmètre

Publications

Langue

Français

Identifiants

Source

HAL-SHS : sciences de l'information, de la communication et des bibliothèques

Relations

Ce document est lié à :
info:eu-repo/semantics/altIdentifier/doi/10.4000/rfsic.12365

Collection

Archives ouvertes

Organisation

Centre pour la communication scientifique directe

Licences

http://creativecommons.org/licenses/by-nc-sa/ , info:eu-repo/semantics/OpenAccess

Mots-clés En Fr

data paper communication web site web organisationnel TAL scraping Jupyter notebook hypertexte

Sujets proches En Es Fr

Web WWW La Toile (Internet) W3 World Wide Web

Citer ce document

David Reymond et al., « Analyse lexicale d’une page web: Extractions du message hypertextuel pour comparaisons », HAL-SHS : sciences de l'information, de la communication et des bibliothèques, ID : 10.4000/rfsic.12365

Partage / Export

Résumé En Fr

Dans ce data paper, nous décrivons les données produites par une série d’outils adaptables construits pour retrouver les mots employés dans une page d’un site web. Pour dépasser à terme les techniques de référencement actuelles, l’objectif est de disposer d’un instrument capable de réduire les contenus textuels d’une page web, expurgée des balises HTML et codes informatiques, en un lexique afin de pouvoir saisir le sens global porté par la page. Pour apporter une finesse sémantique, le lexique est lemmatisé et séparé selon les catégories grammaticales (verbe : actions, nom : champ nominal, adjectifs et adverbes : intensité, temporalité, etc.). Les ensembles de données obtenues sont alors combinés pour être représentés en nuages de mots paramétrables afin d’accompagner une lecture distante. Les données collectées dans l’environnement web du Parc National de Port-Cros, sont agrégées selon une typologie de sites. Les traitements et représentations montrent l’intérêt et la pertinence de cette instrumentation pour comparer les lexiques véhiculés par des pages. La sauvegarde de ces extractions ainsi que toute la chaîne de production est d’intérêt autant pour des travaux en continuité que pour les reproduire dans un cadre pédagogique. Les forces et limites sont discutées pour cadrer l’extension de ce procédé à d’autres domaines et applications à la communication web en général.

Lexical analysis of a web page: Verification of hypertextual communicative coherence Analyse lexicale d’une page web: Extractions du message hypertextuel pour comparaisons En Fr

Fiche du document

Mots-clés En Fr

Sujets proches En Es Fr

Citer ce document

Métriques

Partage / Export

Résumé En Fr

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en