Hyphe: web corpus curation tool & links crawler

Fiche du document

Date

2022

Types de document
Périmètre
Langue
Identifiants
Relations

Ce document est lié à :
info:eu-repo/semantics/altIdentifier/doi/10.5281/zenodo.7378308

Organisation

Sciences Po

Licences

https://www.gnu.org/licenses/agpl.txt , info:eu-repo/semantics/OpenAccess


Mots-clés En

crawling webstudies

Résumé En Fr

An open source research-driven web crawler allowing researchers to build corpora made of hyperlinked webpages about a specific topic. Hyphe provides a tool to build web corpus by crawling data from the web and generating networks between what we call "web entities", which can be single pages as well as a website, subdomains or parts of it, or even a combination of those. They represent different actors of the issue at hand (for instance, a person, an organization, etc.).By crawling them, Hyphe builds iteratively and helps visualize a network graph of the relationships between these actors through the hyperlinks connecting the webentities.New webentities are automatically suggested after they were discovered by crawling each entities hyperlinks, and researchers can then review them in an iterative and qualitative process.As it allows researchers to manually choose and then tag which actors they want to add to their corpus, Hyphe should be considered as a quali-quantitative tool.

Hyphe est un logiciel libre de type "crawler web" permettant aux chercheurs de créer des corpus constitués de pages web et de liens entre elles sur un sujet spécifique.Ces pages web sont sélectionnées par les chercheurs et peuvent être regroupées en « webentités », qui peuvent être des pages individuelles, des sites web, des sous-domaines ou même une combinaison de ceux-ci. Ces entités représentent différents acteurs de la problématique à traiter (par exemple, une personne, une organisation, etc.).En les crawlant, Hyphe permet de construire itérativement et de visualiser un réseau des relations entre ces acteurs à travers les hyperliens reliant ces webentités.De nouvelles webentités sont automatiquement suggérées en explorant les hyperliens de chaque entité présente dans le corpus. Les chercheurs peuvent ensuite les examiner dans un processus itératif et qualitatif.Hyphe permet aux chercheurs de choisir et de catégoriser manuellement les acteurs qu'ils souhaitent ajouter à leur corpus. À ce titre, il doit être considéré comme un outil quali-quantitatif.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en