Corpus spécialisés issus de sites web : réflexions et propositions méthodologiques et épistémologiques

Fiche du document

Date

23 mars 2023

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes




Citer ce document

Marie Bouchet, « Corpus spécialisés issus de sites web : réflexions et propositions méthodologiques et épistémologiques », HAL-SHS : linguistique, ID : 10670/1.xvx2mf


Métriques


Partage / Export

Résumé 0

Les pratiques en linguistique de corpus et en sciences des données font des corpus des outils de recherche quasi-incontournables pour étudier les discours spécialisés. Notre étude porte sur le discours numérique de l’accès aux droits, qui est principalement disponible sur les sites web officiels des administrations gouvernementales. La création d’un corpus spécialisé issu de ces sites nécessite une réflexion méthodologique et technique afin d’obtenir un objet de recherche exploitable. Les différentes modalités de constitution de corpus comme la taille, la représentativité, les critères de sélection et la standardisation des données ont fait l’objet de plusieurs études (Handford, 2010 ; Biber, 1993 ; Habert, 2000). La question des modalités de constitution de corpus issus de données numériques est également de plus en plus présente avec l’apparition des sites web comme objet d’étude (Fairon, 1998) et le développement de l’analyse des discours numériques (Paveau, 2015). Dans cette communication, nous aborderons les difficultés méthodologiques que pose le site web lorsqu’il constitue un terrain de recherche pour analyser un discours spécialisé. Nous commencerons la présentation par des considérations théoriques (délimitation, définition de l’objet étudié), avant de poursuivre avec des questionnements pratiques (code source, protocole de récupération, nettoyage des fichiers). Pour conclure, nous présenterons des éléments de réponses concrets aux problèmes rencontrés lors de la collecte d’un corpus issu de sites web afin de donner des pistes aux jeunes chercheurs désirant étudier les discours spécialisés des sites web. Cette communication souhaite ainsi contribuer à la linguistique de corpus en tant que discipline avec la mise à disposition de méthodes et de techniques adaptées à l’analyse des discours numériques.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en