Apprivoiser le « bruit » en linguistique de corpus : expérience d’une analyse factorielle et propositions

Fiche du document

Date

2025

Discipline
Type de document
Périmètre
Identifiant
  • 20.500.13089/1364x
Source

Corpus

Relations

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1765-3126

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1638-9808

Ce document est lié à :
https://hdl.handle.net/20.500.13089/13654

Ce document est lié à :
https://doi.org/10.4000/13654

Organisation

OpenEdition

Licences

info:eu-repo/semantics/openAccess , All rights reserved




Citer ce document

Bénédicte Pincemin, « Apprivoiser le « bruit » en linguistique de corpus : expérience d’une analyse factorielle et propositions », Corpus


Partage / Export

Résumé Fr En

Comme base concrète pour notre propos, nous partageons tout d’abord l’expérience d’une analyse factorielle des correspondances menée sur un corpus doté d’un étiquetage morphosyntaxique automatique non exempt d’erreurs. Connaissant le mode de fonctionnement de l’analyse factorielle et ayant repéré les étiquettes les plus bruitées, on ajuste les données soumises à l’analyse pour que celle-ci se base sur une représentation non seulement fiable mais aussi claire, faisant sens pour l’interprétation des résultats obtenus. Cette expérience appelle une discussion sur trois volets. Tout d’abord, sur l’évaluation des apports de la démarche présentée : en effet, en contournant (plutôt que corrigeant) les erreurs (le bruit), on déplace le cadre d’analyse, ce qui ne permet plus une comparaison directe des résultats obtenus avec une mesure d’écarts. Ensuite, on justifie la légitimité scientifique d’une telle démarche d’ajustement des données, pour laquelle le caractère méthodique et la transparence sont essentiels. Enfin, on considère l’incidence du volume du corpus, avec l’effet possible mais aussi les limites de la loi des grands nombres : la statistique neutralise le bruit de perturbations aléatoires mais pas celui d’un biais répétitif.Ainsi, notre approche consiste à apprivoiser le bruit : il s’agit de connaître son corpus et ses outils pour concevoir des analyses de qualité en gérant la part rémanente de bruit, et de se libérer d’une exigence préalable et sans doute illusoire de perfection des données.

As a concrete basis for thought, we first share the experience of a correspondence analysis applied to a morphosyntactically tagged corpus. The automatic tagging has been partially checked and shows errors. Knowing how factorial analysis works, and having identified the noisiest tags, we adjust the data to be submitted to the analysis so that it is both reliable and clear, making sense for the interpretation of the results to be drawn.This experiment calls for a three-fold discussion. Firstly, about the evaluation of such a process: indeed, by bypassing (rather than correcting) errors (noise), we shift the analysis framework, which no longer allows an evaluation based on the usual comparison of results and improvement measurement. Next, we justify how tweaking the data can still be a sound scientific approach, when the process is methodical and transparent. Then we consider whether corpus size matters, in relationship with the law of large numbers: statistics neutralize the noise of random fluctuations, but not that of repetitive bias.Thus, we argue for “taming” noise: that is, knowing your corpus and your tools, so as to be able to design quality analyses while managing the residual noise, and freeing yourself from a prior and probably illusory requirement for data perfection.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines