2025
Ce document est lié à :
info:eu-repo/semantics/reference/issn/1765-3126
Ce document est lié à :
info:eu-repo/semantics/reference/issn/1638-9808
Ce document est lié à :
https://hdl.handle.net/20.500.13089/13654
Ce document est lié à :
https://doi.org/10.4000/13654
info:eu-repo/semantics/openAccess , All rights reserved
Bénédicte Pincemin, « Apprivoiser le « bruit » en linguistique de corpus : expérience d’une analyse factorielle et propositions », Corpus
Comme base concrète pour notre propos, nous partageons tout d’abord l’expérience d’une analyse factorielle des correspondances menée sur un corpus doté d’un étiquetage morphosyntaxique automatique non exempt d’erreurs. Connaissant le mode de fonctionnement de l’analyse factorielle et ayant repéré les étiquettes les plus bruitées, on ajuste les données soumises à l’analyse pour que celle-ci se base sur une représentation non seulement fiable mais aussi claire, faisant sens pour l’interprétation des résultats obtenus. Cette expérience appelle une discussion sur trois volets. Tout d’abord, sur l’évaluation des apports de la démarche présentée : en effet, en contournant (plutôt que corrigeant) les erreurs (le bruit), on déplace le cadre d’analyse, ce qui ne permet plus une comparaison directe des résultats obtenus avec une mesure d’écarts. Ensuite, on justifie la légitimité scientifique d’une telle démarche d’ajustement des données, pour laquelle le caractère méthodique et la transparence sont essentiels. Enfin, on considère l’incidence du volume du corpus, avec l’effet possible mais aussi les limites de la loi des grands nombres : la statistique neutralise le bruit de perturbations aléatoires mais pas celui d’un biais répétitif.Ainsi, notre approche consiste à apprivoiser le bruit : il s’agit de connaître son corpus et ses outils pour concevoir des analyses de qualité en gérant la part rémanente de bruit, et de se libérer d’une exigence préalable et sans doute illusoire de perfection des données.