Gérer le "bruit" dans les corpus en textométrie: Retour d'expérience et propositions

Fiche du document

Date

28 avril 2023

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licences

http://creativecommons.org/licenses/by/ , info:eu-repo/semantics/OpenAccess




Citer ce document

Bénédicte Pincemin, « Gérer le "bruit" dans les corpus en textométrie: Retour d'expérience et propositions », HAL-SHS : linguistique, ID : 10670/1.q6g249


Métriques


Partage / Export

Résumé Fr

L'exposé rend compte du cheminement adopté pour gérer différents types de "bruit" dans des corpus de données textuelles, tels que des erreurs d'étiquetage morphosyntaxique automatique, des erreurs de transcription automatique de la parole, ou encore une analyse portant sur des informations éparses et variables. Les nouvelles possibilités d'annotation semi-automatique des corpus offrent une voie séduisante pour corriger et affiner ses données, mais une réflexion préalable est nécessaire pour que cette annotation soit fructueuse. Finalement, en pratique, il s'agit peut-être moins de chercher à éliminer tout bruit, que d'apprivoiser le bruit : apprendre à oeuvrer avec lui à toutes les étapes du travail de recherche.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en