Gérer le "bruit" dans les corpus en textométrie: Retour d'expérience et propositions

Textométrie Analyse statistique des données textuelles ADT Analyse quantitative Analyse factorielle des correspondances Loi des grands nombres Linguistique de corpus Linguistique diachronique Oral représenté Corpus audiovisuel Annotation de corpus Humanités numériques Logiciel TXM

Sujets proches Es Fr

Bruits Bruit de fond

Citer ce document

Bénédicte Pincemin, « Gérer le "bruit" dans les corpus en textométrie: Retour d'expérience et propositions », HAL-SHS : linguistique, ID : 10670/1.q6g249

Partage / Export

Résumé Fr

L'exposé rend compte du cheminement adopté pour gérer différents types de "bruit" dans des corpus de données textuelles, tels que des erreurs d'étiquetage morphosyntaxique automatique, des erreurs de transcription automatique de la parole, ou encore une analyse portant sur des informations éparses et variables. Les nouvelles possibilités d'annotation semi-automatique des corpus offrent une voie séduisante pour corriger et affiner ses données, mais une réflexion préalable est nécessaire pour que cette annotation soit fructueuse. Finalement, en pratique, il s'agit peut-être moins de chercher à éliminer tout bruit, que d'apprivoiser le bruit : apprendre à oeuvrer avec lui à toutes les étapes du travail de recherche.

Gérer le "bruit" dans les corpus en textométrie: Retour d'expérience et propositions

Fiche du document

Mots-clés Fr

Sujets proches Es Fr

Citer ce document

Métriques

Partage / Export

Résumé Fr

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en