21 décembre 2021
Ce document est lié à :
info:eu-repo/semantics/reference/issn/2736-2337
info:eu-repo/semantics/openAccess , https://creativecommons.org/licenses/by/4.0/
Karine Abiven et al., « Exploiter un corpus de données textuelles sans post-traitement : l’écriture burlesque de la Fronde », Humanités numériques, ID : 10.4000/revuehn.2355
Les « mazarinades » burlesques de la Fronde sont des écrits bien connus des littéraires et des historiens mais peu étudiés systématiquement, en raison notamment de leur difficulté d’accès et de constitution en corpus. Nous cherchons d’abord à délimiter ce corpus et à définir des corpus contrastifs propres à révéler les spécificités de l’écriture burlesque dans ce contexte politique. Ensuite, nous abordons le problème de l’acquisition des données textuelles et nous exposons le processus d’océrisation d’imprimés anciens et son évaluation. Puis, nous choisissons d’exploiter ces données brutes, sans traitement, ce qui semble bien permettre d’obtenir des résultats (dans des domaines tels que le lexique, la métrique ou l’énonciation), en employant différentes méthodes (fouille textométrique et observation des n-grammes de caractères). Nous montrons ainsi la spécificité, dans l’écriture burlesque de la Fronde, de certains motifs littéraires et de certaines rimes. Il s’agit donc ici de présenter l’approche d’un corpus dans toutes les phases du processus : depuis la sélection des données, leur acquisition, leur constitution en corpus, jusqu’à leur exploitation statistique et algorithmique et l’interprétation de cette fouille.