Agrégation automatisée de corpus de français parlé

Résumé 0

Ce chapitre propose une méthodologie de constitution d’une agrégation de corpus de français parlé. En partant de corpus linguistiques disponibles dans des formats hétérogènes, la méthode permet d’obtenir un jeu de données structurées dans un format commun, ouvert et interopérable. Dans un premier temps, une revue des corpus accessibles et réutilisables est réalisée. Deux agrégations de corpus existantes sont également présentées dans le but de mettre en lumière leurs avantages et leurs inconvénients. Nous expliquerons quels outils et quel format ont été choisis pour construire automatiquement l’agrégation de corpus. La méthode employée pour obtenir l’agrégation de corpus est détaillée dans le but de la rendre reproductible. L’ensemble des commandes utilisées sont présentées, depuis celles nécessaires à l’homogénéisation du jeu de données jusqu’à l’import de celles-ci dans un outil de textométrie de référence et les différents corpus à la base de l’agrégation sont listés. Enfin, ce chapitre propose deux analyses linguistiques menées à partir de l’agrégation de corpus ainsi constituée. La première se focalise sur l’alternance « futur simple »/« futur périphrastique » à l’oral et montre notamment que la méthodologie employée permet d’obtenir des résultats proches de ceux obtenus par des analyses détaillées qui requièrent l’annotation exhaustive d’un corpus homogène. La seconde étude permet quant à elle de mettre en lumière les apports potentiels de la méthodologie employée pour des travaux textométriques portant sur des problématiques liées aux langues de spécialité.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en