Agrégation automatisée de corpus de français parlé

corpus oral agrégation TEI textométrie corpus écrit/oral outils numériques interactions verbales Français Langue Etrangère (FLE) analyse sémantique annotation de corpus base de données déterminologisation analyse du discours marqueur linguistique de corpus linguistique outillée langues de spécialité recueil de données lexique spécialisé modélisation Français sur Objectifs Spécifiques (FOS) Français sur Objectifs Universitaires (FOU) anglais de spécialité espagnol italien

Sujets proches Fr

Concours d'agrégation

Citer ce document

Christophe Parisse et al., « Agrégation automatisée de corpus de français parlé », UGA Éditions, ID : 10.4000/books.ugaeditions.24220

Partage / Export

Résumé 0

Ce chapitre propose une méthodologie de constitution d’une agrégation de corpus de français parlé. En partant de corpus linguistiques disponibles dans des formats hétérogènes, la méthode permet d’obtenir un jeu de données structurées dans un format commun, ouvert et interopérable. Dans un premier temps, une revue des corpus accessibles et réutilisables est réalisée. Deux agrégations de corpus existantes sont également présentées dans le but de mettre en lumière leurs avantages et leurs inconvénients. Nous expliquerons quels outils et quel format ont été choisis pour construire automatiquement l’agrégation de corpus. La méthode employée pour obtenir l’agrégation de corpus est détaillée dans le but de la rendre reproductible. L’ensemble des commandes utilisées sont présentées, depuis celles nécessaires à l’homogénéisation du jeu de données jusqu’à l’import de celles-ci dans un outil de textométrie de référence et les différents corpus à la base de l’agrégation sont listés. Enfin, ce chapitre propose deux analyses linguistiques menées à partir de l’agrégation de corpus ainsi constituée. La première se focalise sur l’alternance « futur simple »/« futur périphrastique » à l’oral et montre notamment que la méthodologie employée permet d’obtenir des résultats proches de ceux obtenus par des analyses détaillées qui requièrent l’annotation exhaustive d’un corpus homogène. La seconde étude permet quant à elle de mettre en lumière les apports potentiels de la méthodologie employée pour des travaux textométriques portant sur des problématiques liées aux langues de spécialité.

Agrégation automatisée de corpus de français parlé

Fiche du document

Mots-clés Fr Und

Sujets proches Fr

Citer ce document

Métriques

Partage / Export

Résumé 0

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en