Agrégation automatisée de corpus de français parlé

Fiche du document

Date

2021

Discipline
Périmètre
Langue
Identifiant
  • 20.500.13089/7crs
Relations

Ce document est lié à :
https://hdl.handle.net/20.500.13089/79q7

Ce document est lié à :
https://doi.org/10.4000/books.ugaeditions

Ce document est lié à :
info:eu-repo/semantics/altIdentifier/isbn/978-2-37747-302-1

Ce document est lié à :
info:eu-repo/semantics/altIdentifier/isbn/978-2-37747-261-1

Collection

OpenEdition Books

Organisation

OpenEdition

Licences

info:eu-repo/semantics/openAccess , https://www.openedition.org/12554



Sujets proches Fr

Concours d'agrégation

Citer ce document

Christophe Parisse et al., « Agrégation automatisée de corpus de français parlé », UGA Éditions


Partage / Export

Résumé 0

Ce chapitre propose une méthodologie de constitution d’une agrégation de corpus de français parlé. En partant de corpus linguistiques disponibles dans des formats hétérogènes, la méthode permet d’obtenir un jeu de données structurées dans un format commun, ouvert et interopérable. Dans un premier temps, une revue des corpus accessibles et réutilisables est réalisée. Deux agrégations de corpus existantes sont également présentées dans le but de mettre en lumière leurs avantages et leurs inconvénients. Nous expliquerons quels outils et quel format ont été choisis pour construire automatiquement l’agrégation de corpus. La méthode employée pour obtenir l’agrégation de corpus est détaillée dans le but de la rendre reproductible. L’ensemble des commandes utilisées sont présentées, depuis celles nécessaires à l’homogénéisation du jeu de données jusqu’à l’import de celles-ci dans un outil de textométrie de référence et les différents corpus à la base de l’agrégation sont listés. Enfin, ce chapitre propose deux analyses linguistiques menées à partir de l’agrégation de corpus ainsi constituée. La première se focalise sur l’alternance « futur simple »/« futur périphrastique » à l’oral et montre notamment que la méthodologie employée permet d’obtenir des résultats proches de ceux obtenus par des analyses détaillées qui requièrent l’annotation exhaustive d’un corpus homogène. La seconde étude permet quant à elle de mettre en lumière les apports potentiels de la méthodologie employée pour des travaux textométriques portant sur des problématiques liées aux langues de spécialité.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines