2020
Cairn
Christophe Benzitoun et al., « Méthodologie d’harmonisation et de traitement des données orales du CÉFC », Langages, ID : 10670/1.x4r4bq
Le céfc comprend des données de plusieurs sources différentes, ce qui permet d’observer au moins en partie la diversité du français. La résolution des problèmes inhérents à l’hétérogénéité de ces données est donc intrinsèque à la constitution de cette ressource et motivée par son objectif. Cet article décrira, étape par étape, l’approche méthodologique qui a permis de construire une ressource orale homogène en mutualisant différentes sources afin de procéder à des annotations automatiques cohérentes et de faciliter les analyses d’un corpus oral de plusieurs millions de mots.