31 janvier 2024
Ce document est lié à :
info:eu-repo/semantics/reference/issn/1765-3126
Ce document est lié à :
info:eu-repo/semantics/reference/issn/1638-9808
info:eu-repo/semantics/openAccess , All rights reserved
Mathieu Goux, « Enjeux des corpus bilingues en diachronie longue : l’exemple du projet MICLE », Corpus, ID : 10.4000/corpus.8468
La multiplication des très grands corpus en linguistique historique a entraîné des discussions nombreuses sur les procédures d’annotation et les métadonnées associées, notamment concernant les questions relevant de l’étiquetage morphosyntaxique et de la tokenisation. D’autres sujets cruciaux, en revanche, semblent moins abordés, comme la question de la découpe en propositions ou en « phrases » des données linguistiques, la préservation des informations philologiques ou, encore, la question de l’encodage et des formats de données. Notre contribution explore ces thématiques en prenant exemple sur le corpus MICLE, qui a dû résoudre des difficultés inédites au long de sa constitution.