Enjeux des corpus bilingues en diachronie longue : l’exemple du projet MICLE

Fiche du document

Auteur
Date

31 janvier 2024

Discipline
Type de document
Périmètre
Identifiant
Source

Corpus

Relations

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1765-3126

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1638-9808

Organisation

OpenEdition

Licences

info:eu-repo/semantics/openAccess , All rights reserved




Citer ce document

Mathieu Goux, « Enjeux des corpus bilingues en diachronie longue : l’exemple du projet MICLE », Corpus, ID : 10.4000/corpus.8468


Métriques


Partage / Export

Résumé Fr En

La multiplication des très grands corpus en linguistique historique a entraîné des discussions nombreuses sur les procédures d’annotation et les métadonnées associées, notamment concernant les questions relevant de l’étiquetage morphosyntaxique et de la tokenisation. D’autres sujets cruciaux, en revanche, semblent moins abordés, comme la question de la découpe en propositions ou en « phrases » des données linguistiques, la préservation des informations philologiques ou, encore, la question de l’encodage et des formats de données. Notre contribution explore ces thématiques en prenant exemple sur le corpus MICLE, qui a dû résoudre des difficultés inédites au long de sa constitution.

The increasing number of very large corpora in historical linguistics has led to numerous discussions on annotation procedures and associated metadata. Particularly the issues of part-of-speech tagging and tokenisation are often discussed in the literature. Other crucial topics, however, seem to be less talked about. We are thinking of the splitting of linguistic data into propositions or “sentences”, the preservation of philological information, or the question of encoding and data formats. Our contribution explores these issues by taking the example of the MICLE corpus, which had to solve unprecedented difficulties during its constitution.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en