17 décembre 2024
Ce document est lié à :
info:eu-repo/semantics/altIdentifier/doi/10.57086/cpe.1710
http://creativecommons.org/licenses/by-sa/ , info:eu-repo/semantics/OpenAccess
Delphine Bernhard et al., « Au-delà des normes : identifier et documenter les langues minorisées pour le traitement automatique des langues », HAL SHS (Sciences de l’Homme et de la Société), ID : 10.57086/cpe.1710
Cet article propose une réflexion sur les défis de la documentation des langues minorisées dans l’espace numérique à partir des travaux réalisés dans le cadre du projet DIVITAL. Les premiers travaux du projet ont concerné la collecte de corpus et leur documentation par des métadonnées à grain fin. Ces travaux ont mis en évidence deux défis majeurs : (i) l’identification des langues et de leurs variantes, dans le cadre des normes de codification des noms de langues, et (ii) la création de nouvelles ressources en lien avec les pratiques actuelles de ces langues.