Au-delà des normes : identifier et documenter les langues minorisées pour le traitement automatique des langues

Fiche du document

Date

17 décembre 2024

Type de document
Périmètre
Langue
Identifiants
Relations

Ce document est lié à :
info:eu-repo/semantics/altIdentifier/doi/10.57086/cpe.1710

Collection

Archives ouvertes

Licences

http://creativecommons.org/licenses/by-sa/ , info:eu-repo/semantics/OpenAccess




Citer ce document

Delphine Bernhard et al., « Au-delà des normes : identifier et documenter les langues minorisées pour le traitement automatique des langues », HAL SHS (Sciences de l’Homme et de la Société), ID : 10.57086/cpe.1710


Métriques


Partage / Export

Résumé De En Fr

Dieser Artikel stellt Überlegungen zu den Herausforderungen der Dokumentation von Minderheitensprachen im digitalen Raum an, ausgehend von den Arbeiten, die im Rahmen des DIVITAL-Projekts durchgeführt wurden. Die ersten Arbeiten des Projekts betrafen die Sammlung von Korpora und ihre Dokumentation durch feinkörnige Metadaten. Diese Arbeiten haben zwei große Herausforderungen aufgezeigt: (i) die Identifizierung der Sprachen und ihrer Varianten im Rahmen der Normen für die Kodierung von Sprachnamen und (ii) die Schaffung neuer Ressourcen in Verbindung mit der aktuellen Praxis dieser Sprachen.

This article looks at the challenges of documenting minority languages in the digital environment, based on work carried out as part of the DIVITAL project. The project’s initial work involved collecting corpora and documenting them using fine-grained metadata. This work has highlighted two major challenges: (i) the identification of languages and their variants, within the framework of standards for the codification of language names, and (ii) the creation of new resources linked to the current practices of these languages.

Cet article propose une réflexion sur les défis de la documentation des langues minorisées dans l’espace numérique à partir des travaux réalisés dans le cadre du projet DIVITAL. Les premiers travaux du projet ont concerné la collecte de corpus et leur documentation par des métadonnées à grain fin. Ces travaux ont mis en évidence deux défis majeurs : (i) l’identification des langues et de leurs variantes, dans le cadre des normes de codification des noms de langues, et (ii) la création de nouvelles ressources en lien avec les pratiques actuelles de ces langues.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets