Historical Documents and automatic text recognition Documents historiques et reconnaissance automatique de textes En Fr

Fiche du document

Date

19 mars 2024

Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

http://creativecommons.org/licenses/by/




Citer ce document

Ariane Pinche et al., « Documents historiques et reconnaissance automatique de textes », HAL-SHS : linguistique, ID : 10670/1.yg9shz


Métriques


Partage / Export

Résumé En Fr

With this special issue of the Journal of Data Mining and Digital Humanities (JDMDH), we bring together in one single volume several experiments, projects and reflections related to automatic text recognition on Historical documents.Many projects now include automatic text acquisition in their data processing chain. The integration of this technology into increasingly powerful processing chains has led to an automation of tasks that affects the role of the researcher in the textual production process. This new data-intensive practice makes it urgent to collect and harmonise the corpora necessary for the constitution of training sets, but also tomake them available for exploitation. This issue is an opportunity to propose articles combining philological and technical questions to make a scientific assessment of the use of automatic text recognition for ancient documents, its results, its contributions and the new practices induced by its use in the processof editing and exploring texts. We hope that practical aspects will be questioned on this occasion, while raising methodological challenges and its impact on research data.The special issue on Automatic Text Recognition (ATR) is dedicated to providing a comprehensive overview of the use of ATR in the humanities field, particularly concerning historical documents in the early 2020s. This issue presents a fusion of engineering and philological aspects, catering to both beginners and experienced users interested in launching projects with ATR. The collection encompasses a diverse array of approaches, covering topics such as data creation or collection for training generic models, reaching specific objectives, technical and HTR machine architecture, segmentation methods, and image processing.

Grâce à ce numéro spécial du Journal of Data Mining and Digital Humanities (JDMDH), nous rassemblons en un seul volume plusieurs expériences, projets et réflexions liés à la reconnaissance automatique de texte sur des documents historiques.De nombreux projets incluent désormais l'acquisition automatique de textes dans leur chaîne de traitement des données. L'intégration de cette technologie dans des chaînes de traitement de plus en plus performantes a conduit à une automatisation des tâches qui affecte le rôle du chercheur dans le processus de production textuelle. Cette nouvelle pratique gourmande en données rend urgente la collecte et l'harmonisation des corpus nécessaires à la constitution de jeux d'entraînement, mais aussi leur mise à disposition pour l'exploitation. Ce numéro sera l'occasion de proposer des articles combinantquestions philologiques et techniques pour faire un bilan scientifique de l'utilisation de la reconnaissance automatique de texte pour les documents anciens, de ses résultats, de ses apports et des nouvelles pratiques induites par son utilisation dans le processus d'édition et d'exploration des textes. Nous espérons que les aspects pratiques seront interrogés à cette occasion, tout en soulevant les défis méthodologiques et leurs impacts sur les données de la recherche.Ce numéro est consacré à la présentation d'un aperçu complet de l'utilisation de l'ATR dans le domaine des sciences humaines, en particulier en ce qui concerne les documents historiques au début des années 2020. Il propose des articles traitant à la fois des aspects techniques et philologiques, s'adressant ainsi aussi bien aux débutants qu'aux utilisateurs expérimentés intéressés par le lancement de projets intégrant une étape d'ATR. Cette édition englobe un large éventail d'approches, couvrant des sujets tels que la création ou la collecte de données pour l'entraînement de modèles génériques, des présentations de projets et d'architectures de moteur d'ATR, ainsi que des exposés sur des méthodes de segmentation et de traitement d'images.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Exporter en