Faciliter l’édition numérique avec les méthodes de reconnaissance automatique de texte

Fiche du document

Date

26 novembre 2024

Type de document
Périmètre
Langue
Identifiant
Relations

Ce document est lié à :
info:eu-repo/semantics/reference/issn/3074-5527

Licences

, info:eu-repo/semantics/openAccess




Citer ce document

Angela Göbel, « Faciliter l’édition numérique avec les méthodes de reconnaissance automatique de texte », Théia. Revue d'histoire et d'histoire de l'art, ID : 10.35562/theia.253


Métriques


Partage / Export

Résumé Fr En

Le projet « Grand Tour digital » vise à numériser, explorer et visualiser des témoignages personnels de voyages éducatifs de l’époque moderne, mettant l’accent sur cinq textes principaux. Le projet vise à développer expérimentalement un processus éditorial novateur en utilisant Transkribus. Financé par la Deutsche Forschungsgemeinschaft (DFG) de 2022 à 2025, le projet utilise la plateforme Transkribus pour la transcription automatique de manuscrits, combinée à la reconnaissance d’entités nommées (REN) pour l’exploration et la visualisation des témoignages. Le corpus comprend 21 journaux de voyage, rédigés entre 1550 et 1770, conservés à la Bibliothèque Herzog August à Wolfenbüttel (HAB), avec une variété de voyages couvrant l’Europe, l’Empire ottoman et le Proche-Orient. La reconnaissance automatique des récits de voyage réalisée avec Transkribus fait face à des défis tels que la variété de l’écriture, l’individualité de chaque écriture, la mise en page complexe, les polices variées, l’utilisation de différentes langues et les exigences de contenu. Au cours du projet sera développé un modèle adapté à ces exigences. Le logiciel fournit des instructions utiles pour l’édition de texte, et la recherche génère des rapports d’expérience, des discussions scientifiques et des conseils pratiques sur l’outil. La transcription manuelle des pages du journal de voyage de Wagener dans Transkribus a permis d’entraîner un nouveau modèle basé sur le modèle existant « Transkribus German handwriting M1 » de l’Université de Greifswald. Ce modèle a été ajusté progressivement en transcrivant partiellement automatiquement, en corrigeant, et en réentraînant. L’objectif était d’adapter le programme aux particularités de l’écriture de Wagener, réduisant ainsi le taux d’erreur dans la reconnaissance manuscrite. Des ajustements manuels ont été apportés au marquage des champs de texte pour minimiser les erreurs de détection. L’évaluation du modèle a montré des taux d’erreur fluctuants, atteignant 2,41 % dans l’ensemble d’entraînement et 11 % dans l’ensemble de validation lors de la première itération. L’optimisation du modèle a continué avec des ajustements itératifs, élargissant le jeu de caractères entraîné. Les résultats montrent des améliorations, bien que des questions subsistent sur la meilleure façon de traiter les pages « non utilisables ». L’évaluation automatique dans Transkribus s’est concentrée sur le taux d’erreur (CER) et la précision des mots et des caractères, révélant des écarts significatifs entre les évaluations automatiques et manuelles. Malgré des améliorations dans le modèle, Transkribus atteint ses limites, avec des échecs d’ajustement conduisant à des taux d’erreur élevés. L’étude soulève des questions sur la spécificité de ces limites à Transkribus par rapport à d’autres systèmes de transcription automatisée. L’auteure suggère également d’explorer d’autres outils d’HTR tels que Kraken et Tesseract pour une comparaison approfondie. En conclusion, le succès de la reconnaissance automatisée dépend fortement de la qualité des pages, de la lisibilité du manuscrit, et de la présence de ratures. Bien que Transkribus ait joué un rôle pionnier, d’autres alternatives méritent une étude comparative pour évaluer les performances des différents outils d’HTR.

The “Grand Tour digital” project aims to digitize, explore, and visualize personal accounts of educational journeys from the modern era, focusing on five main texts. The project aims to experimentally develop an innovative editorial process using Transkribus. Funded by the Deutsche Forschungsgemeinschaft (DFG) from 2022 to 2025, the project utilizes the Transkribus platform for the automatic transcription of manuscripts, combined with Named Entity Recognition (NER) for the exploration and visualization of testimonies. The corpus consists of 21 travel journals written between 1550 and 1770, held at the Herzog August Library in Wolfenbüttel (HAB), covering various journeys across Europe, the Ottoman Empire, and the Middle East. Automatic recognition of travel narratives, especially with Transkribus, faces challenges such as writing variety, individuality of each script, complex layout, diverse fonts, use of different languages, and content requirements. A model adapted to these requirements will be developed during the project. The software provides useful instructions for text editing, and research generates experience reports, scholarly discussions, and practical advice on the tool. Manual transcription of Wagener’s travel journal pages in Transkribus was used to train a new model based on the existing “Transkribus German handwriting M1” model from the University of Greifswald. This model was gradually adjusted by partially automatic transcription, correction, and retraining. The goal was to adapt the program to Wagener’s writing characteristics, thus reducing the error rate in handwriting recognition. Manual adjustments were made to text field labeling to minimize detection errors. Model evaluation showed fluctuating error rates, reaching 2.41% in the training set and 11% in the validation set during the first iteration. Model optimization continued with iterative adjustments, expanding the trained character set. Results show improvements, although questions remain about the best way to handle “unusable” pages. Automatic evaluation in Transkribus focused on Character Error Rate (CER) and word and character accuracy, revealing significant discrepancies between automatic and manual evaluations. Despite improvements in the model, Transkribus reaches its limits, with adjustment failures leading to high error rates. The study raises questions about the specificity of these limits in Transkribus compared to other automated transcription systems. The author also suggests exploring other HTR tools such as Kraken and Tesseract for a comprehensive comparison. In conclusion, the success of automated recognition heavily depends on page quality, manuscript readability, and the presence of erasures. Although Transkribus has played a pioneering role, other alternatives deserve a comparative study to assess the performance of different HTR tools.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines