26 novembre 2024
Ce document est lié à :
info:eu-repo/semantics/reference/issn/3074-5527
, info:eu-repo/semantics/openAccess
Angela Göbel, « Faciliter l’édition numérique avec les méthodes de reconnaissance automatique de texte », Théia. Revue d'histoire et d'histoire de l'art, ID : 10.35562/theia.253
Le projet « Grand Tour digital » vise à numériser, explorer et visualiser des témoignages personnels de voyages éducatifs de l’époque moderne, mettant l’accent sur cinq textes principaux. Le projet vise à développer expérimentalement un processus éditorial novateur en utilisant Transkribus. Financé par la Deutsche Forschungsgemeinschaft (DFG) de 2022 à 2025, le projet utilise la plateforme Transkribus pour la transcription automatique de manuscrits, combinée à la reconnaissance d’entités nommées (REN) pour l’exploration et la visualisation des témoignages. Le corpus comprend 21 journaux de voyage, rédigés entre 1550 et 1770, conservés à la Bibliothèque Herzog August à Wolfenbüttel (HAB), avec une variété de voyages couvrant l’Europe, l’Empire ottoman et le Proche-Orient. La reconnaissance automatique des récits de voyage réalisée avec Transkribus fait face à des défis tels que la variété de l’écriture, l’individualité de chaque écriture, la mise en page complexe, les polices variées, l’utilisation de différentes langues et les exigences de contenu. Au cours du projet sera développé un modèle adapté à ces exigences. Le logiciel fournit des instructions utiles pour l’édition de texte, et la recherche génère des rapports d’expérience, des discussions scientifiques et des conseils pratiques sur l’outil. La transcription manuelle des pages du journal de voyage de Wagener dans Transkribus a permis d’entraîner un nouveau modèle basé sur le modèle existant « Transkribus German handwriting M1 » de l’Université de Greifswald. Ce modèle a été ajusté progressivement en transcrivant partiellement automatiquement, en corrigeant, et en réentraînant. L’objectif était d’adapter le programme aux particularités de l’écriture de Wagener, réduisant ainsi le taux d’erreur dans la reconnaissance manuscrite. Des ajustements manuels ont été apportés au marquage des champs de texte pour minimiser les erreurs de détection. L’évaluation du modèle a montré des taux d’erreur fluctuants, atteignant 2,41 % dans l’ensemble d’entraînement et 11 % dans l’ensemble de validation lors de la première itération. L’optimisation du modèle a continué avec des ajustements itératifs, élargissant le jeu de caractères entraîné. Les résultats montrent des améliorations, bien que des questions subsistent sur la meilleure façon de traiter les pages « non utilisables ». L’évaluation automatique dans Transkribus s’est concentrée sur le taux d’erreur (CER) et la précision des mots et des caractères, révélant des écarts significatifs entre les évaluations automatiques et manuelles. Malgré des améliorations dans le modèle, Transkribus atteint ses limites, avec des échecs d’ajustement conduisant à des taux d’erreur élevés. L’étude soulève des questions sur la spécificité de ces limites à Transkribus par rapport à d’autres systèmes de transcription automatisée. L’auteure suggère également d’explorer d’autres outils d’HTR tels que Kraken et Tesseract pour une comparaison approfondie. En conclusion, le succès de la reconnaissance automatisée dépend fortement de la qualité des pages, de la lisibilité du manuscrit, et de la présence de ratures. Bien que Transkribus ait joué un rôle pionnier, d’autres alternatives méritent une étude comparative pour évaluer les performances des différents outils d’HTR.