19 mars 2024
http://creativecommons.org/licenses/by/
Ariane Pinche et al., « Documents historiques et reconnaissance automatique de textes », HAL-SHS : linguistique, ID : 10670/1.yg9shz
Grâce à ce numéro spécial du Journal of Data Mining and Digital Humanities (JDMDH), nous rassemblons en un seul volume plusieurs expériences, projets et réflexions liés à la reconnaissance automatique de texte sur des documents historiques.De nombreux projets incluent désormais l'acquisition automatique de textes dans leur chaîne de traitement des données. L'intégration de cette technologie dans des chaînes de traitement de plus en plus performantes a conduit à une automatisation des tâches qui affecte le rôle du chercheur dans le processus de production textuelle. Cette nouvelle pratique gourmande en données rend urgente la collecte et l'harmonisation des corpus nécessaires à la constitution de jeux d'entraînement, mais aussi leur mise à disposition pour l'exploitation. Ce numéro sera l'occasion de proposer des articles combinantquestions philologiques et techniques pour faire un bilan scientifique de l'utilisation de la reconnaissance automatique de texte pour les documents anciens, de ses résultats, de ses apports et des nouvelles pratiques induites par son utilisation dans le processus d'édition et d'exploration des textes. Nous espérons que les aspects pratiques seront interrogés à cette occasion, tout en soulevant les défis méthodologiques et leurs impacts sur les données de la recherche.Ce numéro est consacré à la présentation d'un aperçu complet de l'utilisation de l'ATR dans le domaine des sciences humaines, en particulier en ce qui concerne les documents historiques au début des années 2020. Il propose des articles traitant à la fois des aspects techniques et philologiques, s'adressant ainsi aussi bien aux débutants qu'aux utilisateurs expérimentés intéressés par le lancement de projets intégrant une étape d'ATR. Cette édition englobe un large éventail d'approches, couvrant des sujets tels que la création ou la collecte de données pour l'entraînement de modèles génériques, des présentations de projets et d'architectures de moteur d'ATR, ainsi que des exposés sur des méthodes de segmentation et de traitement d'images.