2020
Cairn
Khalil Rouchdi Rami et al., « Egyptian press archive of CEDEJ. A challenging case study of Arabic OCR », Égypte/Monde arabe, ID : 10670/1.135fpd
Cet article évalue trois systèmes commerciaux de reconnaissance optique de caractères (OCR) pour la numérisation des archives de presse : Sakhr Automatic Reader (AR) version 11.2 gold; Abbyy FineReader (FR) version 12 ; et NovoVerus (NV) version 4.2.0 dans un contexte de dégradation de la qualité du texte. Contrairement à d'autres tentatives similaires, nous avons développé notre propre ensemble de données pour étudier les meilleures spécifications et outils afin de réaliser la plus grande précision dans le projet d'archives de presse égyptiennes du Centre d'Études et de Documentation Économiques, Juridiques et Sociales (CEDEJ). Nous décrivons l'approche du développement de l'ensemble de données, ainsi que l'effet des différentes spécifications des images, sur la précision de l'OCR. Notre jeu de données se compose de 30 extraits de presse qui représentent différentes qualités, en termes de fond d'image, de taille de texte et d'autres effets dus à l'âge et au stockage des documents papier. Chaque échantillon a été scanné dans différentes résolutions et modes de couleur, pour produire un ensemble de 180 échantillons (six versions de chaque extrait), puis transmis aux logiciels d’OCR pour évaluer leur précision de reconnaissance. Le résultat de l'expérience a ensuite été appliqué à plus d'un million d’extraits, le corpus du projet CEDEJ, et a donné des résultats cohérents. Dans cet article, nous présentons principalement une approche de la numérisation et de l'OCR de documents ayant un contenu textuel arabe de faible qualité, ce qui garantit une précision élevée et constante. Notre approche est basée sur l'évaluation des performances des logiciels OCR par rapport à différentes spécifications de capture et de manipulation d'images.