Egyptian press archive of CEDEJ. A challenging case study of Arabic OCR

Résumé Fr En

Cet article évalue trois systèmes commerciaux de reconnaissance optique de caractères (OCR) pour la numérisation des archives de presse : Sakhr Automatic Reader (AR) version 11.2 gold; Abbyy FineReader (FR) version 12 ; et NovoVerus (NV) version 4.2.0 dans un contexte de dégradation de la qualité du texte. Contrairement à d'autres tentatives similaires, nous avons développé notre propre ensemble de données pour étudier les meilleures spécifications et outils afin de réaliser la plus grande précision dans le projet d'archives de presse égyptiennes du Centre d'Études et de Documentation Économiques, Juridiques et Sociales (CEDEJ). Nous décrivons l'approche du développement de l'ensemble de données, ainsi que l'effet des différentes spécifications des images, sur la précision de l'OCR. Notre jeu de données se compose de 30 extraits de presse qui représentent différentes qualités, en termes de fond d'image, de taille de texte et d'autres effets dus à l'âge et au stockage des documents papier. Chaque échantillon a été scanné dans différentes résolutions et modes de couleur, pour produire un ensemble de 180 échantillons (six versions de chaque extrait), puis transmis aux logiciels d’OCR pour évaluer leur précision de reconnaissance. Le résultat de l'expérience a ensuite été appliqué à plus d'un million d’extraits, le corpus du projet CEDEJ, et a donné des résultats cohérents. Dans cet article, nous présentons principalement une approche de la numérisation et de l'OCR de documents ayant un contenu textuel arabe de faible qualité, ce qui garantit une précision élevée et constante. Notre approche est basée sur l'évaluation des performances des logiciels OCR par rapport à différentes spécifications de capture et de manipulation d'images.

This paper evaluates three commercial Arabic Optical Character Recognition (OCR) systems: Sakhr Automatic Reader (AR) version 11.2 gold; Abbyy FineReader (FR) version 12; and NovoVerus (NV) version 4.2.0 for the digitization of press archives having degraded text quality. In contrast to other similar attempts, we developed our own dataset to study the best specifications and tools in order to realize highest accuracy in the Egyptian press archive project of the Centre d'Études et de Documentation Économiques, Juridiques et Sociales (CEDEJ). We describe the approach of developing the dataset, as well as the effect of different image specifications on the OCR accuracy. Our dataset consists of 30 press-clips that represent different qualities, in terms of image background, text size and other effects due to age and storage. Each sample was scanned in different resolutions and color modes, to produce a set of 180 samples (six versions of each press-clip), then fed to the OCR suites, to evaluate its recognition accuracy. Then, we replicated the procedure that produced the highest consistent OCR accuracy on more than one million press-clips, the corpus of the CEDEJ project, and evaluated its results. In this paper, we mainly introduce an approach to digitize and OCR documents having low quality Arabic textual content, which guarantees high and consistent accuracy. Our approach is based on evaluating OCR suites performance against different image capturing and manipulation specifications.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en