A new strategy for Arabic OCR based on script analysis and synthesis

Fiche du document

Date

16 décembre 2020

Discipline
Type de document
Périmètre
Langue
Identifiant
Relations

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1110-5097

Ce document est lié à :
info:eu-repo/semantics/reference/issn/2090-7273

Organisation

OpenEdition

Licences

https://creativecommons.org/licenses/by-nc-sa/4.0/ , info:eu-repo/semantics/openAccess




Citer ce document

González Martínez Alicia et al., « A new strategy for Arabic OCR based on script analysis and synthesis », Égypte/Monde arabe, ID : 10.4000/ema.13146


Métriques


Partage / Export

Résumé En Fr Ar

OCR has seen major improvements in recent years, even though conventional OCR strategies don’t yet exploit linguistic concepts on Arabic script analysis. We present a new, additional strategy that aims to enhance Arabic OCR. In this approach A. disambiguating dots are temporarily eliminated, which reduces classes of graphemes sharing the same base element to single archigraphemes and B. contextual behaviour of Arabic archigraphemes is redefined as fusing: archigraphemes merge unrecognizably into letter blocks according to a rule-based system called script grammar. The letter block is defined as the minimum unit of Arabic script formation. E.g., the word بحوث consists of two letter blocks, groups of fused allographs surrounded by graphic space, ٮحو and ٮ (BGW B). From an Arabic corpus of circa 85 million words we extracted a list of circa 47,000 unique archigraphemic letter blocks, which implies that we reduced the generative, dynamic Arabic writing system to proportions of a static script like Chinese. We then show how to synthesise all theoretical shapes for each letter block from computer models of specific Islamic script styles (ruqʿä, naskh, nastaʿlīq). Only in the final stage, we would need to disambiguate the archigraphemes into actual graphemes using linguistic information, part of which we already gathered from the 85 million words corpus. This approach also makes initial OCR training possible on texts rendered with the very same Islamic script models.

La reconnaissance automatique de caractères (OCR) a connu d’importantes améliorations ces dernières années, même si les stratégies OCR conventionnelles n'exploitent pas encore les concepts linguistiques sur l'analyse de l'écriture arabe. Nous présentons une stratégie supplémentaire, nouvelle, qui vise à améliorer l'OCR en arabe. Dans cette approche, les points de désambiguïsation sont temporairement éliminés, ce qui réduit les classes de graphèmes partageant le même élément de base à des archigraphèmes uniques. En outre, le comportement contextuel des archigraphèmes arabes est redéfini comme une fusion : les archigraphèmes fusionnent de manière méconnaissable en blocs de lettres selon un système basé sur des règles appelées grammaire de script. Le bloc de lettres est défini comme l'unité minimale de formation de l'écriture arabe. Par exemple, le mot بحوث se compose de deux blocs de lettres, des groupes d'allographes fusionnés entourés d'un espace graphique, ٮحو et ٮ (BGW B). D'un corpus arabe d'environ 85 millions de mots, nous avons extrait une liste d'environ 47 000 blocs de lettres archigraphèmiques uniques, ce qui implique que nous avons réduit le système d'écriture arabe dynamique et génératif aux proportions d'une écriture statique comme le chinois. Nous montrons ensuite comment synthétiser toutes les formes théoriques pour chaque bloc de lettres à partir de modèles informatiques de styles d'écriture islamiques spécifiques (ruqʿä, naskh, nastaʿlīq). Ce n'est que dans la dernière étape que nous devrons désambiguïser les archigraphèmes en graphèmes réels en utilisant des informations linguistiques, dont une partie a déjà été recueillie dans le corpus de 85 millions de mots. Cette approche rend également possible une formation initiale à l'OCR sur des textes rendus avec les mêmes modèles d'écriture islamiques.

شهدت السنوات الأخيرة تطوراتٍ كبرى في برمجيات التعرُّف الضوئي على الحروف (OCR)، وإن كانت الاستراتيجيات التقليدية للتعرُّف الضوئي على الحروف لم تستغل بعد المفاهيم اللغوية في تحليل خطوط الكتابة العربية. وتُقدِّم الورقة الحالية استراتيجية إضافية جديدة لتعزيز التعرُّف الضوئي على الحروف العربية. وفي إطار هذا المنهج: (أولاً) تُحذف مؤقتاً نقاطُ الحروف التوضيحية، مما يقلل من فئات الوحدات الخطِّية (graphemes) التي تشترك في العنصر الأساسي نفسه بحيث تصبح مجموعات وحدات خطِّية منفردة متعددة الأشكال (archigraphemes)، و(ثانياً) يُعاد تعريف السلوك السياقي لمجموعات الوحدات الخطِّية العربية متعددة الأشكال باعتبارها قابلة للدمج: فمجموعات الوحدات الخطِّية متعددة الأشكال تندمج بشكل لا يمكن تمييزه في حروف منفصلة وفقاً لنظام قائم على القواعد يُسمى نظام قواعد خطوط الكتابة (script grammar). ويُعرَّف الحرف المنفصل بأنه أصغر وحدة لتكوين الكتابة العربية. فعلى سبيل المثال، تتكون كلمة «بحوث»، من حرفين منفصلين، أو من مجموعتين من الوحدات الخطية المندمجة محاطتين بفراغ بياني، وهما «ٮحو» و «ٮ». ومن مجموع حصيلة لغوية عربية تضم حوالي ٨٥ مليون كلمة، استخرجنا قائمة تضم حوالي ٤٧ ألف حرف منفصل متعدد الأشكال، مما يعني أننا خفضنا نظام الكتابة العربية التوليدي المتغيِّر إلى مجموعات من رسوم ثابتة كما هو الحال في اللغة الصينية. ثم تبيِّن الورقة بعد ذلك كيف يمكن توليف جميع الأشكال النظرية لكل حرف منفصل من خلال نماذج حاسوبية لأنماط معينة من خطوط الكتابة الإسلامية (الرُقعة، والنسخ، والتعليق/النستليق/الفارسي). وفي المرحلة النهائية فقط، يتعيَّن فك مجموعات الوحدات الخطية متعددة الأشكال لتصبح وحدات خطية فعلية باستخدام معلومات لغوية، وهي معلومات سبق أن جمعنا جزءاً منها من حصيلة الكلمات التي تبلغ حوالي 85 مليون كلمة. كما يساعد هذا المنهج على جعل التدريب على التعرُّف الضوئي على الحروف ممكناً في حالة النصوص التي يتم تحويلها بأنماط خطوط الكتابة الإسلامية نفسها.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en