Un modèle syllabique du français et de l’anglais pour la reconnaissance de l’écriture

Fiche du document

Date

2016

Type de document
Périmètre
Langue
Identifiant
Collection

Cairn.info

Organisation

Cairn

Licence

Cairn




Citer ce document

Wassim Swaileh et al., « Un modèle syllabique du français et de l’anglais pour la reconnaissance de l’écriture », Document numérique, ID : 10670/1.f8tiw3


Métriques


Partage / Export

Résumé Fr En

Dans cet article nous introduisons une nouvelle méthode de modélisation du texte pour la reconnaissance de l’écriture. Une méthode de syllabation orthographique supervisée est proposée pour la construction d’un vocabulaire de syllabes. Un modèle de langage statistique en n-gram combinant syllabes et caractères est appris sur un corpus Wikipédia. Le système de reconnaissance d’écriture fondé sur des modèles optiques HMM de caractères procède alors à un décodage en deux passes en exploitant le modèle syllabique proposé. L’évaluation est réalisée pour le français et l’anglais, sur les bases RIMES et IAM respectivement, en analysant les performances pour différents taux de couverture des modèles syllabiques. Nous comparons le modèle proposé à un modèle lexical ainsi qu’à un modèle de caractères. L’approche proposée permet d’atteindre des performances intéressantes grâce à sa capacité à couvrir une proportion importante des mots hors lexique en travaillant avec un lexique de syllabes de taille limitée combiné à un modèle de n-gram d’ordre raisonnable.

In this paper, we introduce a new modeling method of texts for handwriting recognition. We propose a supervised syllabification approach for building a vocabulary of syllables. A statistical n-gram language model of syllables is trained on a Wikipedia corpus. The handwriting recognition system, based on optical HMM character models, performs a two pass decoding, integrating the proposed syllabic model. Evaluation is carried out for French and English using the RIMES and IAM datasets respectively, and by analysing the performance for various coverages of the syllable model. We also compare the model with lexicon and character n-gram models. The proposed approach achieves interesting performance thanks to its capacity to cover a large amount of out of vocabulary words while working with a limited amount of syllables combined with statistical n-gram of reasonable order.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en