A fully inflected Arabic verb resource constructed froma lexicon of lemmas by using finite-state transducers Une ressource de verbes arabes entièrement fléchie constituée à partir d'un dictionnaire de lemmes à l’aidede transducteurs finis En Fr

Fiche du document

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess



Sujets proches Fr

Lexique Vocabulaire

Citer ce document

Alexis Amid Neme, « Une ressource de verbes arabes entièrement fléchie constituée à partir d'un dictionnaire de lemmes à l’aidede transducteurs finis », HAL-SHS : linguistique, ID : 10670/1.tzgmxf


Métriques


Partage / Export

Résumé En Fr

We describe a fully inflected lexicon of 2.5 million verbal forms generated by using finite-statetransducers. The lexicon is constituted of 15 400 verbal entries or lemmas. The lexicon of Arabic verbs isconstructed on the basis of Semitic patterns and used in a resource-based method of morphologicalannotation of written Arabic text. An enhanced FST implementation for Semitic languages was created. Thissystem is adapted also for generating inflected forms. The language resources can be easily updated. Wepropose an inflectional taxonomy that increases the lexicon readability and maintainability for Arabicspeakers and linguists. Traditional grammar defines inflectional verbal classes by using verbal pattern-classesand root-classes, related to the nature of each of the triliteral root-consonants. Verbal pattern-classes areclearly defined but root-classes are complex. In our taxonomy, traditional pattern-classes are reused and rootclassesare simply redefined. Our taxonomy provides a straightforward encoding scheme for inflectionalvariations and orthographic adjustments due to assimilation and agglutination. We have tested andevaluated our resource against 10 000 diacriticized verb occurrences in the Nemlar corpus and compared it toBuckwalter resources. The lexical coverage is 99.9 %. A laptop needs two minutes in order to generate andcompress the 2.5 million form lexicon into 4 Megabytes for fast retrieval. The analysis of a verb takes 0.5millisecond.

Nous décrivons un lexique complètement fléchi de 2,5 millions de formes verbales générées par destransducteurs à états finis. Le lexique est constitué de 15 400 entrées ou lemmes. Le lexique de ces verbesarabes est construit sur la base des schèmes de la grammaire traditionnelle. Cette ressource verbale estensuite utilisée par un logiciel d'annotation morphologique du texte écrit en arabe. Un ajustement del’implémentation de ces transducteurs a été spécialement crée afin de traiter les langues sémitiques. Cesystème est également adapté pour générer des formes fléchies. Les ressources linguistiques peuvent êtrefacilement mis-à-jour. Nous proposons une taxonomie de la flexion verbale qui augmente la lisibilité dulexique et la maintenabilité pour les locuteurs et linguistes arabes. La grammaire traditionnelle définit desclasses de flexion verbales en utilisant des classes de schèmes et des classes de racines, liées à la nature dechacune des consonnes d’une racine trilitères. Les classes de schèmes verbaux sont clairement définies alorsque les classes de racines sont complexes. Dans notre taxonomie, les classes de schèmes traditionnelles sontréutilisées et les classes de racines sont redéfinies de façon plus simple. Notre taxonomie fournit un schéma decodage simple des variations flexionnelles et des ajustements orthographiques dus à l'assimilation ou àl'agglutination d’une particule grammaticale. Nous avons testé et évalué notre ressource sur 10 000occurrences voyellées de verbes extraites du corpus Nemlar et nous l’avons comparé à la ressource deBuckwalter. La couverture lexicale est de 99,9%. Un ordinateur portable a besoin de deux minutes pourgénérer et compresser les 2,5 millions de formes fléchies en 4 Méga-octets pour une recherche rapide.L’analyse d’un verbe prend 0,5 milliseconde.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en