Named Entity Recognition through Arabic Wikipedia: Application to Discovery of Semantic Relations Reconnaissance des entités nommées à partir de Wikipédia arabe: Application à la découverte des relations sémantiques En Fr

Fiche du document

Date

11 avril 2019

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess




Citer ce document

Fatma Ben Mesmia, « Reconnaissance des entités nommées à partir de Wikipédia arabe: Application à la découverte des relations sémantiques », HAL-SHS : linguistique, ID : 10670/1.db5io3


Métriques


Partage / Export

Résumé En Fr

Named Entity Recognition (NER) consists of identifying named entities (NE) in textual resources and classifying them into predefined categories. We propose a NER system called CasANER to recognize and annotate Arabic NEs (ANE). This system is based on a categorization of ANEs carried out using an Arabic Wikipedia corpus. We also propose a system of extraction and annotation of semantic relations (SR) between ANE, called ASRextractor and using the annotated output of CasANER. Both systems include cascades of transducers implemented using the Unitex platform. The annotation of ANEs and SRs follows the TEI standard to produce structured, scalable and interoperable output. The evaluation uses performance metrics and the results of the proposed systems are satisfactory. A comparison of the performance of CasANER and a statistical system showed that our system excels in the categories of person name and name of organization.

La reconnaissance des entités nommées (REN) consiste à identifier des entités nommées (EN) dans des ressources textuelles et à les classer en catégories prédéfinies. Nous proposons un système de REN appelé CasANER pour reconnaitre et annoter les EN arabes (ENA). Ce système s'appuie sur une catégorisation des ENA réalisée à l'aide d'un corpus Wikipédia arabe. Nous proposons par ailleurs un système d'extraction et d'annotation des relations sémantiques (RS) entre ENA, appelé ASRextractor et utilisant la sortie annotée de CasANER. Les deux systèmes comportent des cascades de tranducteurs implémentées à l'aide de la plateforme Unitex. L'annotation des ENA et les RS respecte la norme TEI pour produire une sortie structurée, extensible et interopérable. L'évaluation fait appel à des métriques de performance et les résultats des systèmes proposés sont satisfaisants. Une comparaison des performaces de CasANER et d'un système statistique a montré que notre système excelle dans les catégories nom de personne et nom d'organisation.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en