11 avril 2019
info:eu-repo/semantics/OpenAccess
Fatma Ben Mesmia, « Reconnaissance des entités nommées à partir de Wikipédia arabe: Application à la découverte des relations sémantiques », HAL-SHS : linguistique, ID : 10670/1.db5io3
La reconnaissance des entités nommées (REN) consiste à identifier des entités nommées (EN) dans des ressources textuelles et à les classer en catégories prédéfinies. Nous proposons un système de REN appelé CasANER pour reconnaitre et annoter les EN arabes (ENA). Ce système s'appuie sur une catégorisation des ENA réalisée à l'aide d'un corpus Wikipédia arabe. Nous proposons par ailleurs un système d'extraction et d'annotation des relations sémantiques (RS) entre ENA, appelé ASRextractor et utilisant la sortie annotée de CasANER. Les deux systèmes comportent des cascades de tranducteurs implémentées à l'aide de la plateforme Unitex. L'annotation des ENA et les RS respecte la norme TEI pour produire une sortie structurée, extensible et interopérable. L'évaluation fait appel à des métriques de performance et les résultats des systèmes proposés sont satisfaisants. Une comparaison des performaces de CasANER et d'un système statistique a montré que notre système excelle dans les catégories nom de personne et nom d'organisation.