Multilingual person name recognition and transliteration

Fiche du document

Date

13 mai 2014

Discipline
Type de document
Périmètre
Langue
Identifiant
Source

Corela

Relations

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1638-573X

Organisation

OpenEdition

Licences

https://creativecommons.org/licenses/by-nc-sa/4.0/ , info:eu-repo/semantics/openAccess




Citer ce document

Bruno Pouliquen et al., « Multilingual person name recognition and transliteration », Corela, ID : 10.4000/corela.1219


Métriques


Partage / Export

Résumé Fr En

Nous présentons ici un outil de repérage des noms de personnes, à partir d’articles de la presse internationale, capable de reconnaître les différentes variantes d’un même nom. L’originalité de notre approche vient de l’identification des variantes de noms à travers les langues et systèmes d’écriture, grec, cyrillique et arabe compris. Étant donné notre contexte multilingue, nous utilisons une représentation interne standard de chaque nom ainsi qu’une même mesure de similarité (au lieu d’adopter l’approche bilingue habituelle de la translittération). Ce module fait partie d’un outil plus général qui analyse en moyenne 15.000 articles de journaux chaque jour, afin de regrouper les documents similaires, aussi bien dans une même langue que dans des langues différentes.

We present an exploratory tool that extracts person names from multilingual news collections, matches name variants referring to the same person, and infers relationships between people based on the co-occurrence of their names in related news. A novel feature is the matching of name variants across languages and writing systems, including names written with the Greek, Cyrillic and Arabic writing system. Due to our highly multilingual setting, we use an internal standard representation for name representation and matching, instead of adopting the traditional bilingual approach to transliteration. This work is part of a news analysis system that clusters an average of 25,000 news articles per day to detect related news within the same and across different languages.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en