La reconnaissance des entités nommées dans les bases numériques de chartes médiévales en latin : le cas du Corpus Burgundiae Medii Aevi (xe-xiiie siècle)

Fiche du document

Date

9 février 2018

Discipline
Type de document
Périmètre
Langue
Identifiant
Source

Médiévales

Relations

Ce document est lié à :
info:eu-repo/semantics/reference/issn/0751-2708

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1777-5892

Organisation

OpenEdition

Licences

All rights reserved , info:eu-repo/semantics/openAccess




Citer ce document

Torres Aguilar Sergio, « La reconnaissance des entités nommées dans les bases numériques de chartes médiévales en latin : le cas du Corpus Burgundiae Medii Aevi (xe-xiiie siècle) », Médiévales, ID : 10.4000/medievales.8182


Métriques


Partage / Export

Résumé Fr En

La disponibilité d’une quantité phénoménale de manuscrits médiévaux numérisés nous oblige à chercher des méthodes efficaces pour en réaliser une exploitation à grande échelle. Mais ce travail ne peut être réalisé que dans des bases de données structurées où les propriétés textuelles ont été explicitées et formalisées. Une telle structuration, lorsqu’elle est effectuée à la main, est coûteuse en termes de temps et d’effort, ce qui a conduit à chercher des manières de l’automatiser. Nous en présentons ici un exemple : la création d’un modèle de reconnaissance des entités nommées, qui sont un agent structurant primaire, puisque y sont identifiés tous les sujets et objets qui adoptent des noms spécifiques. Nous détaillons la création et la mise en œuvre du modèle créé à partir des chartes de Bourgogne (Corpus Burgundiae Medii Aevi), produites entre le xe et le xiiie siècle ainsi que diverses expériences de validation pour en tester la robustesse sur un large éventail de sources, tout en soumettant les résultats à une discussion qui tente d’exposer les divers avantages et défis qu’offre un corpus de manuscrits médiévaux pour ce type de technique.

The availability of a vast amount of digitized medieval manuscripts requires to import effective methods for large-scale exploitation. But this work can only be done in structured databases where the textual properties are explicit and formalized. This type of handmade structuring is highly time-consuming, which has led to the search for ways to it. We present an example of this : the creation of a named entities recognition model, which are a primary structuring agent, since it corresponds to all the subjects and objects adopting specific names. We detail the creation and implementation of the model formed from Burgundian charters (Corpus Burgundiae Medii Aevi), produced from the tenth to the thirteenth centuries ; also, we describe various validation experiments in order to test its robustness on a wide range of sources and at the same time we submit all the results to a discussion that shows the various benefits and challenges of this type of technique on a medieval manuscripts’ corpus.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en