L’ordinateur au service du dépouillement de sources historiques : Éléments d’analyse semi-automatique d’un corpus diplomatique homogène

Fiche du document

Date

2021

Discipline
Type de document
Périmètre
Langue
Identifiant
Collection

Cairn.info

Organisation

Cairn

Licence

Cairn




Citer ce document

de Valeriola Sébastien, « L’ordinateur au service du dépouillement de sources historiques : Éléments d’analyse semi-automatique d’un corpus diplomatique homogène », Histoire & mesure, ID : 10670/1.0y43v8


Métriques


Partage / Export

Résumé Fr En

L’historien qui mobilise un corpus d’actes est amené à extraire de chacun de ces documents une série d’informations nécessaires à son étude, comme les noms des protagonistes, les dates, les montants, etc. Lorsque la taille de l’ensemble documentaire considéré est importante, cette étape de dépouillement peut poser un problème. Nous présentons ici une méthodologie d’analyse semi-automatique d’un tel corpus mettant en œuvre des méthodes quantitatives. Nous nous concentrons sur trois étapes de ce processus : le découpage des actes en sous-parties, la lemmatisation des anthroponymes et l’extraction des dates. Nous soulignons l’importance de l’intervention de l’humain après l’action de la machine, étape indispensable de tout dispositif d’analyse de ce type.

For a historian analysing a corpus of acts, each document must be examined to extract pertinent sets of information, such as the names of the protagonists, dates, amounts, etc. When the set of documents is large, this process can be problematic. In this article we present a methodology for semi-automatic analysis of such corpora using quantitative methods. In doing so, we focus on three steps in the process: the division of acts into sub-sections, the lemmatization of anthroponyms and the extraction of dates. We underline the importance of human intervention after completion of the automatic process, an essential step in any analytical system of this type.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en