Modélisation, enrichissement sémantique et diffusion d'un corpus textuel semi-structuré : le cas des catalogues de vente de manuscrits

Fiche du document

Date

25 octobre 2022

Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess



Sujets proches Fr

Traitement

Citer ce document

Paul Kervegan, « Modélisation, enrichissement sémantique et diffusion d'un corpus textuel semi-structuré : le cas des catalogues de vente de manuscrits », DUMAS - Dépôt Universitaire de Mémoires Après Soutenance, ID : 10670/1.xu5on7


Métriques


Partage / Export

Résumé 0

Le présent mémoire présente certains aspects d’une chaîne de traitement consacrée à un corpus de catalogues de vente de manuscrits datant du XIXème s. au début du XXème s. Ces catalogues forment un corpus de données semi-structurées, puisqu’ils sont organisés sous la forme d’une liste d’items de manuscrits qui sont toujours décrits de façon semblable. Grâce à la nature semi-structurée des documents, il est possible de développer une chaîne de traitement entièrement basée sur la détection de motifs, c’est-à-dire sur l’identification d’éléments récurrents d’une entrée à l’autre. Le fil conducteur de ce mémoire est donc une analyse de la manière dont la nature semi-structurée du corpus peut être mobilisée pour analyser, manipuler et diffuser des données textuelles.Le présent texte s’intéresse notamment à la manière dont les documents sont encodés et aux aspects des catalogues imprimés qui sont sélectionnés pour produire un encodage manipulable automatiquement. Ensuite, ce mémoire présente une chaîne de traitement pour aligner les noms d’auteur.ice.s de manuscrits mentionné.e.s dans les catalogues avec la base de connaissances en ligne Wikidata. Cette chaîne de traitement s’appuie sur des algorithmes de détection et de transformation de motifs dans le texte, ainsi que sur un algorithme faisant des recherches sur l’API de Wikidata. Elle permet de constituer à l’aide de SPARQL une base de connaissances. Celle-ci servira notamment à mener une étude des facteurs biographiques influençant le prix des manuscrits. Enfin est présenté le fonctionnement de KatAPI, une API pour le partage automatisé de données produites par le projet. En plus de présenter les standards sur lesquels s’appuie cette API, sont décrits les principes architecturaux et le fonctionnement interne de l’application. Plus globalement, l’utilité des API pour permettre la convergence des projets de recherche dans un contexte de science ouverte est étudiée.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Exporter en