SPARQL endpoint d'ISIDORE

L'ensemble des enrichissements sémantiques d'ISIDORE, ainsi que les métadonnées moissonnées par ISIDORE sont disponibles en RDF et requêtables en SPARQL à l'aide de ce SPARQL endpoint.

Qu'est ce qu'un SPARQL endpoint ?

Un SPARQL endpoint est une interface web qui permet d'interroger de l'information numérique structurée en RDF (Resource Description Framework). L'interrogation se fait à l'aide du langage SPARQL, langage normalisé et ouvert, développé et maintenu par le W3C.

Avec le SPARQL endpoint d'ISIDORE, à quoi a-t-on accès ?

Le SPARQL endpoint d'ISIDORE permet d'interroger l'ensemble des métadonnées moissonnées, structurées et enrichies par ISIDORE, c'est-à-dire le contenu accessible au travers du site web isidore.science. Les métadonnées moissonnées sont enrichies par traitements sémantiques à l'aide de référentiels scientifiques (thésaurus, listes d'autorités, vocabulaires). Actuellement, l'ensemble des enrichissements est accessible via le SPARQL endpoint.

Du SPARQL et du RDF pourquoi faire ?

Avec RDF et le langage SPARQL il est possible d'interroger l'information structurée contenue dans les métadonnées sans avoir de plus petit dénominateur commun. Comme il existe de nombreux entrepôts de données structurés selon RDF, il est surtout possible de construire des applications web ou mobiles avec des données RDF reliées entre elles par des URI. Ces URI prennent la plupart du temps la forme d'URL, c'est à dire d'adresses web. C'est le principe du linked data.

Pourquoi du RDF ?

Mis au point par le W3C dans le cadre des activités du Web sémantique, RDF n'est pas à proprement parler un schéma de métadonnées. Il constitue un modèle de description des données structurées inspiré de la logique des prédicats de premier ordre et de la théorie des graphes.
Sa généricité et sa souplesse offrent un cadre interopérable pour la description de tous types de ressources dans un environnement en réseau comme le Web. RDF est un modèle qui permet d'exprimer des assertions selon un modèle très simple comparable à une phrase simple : [sujet] [prédicat] [objet]. Chaque assertion forme un triplet dont les différents composants sont exprimés sous la forme d'une URI. L'intérêt de RDF réside dans le fait qu'il est possible d'exploiter des triplets RDF sans conversion et ce quel que soit le vocabulaire utilisé, à l'inverse de XML pour lequel il est nécessaire de convertir les données si elles n'utilisent pas le même schéma. Ainsi, il n'impose pas aux différents producteurs de se mettre d'accord strictement sur une structure de métadonnées, comme c'est le cas dans le protocole OAI-PMH avec le profil d'applications OAI_DC (Dublin Core simple), ou de se limiter à un plus petit dénominateur commun pour assurer l'interopérabilité.

Dans le cadre d'ISIDORE, l'ensemble des données exprimées en XML provenant d'un entrepôt OAI-PMH ou de flux de syndication (RSS 1 et 2, Atom) sont converties en RDF à l'issue du traitement. Les données nativement exprimées en RDF grâce à un encodage avec la syntaxe RDFa sont récupérées directement dans les pages web. Après cette conversion, les données sont exposées afin de permettre aux producteurs et aux utilisateurs de les récupérer dans leur propre environnement et de les retraiter. L'ensemble des données est stocké dans une base de données RDF (ou triple store RDF) et le Sparql endpoint permet de l'interroger.

Afin de vous permettre de mieux comprendre les impératifs éventuels que posent les traitements et cette conversion, voici les modèles de données d'ISIDORE :

Modèle de données d'ISIDORE

Modèle de données des collections ISIDORE Modèle de données des documents ISIDORE

Crédits

Ce SPARQL endpoint est une réalisation du pôle interopérabilité des données de la très grande infrastructure de recherche Huma-Num du CNRS dans le cadre de la plateforme ISIDORE.

En savoir plus

POUYLLAU, S., MINEL, J-L., CAPELLI, L., ISIDORE : Présentation générale du projet, Univ. d'hiver du TGE Adonis, Valpré. décembre 2010.
POUPEAU, G., ISIDORE et le web de données, Univ. d'hiver du TGE Adonis, Valpré. décembre 2010.