2019
Cairn
Jean-Philippe Moreux, « Recherche d’images dans les bibliothèques numériques patrimoniales et expérimentation de techniques d’apprentissage profond », Documentation et bibliothèques, ID : 10670/1.vxffn9
Si historiquement, les bibliothèques numériques patrimoniales furent d’abord alimentées par des images, elles profitèrent rapidement de la technologie OCR pour indexer les collections imprimées afin d’améliorer le service de recherche d’information offert aux utilisateurs. Mais l’accès aux ressources iconographiques n’a pas connu les mêmes progrès et ces dernières demeurent dans l’ombre : indexation manuelle lacunaire, hétérogène et impossible à généraliser ; silos par genre documentaire ; recherche dans le contenu des images encore peu opérationnelle sur les collections patrimoniales. Aujourd’hui, il serait pourtant possible de mieux valoriser ces ressources en exploitant les énormes volumes d’OCR produits durant les deux dernières décennies (tant comme descripteur textuel que pour l’identification automatique des illustrations des imprimés), en profitant de la maturité des techniques d’intelligence artificielle (en particulier l’apprentissage profond ou deep learning), pour mettre ainsi en valeur ces gravures, dessins, photographies, cartes, etc., pour leur valeur propre, mais aussi comme point d’entrée dans les collections, en favorisant découverte et rebond.Cet article décrit une approche ETL (extract-transform-load) appliquée aux images d’une bibliothèque numérique à vocation encyclopédique : identifier et extraire l’iconographie partout où elle se trouve (dans les collections d’images, mais aussi dans les imprimés) ; transformer, harmoniser et enrichir ses métadonnées descriptives grâce à l’IA ; intégrer ces données dans une application web dédiée à la recherche iconographique. Cette approche est qualifiée de pragmatique à double titre, puisqu’il s’agit de valoriser des ressources numériques existantes tout en mettant à profit les acquis de l’IA.