Digital Libraries and Crowdsourcing: A Review

Fiche du document

Date

2017

Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess




Citer ce document

Mathieu Andro et al., « Digital Libraries and Crowdsourcing: A Review », HAL-SHS : sciences de l'information, de la communication et des bibliothèques, ID : 10670/1.mhjdjc


Métriques


Partage / Export

Résumé En Fr

Cataloguing, indexing, and correcting the OCR of digitized documents, libraries have often externalized certain activities to service providers with recourse to a low-price workforce in developing countries like Madagascar, India, or Vietnam. From now on, though, they could instead call on the masses of Internet users, that is, crowdsourcing, to realize tasks their own staff cannot handle. The development of crowdsourcing in libraries is particularly important in the domain of OCR correction. In fact, character recognition software that converts photos of digitized book pages into texts do not provide 100% reliable results and, depending on the quality of the original document, its digitization, its typography, the possible presence of handwritten notes, it may be necessary to correct the texts produced with the help of dictionaries. OCR correction is necessary to enable more efficient whole text searches of the digitized texts, better referencing of the contents by search engines, the production of eBook in EPUB or MOBI formats so they can be read on eReaders, data extraction through text mining technologies, or even scientific exploitations related to culturomics. This question of recourse to crowdsourcing is being asked more and more today of libraries, from the very largest of them to the very smallest. In order to bring them part of the solution and bring about an original conceptual contribution to crowdsourcing in libraries, we have written this state of the art, which comes from thesis work. It will offer conceptual elements to understand this phenomenon, a taxonomy and panorama of the initiatives, and analyses from library and information science points of view

Saisies de notices bibliographiques, indexation et correction de l’OCR de documents numérisés, les bibliothèques ont souvent externalisé certaines de leurs activités à des prestataires ayant recours à de la main d’œuvre à bas coût dans des pays en voie de développement comme Madagascar, l’Inde ou le Viêt-Nam. Mais elles pourraient désormais plutôt faire appel aux foules d’internautes, c'est-à-dire au crowdsourcing afin de réaliser des tâches pour lesquelles leurs propres forces sont insuffisantes. Le développement du crowdsourcing en bibliothèques est particulièrement important dans le domaine de la correction de l’OCR. En effet, les logiciels de reconnaissance de caractères qui convertissent les images des pages numérisées de livres en textes ne donnent pas des résultats fiables à 100 % et, en fonction de la qualité du document original, de celle de sa numérisation, de la typographie, de la présence d’éventuelles annotations manuscrites, il sera nécessaire de corriger les textes obtenus avec l’aide de dictionnaires. La correction de l’OCR est nécessaire afin de permettre des recherches en texte intégral plus efficaces dans les textes numérisés, un meilleur référencement des contenus par les moteurs de recherche, la production de fichiers Ebooks aux formats EPUB ou MOBI pour pouvoir être lus sur des liseuses, des extractions de données via des technologies de text mining ou encore des exploitations scientifiques liées à la culturomique. Cette question du recours au crowdsourcing se pose aujourd’hui de plus en plus aux bibliothèques, aux plus grandes d’entre elles comme aux plus petites. Afin d’y apporter des éléments de réponses et afin d’apporter une contribution conceptuelle originale autour du crowdsourcing en bibliothèques, nous avons rédigé le présent état de l’art, lui-même issu d’un travail de thèse. Il offrira des éléments conceptuels afin de comprendre ce phénomène, une taxonomie et un panorama des projets et des analyses du point de vue des sciences de l’information et de la communication.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Exporter en