April 6, 2015
Frédéric Glorieux, « Texte électronique : niveaux d’informatisation (sur un calligramme d’Apollinaire) », J’attends des résultats, ID : 10670/1.jv8met
Entre un pdf d’images, un OCR rempli d’erreurs, un site internet correct, un livre électronique avec tables des matières, ou un texte indexé et lemmatisé, il y a différents niveaux de structuration (et de travail). La confusion est entretenue par un marché de dupes entre les fournisseurs de textes (Google Books, Archive.org, Gallica…) et les utilisateurs qui préfèrent s’entendre sur un nombre important de livres qu’ils pourraient un jour utiliser, plutôt que de mesurer exactement ce qu’ils po...