16 septembre 2022
info:eu-repo/semantics/OpenAccess
Jean Tanguy, « Océriser pour accéder aux données ? Vers une évaluation non supervisée du bruit dans les données textuelles issues d'OCR de documents du XVIIème siècle », HALSHS : archive ouverte en Sciences de l’Homme et de la Société, ID : 10670/1.107fec...
Cette thèse propose un questionnement sur l'exploitabilité des données textuelles océrisées en contexte non supervisé. Si le travail se concentre sur un « corpus » qu'on appelle les mazarinades, il ne s’y limite pas pour rendre compte plus généralement des phénomènes sur des documents du XVIle siècle. Il s'agit de poser fermement la question : les données textuelles issues d'OCR peuvent-elles être utilisées avec intérêt, à défaut de disposer d'une transcription de référence (vérité de terrain) ? La réponse n'est évidemment pas univoque. D'abord, nous menons une étude sur l'impact des erreurs d'OCR pour certaines tâches de TAL pour montrer le caractère erratique de cet impact (fonction des tâches donc, mais aussi des corpus utilisés). Ensuite, nous montrons que nous pouvons rassembler un faisceau d'indices qui ne nécessite pas de vérité de terrain pour apprendre un modèle de prédiction du taux d'erreurs. L'enjeu est de faire l'économie des transcriptions de référence pour juger de la qualité des modèles que l'on souhaite utiliser. Enfin, nous prenons l'exemple de deux tâches de TAL (la textométrie et la similarité textuelle) pour admettre qu'il existe certaines tâches où les données n'ont pas besoin d'être spécialement corrigées pour offrir des performances satisfaisantes mais que d'autres sont impossibles à résoudre dans cet état. La question de la non supervision des évaluations en TAL est posée en conclusion.