2016
Bruno Bon, « Towards Innovative Resources for Medieval Latin », HAL-SHS : linguistique, ID : 10670/1.antqq8
Le millénaire médiéval, qui représente la moitié de notre histoire, n’est accessible qu’à travers l’analyse approfondie des vestiges qui nous en sont parvenus. Les historiens n’ont d’autre choix que d’observer soigneusement les nombreux textes qui constituent l’essentiel de leurs sources. Il leur est donc indispensable de pouvoir comprendre ces textes, essentiellement en latin médiéval, produits dans un contexte social très éloigné de la période antique (malgré une ressemblance formelle), et dont l’étude n’a pas encore pleinement profité des progrès récents en linguistique de corpus et en text mining. La raison en incombe, entre autres, à la faible qualité des ressources existantes, à l’inadaptation des interfaces disponibles, et à une application insuffisante des procédures de traitement automatique des langues aux textes anciens. Pour répondre à cette situation, nous proposons de créer un corpus textuel représentatif de mille ans de littérature pan-européenne (de 500 à 1500), avec annotation des lemmes et des parties du discours, étiquetage chronologique et géographique, et de rassembler quelques dictionnaires disponibles pour cette langue. Pour exploiter ces données textuelles et lexicographiques, nous développerons des outils d’analyse statistique et de visualisation, destinés à faire apparaître les rapports de sens entre les mots, dont les plus importants sont généralement invisibles.