15 février 2022
Ce document est lié à :
info:eu-repo/semantics/reference/issn/2824-2807
info:eu-repo/semantics/openAccess
Shueh-Ying LIAO, « DILA Word Segmented CBETA Corpus and Auto Segmentation Tool », DISTAM, ID : 10.58079/np8y
Dharma Drum Institute of Liberal Arts (DILA, Taïwan) a publié un outil de segmentation automatique dédié aux textes littéraires bouddhiques. Cet outil s’appuie sur un modèle de langue (CRF, Conditional Random Filed model) entraîné à la base d’un corpus annoté manuellement par les spécialistes. Il contient un corpus, qui est le résultat de segmentation automatique pour l’ensemble des collections de CBETA (Chinese Buddhist Electronic Text Association, online e-texts en accès libre).