DILA Word Segmented CBETA Corpus and Auto Segmentation Tool

Fiche du document

Date

15 février 2022

Discipline
Types de document
Périmètre
Identifiant
Source

DISTAM

Relations

Ce document est lié à :
info:eu-repo/semantics/reference/issn/2824-2807

Organisation

OpenEdition

Licence

info:eu-repo/semantics/openAccess



Citer ce document

Shueh-Ying LIAO, « DILA Word Segmented CBETA Corpus and Auto Segmentation Tool », DISTAM, ID : 10.58079/np8y


Métriques


Partage / Export

Résumé 0

Dharma Drum Institute of Liberal Arts (DILA, Taïwan) a publié un outil de segmentation automatique dédié aux textes littéraires bouddhiques. Cet outil s’appuie sur un modèle de langue (CRF, Conditional Random Filed model) entraîné à la base d’un corpus annoté manuellement par les spécialistes. Il contient un corpus, qui est le résultat de segmentation automatique pour l’ensemble des collections de CBETA (Chinese Buddhist Electronic Text Association, online e-texts en accès libre).

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en