23 septembre 2021
Ce document est lié à :
info:eu-repo/semantics/reference/issn/2729-465X
info:eu-repo/semantics/openAccess
Alexander Delaporte, « Segmenter du texte brut avec SegmentAnt », Tekipaki, ID : 10.58079/up2n
Dans des langues telles que le français ou l'anglais (entre autres), les différentes entités linguistiques, ou plus simplement les "mots", sont plus ou moins intuitivement identifiables à l'écrit car ils tendent à être séparés par un caractère dédié : l'espace. Ce séparateur n'est pas commun à toutes les langues écrites, et n'est notamment pas utilisé en chinois et en japonais. Un lecteur humain sera évidemment capable d'identifier les entités qui composent le texte pour pouvoir le compren...