18 décembre 2023
http://creativecommons.org/licenses/by-nc-nd/ , info:eu-repo/semantics/OpenAccess
Gaël Lejeune, « De la variation linguistique et de son influence sur l'application de méthodes de Traitement Automatique des Langues », HAL-SHS : linguistique, ID : 10670/1.tv6q8d
Cette habilitation à diriger les recherches traite de la variation des données textuelles et de son influence sur l'application de méthodes de Traitement Automatique des Langues (TAL). Différents types de variation sont examinés : variation de la langue, variation de la qualité des données, variation de l'homogénéité des corpus et variation du genre textuel.Nous posons, d'une part, la question des observables du TAL. Il s'agit d'interroger la pertinence du paradigme, majoritaire dans le domaine, consistant à envisager les documents avant tout à travers des représentations en mots, très sensibles aux variations de toutes sortes, au détriment par exemple d'approches en chaînes de caractères plus robustes.D'autre part, nous interrogeons les observatoires du TAL en proposant des pistes pour exploiter les genres textuels des documents et tirer des corpus desquels ils sont tirés des propriétés utiles au traitement automatique à rebours d'une approche où le sdocuments sont simplement des séquences de MOts et/ou de sous-mots. Nous montrons notamment comment la structure des documents et le genre textuel peuvent-être exploités pour concevoir des modèles de TAL.