On linguistic variation and its impact on Natural language Processing methods De la variation linguistique et de son influence sur l'application de méthodes de Traitement Automatique des Langues En Fr

Fiche du document

Date

18 décembre 2023

Discipline
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licences

http://creativecommons.org/licenses/by-nc-nd/ , info:eu-repo/semantics/OpenAccess




Citer ce document

Gaël Lejeune, « De la variation linguistique et de son influence sur l'application de méthodes de Traitement Automatique des Langues », HAL-SHS : linguistique, ID : 10670/1.tv6q8d


Métriques


Partage / Export

Résumé En Fr

This habilitation thesis deals with variation in textual data and its influence on the application of Natural Language Processing (NLP) methods. Different types of variation are examined: language variation, quality variation, homogeneity variation and textual genre variation.On the one hand, we raise the question of NLP observables. This involves questioning the relevance of the paradigm, majority in the field, consisting in considering documents primarily through word-based representations, highly sensitive to variations of all kinds, to the detriment, for example, of more robust character n-gram based representations.On the other hand, we question the observatories of NLP by proposing ways of exploiting the textual genres of documents and deriving useful properties for automatic processing from the corpora from which they are drawn. We show that there is a great interest in considering that documents are more than mere sequences of words and/or subwords.

Cette habilitation à diriger les recherches traite de la variation des données textuelles et de son influence sur l'application de méthodes de Traitement Automatique des Langues (TAL). Différents types de variation sont examinés : variation de la langue, variation de la qualité des données, variation de l'homogénéité des corpus et variation du genre textuel.Nous posons, d'une part, la question des observables du TAL. Il s'agit d'interroger la pertinence du paradigme, majoritaire dans le domaine, consistant à envisager les documents avant tout à travers des représentations en mots, très sensibles aux variations de toutes sortes, au détriment par exemple d'approches en chaînes de caractères plus robustes.D'autre part, nous interrogeons les observatoires du TAL en proposant des pistes pour exploiter les genres textuels des documents et tirer des corpus desquels ils sont tirés des propriétés utiles au traitement automatique à rebours d'une approche où le sdocuments sont simplement des séquences de MOts et/ou de sous-mots. Nous montrons notamment comment la structure des documents et le genre textuel peuvent-être exploités pour concevoir des modèles de TAL.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en