On linguistic variation and its impact on Natural language Processing methods

Tokenisation N-grammes de caractères Sous-mots Genre textuel Collecte de corpus Nettoyage de pages Web Reconnaissance optique de caractères Reconnaissance d'entités nommées Données bruitées Variation linguistique

Sujets proches En Fr

Diplômes (actes royaux) Documents Diplômes (diplomatique)

Citer ce document

Gaël Lejeune, « De la variation linguistique et de son influence sur l'application de méthodes de Traitement Automatique des Langues », HAL-SHS : linguistique, ID : 10670/1.tv6q8d

Partage / Export

Résumé En Fr

Cette habilitation à diriger les recherches traite de la variation des données textuelles et de son influence sur l'application de méthodes de Traitement Automatique des Langues (TAL). Différents types de variation sont examinés : variation de la langue, variation de la qualité des données, variation de l'homogénéité des corpus et variation du genre textuel.Nous posons, d'une part, la question des observables du TAL. Il s'agit d'interroger la pertinence du paradigme, majoritaire dans le domaine, consistant à envisager les documents avant tout à travers des représentations en mots, très sensibles aux variations de toutes sortes, au détriment par exemple d'approches en chaînes de caractères plus robustes.D'autre part, nous interrogeons les observatoires du TAL en proposant des pistes pour exploiter les genres textuels des documents et tirer des corpus desquels ils sont tirés des propriétés utiles au traitement automatique à rebours d'une approche où le sdocuments sont simplement des séquences de MOts et/ou de sous-mots. Nous montrons notamment comment la structure des documents et le genre textuel peuvent-être exploités pour concevoir des modèles de TAL.

On linguistic variation and its impact on Natural language Processing methods De la variation linguistique et de son influence sur l'application de méthodes de Traitement Automatique des Langues En Fr

Fiche du document

Mots-clés En Fr

Sujets proches En Fr

Citer ce document

Métriques

Partage / Export

Résumé En Fr

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en