2000
info:eu-repo/semantics/OpenAccess
Serge Heiden et al., « Profilage de textes : un cadre de travail et une expérience », HAL-SHS : linguistique, ID : 10670/1.udygwq
Le recours croissant aux « très grands corpus » en Traitement Automatique des Langues (TAL) comme en analysetextuelle suppose de maîtriser l'homogénéité lexicale, morpho-syntaxique et syntaxique des données utilisées.Cela implique en amont le développement d'outils de calibrage de textes. Nous mettons en place de tels outilset la méthodologie associée dans le cadre de l'appel d'offres ELRA Contribution à la réalisation de corpus dufrançais contemporain. Nous montrons sur les discours radio-télévisés de De Gaulle et de Mitterrand les premiersrésultats de cette approche. Nous tirons les conséquences de cette expérience pour les traits que nous employonspour profiler les textes