Le lemme comme on l'aime

Résumé Fr

Dans les travaux de linguistique quantitative, la prudence a souvent choisi le même camp que la paresse. En s'abstenant de lemmatiser les données, elle adoptait un profil bas, avouant l'impureté des données et faisant confiance à la statistique pour les dégager de l'entropie. Mais cette position attentiste peut-elle être indéfiniment prolongée? En trente années les industries de la langue ont fait des progrès et des outils de plus en plus performants sont disponibles sur le marché. Rares sont les rédacteurs qui méprisent l'usage du correcteur d'orthographe. On lui pardonne ses bévues eu égard aux services qu'il rend pour signaler les fautes de frappe et les accords négligés. Or il n'y a pas de correction possible sans analyse préalable. Et la lemmatisation entre nécessairement dans le processus. Les concepteurs de logiciels statistiques ont suivi cette tendance. Ainsi le vieux débat sur la lemmatisation a perdu de sa violence, mais non de son actualité. On tente de montrer ici que les études lexicométriques qui se contentent des formes graphiques gardent leur valeur et que le traitement plus élaboré des données, étiquetées et lemmatisées confirme le plus souvent les résultats acquis à partir des données brutes. Mais l'accès au lemme et aux codes grammaticaux ouvre des champs plus riches à la recherche.. Qu'il s'agisse des fonctions dans la phrase, des parties du discours, ou des temps, des personnes ou des modes verbaux, on explore ici ces perspectives, plus syntaxiques que lexicales, à travers un corpus expérimental de 2 millions de mots, regroupant 26 textes et 13 écrivains et soumis à une nouvelle version du logiciel HYPERBASE.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en