Quand les textes sont lemmatisés...

Fiche du document

Date

2002

Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess



Sujets proches Fr

Sentier

Citer ce document

Étienne Brunet, « Quand les textes sont lemmatisés... », HAL-SHS : linguistique, ID : 10670/1.odqpwt


Métriques


Partage / Export

Résumé Fr

Le débat sur la lemmatisation a commencé il y a trente ans, à l'époque où Gunnel Engwall entreprenait sa grande enquête sur le « Vocabulaire du roman français (1962–1968) » et où les chercheurs de Saint Cloud contestaient les recommandations de Charles Muller. La querelle est à ce jour apaisée et la guerre de trente ans ne sera pas une guerre de cent ans. Aussi bien des travaux estimables ont été publiés qui suivent l'une ou l'autre option (et parfois les deux). Ceux qui s'en tiennent à la graphie sont sans doute les plus nombreux, non seulement parce que la préparation et le traitement y sont plus aisés, mais aussi parce que les résultats permettent plus facilement la comparaison, l'intervention humaine dans les données étant réduite au minimum. Ceux qui veulent traiter un produit raffiné et s'attachent au lemme (Dominique Labbé est le chef de file de cette cohorte héroïque qui a compté Gunnel Engwall dans ses rangs) s'échelonnent sur le long chemin qui va du réel à l'idéal. Deux obstacles principaux se dressent sur leur chemin, dont l'un tient aux traitements des expressions ou mots composés, l'autre aux homographes.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Exporter en