2004
Cairn
Jérémy Clech et al., « Une technique de réétiquetage dans un contexte de catégorisation de textes », Document numérique, ID : 10670/1.s1uaed
Par essence, l’apprentissage supervisé nécessite que chaque individu de l’ensemble d’apprentissage soit préalablement étiqueté. Dans un contexte de catégorisation de textes, l’étiquetage consiste à affecter les catégories d’appartenance d’un document. Cette opération est réalisée par un expert et peut être perçue comme subjective puisque basée sur l’interprétation du document. Ainsi, l’étiquetage peut être considéré comme inconsistant dans certain cas. Par exemple, deux experts peuvent étiqueter différemment un même document, ou encore un même expert peut étiqueter différemment un même document soumis à deux instants différents. Cette inconsistance peut affecter l’efficacité du classifieur. Pour atténuer ces inconvénients, nous considérons que certains individus de l’ensemble d’apprentissage sont mal étiquetés et doivent être réétiquetés. Dans cet article, nous utilisons une méthode de relaxation afin d’optimiser la cohérence de l’étiquetage. Nous appliquons cette technique sur un corpus bien connu dans la communauté de la catégorisation de textes: la collection Reuters-21578 ApteMod. Nous montrons sur ces données que ce type de prétraitement apporte de large bénéfices.