Classification de flux de documents évolutifs avec apprentissage de classes inconnues

Mohamed-Rafik Bouguelia et al., « Classification de flux de documents évolutifs avec apprentissage de classes inconnues », Document numérique, ID : 10670/1.nlux2l

Partage / Export

Résumé Fr En

Dans cet article, on propose un algorithme semi-supervisé actif pour la classification de flux continu de documents. Cet algorithme, basé sur une méthode adaptative d’apprentissage non supervisé, permet de repérer les documents les plus informatifs à l’aide d’une mesure d’incertitude pour demander leur étiquette à un opérateur. Il construit et maintient un modèle sous forme d’un graphe à topologie dynamique dont les nœuds sont des représentants de documents étiquetés, formant ce qu’on appelle l’"espace couvert par les classes connues". Il permet de détecter automatiquement les nouvelles classes apparaissant dans le flux. Un document est identifié comme membre d’une nouvelle classe ou d’une classe connue, selon qu’il se trouve à l’extérieur ou à l’intérieur de l’espace couvert par les classes connues. Les expérimentations effectuées sur des ensembles de documents réels montrent que la méthode nécessite peu de documents à étiqueter et qu’elle atteint des performances comparables aux méthodes supervisées qui sont entraînées sur des ensembles de documents présents en mémoire et entièrement étiquetés.

Classification de flux de documents évolutifs avec apprentissage de classes inconnues

Fiche du document

Mots-clés Fr En

Sujets proches En Fr

Citer ce document

Métriques

Partage / Export

Résumé Fr En

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en