Apprentissage d'un espace de concepts de mots pour une nouvelle représentation des données textuelles

Fiche du document

Date

2010

Type de document
Périmètre
Langue
Identifiant
Collection

Cairn.info

Organisation

Cairn

Licence

Cairn




Citer ce document

Young-Min Kim et al., « Apprentissage d'un espace de concepts de mots pour une nouvelle représentation des données textuelles », Document numérique, ID : 10670/1.a8f438


Métriques


Partage / Export

Résumé Fr En

Dans cet article nous proposons une technique à base d’apprentissage non supervisé pour la réduction de dimension des données textuelles. Cette technique est basée sur l’hypothèse que les termes co-occurrant dans les mêmes documents avec les mêmes fréquences sont sémantiquement proches. Suivant cette hypothèse les termes sont d’abord regroupés avec une version classifiante de l’algorithme EM (CEM). Les documents sont ensuite représentés dans l’espace de ces groupes de termes. Nous généralisons cette approche en étendant l’algorithme PLSA pour un partitionnement simultané des termes et des documents. Nous montrons dans une dernière étape la validité de notre approche en comparant le résultat de ce clustering avec ceux obtenus dans l’espace sac de mots initial et l’espace des groupes de mots induit par l’algorithme PLSA sur les trois collections de documents Reuters, 20newsgroups et WebKB.

In this paper, we present an unsupervised learning technique for dimensionality reduction of textual data. This approach is based on the assumption that terms co-occuring in the same context with the same frequency are semantically related. We hence find term clusters using a classifiant version of the EM algorithm (CEM) and documents are then represented in the space of these term clusters. We then generalize this approach by extending the PLSA model for a simulataneous clustering of documents and terms. We evaluate our techniques on the task of document clustering and show the effectiveness of our approach on three standard classification collections of Reuters, 20News groups and WebKB.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en