Clusterisation du Web en vue d'extraction de corpus homogènes

Camille Prime-Claverie et al., « Clusterisation du Web en vue d'extraction de corpus homogènes », HAL-SHS : sciences de l'information, de la communication et des bibliothèques, ID : 10670/1.i9h8dl

Partage / Export

Résumé En Fr

Les ressources disponibles sur le Web sont de plus en plus diverses aussi bien d'un point de vue thématique, qu'au niveau de leur type, de leur origine géographique, etc. Cependant, les outils de recherche ne prennent pas en compte cette hétérogénéité et ne proposent qu'un accès par mots-clés aux documents du web. Cet article présente une méthode basée sur les hyperliens, permettant d'extraire du graphe Web des sous-corpus de documents homogènes. L'expérience décrite ici utilise la méthode des co-citations et s'intéresse plus spécialement à la notion de genre (type) de document web.

Clusterisation du Web en vue d'extraction de corpus homogènes

Fiche du document

Mots-clés En Fr

Sujets proches En Es Fr

Citer ce document

Métriques

Partage / Export

Résumé En Fr

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en