7 juin 2002
info:eu-repo/semantics/OpenAccess
Camille Prime-Claverie et al., « Clusterisation du Web en vue d'extraction de corpus homogènes », HAL-SHS : sciences de l'information, de la communication et des bibliothèques, ID : 10670/1.i9h8dl
Les ressources disponibles sur le Web sont de plus en plus diverses aussi bien d'un point de vue thématique, qu'au niveau de leur type, de leur origine géographique, etc. Cependant, les outils de recherche ne prennent pas en compte cette hétérogénéité et ne proposent qu'un accès par mots-clés aux documents du web. Cet article présente une méthode basée sur les hyperliens, permettant d'extraire du graphe Web des sous-corpus de documents homogènes. L'expérience décrite ici utilise la méthode des co-citations et s'intéresse plus spécialement à la notion de genre (type) de document web.