Modèles de RI fondés sur l'information

Résumé Fr En

Nous présentons dans cet article une vue analytique des contraintes heuristiques récemment proposées pour les fonctions d’ordonnancement (retrieval function). Ces caractérisations permettent ainsi de tester simplement si un modèle de recherche d’information (RI) respecte ces contraintes ou non. De plus, nous examinons un certain nombre de résultats empiriques sur les distributions de fréquences de mots et le rôle central joué par le phénomène de rafale, pour lequel nous proposons une définition formelle. Nous introduisons ensuite une nouvelle famille de modèles probabilistes pour la RI, fondée sur la notion d’information. Lorsque la loi de probabilité sous-jacente est capable de modéliser le phénomène de rafale, alors le modèle devient naturellement valide au sens des contraintes heuristiques. Les distributions log-logistique et SPL sont présentées dans ce contexte et les expériences, menées sur trois collections différentes, illustrent le comportement adéquat de ces modèles ; ils surpassent Okapi BM25 et les modèles de langues, avec lissage de Jelinek-Mercer ou de Dirichlet, à la fois pour la précision moyenne et la précision en tête de liste, et fournissent des résultats similaires aux modèles DFR (Divergence from Randomness) tout en les simplifiant.

We first present in this paper an analytical view of heuristic retrieval constraints which yields simple tests to determine whether a retrieval function satisfies the constraints or not. We then review empirical findings on word frequency distributions and the central role played by burstiness in this context. This leads us to propose a formal definition of burstiness which can be used to characterize probability distributions wrt this phenomenon. We then introduce the family of information-based IR models which naturally captures heuristic retrieval constraints when the underlying probability distribution is bursty. The experiments we conduct on three different collections illustrate the good behavior of the information-based IR models.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en