2011
Cairn
Stéphane Clinchant et al., « Modèles de RI fondés sur l'information », Document numérique, ID : 10670/1.4ljfdc
Nous présentons dans cet article une vue analytique des contraintes heuristiques récemment proposées pour les fonctions d’ordonnancement (retrieval function). Ces caractérisations permettent ainsi de tester simplement si un modèle de recherche d’information (RI) respecte ces contraintes ou non. De plus, nous examinons un certain nombre de résultats empiriques sur les distributions de fréquences de mots et le rôle central joué par le phénomène de rafale, pour lequel nous proposons une définition formelle. Nous introduisons ensuite une nouvelle famille de modèles probabilistes pour la RI, fondée sur la notion d’information. Lorsque la loi de probabilité sous-jacente est capable de modéliser le phénomène de rafale, alors le modèle devient naturellement valide au sens des contraintes heuristiques. Les distributions log-logistique et SPL sont présentées dans ce contexte et les expériences, menées sur trois collections différentes, illustrent le comportement adéquat de ces modèles ; ils surpassent Okapi BM25 et les modèles de langues, avec lissage de Jelinek-Mercer ou de Dirichlet, à la fois pour la précision moyenne et la précision en tête de liste, et fournissent des résultats similaires aux modèles DFR (Divergence from Randomness) tout en les simplifiant.