Interprétation vague des contraintes structurelles pour la RI dans des corpus de documents XML : Évaluation d'une méthode approchée de RI structurée

Fiche du document

Date

2007

Type de document
Périmètre
Langue
Identifiant
Collection

Cairn.info

Organisation

Cairn

Licence

Cairn




Citer ce document

Eugen Popovici et al., « Interprétation vague des contraintes structurelles pour la RI dans des corpus de documents XML : Évaluation d'une méthode approchée de RI structurée », Document numérique, ID : 10670/1.l5kvyk


Métriques


Partage / Export

Résumé Fr En

Nous proposons des algorithmes dédiés à l’indexation et à la recherche approximative d’information dans les bases de données hétérogènes semi-structurées XML. Le modèle d’indexation proposé est adapté à la recherche de contenu textuel dans les contextes XML définis par les structures d’arbres. Les mécanismes de recherche approchée mis en œuvre s’appuient sur une distance de Levenshtein modifiée et des heuristiques de fusion d’information. Une implémentation exploitant simultanément l’information structurée, i.e. l’arborescence des éléments XML, et le contenu des documents indexés est décrite. Les performances obtenues dans le cadre de la campagne d’évaluation INEX 2005 sont présentées et analysées. Celles-ci positionnent l’approche proposée parmi les meilleurs systèmes évalués, sur la tâche de recherche approximative de contenu en contexte structurel vague.

We propose specific data structures designed to the indexing and retrieval of information elements in heterogeneous XML data bases. The indexing scheme is well suited to the management of various contextual searches, expressed either at a structural level or at an information content level. The approximate search mechanisms are based on a modified Levenshtein editing distance and information fusion heuristics. The implementation described highlights the mixing of structured information presented as field/value instances and free text elements. The retrieval performances of the proposed approach are evaluated within the INEX 2005 evaluation campaign. The evaluation results rank the proposed approach among the best evaluated XML IR systems for the VVCAS task.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en