Similarité de second ordre pour l'exploration de bases textuelles multilingues

Nikola Tulechki et al., « Similarité de second ordre pour l'exploration de bases textuelles multilingues », HAL SHS (Sciences de l’Homme et de la Société), ID : 10670/1.b1b27f...

Partage / Export

Résumé En Fr

Cet article décrit l'utilisation de la technique de similarité de second ordre pour l'identification de textes semblables au sein d'une base de rapports d'incidents aéronautiques mélangeant les langues française et anglaise. L'objectif du système est, pour un document donné, de retrouver des documents au contenu similaire quelle que soit leur langue. Nous utilisons un corpus bilingue aligné de rapports d'accidents aéronautiques pour construire des paires de pivots et indexons les documents avec des vecteurs de similarités, tels que chaque coordonnée correspond au score de similarité entre un document dans une langue donnée et la partie du pivot de la même langue. Nous évaluons les performances du système sur un volumineux corpus de rapports d'incidents aéronautiques pour lesquels nous disposons de traductions. Les résultats sont prometteurs et valident la technique.

Similarité de second ordre pour l'exploration de bases textuelles multilingues

Fiche du document

Mots-clés En Fr

Sujets proches En Fr

Citer ce document

Métriques

Partage / Export

Résumé En Fr

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines