Aide à l'expertise des brevets par alignement avec les publications scientifiques

Fiche du document

Date

2013

Type de document
Périmètre
Langue
Identifiant
Collection

Cairn.info

Organisation

Cairn

Licence

Cairn




Citer ce document

Kafil Hajlaoui et al., « Aide à l'expertise des brevets par alignement avec les publications scientifiques », Document numérique, ID : 10670/1.tpj771


Métriques


Partage / Export

Résumé Fr En

Ce travail s’inscrit dans le cadre du programme de recherche QUAERO1, un vaste projet de recherche et d’innovation se rapportant au traitement automatique de contenus multimédias et multilingues. Cet article propose une méthode de classification automatique d’articles dans un plan de classement international de brevets relevant du même domaine. La finalité applicative de ce travail est une aide aux experts dans le processus d’évaluation de l’originalité et de la nouveauté d’un brevet, en proposant les citations scientifiques les plus pertinentes. Ce sujet soulève de nouveaux défis en catégorisation liés au fait que le plan de classement des brevets n’est pas directement adapté à la structure des documents scientifiques et que la répartition des exemples disponibles n’est pas nécessairement équilibrée entre les différentes classes d’apprentissage. Nous proposons d’appliquer une amélioration de l’algorithme des K-plus-proches-voisins (K-PPV) se basant sur l’exploitation des règles d’associations entre les termes descripteurs des documents et ceux des classes de brevets. En utilisant conjointement comme référentiels une base de brevets du domaine de la pharmacologie et une base bibliographique du même domaine issue de la collection Medline, nous montrons que cette nouvelle technique de catégorisation, qui combine les avantages des approches numériques et ceux des approches symboliques, permet d’améliorer sensiblement les performances de catégorisation, relativement aux méthodes de catégorisation usuelles, dans le cas du problème posé.

This paper focuses on a subtask of the QUAERO1 research program, a major innovating research project related to the automatic processing of multimedia and multilingual content. The objective discussed in this article is to propose a new method for the classification of scientific papers, developed in the context of an international classification plan of patents related to the same field. The practical purpose of this work is to provide an assistance tool to experts in their task of evaluation of the originality and novelty of a patent, by offering to the latter the most relevant scientific citations. This issue raises new challenges in categorization research as the patent classification plan is not directly adapted to the structure of scientific documents and that there is not always a balanced distribution of the available examples within the different learning classes. We propose, as a solution to this problem, to apply an improved K-nearest-neighbors (KNN) algorithm based on the exploitation of association rules occurring between the index terms of the documents and the ones of the patent classes. By using a reference dataset of patents belonging to the field of pharmacology, on the one hand, and a bibliographic dataset of the same field issued from the Medline collection, on the other hand, we show that this new approach, which combines the advantages of both numerical and symbolical approaches, improves considerably categorization performance, as compared to the usual categorization methods.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en