Nouvelles perspectives en extraction d'information

Fiche du document



Type de document

Archives ouvertes



Citer ce document

Michel Dupont et al., « Nouvelles perspectives en extraction d'information », HAL-SHS : sciences de l'information, de la communication et des bibliothèques, ID : 10670/1.qbng7j


Partage / Export

Résumé En Fr

The aim of Information Extraction (IE) consists in recognizing and extracting a specific set of information from a corpus of texts, and structuring it in a predefined format. IE has fostered an increasing interest in the last decade, and is likely to lead to industrial applications in a close future. After a short presentation of the principles of the technology, this paper describes researches performed by our group. An operational system, designed for analysis of car crash reports is presented. Then we show how IE techniques can be used in new tasks of document processing: semantic encoding, reading assistance, composite document structuring. Finally we present some work in semantics aimed to improve the performances of nowadays systems.

L'extraction d'information (EI) est une technologie visant à reconnaître dans un corpus de documents textuels un ensemble d'informations spécifiques, à les extraire et à les structurer dans un format prédéfini. L'EI a connu un essor considérable ces dix dernières années et devrait conduire à des applications industrielles dans un avenir proche. Après une présentation des principes de cette technologie, cet article décrit les travaux menés dans notre groupe sur ce thème. Un système opérationnel, ayant permis d'analyser un corpus de constats d'accidents y est présenté. Nous montrons ensuite comment les techniques de l'EI peuvent être exploitées pour de nouvelles tâches de l'informatique documentaire : encodage sémantique, aide à la lecture, structuration de documents composites. Enfin nous présentons des travaux en sémantique susceptibles d'améliorer les performances des systèmes actuels.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Exporter en