2002
info:eu-repo/semantics/OpenAccess
Michel Dupont et al., « Nouvelles perspectives en extraction d'information », HAL-SHS : linguistique, ID : 10670/1.sgp29k
L'extraction d'information (EI) est une technologie visant à reconnaître dans un corpus de documents textuels un ensemble d'informations spécifiques, à les extraire et à les structurer dans un format prédéfini. L'EI a connu un essor considérable ces dix dernières années et devrait conduire à des applications industrielles dans un avenir proche. Après une présentation des principes de cette technologie, cet article décrit les travaux menés dans notre groupe sur ce thème. Un système opérationnel, ayant permis d'analyser un corpus de constats d'accidents y est présenté. Nous montrons ensuite comment les techniques de l'EI peuvent être exploitées pour de nouvelles tâches de l'informatique documentaire : encodage sémantique, aide à la lecture, structuration de documents composites. Enfin nous présentons des travaux en sémantique susceptibles d'améliorer les performances des systèmes actuels.