Hétérogénéité et extraction d'information factuelle dans un corpus de récits de voyage

Fiche du document

Date

1 septembre 2012

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess




Citer ce document

Anaïs Lefeuvre et al., « Hétérogénéité et extraction d'information factuelle dans un corpus de récits de voyage », HAL-SHS : linguistique, ID : 10670/1.7velco


Métriques


Partage / Export

Résumé En Fr

The information extraction task requires a good knowledge of the object to be extracted. In this work we explore the behavior of textual sequences describing the itinerary within the travel writing. Travel novel is a specific genre that is recognized to be heterogeneous, so we analyze its heterogeneity in order to discriminate homogeneous sequences, one of which being the itinerary description. Our analysis holds on different discourse levels, it allows us to get an overview of itinerary behavior through the narration. In order to automatize the extraction of itineraries, we use different tools, each one being perfectly adapted to the discourse level in question. Our theoretical framework at the semantic representation level, the SDRT (Segmented Discourse Representation Theory), complies with such kind of analysis, as we see in the course of this work. This study makes us understand the itinerary sequences behavior, leading us to enrich our extraction method to cope with heterogeneity of the discourse units dedicated to the itinerary.

L'extraction d'information nécessite une connaissance des objets à extraire. Nous cherchons dans ce travail à décrire le comportement des séquences textuelles présentant l'itinéraire au sein du récit de voyage. Le récit de voyage est reconnu comme genre hétérogène, nous analysons donc cette hétérogénéité afin de pouvoir reconnaître les séquences homogènes, dont la description d'itinéraire fait partie. Nous menons notre analyse à plusieurs niveaux discursifs, ce qui nous permet d'avoir une vision globale du comportement de notre objet d'étude, l'itinéraire, et du contexte dans lequel il apparaît. Dans la perspective de l'extraction automatique d'itinéraire, nous utilisons de nombreux outils, chacun adapté au mieux au niveau d'analyse traité. En nous appuyant sur le cadre théorique de la SRDT (Segmented Discourse Representation Theory), dont nous montrons l'adéquation à l'étude, nous approchons le fonctionnement des descriptions des itinéraires, nous poussant à enrichir la méthode d'extraction afin de gérer l'hétérogénéité des unités discursives dans lesquels l'itinéraire est énoncé.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en