Antelope, a NLP platform for extracting meaning from text: theory and applications of the syntax-semantics interface Antelope, une plate-forme de TAL permettant d'extraire les sens du texte : théorie et applications de l'interface syntaxe-sémantique En Fr

Fiche du document

Date

25 septembre 2012

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess



Sujets proches Fr

Antelope Cervicapra

Citer ce document

François-Régis Chaumartin, « Antelope, une plate-forme de TAL permettant d'extraire les sens du texte : théorie et applications de l'interface syntaxe-sémantique », HAL-SHS : linguistique, ID : 10670/1.tfw448


Métriques


Partage / Export

Résumé En Fr

This is not an easy task to quickly design a semantic parser dedicated to a particular task. Indeed, analysis components and linguistic resources are often defined with mutually incompatible formats, which make their assembly complex. We wish to bring an operational response to this problem with the Antelope linguistic platform, whose design and implementation principles are described in this thesis. Inspired by the Meaning-Text Theory (MTT), Antelope targets a robust syntactic and semantic parsing of texts, and can handle large corpora; its goal is to enable deep understanding of various kinds of text: consumer reviews, articles from encyclopedia, HR documents, newspaper articles... To achieve this goal, Antelope integrates (i) several ready-to-use components, addressing the most common NLP tasks, which interact within a unified text analysis model; (ii) a broad-coverage multilingual semantic lexicon compiled from various sources. An integration effort of all these components provides a robust and homogeneous platform, with a syntax-semantics interface. The thesis presents the platform and compares it with other state-of-the-art projects; it highlights the best practices that should be taken to ensure that such complex software remains maintainable; it also introduces a semi-supervised approach for large-scale knowledge acquisition.

Créer rapidement un analyseur sémantique dédié à une tâche particulière n'est pas une tâche aisée. En effet, composants d'analyse et ressources linguistiques sont souvent définis avec des formats incompatibles entre eux, ce qui en rend l'assemblage complexe. Nous souhaitons apporter une réponse opérationnelle à ce problème avec la plate-forme de traitement linguistique Antelope, dont cette thèse décrit les principes de conception et de réalisation. En partie basée sur la Théorie Sens-Texte (TST), Antelope permet une analyse syntaxique et sémantique de corpus de volume important ; son objectif est de " rendre calculable " du texte tout-venant : avis de consommateurs, textes encyclopédiques, documents RH, articles de presse... Pour cela, Antelope intègre (i) plusieurs composants prêts à l'emploi, couvrant les principales tâches de TAL, qui interagissent au sein d'un modèle de données linguistiques unifié ; (ii) un lexique sémantique multilingue à large couverture constitué à partir de différentes sources. Un effort d'intégration permet d'offrir une plate-forme robuste et homogène ; l'ensemble constitue une interface syntaxe-sémantique opérationnelle. La thèse présente la plate-forme et la compare à d'autres projets de référence ; elle souligne les bonnes pratiques à prendre en termes d'architecture logicielle pour qu'un tel ensemble complexe reste maintenable ; elle introduit aussi une démarche semi-supervisée d'acquisition de connaissances à large échelle.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en