From Words to Texts: Semantic Analysis for Information Access Des mots aux textes. Analyse sémantique pour l'accès à l'information En Fr

Metadatas

Date

November 26, 2008

Discipline
types
Language
Identifiers

Keywords

Semantics Natural Language Processing Information Extraction Semantic Web Sémantique Traitement automatique Extraction d'Information Web Sémantique -Computer Interaction [cs.HC]


Cite this document

Thierry Poibeau, « From Words to Texts: Semantic Analysis for Information Access », Le serveur TEL (thèses-en-ligne), ID : 10670/1.oomcn8


Metrics


Share / Export

Abstract En Fr

Why is it so difficult to automatically understand a language even when what is targeted is only a limited kind of understanding, based on known facts? A key reason is the great variability in language, which is too challenging for a computer. This is the problem I try to tackle: how to identify similar meanings among different expressions? How to identify fragments of meaning in a sea of texts? This thesis consists of four chapters. I first consider recent developments in computational linguistics: I show that the availability of large corpora has resulted in more functional Natural Language Processing (NLP). This evolution carries the potential of a major impact on theory: corpora and automatic acquisition of knowledge from corpora (especially using machine learning techniques) makes it possible to get semantics based on language use. Each of the next three chapters deals with a different level of analysis (lexical semantics for semantic annotation, predicative semantics for relation extraction, and text semantics for technical document modelling). I suggest the idea of a continuum between these levels, since they all share fundamental similarities that affect the techniques used. I emphasize, in the conclusion, the similarities between these three different levels: the complex problem of the relations between words and concepts, the fuzziness of linguistic categories, the great variability of language. I conclude with a discussion on the relationship between NLP and linguistics, before proposing future research through alternative routes.

Pourquoi est-il si difficile de comprendre une langue de manière automatique, même si on ne vise qu'une compréhension limitée, factuelle et orientée vers des faits connus ? La langue, telle qu'elle s'offre à nous, semble trop malléable pour être directement appréhendable par ordinateur. C'est pourtant à ce problème que je me suis intéressé : comment identifier du semblable dans des productions langagières si variées, comment repérer des fragments de signification au milieu d'un océan de textes ? Ce mémoire se compose de quatre chapitres. Je reviens au sein du chapitre 1 sur certains développements récents de la linguistique informatique, pour montrer que la disponibilité de gros corpus a entraîné une forte opérationnalisation du domaine. Cette évolution n'est pas neutre théoriquement : l'apport des corpus et des techniques d'acquisition dynamique de connaissances (notamment par les techniques d'apprentissage) rend tout à fait plausible l'idée d'une sémantique fondée sur l'usage. Les trois chapitres suivants portent chacun sur un niveau d'analyse différent (niveau lexical pour l'annotation sémantique, niveau prédicatif pour l'extraction de relations, niveau textuel pour la modélisation de documents spécialisés). Je défends l'idée d'un continuum entre ces niveaux, du fait notamment que tous partagent des similarités fondamentales, ce qui peut se manifester parfois de manière très visible et influer sur les techniques utilisées. Le chapitre 2 traite du niveau lexical (microsémantique), essentiellement à travers l'analyse des « entités nommées » : ce type de séquences comprend notamment les noms propres, qui sont des éléments essentiels pour une prise de connaissance rapide du contenu des documents. Ces séquences, et plus particulièrement les noms propres, ont été largement étudiées dans le cadre des approches logiques ; mon travail se situe dans un cadre en partie hérité de cette tradition : celui-ci offre bien des avantages applicatifs mais les noms propres, comme le vocabulaire courant, sont soumis aux mêmes phénomènes de variation et de brouillage de sens, du fait des tropes notamment. Le chapitre 3 traite essentiellement des relations prédicatives (mésosémantique) : le repérage de ces séquences est essentiel pour les systèmes d'extraction d'information et de questions-réponses. Ces applications reposent en effet sur la mise en correspondance d'entités autour d'un prédicat. Je détaille différentes techniques permettant d'acquérir automatiquement ces structures à partir de corpus (classes sémantiques, cadres de sous-catégorisation et restrictions de sélection). Je montre que ces catégories sont floues et que les analyses à partir de corpus remettent en cause certaines classifications de la grammaire traditionnelle. Le chapitre 4 traite du contenu et de la structure de textes complexes, essentiellement techniques (macrosémantique). Le texte forme un tout cohérent, marqué par un ensemble de séquences (ou périodes) liées entre elles ; cette architecture textuelle est normée et elle est significative pour la compréhension globale. J'essaie d'étendre ce travail sur l'architecture textuelle à des ensembles de textes cohérents, afin d'aboutir à une typologie. Je montre là aussi le flou et la difficulté à définir des typologies cohérentes et, surtout, fondées linguistiquement. Je reviens, dans la conclusion, sur les similitudes observées entre ces différents paliers : la question de la relation entre mots et concepts, les bords flous des catégories envisagées, leur grande variabilité sur le plan linguistique. Je m'interroge sur le lien entre traitement automatique des langues (TAL) et linguistique, avant de proposer quelques perspectives permettant de poursuivre ce travail par d'autres chemins.

From the same authors

On the same subjects

Within the same disciplines