Apprentissage d'un ensemble pré-structuré de concepts d'un domaine : l'outil Galex

acquisition de connaissances analyse de corpus analyse de données apprentissage de concepts clustering de termes fouille de texte ontologie text-mining

Sujets proches Fr

Information de presse Nouvelles (journalisme) Informations

Citer ce document

Nicolas Turenne, « Apprentissage d'un ensemble pré-structuré de concepts d'un domaine : l'outil Galex », Mathématiques et sciences humaines, ID : 10.4000/msh.2788

Partage / Export

Résumé En Fr

La quantité d'information textuelle augmente de façon exponentielle aussi bien comme archives que documents de travail dans les organisations académiques, dans les administrations et dans les entreprises. Une solution pour structurer cette montagne de données textuelles est de construire un modèle de connaissances pour indexer cette information. L'acquisition de connaissances doit permettre d'extraire et classifier les données pour aboutir à une indexation conceptuelle. Traditionnellement les méthodes de classification d'analyse de données étaient adaptées pour des tables classiques de données de la forme objet/attribut/valeur. Nous présentons Galex (Graph Analyzer for LEXicometry) qui développe une structuration de la connaissance grâce à une méthode de clustering de termes. Cette structuration a pour but de synthétiser le contenu d'information présentant un intérêt majeur dans des applications de filtrage d'information ou de navigation hypertextuelle sur des documents similaires. Galex prend en compte la nature des données sur lesquelles il s'applique : le langage naturel. La complexité du langage naturel est bien connue : ambiguïté de sens, constructions grammaticales multiples de la phrase, style, création de termesá Nous montrons qu'à travers l'intégration de notions mal définies mais utiles telles que "concept", "ontologie" et "corpus", le clustering peut être amélioré par adjonctions de connaissances linguistiques. Nous basons notre approche sur des phénomènes typiques tels que des relations graphe-statistiques entre termes, des relations de schéma dans un contexte et la réduction canonique de formes variantes.

Apprentissage d'un ensemble pré-structuré de concepts d'un domaine : l'outil Galex

Fiche du document

Mots-clés Fr En

Sujets proches Fr

Citer ce document

Métriques

Partage / Export

Résumé En Fr

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en