Les titres des publications scientifiques en français : fouille de texte pour le repérage de schémas lexico-syntaxiques

Fiche du document

Date

2020

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licence

info:eu-repo/semantics/OpenAccess




Citer ce document

Ludovic Tanguy et al., « Les titres des publications scientifiques en français : fouille de texte pour le repérage de schémas lexico-syntaxiques », HAL-SHS : linguistique, ID : 10670/1.p62aoq


Métriques


Partage / Export

Résumé En Fr

In this paper we study the titles of academic articles in French, and propose an overview of their syntactic structures. We automated the extraction from the HAL institutional open archive and compiled a corpus of more than 340,000 titles of articles, proceedings and chapters from different academic disciplines. We propose an inductive text mining method that allows us to identify the most productive title structures with varying levels of details (by choosing to mask lexical items or not) such as "la place de X dans X" (The place of X in X) or "X: quel X pour X ?" (X: which X for X?). We study the distribution of these structures across disciplines and identify several domain-specific title schemes. We also demonstrate how more focused queries can be run on our corpus in order to extract and analyze titles with more specific linguistic phenomena, such as chiasmus.

Nous présentons dans cet article une première étude basée sur corpus visant à établir un panorama des structures que les auteurs d'articles scientifiques en français emploient pour construire les titres de leurs travaux. Nous nous basons sur un ensemble de 340 000 titres (articles de journaux, actes de conférences, chapitres d'ouvrages) extraits de l'archive ouverte institutionnelle HAL et correspondant à l'ensemble des domaines disponibles. Nous proposons une méthode automatique inductive de fouille de texte qui permet de dégager les schémas les plus productifs à différents niveaux de détails (en choisissant de faire apparaître ou non les éléments lexicaux) comme par exemple « la place de X dans X » ou « X : quel X pour X ? ». Le croisement de ces schémas avec les domaines nous permet, dans un second temps, de mettre au jour des configurations contrastées et propres aux disciplines. Nous montrons également comment des méthodes plus ciblées d'interrogation de corpus permettent d'identifier des familles de titres comme les chiasmes.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en