2020
info:eu-repo/semantics/OpenAccess
Ludovic Tanguy et al., « Les titres des publications scientifiques en français : fouille de texte pour le repérage de schémas lexico-syntaxiques », HAL-SHS : linguistique, ID : 10670/1.p62aoq
Nous présentons dans cet article une première étude basée sur corpus visant à établir un panorama des structures que les auteurs d'articles scientifiques en français emploient pour construire les titres de leurs travaux. Nous nous basons sur un ensemble de 340 000 titres (articles de journaux, actes de conférences, chapitres d'ouvrages) extraits de l'archive ouverte institutionnelle HAL et correspondant à l'ensemble des domaines disponibles. Nous proposons une méthode automatique inductive de fouille de texte qui permet de dégager les schémas les plus productifs à différents niveaux de détails (en choisissant de faire apparaître ou non les éléments lexicaux) comme par exemple « la place de X dans X » ou « X : quel X pour X ? ». Le croisement de ces schémas avec les domaines nous permet, dans un second temps, de mettre au jour des configurations contrastées et propres aux disciplines. Nous montrons également comment des méthodes plus ciblées d'interrogation de corpus permettent d'identifier des familles de titres comme les chiasmes.