Gallicagram : les archives de presse sous les rotatives de la statistique textuelle

Fiche du document

Date

7 février 2023

Discipline
Type de document
Périmètre
Langue
Identifiant
Source

Corpus

Relations

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1638-9808

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1765-3126

Organisation

OpenEdition

Licences

All rights reserved , info:eu-repo/semantics/openAccess


Résumé Fr En

Gallicagram est un nouvel outil de lexicométrie, fondé notamment sur les archives océrisées de la Bibliothèque nationale de France et sur celles du journal Le Monde ; il dénombre dans le corpus choisi et pour une période donnée les occurrences d’un mot ou d’un syntagme, et offre différents modes de visualisation des données obtenues. Ce logiciel mérite à plusieurs titres d’être investi par les chercheurs : outre le volume des données qu’il exploite, suffisant pour fonder des analyses lexicométriques depuis le XVIIe siècle jusqu’à nos jours, Gallicagram a sur son concurrent immédiat, Ngram Viewer, l’avantage d’une transparence très supérieure et d’une structure plus constante au cours du temps. L’article présente Gallibase, son extension qui lui applique les outils de la statistique textuelle – en particulier les analyses factorielles et arborées. Il illustre son potentiel et insiste sur l’intérêt spécifique des corpus de presse, qui permettent des études sur périodes courtes.

Gallicagram is a lexicometry tool, based primarily on the archives of the French National Library and those of Le Monde newspaper. It counts the occurrences of a word and syntagma for a chosen corpus and a given period and offers several visualization options of the resulting data. For researchers, this software offers several assets: a large enough volume of data sufficient for lexicometric analysis from 1600 to present; transparency, which its competitor Ngram Viewer notably lacks; and a more constant structure throughout time. This article presents Gallibase, its extension which applies the tools of textual statistics, in particular factor analysis and tree clustering. It illustrates its potential and insists on the value of press corpora, which allows for the study of short periods.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en