Mettre en évidence le temps lexical dans un corpus de grandes dimensions : l’exemple des débats du Parlement européen

Fiche du document

Date

7 juin 2016

Discipline
Type de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes




Citer ce document

Sascha Diwersy et al., « Mettre en évidence le temps lexical dans un corpus de grandes dimensions : l’exemple des débats du Parlement européen », HAL-SHS : linguistique, ID : 10670/1.upuxe3


Métriques


Partage / Export

Résumé En Fr

Within the framework of the French school of discourse analysis, two main methods borrowed from multivariate data analysis have been applied to the processing of text corpora: specificity analysis and correspondence analysis. In a complementary perspective, we present a classification technique specially dedicated to corpora ordered according to a chronological variable: variablility-based neighbour clustering (VNC), introduced by Gries & Hilpert (2008; 2012) as a periodisation tool in the area of diachronic corpus linguistics. This classification method is applied to the processing of a large corpus, i.e. the debates in plenary sitting of the European Parliament between 1996 and 2011. As an example, we study the chronological variation of the word civilisation, as it is shown through its collocational stocklist partitioned by year.

L'École française d'analyse du discours a appliqué au traitement des corpus textuels deux principales méthodes empruntées à l'analyse de données multivariée : l'analyse des spécificités lexicales et l'analyse factorielle des correspondances (AFC). Dans une perspective complémentaire, nous présentons un procédé de classification spécifiquement adapté aux corpus ordonnés suivant une variable chronologique : la classification ascendante hiérarchique par contiguïtés (CAHC), introduite par Gries & Hilpert (variablility-based neighbour clustering, 2008 ; 2012) comme outil de périodisation dans le domaine de la linguistique de corpus diachronique. Cette méthode de classification est appliquée au traitement d'un corpus volumineux, celui des interventions en séance plénière au Parlement européen entre 1996 et 2011. A titre d'exemple, nous étudions la variation chronologique concernant l'usage du mot civilisation, tel qu'il se manifeste à travers ses inventaires collocationnels partitionnés par année.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en