Segments répétés et analyse statistique des données textuelles

Fiche du document

Auteur
Date

1986

Discipline
Type de document
Périmètre
Langue
Identifiant
Collection

Persée

Organisation

MESR

Licence

Copyright PERSEE 2003-2023. Works reproduced on the PERSEE website are protected by the general rules of the Code of Intellectual Property. For strictly private, scientific or teaching purposes excluding all commercial use, reproduction and communication to the public of this document is permitted on condition that its origin and copyright are clearly mentionned.



Citer ce document

André Salem, « Segments répétés et analyse statistique des données textuelles », Histoire & Mesure, ID : 10.3406/hism.1986.1518


Métriques


Partage / Export

Résumé En Fr

André Salem. Recurrent Segments and the Statistical Analysis of Text Data. The recurrent segment method is used to detect the number of units composed of several elements repeated in the same order in different locations within the corpus of the text under analysis. Some of these units reoccur with great frequency. The analysis of recurrent segments in terms of location frequency involves the same statistical methods used to analyze the distribution of single elements. The findings based on the elements are then completed by data of the same type calculated for the segments. Certain segments studied are composed of elements regularly distributed throughout the corpus of the text. In these cases, it is clear that the recurrent segments must be directly indexed. Finally, typologies derived from recurrent segments can be applied directly to the study of .the evolution in the «segmentai» stock throughout the corpus. These findings are interesting insofar as they complete those obtained from the study of single elements.

André Salem. Segments répétés et analyse statistique des données textuelles. La méthode des segments répétés permet de repérer dans les textes que l'on analyse de nombreuses unités composées de plusieurs formes répétées dans le même ordre à différents endroits du corpus. Certaines de ces unités s'avèrent être fortement récurrentes. L'analyse des voisinages récurrents permet d'appliquer aux segments répétés les méthodes statistiques utilisées pour analyser la distribution des formes simples. Les résultats obtenus sur les formes sont alors complétés par des données du même ordre calculées à partir des segments. Certains segments mis en évidence sont composés de formes dont la distribution dans le corpus est très régulière. Pour ces associations l'indexation directe des segments répétés se révèle donc indispensable. Enfin des typologies obtenues à partir des segments répétés permettent d'étudier directement l'évolution du stock « segmentai » au fil du corpus. Ces résultats, complètent, de manière intéressante, ceux qu'on obtient à partir des formes simples.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en