XML-based Analysis of Early 20th-Century Russian State Duma Verbatims

Fiche du document


10 mars 2020

Type de document



Ce document est lié à :

Ce document est lié à :




info:eu-repo/semantics/openAccess , All rights reserved

Citer ce document

Nadezhda Povroznik, « XML-based Analysis of Early 20th-Century Russian State Duma Verbatims », ILCEA, ID : 10.4000/ilcea.9338


Partage / Export

Résumé En Fr Ru

The study is devoted to the analysis of the documentation of the State Duma of the Russian Empire (1906–1917), which had legitimately limited the power of the monarch. The methodological basis of the research is the creation of a corpus of texts based on personal alphabetic indexes to the verbatim reports of the I-IV State Duma, the marking up of texts based on the developed XML markup scheme and analysis of changes in the structure of sources based on the analysis of tags distribution. The total volume of the created corpus of texts is 749,793 words. The markup scheme reflects the structure of indexes and includes metadata of the source, personal characteristics of the deputies and tags related to the parliamentary activities of the deputies. This article examines the structure of indexes and its sessional difference based on the matrix representation of data. Analysis of the markup data shows that the structure of personal indexes to the verbatim reports has undergone significant changes during their publication between 1906-1917. Differences in the structure of indexes exist between Dumas and in the structure of documents of a single volume among sessions. Initially, the indexes contained additional information about the election processes, which were neglected in the upcoming documents. The social characteristics of the deputies were also not published in the same form and represented different data sets depending on the Duma, and also differed in completeness and information. The research methodology has shown its effectiveness in studying the dynamics of the source structure, and data extraction for the subsequent studying of activity of deputies on the basis of mathematical methods

Cette étude est consacrée à l'analyse de la documentation de la Douma d'État de l'Empire russe (1906-1917), qui avait légitimement limité le pouvoir du monarque. La base méthodologique de cette recherche repose sur la création d'un corpus de textes basé sur les index alphabétiques personnels des comptes rendus in extenso de la Douma d'État I-IV, sur un balisage de textes basé sur le schéma XML développé et sur l'analyse de changements dans la structure des sources basée sur l’étude de la distribution d’étiquettes.Le volume total du corpus de textes ainsi créé est de 749 793 mots. Le système de balisage reflète la structure des index et comprend des métadonnées sur la source, les caractéristiques personnelles des députés et des balises liées aux activités parlementaires de ces derniers. Cet article examine la structure des indices et sa différence sessionnelle en fonction de la représentation matricielle des données. L'analyse des données de balisage montre que la structure des index personnels des procès-verbaux de séance a subi d'importants changements au cours de leur publication entre 1906 et 1917. Il existe des différences dans la structure des index entre Dumas et dans la structure des documents d'un même volume d'une session à l'autre. Au départ, les index contenaient des informations supplémentaires sur les processus électoraux, qui ont été négligées dans les documents à venir. Les caractéristiques sociales des députés n'ont pas non plus été publiées sous la même forme et représentaient des ensembles de données différents selon la Douma, et différaient également par leur exhaustivité et leur information. La méthodologie de recherche a démontré son efficacité dans l'étude de la dynamique de la structure source, et dans l'extraction de données pour l'étude ultérieure de l'activité des députés sur la base de méthodes mathématiques.

Исследование посвящено анализу документации Государственной Думы Российской Империи (1906-1917), нового органа, законодательным образом ограничившего власть монарха. Методологической основой исследования стало создание корпуса текстов на основе указателей к стенографическим отчетам Государственной Думы I-IV созывов, разметка корпуса текстов на основе специально разработанной схемы XML-разметки и анализ изменений в структуре источника на основе анализа появления и распределения тэгов. Полный объем созданного корпуса тестов составил 749 793 слов. Схема разметки отражает структуру указателей и содержит метаданные источника, личные характеристики депутатов, а также систему тэгов об их парламентской активности. В данной статье проанализирована структура указателей, ее посессионное изменение. Изучение динамики структурных изменений источника основывается на анализе созданной матрицы данных, сформированной на основе распределения тегов. Анализ матрицы показал, что структура личных алфавитных указателей претерпела значительное изменение за время их публикации в 1906–1917 гг. Различия в структуре указателей присутствуют как в томах разных созывов Думы, так и в томах разных сессий одного созыва. Изначально указатели содержали дополнительную информацию о процессе выборов, затем были исключены из отображения в томах последующих созывов. Социальные характеристики депутатов также не публиковались в одинаковом объеме и представляли разные наборы данных с разной степенью полноты информации, которая варьируется в указателях разных созывов. Использованная исследовательская методология показала свою эффективность в изучении динамики структуры источника.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en