XML-based Analysis of Early 20th-Century Russian State Duma Verbatims

Cette étude est consacrée à l'analyse de la documentation de la Douma d'État de l'Empire russe (1906-1917), qui avait légitimement limité le pouvoir du monarque. La base méthodologique de cette recherche repose sur la création d'un corpus de textes basé sur les index alphabétiques personnels des comptes rendus in extenso de la Douma d'État I-IV, sur un balisage de textes basé sur le schéma XML développé et sur l'analyse de changements dans la structure des sources basée sur l’étude de la distribution d’étiquettes.Le volume total du corpus de textes ainsi créé est de 749 793 mots. Le système de balisage reflète la structure des index et comprend des métadonnées sur la source, les caractéristiques personnelles des députés et des balises liées aux activités parlementaires de ces derniers. Cet article examine la structure des indices et sa différence sessionnelle en fonction de la représentation matricielle des données. L'analyse des données de balisage montre que la structure des index personnels des procès-verbaux de séance a subi d'importants changements au cours de leur publication entre 1906 et 1917. Il existe des différences dans la structure des index entre Dumas et dans la structure des documents d'un même volume d'une session à l'autre. Au départ, les index contenaient des informations supplémentaires sur les processus électoraux, qui ont été négligées dans les documents à venir. Les caractéristiques sociales des députés n'ont pas non plus été publiées sous la même forme et représentaient des ensembles de données différents selon la Douma, et différaient également par leur exhaustivité et leur information. La méthodologie de recherche a démontré son efficacité dans l'étude de la dynamique de la structure source, et dans l'extraction de données pour l'étude ultérieure de l'activité des députés sur la base de méthodes mathématiques.

Исследование посвящено анализу документации Государственной Думы Российской Империи (1906-1917), нового органа, законодательным образом ограничившего власть монарха. Методологической основой исследования стало создание корпуса текстов на основе указателей к стенографическим отчетам Государственной Думы I-IV созывов, разметка корпуса текстов на основе специально разработанной схемы XML-разметки и анализ изменений в структуре источника на основе анализа появления и распределения тэгов. Полный объем созданного корпуса тестов составил 749 793 слов. Схема разметки отражает структуру указателей и содержит метаданные источника, личные характеристики депутатов, а также систему тэгов об их парламентской активности. В данной статье проанализирована структура указателей, ее посессионное изменение. Изучение динамики структурных изменений источника основывается на анализе созданной матрицы данных, сформированной на основе распределения тегов. Анализ матрицы показал, что структура личных алфавитных указателей претерпела значительное изменение за время их публикации в 1906–1917 гг. Различия в структуре указателей присутствуют как в томах разных созывов Думы, так и в томах разных сессий одного созыва. Изначально указатели содержали дополнительную информацию о процессе выборов, затем были исключены из отображения в томах последующих созывов. Социальные характеристики депутатов также не публиковались в одинаковом объеме и представляли разные наборы данных с разной степенью полноты информации, которая варьируется в указателях разных созывов. Использованная исследовательская методология показала свою эффективность в изучении динамики структуры источника.

XML-based Analysis of Early 20th-Century Russian State Duma Verbatims

Fiche du document

Mots-clés Fr En Ru

Sujets proches Fr

Citer ce document

Métriques

Partage / Export

Résumé En Fr Ru

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en