One century of information diffusion in the Netherlands derived from a massive digital archive of historical newspapers: the DIGGER dataset

Fiche du document

Date

13 janvier 2020

Discipline
Type de document
Périmètre
Langue
Identifiant
Relations

Ce document est lié à :
info:eu-repo/semantics/reference/issn/1278-3366

Organisation

OpenEdition

Licences

https://creativecommons.org/licenses/by/4.0/ , info:eu-repo/semantics/openAccess




Citer ce document

Antoine Peris et al., « One century of information diffusion in the Netherlands derived from a massive digital archive of historical newspapers: the DIGGER dataset », Cybergeo : revue européenne de géographie / European journal of geography, ID : 10.4000/cybergeo.33747


Métriques


Partage / Export

Résumé En Fr Es

Previous studies have highlighted the importance of having long term data for the study of cities, but such sources are relatively scarce. This is especially the case for data about relations between cities, which is a crucial aspect of urban dynamics. Over the last two decades, many efforts have been made to digitalize texts, including books and newspapers, which are primary sources on most of our societies. Researchers have shown that these massive digital archives can be used to identify macroscopic trends related to historical and cultural changes. The wealth of geographic information in such digital archives has not been used much, while they are very valuable for the study of cities. In this paper, we present DIGGER, a newly developed dataset that we built on Delpher, the digital archive of historical newspapers of the National Library of the Netherlands, by extracting geographical information from a selection of 102 million of news items. This dataset allowed us to study the spatial diffusion of information on and between the Dutch cities from a corpus of 81 newspapers published in 29 different cities between 1869 and 1994. This paper presents the method developed to build the dataset as well as the validation steps for the accuracy of the place name recognition. This dataset can be used to study the evolution of the Dutch urban system as well as aspects related to the spatial diffusion of information and geographical bias in media coverage.

Les données couvrant de longues périodes temporelles sont relativement rares pour l’étude des villes et pourtant essentielles à la compréhension du temps long de leurs dynamiques. Ce problème est prégnant pour les données sur les relations interurbaines, à l’échelle des systèmes de ville. Au cours des deux dernières décennies, d’importants efforts de numérisation de textes anciens ont été entrepris, notamment de livres et de journaux qui constituent des sources très riches sur les sociétés qui les ont produites. Des chercheurs ont récemment montré que ces archives numériques massives peuvent être utilisées pour identifier des tendances macroscopiques en rapport avec des changements historiques et culturels. En revanche, peu d’études se sont intéressées à la richesse de l’information géographique qui peut être extraite de ces archives. Dans cet article, nous présentons DIGGER, une base de données construite à partir de Delpher, l’archive de journaux historiques numérisés de la Bibliothèque Nationale des Pays-Bas. Cette base a été construite suite à l’analyse du contenu de 102 millions d’articles et petites annonces publiés dans 81 journaux locaux de 29 villes néerlandaises dont la publication s’étale de 1869 à 1994. Nous présentons ici les différentes étapes nécessaires à la constitution de la base de données ainsi que la validation de notre algorithme identifiant les noms de lieux. Cette base de données peut être utilisée pour analyser plus d’un siècle de développement du système urbain des Pays-Bas ainsi que pour l’étude de la diffusion des informations ou des biais spatiaux dans la couverture médiatique.

Diferentes estudios han resaltado la importancia de contar con datos en el largo plazo que permitan el estudio de las ciudades, no obstante, tales fuentes son relativamente escasas. Uno de los casos cruciales para la comprensión de la dinámica urbana, corresponde contar con datos sobre la relación entre ciudades. En las últimas dos décadas, se han llevado a cabo variados esfuerzos para digitalizar textos, incluidos libros y periódicos, que son fuentes primarias en la mayoría de nuestras sociedades. Investigadores, han demostrado que estos archivos digitales masivos, se pueden utilizar para identificar tendencias macroscópicas, relacionadas con cambios históricos y culturales. La riqueza de información geográfica en estos archivos digitales no ha sido muy utilizada, a pesar de su valor para el estudio de las ciudades. En este artículo, presentamos DIGGER, una base de datos recientemente construida a partir de Delpher, la cual corresponde al archivo digital de periódicos históricos de la Biblioteca Nacional de Países Bajos. Extrayendo información geográfica de una selección de 102 millones de noticias, esta base de datos nos permitió estudiar la difusión espacial de información sobre y entre las ciudades holandesas a partir de un conjunto de 81 periódicos publicados en 29 ciudades entre los años 1869 y 1994. Este artículo presenta el método desarrollado para la construcción de tal base de datos, así como los pasos seguidos para la validación en la precisión del reconocimiento de nombre del lugar. Esta base de datos puede ser utilizada para estudiar la evolución del sistema urbano de Países Bajos, en aspectos relacionados con la difusión espacial de la información y el sesgo geográfico en la cobertura de los medios.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en