Métodos digitais e a memória acessada por APIs: desenvolvimento de ferramenta para extração de dados de portais jornalísticos a partir da WayBack Machine

Marcio Carneiro dos Santos, « Métodos digitais e a memória acessada por APIs: desenvolvimento de ferramenta para extração de dados de portais jornalísticos a partir da WayBack Machine », HAL-SHS : études de genres, ID : 10.20873/uft.2447-4266.2015v1n2p23

Partage / Export

Résumé En Es Pt

We explore the possibility of automation of data collection from web pages, using the application of customized code built in Python programming language, with specific HTML syntax (Hypertext Markup Language) to locate and extract elements of interest as links, text and images. The automated data collection, also known as scraping is an increasingly common feature in journalism. From the access to the digital repository site www.web.archive.org, also known as WayBackMachine, we develop a proof of concept of an algorithm able to recover, list and offer basic tools of analysis of data collected from the various versions of newspaper portals in time series.

Métodos digitais e a memória acessada por APIs: desenvolvimento de ferramenta para extração de dados de portais jornalísticos a partir da WayBack Machine

Fiche du document

Mots-clés En Es Pt

Sujets proches En Es

Citer ce document

Métriques

Partage / Export

Résumé En Es Pt

Par les mêmes auteurs

Sur les mêmes sujets

Exporter en