Extrait d'un fichier WARC (Web ARChive).

Fiche du document

Date

2024

Types de document
Périmètre
Langue
Identifiants
Collection

Archives ouvertes

Licences

http://hal.archives-ouvertes.fr/licences/publicDomain/ , info:eu-repo/semantics/OpenAccess



Sujets proches Fr

Web

Citer ce document

Alexandre Faye, « Extrait d'un fichier WARC (Web ARChive). », HAL SHS (Sciences de l’Homme et de la Société), ID : 10670/1.ecfa2f...


Métriques


Partage / Export

Résumé 0

Le format WARC (Web ARChive) a été conçu pour la préservation du web et est aujourd'hui très largement utilisé par les institutions patrimoniales dans le cadre de leur activité de collecte par robot. Il fait l'objet d'une norme internationale : ISO 28500:2017 Information and documentation — WARC file format. Sa première publication date de mai 2009 et, depuis, il a connu une révision en août 2017. Il est partagé par les membres du Consortium international pour la préservation de l'internet (IIPC).Ce format permet d'absorber un flux de collecte qui peut parfois être très important (plusieurs dizaines de milliers de sites collectés en parallèle). Il permet de sauvegarder rapidement et efficacement des fichiers web, quel que soit leur format, en y associant un ensemble de métadonnées qui décrivent chaque fichier web et le contexte de production de l'archive.Il est structuré en plusieurs blocs : chaque bloc contient un enregistrement qui peut être une page HTML, une image, une feuille de style ou un autre type de fichier web. Les enregistrements sont précédés de métadonnées qui décrivent le fichier (comme l'URL, la date exacte de capture, le type MIME du fichier renvoyé par le serveur, sa taille, etc.). L’illustration donnée fait apparaitre ces blocs de métadonnées en entête d’un fichier binaire enregistré dans le fichier WARC de préservation. La taille standard d’un fichier est d'1 Go.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines