2024
http://hal.archives-ouvertes.fr/licences/publicDomain/ , info:eu-repo/semantics/OpenAccess
Alexandre Faye, « Extrait d'un fichier WARC (Web ARChive). », HAL SHS (Sciences de l’Homme et de la Société), ID : 10670/1.ecfa2f...
Le format WARC (Web ARChive) a été conçu pour la préservation du web et est aujourd'hui très largement utilisé par les institutions patrimoniales dans le cadre de leur activité de collecte par robot. Il fait l'objet d'une norme internationale : ISO 28500:2017 Information and documentation — WARC file format. Sa première publication date de mai 2009 et, depuis, il a connu une révision en août 2017. Il est partagé par les membres du Consortium international pour la préservation de l'internet (IIPC).Ce format permet d'absorber un flux de collecte qui peut parfois être très important (plusieurs dizaines de milliers de sites collectés en parallèle). Il permet de sauvegarder rapidement et efficacement des fichiers web, quel que soit leur format, en y associant un ensemble de métadonnées qui décrivent chaque fichier web et le contexte de production de l'archive.Il est structuré en plusieurs blocs : chaque bloc contient un enregistrement qui peut être une page HTML, une image, une feuille de style ou un autre type de fichier web. Les enregistrements sont précédés de métadonnées qui décrivent le fichier (comme l'URL, la date exacte de capture, le type MIME du fichier renvoyé par le serveur, sa taille, etc.). L’illustration donnée fait apparaitre ces blocs de métadonnées en entête d’un fichier binaire enregistré dans le fichier WARC de préservation. La taille standard d’un fichier est d'1 Go.