Zum Inhalt springen

Web ARChive

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 4. Februar 2019 um 21:51 Uhr durch Chewbacca2205 (Diskussion | Beiträge) (46 Versionen von en:Web_ARChive importiert: WP:IMP * Special:Diff/185380350 * user:Luke081515Bot). Sie kann sich erheblich von der aktuellen Version unterscheiden.
Web ARChive
Dateiendung: .warc
MIME-Type: application/warc[1]
Standard(s): ISO 28500:2017[2]
https://github.com/iipc/awesome-web-archiving

Das Web ARChive (WARC) Archivformat spezifiziert ein Verfahren zum Kombinieren mehrerer digitaler Ressourcen in einer aggregierten Archivdatei mit zugehörigen Metadaten. Das WARC-Format ist eine Überarbeitung des ARC-Dateiformats des Internet Archive, das traditionell zum Speichern von „Webcrawls“ als Sequenzen von Inhaltsblöcken aus dem World Wide Web verwendet wird. Das WARC-Format verallgemeinert das ältere Format, um die Anforderungen von Archivierungsunternehmen für die Erfassung, den Zugriff und den Austausch besser zu unterstützen. Neben dem aktuell aufgezeichneten Primärinhalt berücksichtigt die Revision auch verwandte Sekundärinhalte, wie zugewiesene Metadaten.

WARC wird heute von den meisten nationalen Bibliothekssystemen als Standard für die Webarchivierung anerkannt.

Software

Online Dienste

Einzelnachweise

  1. application/warc. Abgerufen am 17. März 2018.
  2. Information and documentation -- WARC file format. Abgerufen am 16. März 2018.
  3. Giuseppe Scrivano: GNU wget 1.14 released. In: GNU wget 1.14 released. Free Software Foundation, Inc., 6. August 2012, abgerufen am 25. Februar 2016.