Web ARChive
| Web ARChive | |
|---|---|
| Dateiendung: | .warc
|
| MIME-Type: | application/warc[1]
|
| Standard(s): | ISO 28500:2017[2] |
| https://github.com/iipc/awesome-web-archiving | |
Das Web ARChive (WARC) Archivformat spezifiziert ein Verfahren zum Kombinieren mehrerer digitaler Ressourcen in einer aggregierten Archivdatei mit zugehörigen Metadaten. Das WARC-Format ist eine Überarbeitung des ARC-Dateiformats des Internet Archive, das traditionell zum Speichern von „Webcrawls“ als Sequenzen von Inhaltsblöcken aus dem World Wide Web verwendet wird. Das WARC-Format verallgemeinert das ältere Format, um die Anforderungen von Archivierungsunternehmen für die Erfassung, den Zugriff und den Austausch besser zu unterstützen. Neben dem aktuell aufgezeichneten Primärinhalt berücksichtigt die Revision auch verwandte Sekundärinhalte, wie zugewiesene Metadaten.
WARC wird heute von den meisten nationalen Bibliothekssystemen als Standard für die Webarchivierung anerkannt.
Software
- Heritrix in Java
- wget (ab Version 1.14[3])
- StormCrawler
- Apache Nutch
Online Dienste
- webrecorder.io mit 5 GB kostenlosen Speicherplatz, von Rhizome.org
- Perma.cc 10 freie Links pro Monat und Benutzer, von der Harvard Law School Library (lil.law.harvard.edu)
- Webpreserver.com ist eine Browser-Erweiterung für Chrome
Einzelnachweise
- ↑ application/warc. Abgerufen am 17. März 2018.
- ↑ Information and documentation -- WARC file format. Abgerufen am 16. März 2018.
- ↑ Giuseppe Scrivano: GNU wget 1.14 released. In: GNU wget 1.14 released. Free Software Foundation, Inc., 6. August 2012, abgerufen am 25. Februar 2016.