Web ARChive
| Розширення | .warc |
|---|---|
| MIME -тип | application/warc [1] |
| Розширений з | ARC |
| Тип формату | Стиснення даних |
| Відкритий формат ? | Так |
| Сайт | iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1/ Архівовано жовтень 26, 2021 на сайті Wayback Machine. |
Формат архіву Web ARChive (WARC) визначає метод об'єднання кількох цифрових ресурсів у сукупний архівний файл разом із супутньою інформацією. Формат WARC є переглядом формату ARC_IA File Format архіву інтернету, який традиційно використовувався для зберігання даних «пошукових роботів», як послідовностей блоків контенту, зібраних із всесвітньої павутини. Формат WARC узагальнює старий формат, щоб краще підтримувати потреби архівних організацій у зборі, доступі та обміні даними. Крім первинного контенту, який записується в даний час, перегляд містить пов'язаний вторинний контент, такий як призначені метадані, скорочені події, виявлення дублікатів і перетворення пізніших дат. Формат WARC натхненний HTTP/1.0, зі схожим заголовком та використанням CRLF як роздільники, що робить його дуже зручним для реалізації.
Вперше вказаний у 2008 році WARC тепер визнаний більшістю національних бібліотечних систем як стандарт для веб-архівування.
- Веб-архіватор Heritrix на Java
- wget (починаючи з версії 1.14)
- Webrecorder
- StormCrawler
- Apache Nutch
- Tar
- ↑ application/warc (англ.). 17 березня 2018. Архів оригіналу за 26 жовтня 2021. Процитовано 15 жовтня 2021.