warc

0зной

1ответ

Scrapy Spider, который читается из файла Warc

Я искал Scrapy Spider, который вместо того, чтобы получать URL-адреса и обходить их, получает в качестве входного файла WARC (желательно от S3) и отправляет в метод parse этот контент. Мне действитель

2зной

1ответ

Извлечение заголовков из файла WARC.gz

Я много искал сайт, но не мог найти то, что мне нужно. У меня есть файл web.warc.gz с данными в нем, и мне нужно извлечь заголовки WARC. Я установил Tomcat и Вайбак (1,6), пытаясь получить, что с ./wa

3зной

2ответ

открыт ВАКР файл с питоном

Я пытаюсь открыть файл Warc с питоном, используя набор инструментов по следующей ссылке: http://warc.readthedocs.org/en/latest/ При открытии файла с: import warc f = warc.open("00.warc.gz") все в п