warc

    0зной

    1ответ

    Я искал Scrapy Spider, который вместо того, чтобы получать URL-адреса и обходить их, получает в качестве входного файла WARC (желательно от S3) и отправляет в метод parse этот контент. Мне действитель

    2зной

    1ответ

    Я много искал сайт, но не мог найти то, что мне нужно. У меня есть файл web.warc.gz с данными в нем, и мне нужно извлечь заголовки WARC. Я установил Tomcat и Вайбак (1,6), пытаясь получить, что с ./wa

    3зной

    2ответ

    Я пытаюсь открыть файл Warc с питоном, используя набор инструментов по следующей ссылке: http://warc.readthedocs.org/en/latest/ При открытии файла с: import warc f = warc.open("00.warc.gz") все в п