Crawler4J null, while processing (link) error

У меня есть небольшой проект, который я пытаюсь просканировать несколько миллионов страниц. Используя crawler4j 4.1 (у меня нет определенной оценки числа). Я использую пример BasicCrawler, но внес некоторые незначительные изменения. некоторого времени после того, как я начала ползать журналы Crawler4J показывает следующие ошибки постоянно появляющихсяCrawler4J null, while processing (link) error

[Crawler 1] ERROR edu.uci.ics.crawler4j.crawler.WebCrawler - null, while processing: http://www.somelink.com.

Я попытался поднять время вежливости политики до 1000 миллисекунд и даже попытался запустить искатель с одной нитью, но то же самое продолжалось.

plus, на длинном пробеге crawler4J, кажется, случайный случай, в котором я должен был остановить его и перезапустить его каждый раз, когда он застыл.

любое представление о том, что может быть причиной этого? и делает ли Crawler4J перенести недостижимые ссылки обратно на границу или нет?

Благодаря

источник

2016-03-16 Learner

Хотя я не совсем уверен, что вызывает эту ошибку, но я старался следить за весь искатель ссылки и те, которые до сих пор в границах. Я могу подтвердить две вещи.

Ссылки, которые недостижимы, будут перенесены на границу, а гусеничный станок попытается снова посетить их.
Замерзание происходит только на страницах, которые превышают максимальный размер загрузки. в качестве поворота я увеличил ограничение на размер загружаемого файла и добавил некоторые расширения в список, который вы выбрали, а не оптимальное решение, но это сделало для меня трюк.

источник

2016-03-20 15:51:51 Learner

ответ

Смежные вопросы