У меня есть небольшой проект, который я пытаюсь просканировать несколько миллионов страниц. Используя crawler4j 4.1 (у меня нет определенной оценки числа). Я использую пример BasicCrawler, но внес некоторые незначительные изменения. некоторого времени после того, как я начала ползать журналы Crawler4J показывает следующие ошибки постоянно появляющихсяCrawler4J null, while processing (link) error
[Crawler 1] ERROR edu.uci.ics.crawler4j.crawler.WebCrawler - null, while processing: http://www.somelink.com.
Я попытался поднять время вежливости политики до 1000 миллисекунд и даже попытался запустить искатель с одной нитью, но то же самое продолжалось.
plus, на длинном пробеге crawler4J, кажется, случайный случай, в котором я должен был остановить его и перезапустить его каждый раз, когда он застыл.
любое представление о том, что может быть причиной этого? и делает ли Crawler4J перенести недостижимые ссылки обратно на границу или нет?
Благодаря