2016-03-16 2 views
0

У меня есть небольшой проект, который я пытаюсь просканировать несколько миллионов страниц. Используя crawler4j 4.1 (у меня нет определенной оценки числа). Я использую пример BasicCrawler, но внес некоторые незначительные изменения. некоторого времени после того, как я начала ползать журналы Crawler4J показывает следующие ошибки постоянно появляющихсяCrawler4J null, while processing (link) error

[Crawler 1] ERROR edu.uci.ics.crawler4j.crawler.WebCrawler - null, while processing: http://www.somelink.com. 

Я попытался поднять время вежливости политики до 1000 миллисекунд и даже попытался запустить искатель с одной нитью, но то же самое продолжалось.

plus, на длинном пробеге crawler4J, кажется, случайный случай, в котором я должен был остановить его и перезапустить его каждый раз, когда он застыл.

любое представление о том, что может быть причиной этого? и делает ли Crawler4J перенести недостижимые ссылки обратно на границу или нет?

Благодаря

ответ

0

Хотя я не совсем уверен, что вызывает эту ошибку, но я старался следить за весь искатель ссылки и те, которые до сих пор в границах. Я могу подтвердить две вещи.

  1. Ссылки, которые недостижимы, будут перенесены на границу, а гусеничный станок попытается снова посетить их.
  2. Замерзание происходит только на страницах, которые превышают максимальный размер загрузки. в качестве поворота я увеличил ограничение на размер загружаемого файла и добавил некоторые расширения в список, который вы выбрали, а не оптимальное решение, но это сделало для меня трюк.

 Смежные вопросы

  • Нет связанных вопросов^_^