2013-08-05 1 views
0

Я использую crawler4j, чтобы просканировать сайт rottentomatoes для извлечения структурированных данных. У меня есть все настройки и с URL-адресами по умолчанию, приведенными в примере на домашней странице проекта, все работает, но когда я помещаю свои собственные семена, приложение только посещает URL-адреса, которые я им дал. Я что-то пропустил?Crawler4j посещает только семена URL-адреса

ответ

1

Наиболее распространенная ошибка заключается в том, что метод shouldVisit всегда возвращает false, поэтому искатель посещает только семенные URL-адреса.