Я использую crawler4j
, чтобы просканировать сайт rottentomatoes для извлечения структурированных данных. У меня есть все настройки и с URL-адресами по умолчанию, приведенными в примере на домашней странице проекта, все работает, но когда я помещаю свои собственные семена, приложение только посещает URL-адреса, которые я им дал. Я что-то пропустил?Crawler4j посещает только семена URL-адреса
0
A
ответ
1
Наиболее распространенная ошибка заключается в том, что метод shouldVisit всегда возвращает false, поэтому искатель посещает только семенные URL-адреса.