С Crawler4j, я могу получить страницу, связанную полной URL, например:Как разрешить crawler4j извлекать страницу по относительной траектории?
<a href='http://www.domain.com/thelink'>
Однако я обнаружил, что если ссылка является относительной, такими как:
<a href='/thelink'>
Crawler4j будет обходить эту ссылку (страница), и у меня даже нет возможности увидеть ссылку в методе shouldVisit(Page referringPage, WebURL url)
.
Я не вижу никакой конфигурации об этом в Crawler4j Github page, я что-то пропущу?
Вы должны рассмотреть возможность открытия проблемы на странице github ... – rzo