2016-06-06 2 views
0

С Crawler4j, я могу получить страницу, связанную полной URL, например:Как разрешить crawler4j извлекать страницу по относительной траектории?

<a href='http://www.domain.com/thelink'>

Однако я обнаружил, что если ссылка является относительной, такими как:

<a href='/thelink'>

Crawler4j будет обходить эту ссылку (страница), и у меня даже нет возможности увидеть ссылку в методе shouldVisit(Page referringPage, WebURL url).

Я не вижу никакой конфигурации об этом в Crawler4j Github page, я что-то пропущу?

+0

Вы должны рассмотреть возможность открытия проблемы на странице github ... – rzo

ответ

3

Как описано в соответствующей статье issue на странице проекта, похоже, что это поведение связано с тем, что эта конкретная веб-страница делает много изображений с использованием ajax/javascript.

Однако crawler4j не может визуализировать javascript-стиль по требованию, поскольку для этой цели он не включает механизм javascript. Кроме того, тег script еще не отсканирован для URL.

+0

Спасибо, rzo, я видел ваш анализ на странице проблемы Github, он очищает мою головоломку. –