2011-01-16 3 views
1

Я ищу веб-искателя с возможностью захвата CSS страницы. Мне не нужны никакие другие причудливые способности.Java Crawler

Я пытаюсь пробиться через Ксапян, Нутч и Херитрикс. Все они кажутся немного сложными. Если у кого-нибудь есть какой-либо опыт или рекомендации, которые я хотел бы услышать. Также приветствуется доступный учебник на любой из вышеперечисленных платформ.

David

ответ

0

Вы правы, не используйте их, они слишком тяжелые.

Использование: Crawler4j

Следуйте место учебника для простого искателя.

Единственное изменение, которое нужно в MyCrawler.java: Удалить «CSS» из шаблона ФИЛЬТРОВ В методе посещения(), поставить простое условие следующим образом:

if (url.contains(".css")) { 
    // do what you need with it 
} 

Это - вы хорошо!

0

Я рекомендую использовать простой HTTPClient и простое регулярное выражение. Вы можете хранить ответы в файле, базе данных или в архиве (см. Heritrix).

Это упрощает работу, вместо использования тяжеловесного гусеничного устройства. Поскольку для каждого домена существует несколько CSS, вы можете спокойно игнорировать сложный URL-адрес в домене.

Cheers!