2015-06-16 1 views
0

Я пытаюсь использовать crawler4j для извлечения текста с некоторых веб-сайтов. Однако, в то время как я изменил фильтры, чтобы расширения с JS следующим образомКак загрузить текст, содержащийся в файлах JavaScript через crawler4j?

private final static Pattern FILTERS = Pattern.compile(".*(\\.(css|gif|jpg" 
     + "|png|mp3|mp3|zip|gz))$"); 

Я не знаю, как сохранить этот текст в файл (если есть другой способ сделать это для текста в JS файлы в отличие от обычного текста)

ответ

2

«visit» вызывается после того, как страница успешно обработана веб-гусеницей . Содержимое затем содержится в этом объекте.

Я предлагаю, чтобы затем вы могли использовать предоставленные методы для записи вашего содержимого с обходным javascript, например. разбор двоичного содержимого.

@Override 
public void visit(Page page) { 
    //parse the binary content contained in the page object 
} 

Пример (ну это связано с изображениями, но путь в основном то же самое) можно найти здесь: https://github.com/yasserg/crawler4j/blob/master/src/test/java/edu/uci/ics/crawler4j/examples/imagecrawler/ImageCrawler.java

 Смежные вопросы

  • Нет связанных вопросов^_^